Análise dos indicadores contábeis e betas de mercado : ETL a partir de dados abertos da CVM e Quantmod
Resumo
Resumo: O presente estudo investiga a capacidade explicativa de informações contábeis sobre o risco sistemático de empresas listadas na B3, mensurado por coeficientes beta, estimados no período subsequente à divulgação de tais demonstrações (betas futuros). O trabalho também documenta a concepção e implementação de um fluxo de ETL para extração e padronização de dados públicos do Portal Dados Abertos CVM, integrando rotinas em Python para extração e transformação das informações relevantes, armazenadas em arquivos CSV, e rotinas em R para reestruturação dos dados e cálculo dos indicadores. Os betas de mercado serviram de variável resposta, extraídos utilizando o Índice Ibovespa como proxy através do pacote quantmod do R. A amostra é composta por ações listadas na B3 que faziam parte do índice no período de 2018–2024. Antes da estimação de modelos, as variáveis contábeis foram transformadas nos seguintes formatos: Trailing Twelve Months (TTM), transformação logarítmica, robust scale e min–max. Os resultados indicam que determinadas métricas contábeis (principalmente o lucro líquido e o ROE) apresentam associação estatística consistente com o beta futuro, com R² ajustado na faixa aproximada de 0,14 a 0,16, mas também revelam heterogeneidade, formação de clusters e limitações de generalização. Este trabalho contribui ao estimular, e facilitar, a obtenção de informações contábeis por meio de fontes de dados abertos e ferramentas gratuitas. Adicionalmente, apresenta evidências empíricas sobre indicadores contábeis relevantes ao risco sistemático Abstract: This study investigates the explanatory capacity of accounting information regarding the systematic risk of companies listed on B3, measured by betas coefficients, estimated in the period following the disclosure of financial statements (forward betas). The paper also documents the design and implementation of an ETL pipeline for extracting and standardizing public data from the CVM Open Data Portal, integrating Python routines for data extraction and transformation (stored in CSV files), as well as R routines for data restructuring and indicator calculations. Market betas, used as the response variable, were extracted using the Ibovespa Index as a proxy via R’s quantmod package. The sample consists of stocks listed on B3 that were part of the index between 2018 and 2024. Prior to model estimation, accounting variables were transformed into the following formats: Trailing Twelve Months (TTM), logarithmic transformation, robust scaling, and min-max normalization. The results indicate that certain accounting metrics (primarily net income and ROE) exhibit a statistically consistent association with forward beta, with adjusted R² values ranging approximately between 0.14 and 0.16. However, the findings also reveal heterogeneity, the presence of clusters, and limitations in generalizability. The contributions of this work aim to encourage, and facilitate, to obtain accounting information through open data sources and free tools. Additionally, it provides empirical evidence about accounting indicators relevant to systematic risk
Collections
- Data Science & Big Data [163]