Um modelo de proveniência para extração de tendências em séries temporais
Resumo
Resumo: Muitas áreas do conhecimento estão relacionadas com a análise de séries temporais, as quais são constituídas por uma sequencia de observações de dados sobre o tempo. A análise de séries temporais difere da análise de dados tradicional, dada sua natureza intrínseca, onde as observações são dependentes. Nesse caso, procedimentos estatísticos considerando a independência dos dados não se aplicam, sendo necessário o uso de métodos específicos. Geralmente, a análise de séries temporais ocorre em duas fases, pré-processamento e análise dos dados. Na fase de pré-processamento, são feitas correções para remoção de fenômenos que ocorrem ao longo do tempo, como a extração de tendências (detrending). Vários softwares de detrending podem ser aplicados para esse fim, melhorando a análise, assim como a maioria dos métodos estatísticos são desenvolvidos para séries temporais estacionárias. Em um processo de detrending, informações de proveniência sobre as séries temporais e como as mesmas foram corrigidas de tendências nem sempre são explícitas e de fácil interpretação. Tais informações podem ser obtidas pelo uso de metadados, os quais podem gerar ambiguidades nos resultados gerados, assim como podem ser insuficientes para semanticamente enriquecer o processo de detrending. Por outro lado, ontologias permitem gerar e compartilhar conhecimento sobre as séries temporais e sobre os métodos estatísticos aplicados para sua correção, assim como permitem inferências. O principal objetivo desta tese é definir um modelo de proveniência usando ontologias para enriquecer semanticamente a extração de tendências em séries temporais. O modelo é validado por um estudo de caso com séries temporais fotométricas reais. A principal contribuição é a geração de conhecimento semântico, permitindo identificar, além dos dados, agentes e processos envolvidos, informações quanto aos métodos estatísticos usados para detrending, facilitando o entendimento de como as séries temporais foram geradas e corrigidas, melhorando a tomada de decisão quanto ao uso de métodos estatísticos. O ineditismo desta tese é a definição de um modelo de proveniência para extração de tendências, apresentando um projeto modular, centrado no reuso e na extensão de ontologias para gerar proveniência sobre séries temporais e processos de detrending, enriquecendo semanticamente um passo relevante da fase de pré-processamento da análise de séries temporais, contribuindo para a geração do conhecimento científico. Abstract: Nowadays, many knowledge areas are related with the time series analysis, which are constituted by a sequence of data observation at the time. The time series analysis is different from the traditional data analysis, due to their intrinsic nature, where the observations are dependent. In this case, statistical procedures considering the data?s independence are not applied, being necessary the use of specific methods. Usually, the time series analysis occurs in two phases, preprocessing and data analysis. In the preprocessing phase, corrections are done to remove phenomena that occur throughout the time, like the trend extraction (detrending). Many detrending software can be applied for this objective, improving the analysis, as well as the most of statistical methods are developed to stationary time series. In a detrending process, provenance information about the time series and how the time series were detrended are not always explicit and easy to interpret. Such information can be obtained by metadata, which can generate ambiguity in the results generated and they can also be insufficient to semantically enrich the detrending process. On the other hand, ontologies allow generating and sharing knowledge about the time series and on the statistical methods used for it?s correction, as well as allow inferences. The main goal of this doctoral thesis is to define a provenance model using ontologies to semantically enrich the trend extraction of time series. The model is validated by a case study involving real photometric time series. The main contribution is the semantic knowledge generation, allowing to identify, besides the data, agents and process involved, information about the statistical methods used for detrending, facilitating the understanding about how the time series were generated and corrected, improving the decision making related with the statistical methods applicability. The novelty of this doctoral thesis is the definition of a provenance model for trend extraction, presenting a modular design, centered on reuse and on the ontologies extension to generate provenance about time series and detrending processes, enriching semantically a relevant step of preprocessing phase of the time series analysis, contributing to the generation of the scientific knowledge.
Collections
- Teses [124]