Análise geoestatística de dados composicionais
Resumo
Resumo: Dados composicionais são vetores com elementos positivos e soma constante, geralmente 1 ou 100%. Essa restrição define o simplex unitário como o espaço amostral, induz correlação intrínsica entre as variáveis e impõe limitações à aplicação de técnicas estatísticas usuais para a análise e modelagem de dados. Essa estrutura de dados aparece em diversas áreas. Nas Ciências Agrárias, é usual expressar as frações granulométricas de solo como conteúdos de areia, silte e argila e usá-las para descrever e definir classes de solo. Os padrões da distribuição espacial das frações do solo são relevantes na compreensão do sistema agrícola auxiliando na determinação de práticas agrícolas, em particular, na agricultura de precisão que visa fornecer recursos para as culturas a taxas variáveis ao longo do espaço. A análise das frações, individualmente, dificulta a garantia da restrição unitária e exige ajustes. A análise de dados composicionais considera essa restrição ao modelar as frações conjuntamente. As (k) variáveis originais, proporções dos componentes, são transformadas em (k-1) variáveis para as quais supõe-se uma distribuição gaussiana multivariada. Os métodos foram esenvolvidos supondo a independência entre as observações das localizações amostrais. As extensões para o contexto espacial exige a acomodação de duas fontes de associação na matriz de covariância, a correlação intrínsica entre as frações e a corregionalização induzida pelos padrões espaciais nas proporções dos componentes variando suavemente na área. Sob o paradigma bayesiano, a estrutura de covariância pode ser especificada por uma distribuição a priori Wishart para a matriz de covariância. Outro procedimento, em geoestatística, é relacionar correlaçães à distância de separação entre os pontos amostrais utilizando funções de correlação. Essa estratégia foi adotada especificando-se um modelo geoestatístico bivariado paramétrico para dados composicionais transformados, supondo termos latentes comuns caracterizados por uma função de correlação induzindo a estrutura espacial, e termos correlacionados acomodando correlações composicionais intrínsicas. Métodos de inferência baseados na verossimilhança e bayesianos e predição espacial foram deduzidos e implementados. Interpolação espacial e predição do modelo foram deduzidas dos resultados da distribuição normal multivariada. Os dados foram transformados para o espaço amostral simplex considerando-se integração de Gauss-Hermite e simulação. Três conjuntos de dados simulados diferentes e um conjunto de dados de frações de solo em uma área irrigada por um sistema pivô-central ilustraram a análise. Foram utilizados a transformação log-razão aditiva para transformar as proporções originais e a função de correlação exponencial. Na inferência bayesiana foram consideradas diferentes priores para os parâmetros. Os resultados incluem mapas de predição na escala original das proporções esperadas de areia, silte e argila sobre a área, bem como outros objetivos de predição como mapas de quantis, de probabilidades de exceder um determinado patamar e a distribuição a posteriori das classes de solo. As rotinas computacionais foram organizadas num protótipo de pacote-R chamado geoComp. Abstract: Compositional data consist of vectors with positive elements adding to a constant, typically 1 or 100%. The restriction defines the unit simplex as the sampling space, inducing an intrinsic correlations among variables and restrictions on the application of standard procedures for statistical data analysis and modelling. Such data format appears, for instance, in agronomical sciences where soil fractions are typically expressed as contents of sand, clay and silt defining the texture class and relevant properties. Spatial distribution of the soil fractions characterises the agricultural system and are accounted for when defining management practices, in particular for precision agriculture aiming to provide necessary resources for crops possibly with varying rates over the area. Analysis of individual fractions, although often used, creates difficulties ensuring the unit restriction demanding adjustments. Compositional data analysis accounts for the unit restriction by modelling the fractions jointly. Typically, (k) original variables representing the proportions of the components are transformed to (k-1) variables and a multivariate Gaussian distribution is assumed. Methods and models were originally developed assuming independence between observations of the fractions across the sampling sites. Extensions for the spatial context requires accommodating the intrinsic correlation between the fractions and the corregionalization induced by spatial patterns in the possibly smoothly varying proportions of the components within the area. For instance, under the Bayesian paradigm, covariance structures can be specified by a Wishart prior for the covariance matrix. Another approach, usually adopted in geostatistical modelling, is to relate correlations to separation distance between sampling points by assuming a correlation function of particular form. The latter is adopted here by ssuming explicitly a parametric multivariate geostatistical model. In particular, we specify a bivariate model for the transformed compositional data assuming common latent terms characterised by a correlation function inducing the spatial structure and correlated terms accommodating the intrinsic compositional correlations. Likelihood based and Bayesian methods of inference and spatial prediction are derived and implemented. Spatial interpolation and prediction from the model which are straightfoward for the transformed variables are back-transformed to the original simplex space by Gauss-Hermite integration and, lternatively, by simulation. Three simulated data-sets with different spread of the compositions and a data set on soil fractions within an area irrigated by a central pivot system are used to illustrate the analysis. In our application example we use the additive log-ratio to transform the original proportions and the exponential correlation function for the latent spatial term in the model. Three different sets of priors were considered within the Bayesian inference. Results include prediction maps on the original scale of the expected proportions of sand, clay and silt over the area, as well as other prediction targets such as maps of quantiles,
probabilities of exceedance and the posterior distribution of the soil classes. Routines for the analysis are organised in a prototype R-package.
Collections
- Teses & Dissertações [10563]