Identifying occurrences of the cnidarian Physalia physalis in social media data
Resumo
Resumo: As necessidades de conhecimento da biodiversidade são constantes, enquanto recursos para pesquisa, sejam financeiros, de tempo e humanos são escassos. Por outro lado, a Internet oferece um enorme volume de dados que podem ser explorados em favor da ciência da conservação. As caravelas-portuguesas (Physalia physalis) oferecem risco à população, e dados sobre sua ocorrência nem sempre estão disponíveis para estudo da espécie. Este trabalho utiliza processamento de linguagem natural e visão computacional como técnicas para treinamento de modelos de aprendizagem de máquina como ferramentas para classificar dados extraídos de mídias sociais. Tais modelos podem ser utilizados como parte de um processo automatizado de Extract-Transform-Load para a criação de uma base de dados de ocorrências de Physalia physalis na costa Brasileira a partir de dados extraídos de mídias sociais. Como preparação para o treinamento dos modelos de aprendizagem de máquina foram coletadas e rotuladas postagens extraídas do Instagram como sendo: aceita ou rejeitada como ocorrência legítima de Physalia physalis na costa Brasileira, seguindo critérios de uma oceanógrafa. Entre os modelos treinados com a legenda das postagens estão a Regressão Logística e o BERT multilíngue. O BERT também foi experimentado como extrator de características para alimentar o modelo de Regressão Logística e também retreinado com nossos dados e usado como classificador. TF-IDF também foi usado em conjunto com Regressão Logística. Foram experimentadas diferentes técnicas de normalização de texto, além da otimização dos hiperparâmetros desses modelos. ResNet50 pré-treinada com ImageNet foi escolhida para experimentos com as imagens das postagens. Foram realizados experimentos com a CNN retrainada com os nossos dados e com diferentes abordagens para lidar com dados desbalanceados. Também combinamos os resultados dos modelos individuais usando diferentes regras de fusão e, usando produto, alcançamos a precisão de 94% e F1 Score de 89%. Durante o processo de anotação observamos que postagens rejeitadas pela oceanógrafa por causa de informações espaciais poderiam representar ruído para treinamento de modelos de aprendizado de máquina. Devido a isso, decidimos adaptar os rótulos, considerando como aceitas as postagens rejeitadas por causa de informações espaciais. Com os rótulos adaptados, alcançamos um aumento de 13% no F1 Score com BERT e 9% no F1 Score com ResNet50. Abstract: Biodiversity knowledge needs are constant, while financial, time and human resources for research are scarce. On the other hand, the Internet offers a huge amount of data that can be exploited in conservation science. The Portuguese man-of-war (Physalia physalis) is a risk to the population, and data about its occurrences are not always available for researchers. This work use natural language processing and computer vision as techniques for machine learning models' training as a tool for classification of data extracted from social media. Such models can be used as part of an automated Extract-Transform-Load process to build a database on occurrences of Physalia physalis on the Brazilian coast from data extracted from social media. In preparation for training machine learning models we collected and labeled posts extracted from Instagram as being: accepted or rejected as legitimate occurrences of Physalia physalis on the Brazilian coast, following the criteria established by an oceanographer. Among the trained models are Logistic Regression and Multilingual BERT. BERT was also used as a feature extractor to feed the Logistic Regression model and also retrained with our data and used as a classifier. TF-IDF was also used in conjunction with Logistic Regression. Different text normalization techniques were experimented, in addition to hyperparameters optimization of these models. ResNet50 pre-trained with ImageNet was chosen for image experiments. We experimented different approaches to deal with imbalanced data and tried retrain the CNN with our data. We also combined the results of the individual models using different fusion rules, and using product, we achieved the precision of 94% and F1 Score of 89%. During the annotation process we observed that posts rejected by the oceanographer because of spatial information could represent noise for training machine learning models. Due to this, we decided to adapt the labels, considering as accepted posts rejected because spatial information. With adapted labels, we achieved a increase of 13% of F1 Score with BERT and 9% of F1 Score with ResNet50.
Collections
- Dissertações [350]