Mostrar registro simples

dc.contributor.advisorHara, Carmem Satie, 1964-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informáticapt_BR
dc.creatorRocha, Heloisa F.pt_BR
dc.date.accessioned2024-02-19T18:31:01Z
dc.date.available2024-02-19T18:31:01Z
dc.date.issued2023pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/86500
dc.descriptionOrientadora: Prof. Dra. Carmem Satie Harapt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 23/10/2023pt_BR
dc.descriptionInclui referênciaspt_BR
dc.descriptionÁrea de concentração: Ciência da Computaçãopt_BR
dc.description.abstractResumo: As necessidades de conhecimento da biodiversidade são constantes, enquanto recursos para pesquisa, sejam financeiros, de tempo e humanos são escassos. Por outro lado, a Internet oferece um enorme volume de dados que podem ser explorados em favor da ciência da conservação. As caravelas-portuguesas (Physalia physalis) oferecem risco à população, e dados sobre sua ocorrência nem sempre estão disponíveis para estudo da espécie. Este trabalho utiliza processamento de linguagem natural e visão computacional como técnicas para treinamento de modelos de aprendizagem de máquina como ferramentas para classificar dados extraídos de mídias sociais. Tais modelos podem ser utilizados como parte de um processo automatizado de Extract-Transform-Load para a criação de uma base de dados de ocorrências de Physalia physalis na costa Brasileira a partir de dados extraídos de mídias sociais. Como preparação para o treinamento dos modelos de aprendizagem de máquina foram coletadas e rotuladas postagens extraídas do Instagram como sendo: aceita ou rejeitada como ocorrência legítima de Physalia physalis na costa Brasileira, seguindo critérios de uma oceanógrafa. Entre os modelos treinados com a legenda das postagens estão a Regressão Logística e o BERT multilíngue. O BERT também foi experimentado como extrator de características para alimentar o modelo de Regressão Logística e também retreinado com nossos dados e usado como classificador. TF-IDF também foi usado em conjunto com Regressão Logística. Foram experimentadas diferentes técnicas de normalização de texto, além da otimização dos hiperparâmetros desses modelos. ResNet50 pré-treinada com ImageNet foi escolhida para experimentos com as imagens das postagens. Foram realizados experimentos com a CNN retrainada com os nossos dados e com diferentes abordagens para lidar com dados desbalanceados. Também combinamos os resultados dos modelos individuais usando diferentes regras de fusão e, usando produto, alcançamos a precisão de 94% e F1 Score de 89%. Durante o processo de anotação observamos que postagens rejeitadas pela oceanógrafa por causa de informações espaciais poderiam representar ruído para treinamento de modelos de aprendizado de máquina. Devido a isso, decidimos adaptar os rótulos, considerando como aceitas as postagens rejeitadas por causa de informações espaciais. Com os rótulos adaptados, alcançamos um aumento de 13% no F1 Score com BERT e 9% no F1 Score com ResNet50.pt_BR
dc.description.abstractAbstract: Biodiversity knowledge needs are constant, while financial, time and human resources for research are scarce. On the other hand, the Internet offers a huge amount of data that can be exploited in conservation science. The Portuguese man-of-war (Physalia physalis) is a risk to the population, and data about its occurrences are not always available for researchers. This work use natural language processing and computer vision as techniques for machine learning models' training as a tool for classification of data extracted from social media. Such models can be used as part of an automated Extract-Transform-Load process to build a database on occurrences of Physalia physalis on the Brazilian coast from data extracted from social media. In preparation for training machine learning models we collected and labeled posts extracted from Instagram as being: accepted or rejected as legitimate occurrences of Physalia physalis on the Brazilian coast, following the criteria established by an oceanographer. Among the trained models are Logistic Regression and Multilingual BERT. BERT was also used as a feature extractor to feed the Logistic Regression model and also retrained with our data and used as a classifier. TF-IDF was also used in conjunction with Logistic Regression. Different text normalization techniques were experimented, in addition to hyperparameters optimization of these models. ResNet50 pre-trained with ImageNet was chosen for image experiments. We experimented different approaches to deal with imbalanced data and tried retrain the CNN with our data. We also combined the results of the individual models using different fusion rules, and using product, we achieved the precision of 94% and F1 Score of 89%. During the annotation process we observed that posts rejected by the oceanographer because of spatial information could represent noise for training machine learning models. Due to this, we decided to adapt the labels, considering as accepted posts rejected because spatial information. With adapted labels, we achieved a increase of 13% of F1 Score with BERT and 9% of F1 Score with ResNet50.pt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languageInglêspt_BR
dc.subjectProcessamento da linguagem natural (Computação)pt_BR
dc.subjectInterfaces de usuario (Sistema de computador)pt_BR
dc.subjectMídia socialpt_BR
dc.subjectCiência da Computaçãopt_BR
dc.titleIdentifying occurrences of the cnidarian Physalia physalis in social media datapt_BR
dc.typeDissertação Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples