Rotulação automática de depressão nas postagens do Reddit

Grützmann, Marco Antonio Bittencourt

dc.contributor.advisor	Tsunoda, Denise Fukumi, 1972-	pt_BR
dc.contributor.other	Mayer, Fernanda Brenneisen	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Sociais Aplicadas. Programa de Pós-Graduação em Gestão da Informação	pt_BR
dc.creator	Grützmann, Marco Antonio Bittencourt	pt_BR
dc.date.accessioned	2023-09-19T18:54:50Z
dc.date.available	2023-09-19T18:54:50Z
dc.date.issued	2023	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/83546
dc.description	Orientadora: Profª Drª Denise Fukumi Tsunoda	pt_BR
dc.description	Coorientadora: Profª Drª Fernanda Brenneisen Mayer	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Gestão da Informação. Defesa : Curitiba, 30/03/2023	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: A depressão é a principal causa de incapacidade em todo o mundo, afetando o humor e os sentimentos das pessoas que possuem o transtorno. Os usuários de redes sociais usam as plataformas para obter apoio nesses casos, reconhecer que não estão sozinhos e compartilhar suas experiências. Existe uma crescente área interdisciplinar que utiliza técnicas de mineração de dados para identificar tendências depressivas por meio de redes sociais, porém um os maiores desafios é a rotulação dos dados e seus atributos. O presente trabalho se propõe a aprofundar sobre quais atributos podem ser considerados para rotulação automática de depressão em postagens em Redes Sociais, utilizando o Reddit como rede social alvo. A metodologia inclui revisão de metodologias e tecnologias, desenho da metodologia geral do trabalho, captura e exploração de dados obtidos por meio da rede social Reddit, pré-processamento e extração de "features", análise estatística descritiva, comparação de desempenho de classificadores para rotulação automática e aferição e discussão dos resultados. A coleta de dados foi realizada utilizando o repositório de dados PushShift e a API pushshift.io Reddit, com dados coletados exclusivamente do subreddit "Desabafos" no período de 01/01/2021 a 30/06/2022. Como resultados, identificado que os atributos metadados, os atributos retirados da rede social em si e o texto transformado em dimensões de atributos (através de técnicas como BoW e TF-IDF) são eficientes na classificação da classe "depressão", utilizando-se do método Random Forest, podendo seu resultado variar dependendo de qual classe será utilizada no contexto de "não depressivo" para treinamento do classificador. Outrossim, avaliado 17 atributos e suas importâncias na classificação, onde os quatro principais são a carga sentimental encontrada no texto, a variância de sentimento, o tamanho do texto em si e quantidade de pessoas citadas nos textos.	pt_BR
dc.description.abstract	Abstract: Depression is the leading cause of disability worldwide, affecting the mood and feelings of people with the disorder. Social media users use the platforms to get support in these cases, recognize that they are not alone and share their experiences. There is a growing interdisciplinary area that uses data mining techniques to try to identify depressive tendencies through social networks, but one of the biggest challenges is the labeling of the data and its attributes. The present work proposes to delve into what attributes can be considered for automatic labeling of Depression in posts on Social Networks, using Reddit as the target social network. The methodology includes review of methodologies and technologies, design of the general methodology of the work, capture and exploration of data obtained through social networks (in this case, Reddit), pre-processing and acceptance of "features", descriptive statistics, descriptive analysis, performance comparison of classifieds for automatic labeling and measurement and discussion of results. Data collection was carried out using the PushShift data repository and the pushshift.io API As a result, we identified that attributes derived from the text, attributes taken from the social network itself and the text transformed into attribute dimensions (through techniques such as BoW and TF-IDF) are efficient in classifying the "Depression" class, using the Random Forest method, allowing its result to vary depending on which class will be used in the context of "non-depressive" for training the classifier. Others evaluate 17 features and their importance in the classification, where the four main ones are the sentimental content found in the text, the sentiment variance, the size of the text itself and the number of people mentioned in the texts.	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Mineração de dados (Computação)	pt_BR
dc.subject	Depressão	pt_BR
dc.subject	Redes sociais on-line	pt_BR
dc.subject	Ciência da Informação	pt_BR
dc.title	Rotulação automática de depressão nas postagens do Reddit	pt_BR
dc.type	Dissertação Digital	pt_BR

Arquivos deste item

Nome:: R - D - MARCO ANTONIO BITTENCOURT ...
Tamanho:: 3.520Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [71]

Mostrar registro simples