• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016058P1 Programa de Pós-Graduação em Gestão da Informação
    • Dissertações
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016058P1 Programa de Pós-Graduação em Gestão da Informação
    • Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Rotulação automática de depressão nas postagens do Reddit

    Thumbnail
    Visualizar/Abrir
    R - D - MARCO ANTONIO BITTENCOURT GRUTZMANN.pdf (3.520Mb)
    Data
    2023
    Autor
    Grützmann, Marco Antonio Bittencourt
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A depressão é a principal causa de incapacidade em todo o mundo, afetando o humor e os sentimentos das pessoas que possuem o transtorno. Os usuários de redes sociais usam as plataformas para obter apoio nesses casos, reconhecer que não estão sozinhos e compartilhar suas experiências. Existe uma crescente área interdisciplinar que utiliza técnicas de mineração de dados para identificar tendências depressivas por meio de redes sociais, porém um os maiores desafios é a rotulação dos dados e seus atributos. O presente trabalho se propõe a aprofundar sobre quais atributos podem ser considerados para rotulação automática de depressão em postagens em Redes Sociais, utilizando o Reddit como rede social alvo. A metodologia inclui revisão de metodologias e tecnologias, desenho da metodologia geral do trabalho, captura e exploração de dados obtidos por meio da rede social Reddit, pré-processamento e extração de "features", análise estatística descritiva, comparação de desempenho de classificadores para rotulação automática e aferição e discussão dos resultados. A coleta de dados foi realizada utilizando o repositório de dados PushShift e a API pushshift.io Reddit, com dados coletados exclusivamente do subreddit "Desabafos" no período de 01/01/2021 a 30/06/2022. Como resultados, identificado que os atributos metadados, os atributos retirados da rede social em si e o texto transformado em dimensões de atributos (através de técnicas como BoW e TF-IDF) são eficientes na classificação da classe "depressão", utilizando-se do método Random Forest, podendo seu resultado variar dependendo de qual classe será utilizada no contexto de "não depressivo" para treinamento do classificador. Outrossim, avaliado 17 atributos e suas importâncias na classificação, onde os quatro principais são a carga sentimental encontrada no texto, a variância de sentimento, o tamanho do texto em si e quantidade de pessoas citadas nos textos.
     
    Abstract: Depression is the leading cause of disability worldwide, affecting the mood and feelings of people with the disorder. Social media users use the platforms to get support in these cases, recognize that they are not alone and share their experiences. There is a growing interdisciplinary area that uses data mining techniques to try to identify depressive tendencies through social networks, but one of the biggest challenges is the labeling of the data and its attributes. The present work proposes to delve into what attributes can be considered for automatic labeling of Depression in posts on Social Networks, using Reddit as the target social network. The methodology includes review of methodologies and technologies, design of the general methodology of the work, capture and exploration of data obtained through social networks (in this case, Reddit), pre-processing and acceptance of "features", descriptive statistics, descriptive analysis, performance comparison of classifieds for automatic labeling and measurement and discussion of results. Data collection was carried out using the PushShift data repository and the pushshift.io API As a result, we identified that attributes derived from the text, attributes taken from the social network itself and the text transformed into attribute dimensions (through techniques such as BoW and TF-IDF) are efficient in classifying the "Depression" class, using the Random Forest method, allowing its result to vary depending on which class will be used in the context of "non-depressive" for training the classifier. Others evaluate 17 features and their importance in the classification, where the four main ones are the sentimental content found in the text, the sentiment variance, the size of the text itself and the number of people mentioned in the texts.
     
    URI
    https://hdl.handle.net/1884/83546
    Collections
    • Dissertações [59]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV