Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
Resumo
Resumo: Observa-se nos últimos anos um crescimento no volume de pesquisas relativas a Processamento de Linguagem Natural (PLN). A utilização de redes neurais convolucionais e recorrentes em conjunto com técnicas de vetorização de palavras vem apresentando resultados promissores quando aplicadas a problemas de classificação textual, como análise de sentimentos e segmentação de documentos em tópicos. Neste artigo propõe-se o uso de técnicas de PLN na categorização de textos curtos, com o objetivo de classificar as descrições dos atendimentos realizados pelo Ministério Público do Paraná à população em uma das áreas de atuação da instituição. Buscou-se elaborar um modelo capaz de automatizar a rotulação dos atendimentos, reduzindo o tempo gasto com a seleção do atributo e a validação do cadastro, possibilitando a alocação de funcionários em demandas mais complexas. Foram utilizados métodos de extração de características textuais a partir de matrizes termo-documento e representações vetoriais. Na etapa classificatória foram apresentadas as performances obtidas por diferentes classificadores, dentre eles modelos lineares e ensembles, bem como algumas arquiteturas de redes neurais. Ao final, observou-se que o melhor resultado foi obtido através da representação vetorial de palavras com Wang2Vec associada à rede neural recorrente GRU, atingindo uma acurácia de 93% e F1-Score de 87,4% na classificação de doze categorias Abstract: In recent years, there has been an increase in the volume of research related to Natural Language Processing (NLP). The use of convolutional and recurrent neural networks together with word embedding techniques has presented promising results when applied to textual classification problems, such as sentiment analysis and topic segmentation of documents. This paper proposes the use of NLP techniques for categorization of short texts, with the purpose of classifying the descriptions of the services performed by the Public Prosecutor of Paraná to the population in one of the institution’s areas of activity. It was intended to elaborate a model capable of automating the labeling of the attendances, reducing the time spent selecting the attribute and validating the register, allowing the allocation of employees in more complex demands. Methods of feature extraction from texts were compared by using document-term matrices and vector representations. In the classificatory stage were presented the performances obtained by different classifiers, among them linear models and ensembles, as well as some neural networks architectures. At the end, it was observed that the best result was obtained through vector representation of words with Wang2Vec associated with the GRU recurrent neural network, reaching an accuracy of 93% and F1-Score of 87.4% in the classification of twelve categories.
Collections
- Data Science & Big Data [138]