Aprendizado de máquina aplicado á classificação automática de demandas textuais da central 156 da Prefeitura Municipal de Curitiba
Resumo
Resumo: Centrais de atendimento são utilizadas em muitos municípios brasileiros como meio de facilitar o relacionamento entre a prefeitura e os cidadãos, sendo responsáveis pelo contato com a população e registro de demandas referentes aos serviços públicos. O processo de atendimento nessas centrais produz grande quantidade de informações registradas em texto livre, que precisam de classificação manual para encaminhamento aos órgãos competentes. O objetivo da pesquisa é propor um modelo de classificação automática para as demandas textuais da Central 156 de Atendimento ao Cidadão da Prefeitura de Curitiba, utilizando-se algoritmos de aprendizado de máquina. Essa subárea da inteligência artificial, combinada ao processamento de linguagem natural, possibilita a classificação automática das demandas a partir da sua descrição, em aprimoramento ao processo de gestão da informação do atendimento ao cidadão da Central 156. A pesquisa, quanto ao propósito, caracteriza-se como descritiva, quanto à natureza como quali-quantitativa e quanto ao delineamento como documental e experimental. Analisa um corpus composto por 37.588 demandas em texto livre, coletadas do Portal de Dados Abertos da Prefeitura de Curitiba e obtidas a partir de amostragem aleatória e undersampling. A metodologia experimental da pesquisa é orientada pelo método CRISP-DM e as demandas estão distribuídas segundo oito órgãos da prefeitura, que totalizam 98% do total das demandas de 2019. O corpus é submetido ao processamento de linguagem natural, com tratamento para o idioma português, e as características resultantes são representadas no modelo espaço vetorial como unigramas e bigramas, utilizando a ponderação de termos TF-IDF. Além de remoção de stopwords e conflação por stemming, são aplicados valores limites para redução de esparsidade e dimensionalidade do modelo. Os resultados indicam bons níveis de concordância entre a classificação realizada pelos atendentes e a obtida nos experimentos. Com o algoritmo Naïve Bayes Multinomial, para unigramas, o coeficiente de Kappa atinge 0,90 e a taxa de acerto 91,3% com o tempo de processamento de 6 segundos. Como principal resultado da pesquisa tem-se um modelo para classificação automática das demandas em três estágios, iniciando por órgão, depois por assunto e, então, por subdivisão. Nesta aplic33ação, a classe FAS foi a que apresentou desempenho superior e a SMDT o mais baixo, evidenciando que os termos que aparecem somente em determinada classe influenciam positivamente os coeficientes de Kappa e as taxas de acerto obtidas. Uma contribuição relevante da pesquisa é o seu potencial uso na classificação das demandas da Central 156, em auxílio aos atendentes, bem como na classificação de demandas com entrada em outros canais da Prefeitura de Curitiba, como a Lei de Acesso à Informação e o Fala Curitiba. Abstract: Call centers are used in many Brazilian municipalities as a way of facilitating the relationship between city hall and citizens, being responsible for the contact of the population and public service demands registry. The service process of these centers creates great volume of recorded free text which need to be manually assorted in order to be forwarded to the adequate government department. The objective of this research is to propose an automatic classification model for the text demands of the Central 156 of Citizen Service of Curitiba’s City Hall through machine learning algorithms. This subarea of artificial intelligence, combined with natural language processing, allows an automatic classification of the demands from their descriptions in improvement on the information management process of the citizen service of the Central 156. The research in regards of purpose is classified as descriptive, in regards of nature as qualitative-quantitative and in regards of procedure as documental and experimental. It analyses a corpus of 37,588 demands in free text gathered from random sampling and undersampling of the Curitiba’s City Hall Open Data Portal. This research’s experimental methodology is guided by the CRISP-DM method and the demands are distributed according to eight departments of the city hall which totalize 98% of all demands of 2019. The corpus was submitted to the natural language processing with treatment for the Portuguese language and the resulting characteristics are presented in a space vector template as unigrams and bigrams using the TF-IDF term weighting. Other than stopword removal and stemming conflation, limit values are applied in order to reduce the sparsity and dimensionality of the model. The results indicate good levels of concordance between the manual classification and the classification obtained in the experiments. With the Naïve Bayes Multinomial algorithm for unigrams the Kappa coefficient achieved is 0.9 with a success rate of 91.3% and a processing time of 6 seconds. The main goal of this research is a model for automatic classification of demands in three stages, starting with department, then subject and finally subdivision. In this instance, the FAS class produced superior performance and the SMDT class produced the lowest performance, showing that terms that only appear in determined classes positively influenced the Kappa coefficients and obtained success rates. A relevant contribution of this research is its potential use in the classification of Central 156 demands in aid of clerks, as well as the classification of demands that come from other sources of the Curitiba’s City Hall, such as the Information Access Law and the Fala Curitiba.
Collections
- Dissertações [49]