Aprendizado de máquina aplicado a análise de sentimento em avaliações de usuários de aplicativos do Google Play
Resumo
Resumo: O estudo apresentado neste documento trata da técnica de aprendizado de máquina supervisionada aplicada a análise de sentimento. Essa técnica foi utilizada para predição de sentimentos em avaliações textuais de usuários de aplicativos do Google Play. Para isso, foram usados para previsão classificadores como o Decision Tree, K-Nearest Neighbor (K-NN), Nayve Bayes e o Extreme Gradient Boosting (XGBoost). Esses classificadores foram aplicados em dois datasets: um com saída de duas classes (binário) e outro de três classes (ternário). Além disso, utilizou-se em cada classificação a vetorização Count Vectorizer (CV) e a Term Frequency-Inverse Document Frequency (TF-IDF). A linguagem Python com algumas de suas bibliotecas e módulos foi utilizada nas etapas do trabalho. Os melhores resultados na classificação binária foram obtidos pelo modelo XGBoost com acurácias de 0,9380 com a vetorização CV e 0,9382 com a TF-IDF. Em segundo lugar, o Naive Bayes com acurácias de 0,9312 com a vetorização CV e 0,9264 com a TF-IDF. Na classificação multiclasse, manteve-se as colocações, uma vez que o XGBoost obteve acurácias de 0,7281 com a vetorização CV e 0,728 com a TF-IDF e o Naive Bayes alcançou acurácias de 0,7081 e 0,7078 com a vetorização CV e TF-IDF respectivamente.