• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Mineração de texto e aprendizado supervisionado na análise de processos sobre financiamento agropecuário

    Thumbnail
    Visualizar/Abrir
    R - E - DANIEL BASSO RIBAS.pdf (353.7Kb)
    Data
    2019
    Autor
    Ribas, Daniel Basso
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: As agências e um departamento especializado de uma Instituição Financeira se comunicam para aprovação de operações de financiamento rural; o departamento especializado pode apontar problemas na documentação do financiamento, que deverão ser corrigidos pela agência. Essa ação é denominada ocorrência. A ocorrência por sua vez pode ser contestada pela agência, caso ela entenda que a documentação esteja sim correta. Tomando como base um conjunto de dados gerados a partir dessa comunicação, foram analisados quais fatores podem levar uma ocorrência ter maior probabilidade de ser acatada pelo departamento especializado. A análise dos dados utilizou-se de duas metodologias principais: com os textos das contestações foram criados word embeddings através da técnica word2vec; a partir deles foi construído um vetor de características para cada contestação que foi alimentado em modelos de machine learning. As demais variáveis coletadas e características extraídas manualmente dos textos das contestações foram utilizadas em modelos lineares generalizados com efeitos mistos (GLMM). Os modelos separadamente apresentaram um baixo poder preditivo, com uma acurácia balanceada de 57%. A combinação dos modelos por meio de ensemble melhorou a acurácia balanceada para 68%. Embora com uma acurácia não muito alta, o GLMM mostrou que as características extraídas manualmente do texto foram significativas para predição do resultado da contestação e permitiu interpretações válidas em termos das probabilidades. O fato das duas modelagens distintas apresentarem resultados semelhantes serviu como forma de validação dos modelos.
     
    Abstract: Agencies and a specialized department of one Financial Institution communicate for approval of rural financing operations; the specialized department may point out problems in the documentation of the financing, which should be corrected by the agency. This action is called an occurrence. The occurrence in turn can be contested by the agency if it understands that the documentation is correct. Based on a set of data generated from this communication, we analysed the factors that may cause an occurrence to be more likely to be complied with by the specialized department. Data analysis was based on two main methodologies: word embeddings were created using the word2vec technique; from them a vector of characteristics was constructed for each contestation that was fed in machine learning models. The other variables collected and characteristics extracted manually from the texts of the contestations were used in generalized linear models with mixed effects (GLMM). The models separately showed a low predictive power, with a balanced accuracy of 57 %. The combination models through ensemble improved the balanced accuracy to 68 %. Although not very accurate, the GLMM showed that the manually extracted characteristics of the text were significant for predicting the outcome of the contestation and allowed for valid interpretations in terms of probabilities. The fact that the two models presented similar results served as a validation of the models.
     
    URI
    https://hdl.handle.net/1884/75130
    Collections
    • Data Science & Big Data [138]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV