Detecção multimodal de mentiras para a língua portuguesa por meio de modelo de sinceridade
Resumo
Resumo: A mentira é um fenômeno psíquico-social complexo e pervasivo. É complexo porque pode ter muitas motivações e desencadear múltiplas variações de expressão no emissor. É pervasivo porque pesquisas apontam para uma incidência média de duas mentiras ao dia para cada pessoa. Em alguns casos a comunicação não sincera não oferece risco ao interlocutor ou ao coletivo, mas existem casos em que a descoberta precoce de uma mentira pode representar a diferença entre a vida e a morte. Dados empíricos demonstram que a mentira pode ser, em muitos casos, detectada a partir da observação de pistas involuntariamente expressas pelo emissor. Em resposta aos cenários mais dramáticos que envolvem a mentira, esta pesquisa apresenta um "Modelo de Sinceridade" capaz de identificar padrões de comunicação sincera para então identificar exemplares de narrativas mentirosas. O Modelo de Sinceridade é um modelo de Aprendizado de Máquina, mais especificamente de Aprendizado Profundo, chamado de Autoencoder. Por incorporar caracteres acústicos, verbais e visuais, trata-se de um modelo multimodal. Por ser um modelo treinado com narrativas expressas em português do Brasil, trata-se do primeiro estudo deste tipo dedicado à língua portuguesa. Após 3.290 experimentos com diferentes arquiteturas de Autoencoder, o modelo multimodal final empregando o mecanismo de Atenção multi head atingiu a acurácia balanceada de 0,714 na detecção de mentiras em 49 narrativas de 12 sujeitos, pertencentes a um conjunto de dados denominado "Multimodal Deception Detection Dataset for Brazilian Portuguese" (MMDDD-PtBr), elaborado especialmente para este estudo, também o primeiro no mundo dedicado ao português. O Modelo de Sinceridade inova ao utilizar o aprendizado autossupervisionado para seu treinamento, potencialmente pavimentando o caminho para a construção de um modelo de detecção independente de dados rotulados, que ainda hoje são raros. Inova também por abordar o problema da detecção de mentiras como um problema de descoberta de anomalias, para o qual a pesquisa desenvolveu uma nova métrica para quantificação da confiança de detecção, denominada de "Escore de Sinceridade", que também oportunizou um novo modelo de fusão de modalidades. O resultado alcançado supera por 17 pontos percentuais a linha de base de acurácia de 0,540, frequentemente apontada como a probabilidade de um indivíduo não treinado detectar uma mensagem não sincera. A margem de ganho alcançada aponta para os efeitos positivos da abordagem e das técnicas e métricas empregadas. Abstract: Deception is a complex and pervasive psychosocial phenomenon. It's complex because it may have many motivations and trigger multiple expression shifts at the emitter. It is pervasive because research shows that the average person tells two lies a day. In some cases, insincere communication poses no risk to the interlocutor or to the population, but there are cases in which the early discovery of a lie can mean the difference between life and death. Empirical data shows that lies can often be detected by observing clues involuntarily expressed by the emitter. In response to the most dramatic scenarios involving deceptions, this research presents a "Sincerity Model", capable of identifying patterns of sincere communication and then identifying examples of lying narratives. The Sincerity Model is a Machine Learning model, more specifically Deep Learning, called Autoencoder. Because it includes acoustic, verbal and visual features, it is a multimodal model. Since it is a model trained with narratives expressed in Brazilian Portuguese, it is the first study of its kind dedicated to Portuguese. After 3,290 experiments with different Autoencoder architectures, the final multimodal model that uses the multi-head Attention mechanism achieved a balanced accuracy of 0.714 in deception detection of 49 narratives from 12 subjects, belonging to a dataset called the "Multimodal Deception Detection Dataset for Brazilian Portuguese" (MMDDD PtBr), especially developed for this study, also the first in the world dedicated to Portuguese. The Sincerity Model innovates by using self-supervised learning for its training, potentially paving the way for the construction of a detection model independent of labeled data, which are still rare nowadays. It also breaks new ground by approaching the problem of lie detection as an anomaly detection problem, for which this research has developed a new metric for quantifying the detection confidence, called the "Sincerity Score" that leveraged a novel mechanism for modality fusion. The result achieved exceeds by 17 percentage points the accuracy baseline of 0.540, often referred to as the probability of an untrained individual to detect a deceptive message. The achieved margin of gain points to the positive effects of the approach, as well as the techniques and metrics used.
Collections
- Teses [26]