Lia-patenpt-40K : base de dados open source de textos de patentes em português-inglês
Resumo
Resumo: Apesar da importância do Brasil no sistema global de inovação, o idioma Portuguêsé consideravelmente sub-representado em bases de dados de patentes criadas como objetivo de auxiliar a criação de ferramentas e modelos de Machine Translationpara profissionais do ramo de tradução de patentes. De modo a suprir esta lacuna,este estudo apresenta uma base de dados Open Source contendo mais de 40 milregistros de textos e metadados de identificação de patentes no par de idiomaPortuguês-Inglês, obtidas através de um processo automatizado utilizando um WebCrawler em repositórios nacionais como o Instituto Nacional da PropriedadeIndustrial (INPI) e internacionais, como o European Patent Office (EPO). Utilizando oLanguage-Agnostic Sentence Representations (LASER), foi possível assegurar aqualidade dos dados coletados, com mais de 90% da base com índice desimilaridade superior a 80% para o par de idiomas Português-Inglês. Um benchmarkde tradução de patentes utilizando um Large Language Model (LLM) também foiexecutado. Os resultados preliminares indicam que LLMs pré treinados não sãocapazes de traduzir textos de patentes adequadamente, reforçando a necessidadede desenvolver bases de dados como a criada neste estudo, para melhorar aperformance destes modelos em tarefas de tradução Abstract: Despite Brazil’s importance in the global innovation system, the Portugueselanguage is considerably underrepresented in patent databases created to supportthe development of Machine Translation tools and models for professionals workingin patent translation. In order to address this gap, this study presents an open-sourcedatabase containing more than 40,000 records of patent texts and identificationmetadata in the Portuguese–English language pair, obtained through an automatedprocess using a web crawler in national repositories such as the National Institute ofIndustrial Property (INPI) and international repositories such as the European PatentOffice (EPO). By using Language-Agnostic Sentence Representations (LASER), itwas possible to ensure the quality of the collected data, with more than 90% of thedataset achieving a similarity score above 80% for the Portuguese–English languagepair. A patent translation benchmark using a Large Language Model (LLM) was alsoconducted. Preliminary results indicate that pre-trained LLMs are not capable ofadequately translating patent texts, reinforcing the need to develop datasets such asthe one created in this study to improve the performance of these models intranslation tasks