• Entrar
    Ver item 
    •   Página inicial
    • Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    •   Página inicial
    • Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Lia-patenpt-40K : base de dados open source de textos de patentes em português-inglês

    Thumbnail
    Visualizar/Abrir
    R - E - MARCOS ANTENOR DE SOUZA MORAIS.pdf (10.66Mb)
    Data
    2026
    Autor
    Morais, Marcos
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Apesar da importância do Brasil no sistema global de inovação, o idioma Portuguêsé consideravelmente sub-representado em bases de dados de patentes criadas como objetivo de auxiliar a criação de ferramentas e modelos de Machine Translationpara profissionais do ramo de tradução de patentes. De modo a suprir esta lacuna,este estudo apresenta uma base de dados Open Source contendo mais de 40 milregistros de textos e metadados de identificação de patentes no par de idiomaPortuguês-Inglês, obtidas através de um processo automatizado utilizando um WebCrawler em repositórios nacionais como o Instituto Nacional da PropriedadeIndustrial (INPI) e internacionais, como o European Patent Office (EPO). Utilizando oLanguage-Agnostic Sentence Representations (LASER), foi possível assegurar aqualidade dos dados coletados, com mais de 90% da base com índice desimilaridade superior a 80% para o par de idiomas Português-Inglês. Um benchmarkde tradução de patentes utilizando um Large Language Model (LLM) também foiexecutado. Os resultados preliminares indicam que LLMs pré treinados não sãocapazes de traduzir textos de patentes adequadamente, reforçando a necessidadede desenvolver bases de dados como a criada neste estudo, para melhorar aperformance destes modelos em tarefas de tradução
     
    Abstract: Despite Brazil’s importance in the global innovation system, the Portugueselanguage is considerably underrepresented in patent databases created to supportthe development of Machine Translation tools and models for professionals workingin patent translation. In order to address this gap, this study presents an open-sourcedatabase containing more than 40,000 records of patent texts and identificationmetadata in the Portuguese–English language pair, obtained through an automatedprocess using a web crawler in national repositories such as the National Institute ofIndustrial Property (INPI) and international repositories such as the European PatentOffice (EPO). By using Language-Agnostic Sentence Representations (LASER), itwas possible to ensure the quality of the collected data, with more than 90% of thedataset achieving a similarity score above 80% for the Portuguese–English languagepair. A patent translation benchmark using a Large Language Model (LLM) was alsoconducted. Preliminary results indicate that pre-trained LLMs are not capable ofadequately translating patent texts, reinforcing the need to develop datasets such asthe one created in this study to improve the performance of these models intranslation tasks
     
    URI
    https://hdl.handle.net/1884/105555
    Collections
    • Inteligência Artificial Aplicada [143]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV