logo

Programação do 62º seminário do GEL


62º SEMINáRIO DO GEL - 2014
Título: O acordo ortográfico aplicado aos grafos e dicionários do Unitex
Autor(es): Nathalia Perussi Calcia. In: SEMINÁRIO DO GEL, 62 , 2014, Programação... São Paulo (SP): GEL, 2014. Acesso em: 21/11/2024
Palavra-chave Acordo Ortográfico, Acordo Ortográfico, Unitex
Resumo

A construção de recursos para o PLN tem crescido significantemente nos últimos anos e sua necessidade é reconhecida mundialmente tanto para pesquisadores em Linguística quanto para a Computação. Existem recursos computacionais que são caracterizados por apresentarem dicionários eletrônicos incorporados, o Unitex (PAUMIER,2002) é um deles. Trata-se de um ambiente de desenvolvimento linguístico que pode ser usado como um processador de corpus que permite, entre outras funcionalidades, a busca por expressões regulares em grande corpora de milhões de palavras em tempo real. Uma vez construídos, esses dicionários eletrônicos precisam de uma constante manutenção, seja por causa da introdução de neologismos, seja pela constante evolução da língua, ou ainda, pelo recente caso da reforma da ortografia. Muniz (2004) adaptou o léxico do NILC para o Unitex, estabelecendo modelos de flexão para os substantivos e adjetivos do português do Brasil. Esses modelos são representados por meio de grafos de autômatos de estado finito que apresentam as formas flexionadas em gênero e número, podendo haver também as variações de aumentativo e diminutivo, quando se aplicam. A partir de um dicionário de formas canônicas simples, o DelasPB, o programa gera as formas flexionadas a partir dos modelos de flexão de cada grafo. Para realizar esse trabalho foi necessário estudar minuciosamente o texto do Acordo Ortográfico de 1990 e as publicações do VOP e VOLP, que apresentam o vocabulário de mudança. Dessa maneira, foi elaborado um dicionário-piloto a partir das formas que havia no dicionário do Unitex, para o procedimento de revisão das entradas. Após essa verificação foi usado o programa Lince (CORREA, FERREIRA), que converte o conteúdo de textos e listas para a atual ortografia do Português. Realizados esses procedimentos, os resultados obtidos foram analisados e implementados ao dicionário do software Unitex. Além da adequação dos grafos de flexão nominal e adjetival do Unitex, o dicionário de formas compostas flexionadas (DELACF), composto basicamente por palavras hifenizadas, também foi adequado à atual ortografia. Ainda, durante a realização do trabalho, foram identificados alguns problemas de flexão nominal ocasionados pela adequação dos grafos, que também foi corrigido. Com base nos resultados obtidos da correção das entradas, pretende-se gerar um novo dicionário das formas flexionadas para incorporação às próximas versões do software.