Programação do 62º seminário do GEL

62º SEMINáRIO DO GEL - 2014
Título:	Recursos utilizados na compilação e manipulação do corpus para a construção da terminologia da Geoinformação Espacial na Embrapa
Autor(es):	Mariana Nastri Perestrello de França. In: SEMINÁRIO DO GEL, 62 , 2014, Programação... São Paulo (SP): GEL, 2014. Acesso em: 09/05/2025
Palavra-chave	linguística de corpus, linguística de corpus, expressões regulares
Resumo	Este resumo apresenta os primeiros resultados da pesquisa que tem como objetivo a elaboração de uma terminologia para a área de Geoinformação Espacial na Embrapa. Realizado pela parceria entre a Embrapa Informática Agropecuária (CNPTIA/Campinas), Embrapa Monitoramento por Satélite (CNPM/Campinas) e o Grupo de Estudos e Pesquisas em Terminologia (GETerm) do Departamento de Letras (DL) na UFSCar, tal pesquisa faz parte de um projeto mais amplo, intitulado Modelo de Gestão da Informação Geoespacial da Embrapa (GeoInfo), desenvolvido pela Embrapa Monitoramento por Satélite, que visa fortalecer a gestão da informação geoespacial por intermédio da implantação de um repositório de dados e metadados em consonância com as diretrizes da Infraestrutura Nacional de Dados Espaciais. Para a elaboração dessa terminologia, foram necessárias a compilação e manipulação de textos que constituíram o corpus da área de conhecimento. Tais tarefas foram embasadas nos princípios da Linguística de Corpus (BERBER SARDINHA, 2004), que ofereceram subsídios para percorrer as seguintes etapas: 1) seleção dos textos da área de conhecimento a partir de critérios estabelecidos por especialistas, contemplando artigos em português escritos por autores vinculados à Embrapa; 2) conversão dos textos para texto puro, sem formatação, utilizando o programa ABBYY PDF Transformer 3.0; 3) limpeza dos textos realizada pelo editor EditPad Pro 7 por meio da utilização de expressões regulares, que excluíram automaticamente numerações geradas por gráficos e tabelas advindas da conversão, numeração de páginas e rodapé, marcas tipográficas e fragmentos dispensáveis ao texto. A metodologia se mostrou eficaz quanto aos seguintes aspectos: o programa ABBYY possibilitou a conversão dos textos formatados para não formatados para serem manipulados por recursos computacionais, tendo como vantagem o fato de que, quando convertidos, os arquivos obtiveram uma pequena quantidade de ruídos, que correspondem aos erros advindos da conversão automática, a serem excluídos. Em contrapartida, o programa processa apenas um artigo por vez e não é gratuito. A utilização do EditPad teve como benefício o suporte à criação de expressões regulares e a manipulação de vários arquivos simultaneamente. Essas expressões permitiram a localização, substituição e exclusão automática dos ruídos. Ao final do processamento do corpus foram totalizadas aproximadamente 860 mil palavras, distribuídas em 316 arquivos. Ressalta-se que esta etapa inicial da sistematização dessa terminologia foi realizada num curto período de tempo, devido sobretudo à utilização do editor de texto para a manipulação otimizada dos arquivos, juntamente com a elaboração das expressões regulares, as quais poderão ser aproveitas posteriormente na limpeza de outros corpus.