logo

Programação do 62º seminário do GEL


62º SEMINáRIO DO GEL - 2014
Título: Análise linguística da operação de generalização na sumarização humana multidocumento
Autor(es): Marina Delege. In: SEMINÁRIO DO GEL, 62 , 2014, Programação... São Paulo (SP): GEL, 2014. Acesso em: 26/07/2024
Palavra-chave Sumarização Humana Multidocumento, Sumarização Humana Multidocumento, Operações de reescritaneralização
Resumo

Na sumarização humana multidocumento (SHM), ou seja, na tarefa de se produzir um sumário a partir de vários textos de fontes distintas sobre o mesmo assunto, o conteúdo dos textos-fonte é condensado por certas operações de fusão, como eliminação, união, generalização, etc. Uma vez condensado, o conteúdo é comumente expresso no sumário com base no reaproveitamento de material linguístico dos textos-fonte. Para tanto, utilizam-se algumas operações de reescrita (cut-and-paste) dos próprios textos-fonte, como redução sentencial, combinação sentencial, transformação sintática, paráfrase lexical e reordenação. Tendo em vista que as investigações sobre a SHM são incipientes, tem-se investigado a generalização em corpus com o objetivo de identificar as operações de reescrita que caracterizam esse processo de condensação de informação. Para tanto, essa investigação foi equacionada metodologicamente em 4 etapas: (i) seleção/recorte do corpus; (ii) delimitação e indexação dos trechos sentenciais envolvidos na generalização; (iii) interpretação dos casos de generalização e, por fim, (iv) especificação das operações de reescrita. Neste trabalho, apresentam-se especificamente as etapas (i) e (ii). Na etapa (i), partiu-se do corpus multidocumento de referência do português, o CSTNews. Esse corpus é composto por 50 coleções, cada uma delas engloba 2 ou 3 textos jornalísticos sobre mesmo assunto e seu respectivo sumário multidocumento. No interior de cada coleção, as sentenças do sumário estão alinhadas às sentenças de origem dos textos-fonte e os alinhamentos estão tipificados quanto às operações de condensação. Ao total, há 80 alinhamentos em que o conteúdo (ou parte dele) das sentenças dos sumários foi generalizado a partir de suas sentenças de origem. Após analisar os alinhamentos, 10 deles foram excluídos por não englobarem efetivamente um processo de generalização. Assim, na etapa (ii), os trechos das sentenças (dos sumários e dos textos-fonte) dos 70 alinhamentos restantes envolvidos diretamente generalização foram explicitamente delimitados e indexados para a realização das etapas futuras. Por exemplo, no alinhamento da sentença do texto-fonte “De acordo com [Peterka]1, o fato de Congonhas ter uma pista menor não significa uma causa direta para o acidente” e a sentença do texto-fonte “Por outro lado, de acordo com [um perito aposentado]1, o fato de Congonhas ter uma pista menor não significa uma causa direta para o acidente”, os trechos envolvidos na generalização foram delimitados por colchetes “[ ]” e indexados pelo número “1”. Nas próximas etapas, cada caso delimitado e indexado será interpretado e as operações de reescrita neles envolvidas serão explicitadas. (Apoio: FAPESP - Processo 2013/12629-0)