Compresión automática de frases: ¿cómo decir algo en menos palabras y aun así decirlo bien?
Resumen
Presentaremos un nuevo enfoque para la generación automática de resúmenes de documentos (RAD). El RAD ha sido tratado durante medio siglo, permanece aún como un desafió porque nadie ha podido aun crear automáticamente resúmenes comparables, en calidad, con aquellos producidos por los humanos. En este contexto, las investigaciones en RAD se dividen en dos categorías: el resumen por extracción y el resumen por abstracción. En el primer caso, las frases son ordenadas de acuerdo con una ponderación, aquellas con más alto puntaje constituyen el extracto final. Ahora bien, les frases seleccionadas contienen a menudo informaciones secundarias, y un análisis más fino puede ser necesario. Proponemos un método de compresión automática de frases basado en la eliminación de fragmentos al interior de la frase. A partir de un corpus anotado manualmente, hemos creado un modelo lineal para predecir la posible supresión de esos fragmentos. El método toma en cuenta tres principios: la pertinencia del contenido o informatividad (¿qué decir?); la gramaticalidad (¿cómo decirlo correctamente?), y la longitud o tasa de compresión (¿cómo decirlo en pocas palabras?). Para medir la informatividad hemos utilizado una técnica inspirada en la física estadística: la energía textual. En cuanto a la gramaticalidad, proponemos un modelo de lenguaje probabilista. El método propuesto es capaz de generar resúmenes correctos en español, pero en general es independiente del idioma. Los resultados han engendrado diversos aspectos teóricos interesantes de cara al RAD usando compresión de frases. Por supuesto, debido al alto grado de subjetividad de la tarea, no existe una compresión óptima única sino varias compresiones correctas posibles. Para evaluar los resultados, hemos utilizado, además de las técnicas clásicas disponibles, un enfoque basado en el test de Turing: un juez humano se vio confrontado a decidir si un resumen fue producido por otro ser humano o por nuestro algoritmo. Nuestros resultados muestran que el juez es incapaz de decidir correctamente sobre este problema. ////
Juan Manuel Torres (juan-manuel.torres@univ-avignon.fr). Es doctor en Informática Cognitiva. También tiene post-doctorado y HDR en Procesamiento de Lenguaje Natural. Su centro de trabajo es la Université d’Avignon (Francia). Se enfoca en el procesamiento de lenguaje natural y aprendizaje automático. Tiene una veintena de artículos publicados en revistas, cerca de 80 artículos en congresos nacionales e internacionales. Es el jefe del Grupo de Procesamiento de Lenguaje Natural (TALNE) en el Laboratoire Informatique d’Avignon (Francia).
Palabras clave: Aplicaciones tecnológicas; Tecnologías del Habla; Lingüística Computacional; Siglo XXI; Conferencia en audio; Economizar lenguaje; Compresión automática; Tecnología; Análisis de lenguaje; Semántica computacional; Precisión;
Descripción
Conferencia /// Compresión automática: ¿cómo decir algo en menos palabras y aun así decirlo bien?. Juan Manuel Torres Moreno. Alejandro Molina. Université d'Avignon. 20 de agosto de 2013 //// VI Coloquio de Lingüística Computacional. Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México. //// Descarga: Pulse botón derecho del ratón sobre el archivo de audio "mp3" que elija y seleccione "Guardar Destino Como..."
Editorial
Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México
El ítem esta asociado a una licencia: