La extracción abierta de información para el español
Resumen
La extracción abierta de información (Open Information Extraction en inglés) es la tarea de extraer afirmaciones del texto, sin especificación previa de la relación o dominio y sin vocabulario pre-especificado o un corpus de entrenamiento etiquetado manualmente. Previamente se había demostrado que los sistemas basados en las categorías gramaticales (Parts-of-Speech en inglés) son competitivos con los sistemas basados en el análisis sintáctico y funcionan más rápido para los corpus grandes como la Web. Sin embargo, la implementación de este tipo de sistemas requiere información específica del idioma. Hasta ahora, todo el trabajo se ha hecho para el inglés. En este trabajo presentamos un algoritmo de la extracción abierta de información para el español, basado en el etiquetamiento de categorías gramaticales (POS-tagging en inglés). Describimos la implementación del algoritmo en el sistema ExtrHech para el español.
Comparamos los resultados del funcionamiento del sistema con los de los sistemas para el inglés, incluyendo una comparación sobre un conjunto de datos paralelo para inglés y español, y demostramos que el rendimiento de nuestro sistema ExtrHech es comparable con los sistemas del estado-del-arte y que el sistema es más robusto al ruido. Adicionalmente damos un análisis comparativo de los errores en las extracciones para los dos idiomas. //// Alisa Zhila ( alisa.zhila@gmail.com ). Cuenta con licenciatura y maestría en Física y Matemáticas Aplicadas por el Instituto de Física y Tecnología de Moscú. Actualmente está en el proceso del doctorado en Ciencias Computacionales del Instituto Politécnico Nacional. Tiene también un diplomado en traducción profesional. Trabaja en el Centro de Investigación en Computación del IPN en el área de procesamiento de lenguaje natural y extracción de información, entre otras. Ha publicado los artículos “Medida de similitudes semánticas entre pares de palabras” y “Estimación de la calidad de textos en la web”, y ha participado en múltiples congresos. Es ganadora del premio “Microsoft Research 2012”
Palabras clave: Aplicaciones tecnológicas; Tecnologías del Habla; Lingüística Computacional; Siglo XXI; Conferencia en audio; Gramática computacional; Español;
Descripción
Conferencia /// La extracción abierta de información para el español. Alisa Zhila. Alexander Gelbukh. Instituto Politécnico Nacional. 19 de agosto de 2013 //// VI Coloquio de Lingüística Computacional. Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México. //// Descarga: Pulse botón derecho del ratón sobre el archivo de audio "mp3" que elija y seleccione "Guardar Destino Como..."
Editorial
Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México
El ítem esta asociado a una licencia: