Extracción automática de contextos definitorios en español a partir de aprendizaje automático
Resumen
Los contextos definitorios son fragmentos de textos especializados en los que se pueden encontrar términos y sus definiciones; la utilidad de estos fragmentos radica en la información semántica de los términos y el tipo de relaciones léxicas que permiten extraer a partir de patrones lingüísticos específicos. Dentro del Grupo de Ingeniería Lingüística (GIL) se ha desarrollado una amplia literatura sobre el tema (Aguilar, 2009; Hernández, 2009; Sánchez, 2009; son algunos ejemplos). Dentro de este mismo grupo de investigación también se ha desarrollado una herramienta capaz de extraer automáticamente contextos definitorios a partir de heurísticas basada en patrones lingüísticos (Alarcón, 2009), a este sistema se le ha llamado ECODE. En el trabajo de Vieyra (2011) este sistema fue revisado y optimizado en diferentes aspectos: desde la simplificación del código hasta la creación de una interfaz web llamada WebCode.
El sistema ECODE es, así, un sistema basado en reglas: su núcleo de trabajo es la búsqueda de patrones verbales definitorios y elementos sintácticos como la presencia del clítico se, nexos y estructura del término. Sin embargo, estos recursos conllevan un amplio conocimiento previo de la estructura lingüística de los contextos definitorios y pueden llegar a traer malos resultados al no completarse todos los fenómenos lingüísticos que intervienen. El sistema de Vieyra (2011) reporta una precisión de 0.389 y una exhaustividad de 0.881, mientras que el ECODE original presenta una precisión de 0.413 y una exhaustividad de 0.389.
Por lo tanto, la propuesta de este trabajo es que un sistema basado en aprendizaje de máquina puede obtener resultados más altos y requerirá de un menor coste tanto computacional como en labor de expertos. Este sistema deberá estar basado en la estructura lingüística dada la naturaleza de los contextos definitorios e implementar alguno de los algoritmos de aprendizaje de máquina, como un clasificado de Bayes ingenuo, máxima entropía o una máquina de vectores de soporte. De esta forma y gracias al trabajo realizado previamente por otros miembros del GIL, se pretende mostrar el funcionamiento y los resultados de un sistema con estas características. ////
Víctor Germán Mijangos de la Cruz (fraga.alptraum@gmail.com). Es licenciado de Lengua y Literaturas Hispánicas por la UNAM y cursa la maestría en Lingüística. Actualmente labora en el Grupo de Ingeniería Lingüística de la UNAM.
Palabras clave: Aplicaciones tecnológicas; Tecnologías del Habla; Lingüística Computacional; Siglo XXI; Conferencia en audio; Aprendizaje automático; Español; Tecnología; Análisis de lenguaje; Semántica computacional;
Descripción
onferencia /// Extracción automática de contextos definitorios en español a partir de aprendizaje automático. Victor Mijangos de la Cruz. Grupo de Ingeniería Lingüística. Universidad Nacional Autónoma de México. 20 de agosto de 2013 //// VI Coloquio de Lingüística Computacional. Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México. //// Descarga: Pulse botón derecho del ratón sobre el archivo de audio "mp3" que elija y seleccione "Guardar Destino Como..."
Editorial
Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México
El ítem esta asociado a una licencia: