Identificación de autor: aprendizaje automático de distancias

Autor
Fuentes, Gibran
Jasso, Gabriela
Toledo, Ángel
Meza, Iván
Ledesma Díaz, Paola
Fecha
2013Metadatos
ítem / registro completoResumen
Verificar la identidad de un autor es un escenario en común y una tarea importante para diferentes áreas incluyendo a la Recuperación de la información y la Lingüística computacional, y tiene impacto en otras disciplinas como el Derecho y el Periodismo. En este contexto, accediendo a un conjunto de documentos de un autor en específico y un documento a cuestionar, determinamos si este último fue escrito por el mismo autor o no. En este trabajo se presenta un método de aprendizaje automático de distancias cuyo enfoque se basa en la abstracción de documentos en distintas representaciones, posibles rasgos distintivos de un autor, y explora el uso de diferentes distancias métricas para la formación de una distancia única mediante programación lineal,"support vector regression" y redes neuronales. El sistema se puede aplicar al Inglés, griego y español, y puede ser configurado para ser independiente del idioma. ////
Paola Nathaly Ledesma Díaz , (paiopaio@menteslibres.org). En este trabajo, presentamos resultados de una serie de experimentos en la aplicación de medidas estilométricas al problema de atribución de autoría. Entendemos como estilometría aquel conjunto de técnicas para analizar y medir características distintivas del estilo (estilemas).
El primer objetivo de nuestra investigación es analizar medidas estilométricas obtenidas de un corpus en español para identificar aquellas que sean más relevantes para el problema de atribución de autoría. Nuestro segundo objetivo es estudiar el comportamiento de estas medidas al variar los siguientes factores: edad del autor, y género del texto (novela, cuento, teatro, etc.).
Para los experimentos, cada texto fue representado como un vector de frecuencias. Los vectores fueron analizados usando técnicas de aprendizaje de máquina y métodos estadísticos para determinar la relevancia de las medidas. Encontramos que la relevancia de las medidas depende del autor y género en específico. Concluimos que para cada situación particular es necesario encontrar un subconjunto de medidas óptimo. //// Fernanda López Escobedo, (flopeze@iingen.unam.mx). Es doctora en Ciencias del Lenguaje y Lingüística Aplicada por la Universidad Pompeu Fabra de Barcelona. Especialidad en Estadística Aplicada por el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la UNAM y actualmente cursa la Licenciatura en Derecho en la UNAM. Trabaja con el Grupo de Ingeniería Lingüística y en la Facultad de Filosofía y Letras de la UNAM. Su área de especialidad es la lingüística forense, en particular el lenguaje evidencial o probatorio. Es profesora de Fonética y fonología y de Lingüística forense en la Facultad de Filosofía y Letras. Es licenciada en Lingüística por la Escuela Nacional de Antropología e Historia. Su área de especialización es la lingüística. Trabaja en conjunto con estudiantes y técnicos académicos del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la UNAM.
Palabras clave: Lingüística forense; Siglo XXI; Jurisprudencia; Medidas estilométricas; Lingüística; Conferencia en audio; Autoría; Atribución; Identificación de autor; Aprendizaje automático de distancia;
Descripción
Conferencia /// Identificación de autor: aprendizaje automático de distancias. Paola Ledesma. Gibran Fuentes. Gabriela Jasso. Ángel Toledo. Iván Meza. Escuela Nacional de Antropología e Historia. Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas. Universidad Nacional Autónoma de México. 21 de agosto de 2013 //// III Seminario de Lingüística Forense. Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México. //// Descarga: Pulse botón derecho del ratón sobre el archivo de audio "mp3" que elija y seleccione "Guardar Destino Como..."
Editorial
Facultad de Filosofía y Letras. Instituto de Ingeniería. Universidad Nacional Autónoma de México
El ítem esta asociado a una licencia: