Please use this identifier to cite or link to this item: https://rinacional.tecnm.mx/jspui/handle/TecNM/1420
Title: Detección automática de cambio de estilo de escritura utilizando aprendizaje automático
Authors: Rios Toledo, German%439567
metadata.dc.subject.other: estilo escritura tiempo característica estilo métrica n-gramas
Issue Date: 2019-06-25
Publisher: Tecnológico Nacional de México
metadata.dc.publisher.tecnm: Centro Nacional de Investigación y Desarrollo Tecnológico
Description: El objetivo principal de esta tesis es determinar el cambio de estilo de escritura a través del tiempo por medio de una característica estilométrica conocida como n-gramas, los cuales están por formados con caracteres, palabras, etiquetas POS y relaciones sintácticas. Los n-gramas se obtuvieron de un conjunto de novelas de autores de habla inglesa, con carreras literarias de alrededor de 30 años. Las novelas se organizaron de forma cronológica desde la más antigua a la más reciente. Se predefinieron tres etapas procurando que la duración de estas fuera proporcional al periodo que comprendían las novelas evaluadas. En el contexto de esta investigación, el cambio de estilo de escritura se refiere a la variación de la frecuencia de uso de n-gramas entre las etapas. La detección de cambio de estilo se abordó como un problema de clasificación supervisada con el enfoque de aprendizaje automático. Los algoritmos de aprendizaje automático entrenan y aprenden patrones de escritura para representarlos en modelos de inferencia. En la fase de clasificación, los modelos se evaluaron con textos “no vistos” de los mismos autores en la etapa de aprendizaje. Idealmente se espera que todas las muestras sean asignadas correctamente a la etapa a la que pertenecen. Bajo las condiciones previamente establecidas, el esquema propuesto permitió confirmar la hipótesis de que el estilo de escritura cambia a través de tiempo. Los distintos tipos de n-gramas identificaron cambios significativos en el estilo de los autores. Se encontró que los n-gramas sintácticos de relaciones de dependencia son una excelente opción para caracterizar el estilo de escritura de un autor. Otras disciplinas del Procesamiento del Lenguaje Natural, tales como: Atribución de Autoría, Identificación de Autoría, creación de perfiles de autor y detección de plagio, reportan que las características sintácticas tienen la peculiaridad de que su manipulación consciente es difícil y además, son independientes al tema que se está tratando en los documentos.
metadata.dc.type: info:eu-repo/semantics/doctoralThesis
Appears in Collections:Tesis de Doctorado en Computación

Files in This Item:
File Description SizeFormat 
DC_German_Rios_Toledo_2019.pdfTesis3.78 MBAdobe PDFView/Open
DC_German_Rios_Toledo_2019.pdf
  Restricted Access
Cesion de derechos129.55 kBAdobe PDFView/Open Request a copy


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons