Veuillez utiliser cette adresse pour citer ce document :
https://rinacional.tecnm.mx/jspui/handle/TecNM/1420
Titre: | Detección automática de cambio de estilo de escritura utilizando aprendizaje automático |
Auteur(s): | Rios Toledo, German%439567 |
metadata.dc.subject.other: | estilo escritura tiempo característica estilo métrica n-gramas |
Date de publication: | 2019-06-25 |
Editeur: | Tecnológico Nacional de México |
metadata.dc.publisher.tecnm: | Centro Nacional de Investigación y Desarrollo Tecnológico |
Description: | El objetivo principal de esta tesis es determinar el cambio de estilo de escritura a través del tiempo por medio de una característica estilométrica conocida como n-gramas, los cuales están por formados con caracteres, palabras, etiquetas POS y relaciones sintácticas. Los n-gramas se obtuvieron de un conjunto de novelas de autores de habla inglesa, con carreras literarias de alrededor de 30 años. Las novelas se organizaron de forma cronológica desde la más antigua a la más reciente. Se predefinieron tres etapas procurando que la duración de estas fuera proporcional al periodo que comprendían las novelas evaluadas. En el contexto de esta investigación, el cambio de estilo de escritura se refiere a la variación de la frecuencia de uso de n-gramas entre las etapas. La detección de cambio de estilo se abordó como un problema de clasificación supervisada con el enfoque de aprendizaje automático. Los algoritmos de aprendizaje automático entrenan y aprenden patrones de escritura para representarlos en modelos de inferencia. En la fase de clasificación, los modelos se evaluaron con textos “no vistos” de los mismos autores en la etapa de aprendizaje. Idealmente se espera que todas las muestras sean asignadas correctamente a la etapa a la que pertenecen. Bajo las condiciones previamente establecidas, el esquema propuesto permitió confirmar la hipótesis de que el estilo de escritura cambia a través de tiempo. Los distintos tipos de n-gramas identificaron cambios significativos en el estilo de los autores. Se encontró que los n-gramas sintácticos de relaciones de dependencia son una excelente opción para caracterizar el estilo de escritura de un autor. Otras disciplinas del Procesamiento del Lenguaje Natural, tales como: Atribución de Autoría, Identificación de Autoría, creación de perfiles de autor y detección de plagio, reportan que las características sintácticas tienen la peculiaridad de que su manipulación consciente es difícil y además, son independientes al tema que se está tratando en los documentos. |
metadata.dc.type: | info:eu-repo/semantics/doctoralThesis |
Collection(s) : | Tesis de Doctorado en Computación |
Fichier(s) constituant ce document :
Fichier | Description | Taille | Format | |
---|---|---|---|---|
DC_German_Rios_Toledo_2019.pdf | Tesis | 3.78 MB | Adobe PDF | Voir/Ouvrir |
DC_German_Rios_Toledo_2019.pdf Accès limité | Cesion de derechos | 129.55 kB | Adobe PDF | Voir/Ouvrir Demander une copie |
Ce document est protégé par copyright |
Ce document est autorisé sous une licence de type Licence Creative Commons