Veuillez utiliser cette adresse pour citer ce document :
https://rinacional.tecnm.mx/jspui/handle/TecNM/6615
Titre: | Redes Neuronales Convolucionales y Recurrentes para la Extracción de Respuestas en Español |
Auteur(s): | Iturbe Herrera, Alberto%699818 |
metadata.dc.subject.other: | Procesamiento de Lenguaje Natural, Redes Neuronales Recurrentes, Redes Neuronales Convolucionales. |
Date de publication: | 2023-11-24 |
Editeur: | Tecnológico Nacional de México |
metadata.dc.publisher.tecnm: | Centro Nacional de Investigación y Desarrollo Tecnológico |
Description: | Actualmente, los mecanismos de búsqueda permiten al usuario identificar documentos o enlaces que contengan información relacionada a partir de una consulta determinada. Sin embargo, este proceso implica un gran consumo de tiempo cuando se trata de preguntas como: ¿Quién ganó la mayor cantidad de medallas individuales en los Juegos Olímpicos 2012? A la cual se esperaría obtener la siguiente respuesta: Michael Phelps. Buscando satisfacer la necesidad de obtener respuestas concisas surgen los sistemas pregunta-respuesta (del inglés Question-Answering), que permiten al usuario realizar preguntas y obtener la información en palabras relevantes y concisas. Ésta ha sido un área de interés desde 1961, cuando se desarrolla el primer sistema de pregunta respuesta hasta la actualidad implementando arquitecturas de aprendizaje profundo. Sin embargo, estos sistemas requieren una basta cantidad de información en las diferentes etapas necesarias para obtener una respuesta final. La diversidad en esta área de investigación va desde el idioma hasta el dominio de conocimiento de que éstos abarcan. Incluso sobre en el tipo de información sobre el cual se pretende extraer la respuesta, desde texto plano hasta información tabulada. En esta investigación nos enfocamos en la resolución de esta tarea sobre el dominio de Ciencias Computacionales o áreas afines en el idioma español utilizando dos arquitectura de redes neuronales artificiales: Redes Neuronales Recurrentes Bi-LSTM y Redes Neuronales Convolucionales. El primer reto de este investigación fue la construcción de la base de conocimiento sobre la cual se buscan las respuestas, este primer módulo se logró construir con la ayuda una herramienta denominada WikiExtractor, que permite extraer toda la base de conocimiento de la enciclopedia en línea Wikipedia. Sin embargo, esta herramienta no permite introducir algún criterio de búsqueda para seleccionar un subconjunto de información en específico, por consecuente se desarrollaron algoritmos para clasificar los artículos extraídos utilizando palabras clave relacionadas al área de conocimiento anteriormente mencionada. Con la ayuda de este algoritmo cada artículo obtuvo una puntuación que determina si pertenece o no al dominio de interés en función de un umbral definido. El siguiente reto fue la construcción de los modelos de Redes Neuronales Artificiales. Tomando en cuenta que estas arquitecturas utilizan datos numéricos como entrada fue necesario crear vectores de valor real denominados Word Embeddings utilizando la base de conocimiento anteriormente mencionada. La primera arquitectura desarrollada fue la Red Neuronal Convolucional. Esta arquitectura, comúnmente utilizada para la clasificación de imágenes ha logrado resultados prometedores en el procesamiento de lenguaje natural, lo que permitió crear un modelo capaz de clasificar las preguntas en cinco clases según el foco de éstas. Previo a esto se desarrolló la red Bi-LSTM enfocada en codificar las preguntas y pasajes candidatos así como la recuperación de las respuestas candidatas en función del análisis bi-direccional de los pasajes codificados. Finalmente, con el objetivo de evaluar los modelos desarrollados y de acuerdo con la literatura se seleccionó el corpus SQuAD 1.1. Este corpus fue necesario traducirlo al idioma español con la ayuda de herramientas en línea. Esto permitió realizar una colaboración con el IMAAS de la UNAM para realizar un procesamiento manual de la traducciones con errores presentes en éstas, que mejoraron significativamente los errores generados con anterioridad. Utilizando un fragmento del corpus traducido en el dominio correspondiente se lograron observar resultados bastante interesantes y alentadores para el desarrollo de modelos de aprendizaje profundo en el idioma español. De igual forma, el área de crecimiento y mejora sobre el actual sistema nos permitió identificar el gran impacto de los modelos de aprendizaje profundo en el Procesamiento de Lenguaje Natural. |
metadata.dc.type: | info:eu-repo/semantics/doctoralThesis |
Collection(s) : | Tesis de Doctorado en Computación |
Fichier(s) constituant ce document :
Fichier | Description | Taille | Format | |
---|---|---|---|---|
DC_Alberto_Iturbe_Herrera_2023.pdf | Tesis | 2.6 MB | Adobe PDF | Voir/Ouvrir |
DC_Alberto_Iturbe_Herrera_2023_C.pdf Accès limité | Cesión de derechos | 1.03 MB | Adobe PDF | Voir/Ouvrir Demander une copie |
Ce document est protégé par copyright |
Ce document est autorisé sous une licence de type Licence Creative Commons