Análisis de similitud de documentos de texto

Claudio Isaac Soriano Burgos, Rafael Guzmán-Cabrera

Abstract


La clasificación automática de textos constituye una de las áreas más relevantes dentro del aprendizaje automático y la minería de datos, debido al crecimiento exponencial de la información digital generada y almacenada diariamente en forma de documentos electrónicos, publicaciones en redes sociales, correos electrónicos, noticias y otros recursos textuales. El objetivo de esta tarea es asignar automáticamente categorías o etiquetas a los documentos en función de su contenido, facilitando así la organización, recuperación y análisis de grandes volúmenes de información. Uno de los procesos fundamentales para lograr una clasificación eficiente es el preprocesamiento del texto. Esta etapa consiste en transformar los documentos originales en una representación adecuada para su análisis computacional, mediante técnicas como la eliminación de caracteres especiales, conversión a minúsculas, eliminación de palabras vacías (stopwords), tokenización, lematización o stemming, entre otras. Un adecuado preprocesamiento contribuye significativamente a mejorar la calidad de los datos y, por ende, el desempeño de los algoritmos de clasificación. En este contexto, el presente trabajo propone el desarrollo de un método (implementado en un script en Python) orientado al preprocesamiento automatizado de documentos de texto para su posterior clasificación mediante el software de aprendizaje automático Weka. La herramienta desarrollada permite preparar los documentos de manera eficiente, generando archivos compatibles con las estructuras de datos requeridas por dicho entorno de análisis. Adicionalmente, el sistema incorpora mecanismos para evaluar la similitud entre documentos mediante la aplicación de los coeficientes de Jaccard y Sorensen-Dice, presentando los resultados a través de representaciones gráficas que facilitan la interpretación visual de las relaciones existentes entre los textos analizados. De esta manera, la propuesta contribuye a optimizar las etapas iniciales del proceso de minería de textos y proporciona herramientas complementarias para el análisis exploratorio de colecciones documentales.

Full Text: PDF (Spanish)