Detección de tópicos de textos en español usando machine learning, caso discursos Guillermo Lasso Presidente de Ecuador

César Humberto Espin-Riofrio, Tania Jeesenia Peralta-Guaraca, Luis Merino-Salcedo, Gerardo Parra-Barrezueta

Resumen


El presente artículo tiene como objetivo centrarse en dos de las principales técnicas para Procesamiento de Lenguaje Natural de machine learning para el modelado y detección de tópicos, se trata de los algoritmos Non-negative Matrix Factorization and Latent Dirichlet Allocation que se usarán para experimentar y verificar en corpus de textos en el idioma español, basados en el estado de arte de la atribución de autoría relacionado a la detección de tópicos mediante el análisis de artículos científicos de relevancia sobre el tema, además se investigan los distintos modelos destinados a la detección de tópicos resaltando cuales son los más utilizados, también se busca evaluar el comportamiento y resultados de los dos modelos escogidos. La experimentación se realiza sobre los discursos políticos pasados a texto del Sr. Guillermo Lasso Presidente del Ecuador, se identifican los diferentes tópicos o temas sobre los que trata el corpus de textos formado por los discursos con el fin de conocer directamente su contenido o para dónde estos están apuntando de manera preliminar sin necesidad de leer el contenido en su totalidad, los resultados se presentan comparando los modelos, así se logra determinar con cuál de los dos algoritmos se obtienen resultados más acertados.


Palabras clave


Aprendizaje automático; LDA; NMF; Detección de tópicos; Procesamiento de Lenguaje Natural.

Texto completo:

PDF HTML XML

Referencias


Blei, D. M., Ng, A. Y., & Edu, J. B. (2003). Latent Dirichlet Allocation Michael I. Jordan. In Journal of Machine Learning Research (Vol. 3).

Boden, M. A. (2017). Inteligencia artificial. Turner.

Carleo, G., Cirac, I., Cramer, K., Daudet, L., & Schuld, M. (2019). El aprendizaje automático y las ciencias físicas. Reseñas de Física Moderna , 91 (4), 045002.

el Naqa, I., & Murphy, M. J. (2015). ¿Qué es el aprendizaje automático? Aprendizaje automático en oncología radioterápica. Springer, Cham.

Ethem Alpaydin. (2021). Machine learning. MIT Press.

Factorización matricial no negativa HistoriayFondo. (n.d.). Retrieved March 7, 2022, from https://hmong.es/wiki/Non-negative_matrix_factorization

Función Dirichlet - Función Dirichlet modificada, Otras propiedades, Continuidad e integrabilidad, Definición | KripKit. (n.d.). Retrieved March 7, 2022, from https://kripkit.com/funcin-dirichlet/

Hammoe, L. (2018). Detección de tópicos: utilizando el modelo LDA. INSTITUTO TECNOLÓGICO DE BUENOS AIRES – ITBA.

Hansen, S. (n.d.). APLICACIÓN DEL APRENDIZAJE AUTOMÁTICO AL ANÁLISIS ECONÓMICO Y LA FORMULACIÓN DE POLÍTICAS.

Hernández, A., Tomás, D., & Borja Navarro. (2015). Una aproximación a la recomendación de artículos científicos según su grado de especificidad. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos.

Lee, D. D., & Seung, H. S. (n.d.). Algorithms for Non-negative Matrix Factorization.

Martindale, C., & P McKenzie, D. (1995). On the utility of content analysis in author attribution: The Federalist. Computadoras y Humanidades , 29 (4), 259-270.

Mifrah, S. (2020). Topic Modeling Coherence: A Comparative Study between LDA and NMF Models using COVID’19 Corpus. International Journal of Advanced Trends in Computer Science and Engineering, 9(4), 5756–5761. https://doi.org/10.30534/ijatcse/2020/231942020

Murphy, K. (2012). Aprendizaje automático: una perspectiva probabilística. Prensa del MIT.

Pavelec, D., Oliveira, L. S., Justino, E., & Batista, L. V. (2008). Using Conjunctions and Adverbs for Author Verification.

Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60(3), 538–556. https://doi.org/10.1002/ASI.21001

Vayansky, I., AP Kumar, S., & Sathish, A. K. (2020). Una revisión de los métodos de modelado de temas. Sistemas de Información , 94 , 101582.

Holmes, R. M., & Holmes, S. T. (1998). Contemporary perspectives on serial murder. 246.

Mendenhall, T. C. (1887). The Characteristic Curves of Composition. Science, 9(214), 237–246. https://doi.org/10.1126/SCIENCE.NS-9.214S.237

Modelado de temas con NMF para clasificación de reseñas de usuarios. (2020). ICHI.PRO. https://ichi.pro/es/modelado-de-temas-con-nmf-para-clasificacion-de-resenas-de-usuarios-111674468812030

Mosteller, F., & Wallace, D. L. (1963). Inference in an Authorship Problem. Journal of the American Statistical Association, 58(302), 275. https://doi.org/10.2307/2283270

Sarwar, R., & Nutanong, S. (2016). The Key Factors and Their Influence in Authorship Attribution. Research in Computing Science, 110(1), 139–150. https://doi.org/10.13053/rcs-110-1-12




DOI: http://dx.doi.org/10.23857/dc.v8i2.2646

Métricas del Artículos

Cargando Métricas.....

Metrics powered by MI WEB PRO

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


Copyright (c) 2022 César Humberto Espin-Riofrio, Tania Jeesenia Peralta-Guaraca, Luis Merino-Salcedo, Gerardo Parra-Barrezueta

URL de la Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/deed.es

Polo de Capacitación, Investigación y Publicación (POCAIP)

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: [email protected]

URL: https://www.dominiodelasciencias.com/

DOI: https://doi.org/10.23857/pocaip