Detección de tópicos de textos en español usando machine learning, caso discursos Guillermo Lasso Presidente de Ecuador

Autores/as

  • César Humberto Espin-Riofrio Universidad de Guayaquil, Guayaquil,
  • Tania Jeesenia Peralta-Guaraca Universidad de Guayaquil, Guayaquil,
  • Luis Merino-Salcedo Universidad de Guayaquil, Guayaquil,
  • Gerardo Parra-Barrezueta Universidad de Guayaquil, Guayaquil,

DOI:

https://doi.org/10.23857/dc.v8i2.2646

Palabras clave:

Aprendizaje automático, LDA, NMF, Detección de tópicos, Procesamiento de Lenguaje Natural.

Resumen

El presente artí­culo tiene como objetivo centrarse en dos de las principales técnicas para Procesamiento de Lenguaje Natural de machine learning para el modelado y detección de tópicos, se trata de los algoritmos Non-negative Matrix Factorization and Latent Dirichlet Allocation que se usarón para experimentar y verificar en corpus de textos en el idioma español, basados en el estado de arte de la atribución de autorí­a relacionado a la detección de tópicos mediante el anólisis de artí­culos cientí­ficos de relevancia sobre el tema, ademós se investigan los distintos modelos destinados a la detección de tópicos resaltando cuales son los mós utilizados, también se busca evaluar el comportamiento y resultados de los dos modelos escogidos. La experimentación se realiza sobre los discursos polí­ticos pasados a texto del Sr. Guillermo Lasso Presidente del Ecuador, se identifican los diferentes tópicos o temas sobre los que trata el corpus de textos formado por los discursos con el fin de conocer directamente su contenido o para dónde estos estón apuntando de manera preliminar sin necesidad de leer el contenido en su totalidad, los resultados se presentan comparando los modelos, así­ se logra determinar con cuól de los dos algoritmos se obtienen resultados mós acertados.

Biografía del autor/a

César Humberto Espin-Riofrio, Universidad de Guayaquil, Guayaquil,

Magister en Sistemas de Información Gerencial, Universidad de Guayaquil, Guayaquil, Ecuador.

Tania Jeesenia Peralta-Guaraca, Universidad de Guayaquil, Guayaquil,

Magister en Ingeniería de Software y Sistemas Informáticos, Universidad de Guayaquil, Guayaquil, Ecuador.

Luis Merino-Salcedo, Universidad de Guayaquil, Guayaquil,

Universidad de Guayaquil, Guayaquil, Ecuador.

Gerardo Parra-Barrezueta, Universidad de Guayaquil, Guayaquil,

Universidad de Guayaquil, Guayaquil, Ecuador.

Citas

Blei, D. M., Ng, A. Y., & Edu, J. B. (2003). Latent Dirichlet Allocation Michael I. Jordan. In Journal of Machine Learning Research (Vol. 3).

Boden, M. A. (2017). Inteligencia artificial. Turner.

Carleo, G., Cirac, I., Cramer, K., Daudet, L., & Schuld, M. (2019). El aprendizaje automático y las ciencias fí­sicas. Reseñas de Fí­sica Moderna , 91 (4), 045002.

el Naqa, I., & Murphy, M. J. (2015). ¿Quí© es el aprendizaje automático? Aprendizaje automático en oncologí­a radioterápica. Springer, Cham.

Ethem Alpaydin. (2021). Machine learning. MIT Press.

Factorización matricial no negativa HistoriayFondo. (n.d.). Retrieved March 7, 2022, from https://hmong.es/wiki/Non-negative_matrix_factorization

Función Dirichlet - Función Dirichlet modificada, Otras propiedades, Continuidad e integrabilidad, Definición | KripKit. (n.d.). Retrieved March 7, 2022, from https://kripkit.com/funcin-dirichlet/

Hammoe, L. (2018). Detección de tópicos: utilizando el modelo LDA. INSTITUTO TECNOLóGICO DE BUENOS AIRES – ITBA.

Hansen, S. (n.d.). APLICACIóN DEL APRENDIZAJE AUTOMáTICO AL ANáLISIS ECONóMICO Y LA FORMULACIóN DE POLITICAS.

Hernández, A., Tomás, D., & Borja Navarro. (2015). Una aproximación a la recomendación de artí­culos cientí­ficos segíºn su grado de especificidad. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos.

Lee, D. D., & Seung, H. S. (n.d.). Algorithms for Non-negative Matrix Factorization.

Martindale, C., & P McKenzie, D. (1995). On the utility of content analysis in author attribution: The Federalist. Computadoras y Humanidades , 29 (4), 259-270.

Mifrah, S. (2020). Topic Modeling Coherence: A Comparative Study between LDA and NMF Models using COVID’19 Corpus. International Journal of Advanced Trends in Computer Science and Engineering, 9(4), 5756–5761. https://doi.org/10.30534/ijatcse/2020/231942020

Murphy, K. (2012). Aprendizaje automático: una perspectiva probabilí­stica. Prensa del MIT.

Pavelec, D., Oliveira, L. S., Justino, E., & Batista, L. V. (2008). Using Conjunctions and Adverbs for Author Verification.

Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60(3), 538–556. https://doi.org/10.1002/ASI.21001

Vayansky, I., AP Kumar, S., & Sathish, A. K. (2020). Una revisión de los mí©todos de modelado de temas. Sistemas de Información , 94 , 101582.

Holmes, R. M., & Holmes, S. T. (1998). Contemporary perspectives on serial murder. 246.

Mendenhall, T. C. (1887). The Characteristic Curves of Composition. Science, 9(214), 237–246. https://doi.org/10.1126/SCIENCE.NS-9.214S.237

Modelado de temas con NMF para clasificación de reseñas de usuarios. (2020). ICHI.PRO. https://ichi.pro/es/modelado-de-temas-con-nmf-para-clasificacion-de-resenas-de-usuarios-111674468812030

Mosteller, F., & Wallace, D. L. (1963). Inference in an Authorship Problem. Journal of the American Statistical Association, 58(302), 275. https://doi.org/10.2307/2283270

Sarwar, R., & Nutanong, S. (2016). The Key Factors and Their Influence in Authorship Attribution. Research in Computing Science, 110(1), 139–150. https://doi.org/10.13053/rcs-110-1-12

Publicado

2022-04-01

Cómo citar

Espin-Riofrio, C. H., Peralta-Guaraca, T. J., Merino-Salcedo, L., & Parra-Barrezueta, G. (2022). Detección de tópicos de textos en español usando machine learning, caso discursos Guillermo Lasso Presidente de Ecuador. Dominio De Las Ciencias, 8(2), 310–320. https://doi.org/10.23857/dc.v8i2.2646

Número

Sección

Artí­culos Cientí­ficos