Detección de tópicos de textos en español usando machine learning, caso discursos Guillermo Lasso Presidente de Ecuador

César Humberto Espin-Riofrio; Tania Jeesenia Peralta-Guaraca; Luis Merino-Salcedo; Gerardo Parra-Barrezueta

doi:10.23857/dc.v8i2.2646

Autores/as

César Humberto Espin-Riofrio Universidad de Guayaquil, Guayaquil,
Tania Jeesenia Peralta-Guaraca Universidad de Guayaquil, Guayaquil,
Luis Merino-Salcedo Universidad de Guayaquil, Guayaquil,
Gerardo Parra-Barrezueta Universidad de Guayaquil, Guayaquil,

DOI:

https://doi.org/10.23857/dc.v8i2.2646

Palabras clave:

Aprendizaje automÃ¡tico, LDA, NMF, DetecciÃ³n de tÃ³picos, Procesamiento de Lenguaje Natural.

Resumen

El presente artículo tiene como objetivo centrarse en dos de las principales técnicas para Procesamiento de Lenguaje Natural de machine learning para el modelado y detección de tópicos, se trata de los algoritmos Non-negative Matrix Factorization and Latent Dirichlet Allocation que se usarón para experimentar y verificar en corpus de textos en el idioma español, basados en el estado de arte de la atribución de autoría relacionado a la detección de tópicos mediante el anólisis de artículos científicos de relevancia sobre el tema, ademós se investigan los distintos modelos destinados a la detección de tópicos resaltando cuales son los mós utilizados, también se busca evaluar el comportamiento y resultados de los dos modelos escogidos. La experimentación se realiza sobre los discursos políticos pasados a texto del Sr. Guillermo Lasso Presidente del Ecuador, se identifican los diferentes tópicos o temas sobre los que trata el corpus de textos formado por los discursos con el fin de conocer directamente su contenido o para dónde estos estón apuntando de manera preliminar sin necesidad de leer el contenido en su totalidad, los resultados se presentan comparando los modelos, así se logra determinar con cuól de los dos algoritmos se obtienen resultados mós acertados.

Biografía del autor/a

César Humberto Espin-Riofrio, Universidad de Guayaquil, Guayaquil,

Magister en Sistemas de Información Gerencial, Universidad de Guayaquil, Guayaquil, Ecuador.

Tania Jeesenia Peralta-Guaraca, Universidad de Guayaquil, Guayaquil,

Magister en Ingeniería de Software y Sistemas Informáticos, Universidad de Guayaquil, Guayaquil, Ecuador.

Luis Merino-Salcedo, Universidad de Guayaquil, Guayaquil,

Universidad de Guayaquil, Guayaquil, Ecuador.

Gerardo Parra-Barrezueta, Universidad de Guayaquil, Guayaquil,

Universidad de Guayaquil, Guayaquil, Ecuador.

Citas

Blei, D. M., Ng, A. Y., & Edu, J. B. (2003). Latent Dirichlet Allocation Michael I. Jordan. In Journal of Machine Learning Research (Vol. 3).

Boden, M. A. (2017). Inteligencia artificial. Turner.

Carleo, G., Cirac, I., Cramer, K., Daudet, L., & Schuld, M. (2019). El aprendizaje automático y las ciencias físicas. Reseñas de Física Moderna , 91 (4), 045002.

el Naqa, I., & Murphy, M. J. (2015). ¿Quí© es el aprendizaje automático? Aprendizaje automático en oncología radioterápica. Springer, Cham.

Ethem Alpaydin. (2021). Machine learning. MIT Press.

Factorización matricial no negativa HistoriayFondo. (n.d.). Retrieved March 7, 2022, from https://hmong.es/wiki/Non-negative_matrix_factorization

Función Dirichlet - Función Dirichlet modificada, Otras propiedades, Continuidad e integrabilidad, Definición | KripKit. (n.d.). Retrieved March 7, 2022, from https://kripkit.com/funcin-dirichlet/

Hammoe, L. (2018). Detección de tópicos: utilizando el modelo LDA. INSTITUTO TECNOLóGICO DE BUENOS AIRES â€“ ITBA.

Hansen, S. (n.d.). APLICACIóN DEL APRENDIZAJE AUTOMáTICO AL ANáLISIS ECONóMICO Y LA FORMULACIóN DE POLITICAS.

Hernández, A., Tomás, D., & Borja Navarro. (2015). Una aproximación a la recomendación de artículos científicos segíºn su grado de especificidad. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos.

Lee, D. D., & Seung, H. S. (n.d.). Algorithms for Non-negative Matrix Factorization.

Martindale, C., & P McKenzie, D. (1995). On the utility of content analysis in author attribution: The Federalist. Computadoras y Humanidades , 29 (4), 259-270.

Mifrah, S. (2020). Topic Modeling Coherence: A Comparative Study between LDA and NMF Models using COVIDâ€™19 Corpus. International Journal of Advanced Trends in Computer Science and Engineering, 9(4), 5756â€“5761. https://doi.org/10.30534/ijatcse/2020/231942020

Murphy, K. (2012). Aprendizaje automático: una perspectiva probabilística. Prensa del MIT.

Pavelec, D., Oliveira, L. S., Justino, E., & Batista, L. V. (2008). Using Conjunctions and Adverbs for Author Verification.

Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60(3), 538â€“556. https://doi.org/10.1002/ASI.21001

Vayansky, I., AP Kumar, S., & Sathish, A. K. (2020). Una revisión de los mí©todos de modelado de temas. Sistemas de Información , 94 , 101582.

Holmes, R. M., & Holmes, S. T. (1998). Contemporary perspectives on serial murder. 246.

Mendenhall, T. C. (1887). The Characteristic Curves of Composition. Science, 9(214), 237â€“246. https://doi.org/10.1126/SCIENCE.NS-9.214S.237

Modelado de temas con NMF para clasificación de reseñas de usuarios. (2020). ICHI.PRO. https://ichi.pro/es/modelado-de-temas-con-nmf-para-clasificacion-de-resenas-de-usuarios-111674468812030

Mosteller, F., & Wallace, D. L. (1963). Inference in an Authorship Problem. Journal of the American Statistical Association, 58(302), 275. https://doi.org/10.2307/2283270

Sarwar, R., & Nutanong, S. (2016). The Key Factors and Their Influence in Authorship Attribution. Research in Computing Science, 110(1), 139â€“150. https://doi.org/10.13053/rcs-110-1-12

Detección de tópicos de textos en español usando machine learning, caso discursos Guillermo Lasso Presidente de Ecuador

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

César Humberto Espin-Riofrio, Universidad de Guayaquil, Guayaquil,

Tania Jeesenia Peralta-Guaraca, Universidad de Guayaquil, Guayaquil,

Luis Merino-Salcedo, Universidad de Guayaquil, Guayaquil,

Gerardo Parra-Barrezueta, Universidad de Guayaquil, Guayaquil,

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Indice

Información

Palabras clave