Detección de tópicos de textos en español usando machine learning, caso discursos Guillermo Lasso Presidente de Ecuador
DOI:
https://doi.org/10.23857/dc.v8i2.2646Palabras clave:
Aprendizaje automático, LDA, NMF, Detección de tópicos, Procesamiento de Lenguaje Natural.Resumen
El presente artículo tiene como objetivo centrarse en dos de las principales técnicas para Procesamiento de Lenguaje Natural de machine learning para el modelado y detección de tópicos, se trata de los algoritmos Non-negative Matrix Factorization and Latent Dirichlet Allocation que se usarón para experimentar y verificar en corpus de textos en el idioma español, basados en el estado de arte de la atribución de autoría relacionado a la detección de tópicos mediante el anólisis de artículos científicos de relevancia sobre el tema, ademós se investigan los distintos modelos destinados a la detección de tópicos resaltando cuales son los mós utilizados, también se busca evaluar el comportamiento y resultados de los dos modelos escogidos. La experimentación se realiza sobre los discursos políticos pasados a texto del Sr. Guillermo Lasso Presidente del Ecuador, se identifican los diferentes tópicos o temas sobre los que trata el corpus de textos formado por los discursos con el fin de conocer directamente su contenido o para dónde estos estón apuntando de manera preliminar sin necesidad de leer el contenido en su totalidad, los resultados se presentan comparando los modelos, así se logra determinar con cuól de los dos algoritmos se obtienen resultados mós acertados.
Citas
Blei, D. M., Ng, A. Y., & Edu, J. B. (2003). Latent Dirichlet Allocation Michael I. Jordan. In Journal of Machine Learning Research (Vol. 3).
Boden, M. A. (2017). Inteligencia artificial. Turner.
Carleo, G., Cirac, I., Cramer, K., Daudet, L., & Schuld, M. (2019). El aprendizaje automático y las ciencias físicas. Reseñas de Física Moderna , 91 (4), 045002.
el Naqa, I., & Murphy, M. J. (2015). ¿Quí© es el aprendizaje automático? Aprendizaje automático en oncología radioterápica. Springer, Cham.
Ethem Alpaydin. (2021). Machine learning. MIT Press.
Factorización matricial no negativa HistoriayFondo. (n.d.). Retrieved March 7, 2022, from https://hmong.es/wiki/Non-negative_matrix_factorization
Función Dirichlet - Función Dirichlet modificada, Otras propiedades, Continuidad e integrabilidad, Definición | KripKit. (n.d.). Retrieved March 7, 2022, from https://kripkit.com/funcin-dirichlet/
Hammoe, L. (2018). Detección de tópicos: utilizando el modelo LDA. INSTITUTO TECNOLóGICO DE BUENOS AIRES – ITBA.
Hansen, S. (n.d.). APLICACIóN DEL APRENDIZAJE AUTOMáTICO AL ANáLISIS ECONóMICO Y LA FORMULACIóN DE POLITICAS.
Hernández, A., Tomás, D., & Borja Navarro. (2015). Una aproximación a la recomendación de artículos científicos segíºn su grado de especificidad. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos.
Lee, D. D., & Seung, H. S. (n.d.). Algorithms for Non-negative Matrix Factorization.
Martindale, C., & P McKenzie, D. (1995). On the utility of content analysis in author attribution: The Federalist. Computadoras y Humanidades , 29 (4), 259-270.
Mifrah, S. (2020). Topic Modeling Coherence: A Comparative Study between LDA and NMF Models using COVID’19 Corpus. International Journal of Advanced Trends in Computer Science and Engineering, 9(4), 5756–5761. https://doi.org/10.30534/ijatcse/2020/231942020
Murphy, K. (2012). Aprendizaje automático: una perspectiva probabilística. Prensa del MIT.
Pavelec, D., Oliveira, L. S., Justino, E., & Batista, L. V. (2008). Using Conjunctions and Adverbs for Author Verification.
Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60(3), 538–556. https://doi.org/10.1002/ASI.21001
Vayansky, I., AP Kumar, S., & Sathish, A. K. (2020). Una revisión de los mí©todos de modelado de temas. Sistemas de Información , 94 , 101582.
Holmes, R. M., & Holmes, S. T. (1998). Contemporary perspectives on serial murder. 246.
Mendenhall, T. C. (1887). The Characteristic Curves of Composition. Science, 9(214), 237–246. https://doi.org/10.1126/SCIENCE.NS-9.214S.237
Modelado de temas con NMF para clasificación de reseñas de usuarios. (2020). ICHI.PRO. https://ichi.pro/es/modelado-de-temas-con-nmf-para-clasificacion-de-resenas-de-usuarios-111674468812030
Mosteller, F., & Wallace, D. L. (1963). Inference in an Authorship Problem. Journal of the American Statistical Association, 58(302), 275. https://doi.org/10.2307/2283270
Sarwar, R., & Nutanong, S. (2016). The Key Factors and Their Influence in Authorship Attribution. Research in Computing Science, 110(1), 139–150. https://doi.org/10.13053/rcs-110-1-12
Publicado
Cómo citar
Número
Sección
Licencia
Authors retain copyright and guarantee the Journal the right to be the first publication of the work. These are covered by a Creative Commons (CC BY-NC-ND 4.0) license that allows others to share the work with an acknowledgment of the work authorship and the initial publication in this journal.