Clasificación de artículos académicos sobre la pandemia de COVID-19 a través de la técnica de minería de texto Word Embeddings
Resumen
La enfermedad de COVID-19, se introdujo y extendió rápidamente como una pandemia global, que necesitaba ser tratada con respuestas inmediatas, oportunas e integradas a los sistemas. Con la presencia de este virus SARS-CoV-2, la comunidad científica, las organizaciones, los individuos y la sociedad en general, han visto la necesidad de obtener información que pueda aportar conocimiento sobre la evolución de la enfermedad, posibles causas, consecuencias, tratamientos, prevención, entre otros aspectos. El presente artículo propone realizar la clasificación de artículos científicos publicados sobre la pandemia de COVID-19, con la aplicación de técnicas de Machine Learning, a través de mecanismos de representación semántica de palabras como el Word Embeddings y tecnologías basadas en redes neuronales; utilizando el análisis y procesamiento de los abstracts de artículos científicos disponibles en las fuentes de información como LitCovid. Los resultados describen los distintos mecanismos y metodologías de clasificación de texto y las maneras de representar el mismo, con el objeto de construir un modelo de clasificación fundamentado en la técnica de minería de texto Word Embeddings y en redes neuronales basadas en la arquitectura LSTM; obteniéndose la metodología a seguir para clasificar artículos científicos, así como, los resultados de desempeño de los modelos propuestos. Se concluye que, no se logró una predicción con resultados favorables en todas las clases, debido a que los datos están desbalanceados y existen clases muy mayoritarias en comparación a otras, por lo que las predicciones se vieron afectadas.
Palabras clave
Referencias
Abduljabbar, R., Dia, H., & Tsai, P. (2021). Modelos LSTM unidireccionales y bidireccionales para la predicción del tráfico a corto plazo . Journal of Advanced Transportation , 2021(5589075). doi: https://doi.org/10.1155/2021/5589075
Ananiadou, S., Kell, D., & Tsujii, J. (2006). Text mining and its potential applications in systems biology. Trends Biotechnol (24), 571–579.
Awasthi, R., Pal, R., Singh, P., Nagori, A., Reddy, S., Gulati, A., . . . Sethi, T. (2020). CovidNLP: A Web Application for Distilling Systemic Implications of COVID-19 Pandemic with Natural Language Processing. MedRxiv.
BMJ Best Practice. (17 de agosto de 2020). Visión general de los coronavirus. (B. P. Group, Ed.) Obtenido de https://bestpractice.bmj.com: https://bestpractice.bmj.com/topics/eses/3000165/
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, 5, 135-146. doi:https://doi.org/10.1162/tacl_a_00051
Chandrasekaran, B., & Fernandes, S. (january de 2020). Target specific mining of COVID-19 scholarly articles using one-class approach. Diabetes Metab Syndr, 14(4), 337–339.
Cohen, A., & Hersh, W. (2005). A survey of current work in biomedical text mining. Brief Bioinform(6), 57-71.
Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. J. Mach. Learn. Res.(12), 2493–2537.
Daud, A., Khan, W., & Che, D. (2017). Urdu language processing: a survey. . Artificial Intelligence Review, 47(3), 279–311. doi:https://doi.org/10.1007/s10462-016-9482-x
Friedman, C., & Johnson, S. (2006). Natural language and text processing in biomedicine. . En E. Shortliffe, & J. Cimino, Biomedical informatics: computer applications in health care and biomedicine (Third ed., págs. 312 - 343). New York: Springer.
Greenhalgh, T., Choon, G., & Koh, H. (2020). Covid-19: una evaluación remota en atención primaria. Practice(368:m1182), 1-5. doi:doi: 10.1136/bmj.m1182
Jiménez, B., Zeng, J., Zhang, D., Zhang, P., & Su, Y. (2020). Clasificación de documentos para la literatura COVID-19. En A. d. Computacional (Ed.), En Hallazgos de la Asociación de Lingüística Computacional: : EMNLP 2020 (págs. 3715-3722). doi:10.18653/v1/2020.hallazgos-emnlp.332
Jurafsky, D., & Martin, J. (2020). Speech and Language Processing: An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition (Third Edition ed.).
Khan, A., Baharudin, B., Hong, L., & khan, K. (2010). A Review of Machine Learning Algorithms for Text-Documents Classification. ournal of Advances in Information Technology, 1(1). doi:https://doi.org/10.4304/jait.1.1.4-20
Kilicoglu, H. (2018). Biomedical text mining for research rigor and integrity: tasks, challenges, directions. Brief Bioinform (19), 1400-1414.
Maguiña, C., Gastelo, R., & Tequen, A. (2020). El nuevo Coronavirus y la pandemia del Covid-19. Revista Medica Herediana, 31(2), 125-131. Obtenido de https://doi.org/10.20453/rmh.v31i2.3776
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (16 de January de 2013). Efficient estimation of word representations in vector space. En C. University (Ed.), 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings. Obtenido de https://arxiv.org/abs/1301.3
Ministerio de Sanidad. (2020). Neumonía por nuevo coronavirus (2019-nCoV) en Wuhan, provincia de Hubei, (China). Informe Actualización nº 13, Ministerio de Sanidad, Madrid. Obtenido de https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Actualizacion_13_2019-nCoV_China.pdf
Muhammad, A., Suliman, K., Abeer, K., Nadia, B., & Rabeea, S. (2020). COVID-19 infection: Emergence, transmission, and characteristics of human coronaviruses. Journal ofAdvanced Research(24), 91-98.
Organización Panamericana de la Salud. (2022). Artículos científicos y recursos sobre la COVID-19. Revista Panamericana de Salud Pública(Números Especiales).
Pedrero, V., Reynaldos-Grandón, K., Ureta-Achurra, J., & Cortez-Pinto, E. (2021). Generalidades del Machine Learning y su aplicación en la gestión sanitaria en Servicios de Urgencia. Revista médica de Chile, 149(2), 248-254. doi:https://dx.doi.org/10.4067/s0034-98872021000200248
Pennington, J., Socher, R., & Manning, C. (2014). GloVe: Global Vectors for Word Representation. Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) (págs. 1532-1543). Doha, Qatar: Asociación de Lingüística Computacional.
Qingyu, C., Alexis, A., & Zhiyong, L. (2021). LitCovid: una base de datos abierta de literatura sobre COVID-19. Nucleic Acids Research, 49(D1), D1534-D1540. doi:https://doi.org/10.1093/nar /gkaa952
Sonbhadra, S., Agarwal, S., & Nagabhushan, P. (2020). Apunte a la extracción específica de artículos académicos sobre el COVID-19 utilizando un enfoque de clase única. Caos, solitones y fractales(140 , 110155). Obtenido de https://doi.org/10.1016/j.chaos.2020.110155
Thompson, L. (2003). Inicio de una nueva epidemia, SARS. Rev Med Hered, 14(2), 49.
Torres-Salinas, D. (2020). Ritmo de crecimiento diario de la producción científica sobre Covid-19. Análisis en bases de datos y repositorios en acceso abierto. El profesional de la informacion(29:e290215). doi:10.3145/epi.2020.mar.15
Wang, L., & Lo, K. (2021). Text mining approaches for dealing with the rapidly expanding literature on COVID-19 . Briefings in Bioinformatics, 22(2), 781–799. Obtenido de https://doi.org/10.1093/bib/bbaa296
Zou, W., Socher, R., Cer, D., & Manning, C. (2013). Bilingual word embeddings for phrase-based machine translation. EMNLP, 1393 - 1398.
Zweigenbaum, P., Demner-Fushman, D., Yu, H., & al, e. (2007). Frontiers of biomedical text mining: current progress. Brief Bioinform (8), 358-375.
DOI: https://doi.org/10.23857/pc.v7i12.4993
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/