Clasificacin de artculos acadmicos sobre la pandemia de COVID-19 a travs de la tcnica de minera de texto Word Embeddings

 

Classification of academic articles on the COVID-19 pandemic through the Word Embeddings text mining technique

 

Classificao de artigos acadmicos sobre a pandemia de COVID-19 por meio da tcnica de minerao de texto Word Embeddings

 

Bayron Fernando Vsquez Vanegas I
bayron.vasquezv@hotmail.com
https://orcid.org/0000-0003-3537-2296
Marcos Patricio Orellana Cordero II
marore@uazuay.edu.ec
https://orcid.org/0000-0002-3671-9362
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: bayron.vasquezv@hotmail.com

 

 

Ciencias de la Educacin

Artculo de Investigacin

* Recibido: 23 de octubre de 2022 *Aceptado: 12 de noviembre de 2022 * Publicado: 5 de diciembre de 2022

 

  1. Ingeniero en Sistemas; Analista de Tecnologas de la Informacin y Comunicaciones; Regional del Instituto Nacional de Patrimonio Cultural, Investigador independiente, Ecuador.
  2. Ingeniero de Sistemas; Docente-Investigador en las lneas de Ciencia de los Datos e Inteligencia Artificial; Master en Gestin de Sistemas de Informacin e Inteligencia de Negocios; Master en Docencia Universitaria; Profesional con amplia experiencia en bases de datos y direccin de departamentos de TI; Desarrollador de Sistemas de Informacin Transaccionales y de Inteligencia de Negocios; Docente y Coordinador de la Escuela de Ingeniera de Sistemas y Telemtica de la Universidad del Azuay; Responsable del programa de Informtica y Director del Laboratorio de Investigacin y Desarrollo en Informtica (LIDI), Universidad del Azuay, Ecuador.

Resumen

La enfermedad de COVID-19, se introdujo y extendi rpidamente como una pandemia global, que necesitaba ser tratada con respuestas inmediatas, oportunas e integradas a los sistemas. Con la presencia de este virus SARS-CoV-2, la comunidad cientfica, las organizaciones, los individuos y la sociedad en general, han visto la necesidad de obtener informacin que pueda aportar conocimiento sobre la evolucin de la enfermedad, posibles causas, consecuencias, tratamientos, prevencin, entre otros aspectos. El presente artculo propone realizar la clasificacin de artculos cientficos publicados sobre la pandemia de COVID-19, con la aplicacin de tcnicas de Machine Learning, a travs de mecanismos de representacin semntica de palabras como el Word Embeddings y tecnologas basadas en redes neuronales; utilizando el anlisis y procesamiento de los abstracts de artculos cientficos disponibles en las fuentes de informacin como LitCovid. Los resultados describen los distintos mecanismos y metodologas de clasificacin de texto y las maneras de representar el mismo, con el objeto de construir un modelo de clasificacin fundamentado en la tcnica de minera de texto Word Embeddings y en redes neuronales basadas en la arquitectura LSTM; obtenindose la metodologa a seguir para clasificar artculos cientficos, as como, los resultados de desempeo de los modelos propuestos. Se concluye que, no se logr una prediccin con resultados favorables en todas las clases, debido a que los datos estn desbalanceados y existen clases muy mayoritarias en comparacin a otras, por lo que las predicciones se vieron afectadas.

Palabras Clave: Procesamiento de Lenguaje Natural; Word Embedding; Machine Learning; Redes Neuronales; Clasificacin de artculos; COVID-19.

 

Abstract

The COVID-19 disease was rapidly introduced and spread as a global pandemic, which needed to be treated with immediate, timely and systems-integrated responses. With the presence of this SARS-CoV-2 virus, the scientific community, organizations, individuals and society in general have seen the need to obtain information that can provide knowledge about the evolution of the disease, possible causes, consequences, treatments, prevention, among other aspects. This article proposes to carry out the classification of scientific articles published on the COVID-19 pandemic, with the application of Machine Learning techniques, through mechanisms of semantic representation of words such as Word Embeddings and technologies based on neural networks; using the analysis and processing of the abstracts of scientific articles available in information sources such as LitCovid. The results describe the different text classification mechanisms and methodologies and the ways of representing it, in order to build a classification model based on the Word Embeddings text mining technique and on neural networks based on the LSTM architecture; obtaining the methodology to follow to classify scientific articles, as well as the performance results of the proposed models. It is concluded that a prediction with favorable results was not achieved in all classes, because the data is unbalanced and there are very majority classes compared to others, so the predictions were affected.

Keywords: Natural Language Processing; Word Embedding; machine learning; Neural Networks; Article classification; COVID-19.

 

Resumo

A doena COVID-19 foi rapidamente introduzida e disseminada como uma pandemia global, que precisava ser tratada com respostas imediatas, oportunas e integradas aos sistemas. Com a presena deste vrus SARS-CoV-2, a comunidade cientfica, organizaes, indivduos e a sociedade em geral tm visto a necessidade de obter informaes que possam fornecer conhecimento sobre a evoluo da doena, possveis causas, consequncias, tratamentos, preveno, entre outros aspectos. Este artigo prope realizar a classificao de artigos cientficos publicados sobre a pandemia de COVID-19, com aplicao de tcnicas de Machine Learning, por meio de mecanismos de representao semntica de palavras como Word Embeddings e tecnologias baseadas em redes neurais; utilizando a anlise e tratamento dos resumos de artigos cientficos disponveis em fontes de informao como o LitCovid. Os resultados descrevem os diferentes mecanismos e metodologias de classificao de texto e as formas de represent-lo, de forma a construir um modelo de classificao baseado na tcnica de minerao de texto Word Embeddings e em redes neurais baseadas na arquitetura LSTM; obter a metodologia a seguir para classificar os artigos cientficos, bem como os resultados de desempenho dos modelos propostos. Conclui-se que no foi alcanada uma previso com resultados favorveis ​​em todas as classes, pois os dados esto desbalanceados e h classes muito majoritrias em relao s outras, ento as previses foram afetadas.

Palavras-chave: Processamento de linguagem natural; Incorporao de palavras; aprendizado de mquina; Redes neurais; classificao do artigo; COVID-19.

Introduccin

La pandemia de COVID-19 pertenece a la familia de los anteriores virus coronavirus, cuyas cepas producan la gripe comn. Sin embargo, en el ao 2003 surge la primera mutacin, dando origen al SARS que tuvo sus inicios en China, con ms de ocho mil cuatrocientos pacientes en veintisiete pases diferentes, con una letalidad del diez por ciento. Ms adelante, en el ao 2012 aparece otra nueva cepa mutante de coronavirus en Arabia Saudita, conocida como MERS-CoV, con un registro de ms de dos mil cuatrocientos enfermos y una letalidad del treinta y siete por ciento (Thompson, 2003; BMJ Best Practice, 2020).

El actual coronavirus, conocido como COVID-19, surgi en Wuhan, China y se extendi por todo el mundo; tiene predileccin por el rbol respiratorio, de modo que, al penetrar causa una respuesta inmune anormal con caractersticas inflamatorias e incremento de las citoquinas, agravando al paciente y causando mltiples daos orgnicos (Maguia et al, 2020). Anlisis genmicos han revelado que el SARS-CoV-2 est asociado con los virus de murcilagos, que son similares al sndrome respiratorio agudo severo. La fuente intermedia de origen y transmisin a humanos se desconoce, no obstante, lo que s est confirmada es la rpida transferencia de humano a humano (Muhammad, et al, 2020).

Sea cual fuere su origen, lo cierto es que el mundo en general se ha visto grandemente afectado por los efectos producidos por la COVID-19. A la fecha, casi todos los pases registran miles de infectados, decesos, secuelas fsicas y mentales, as como, graves problemas en la economa. El surgimiento de la reciente enfermedad, ha llevado al mundo a una de las mayores crisis de la historia, en los mbitos econmico, social y de salud, nunca antes visto, afectando mltiples aspectos de la vida cotidiana (Ministerio de Sanidad, 2020).

Ante esta nueva realidad, la comunidad cientfica ha puesto su mayor esfuerzo en hacerle frente a la pandemia, estudiando y entendiendo el origen del nuevo virus, su comportamiento, y los efectos en la salud y la vida del ser humano, para, de esta manera, poder establecer medidas de prevencin eficaces, administrar tratamientos adecuados, desarrollar vacunas, e implementar polticas pblicas para la gestin y control de la pandemia. Como resultado de ello, la produccin de conocimiento cientfico acerca de la COVID-19 y el nuevo coronavirus ha crecido a un ritmo sin precedentes.

Segn estudios realizados por Wang & Lo (2021), se han publicado ms de 50000 artculos sobre COVID-19 desde principios de 2020 y se siguen publicando varios cientos de artculos nuevos todos los das (p. 781). Esta enorme tasa de productividad cientfica sobre COVID-19 lleva a una sobrecarga de informacin, dificultando que los mdicos, enfermeros, bioanalistas, funcionarios de salud pblica, gobiernos e investigadores, estn al da con los ltimos hallazgos sobre la temtica; siendo imprescindible que se mantengan actualizados en lo que respecta a dicha literatura (Wang y Lo, 2021).

Desde el mismo momento que se notific el primer caso de COVID-19 se inici la publicacin de una gran cantidad de estudios, intentado aclarar ciertas incgnitas sobre sntomas, pruebas de deteccin, medidas preventivas y tratamiento. De hecho, la manera rpida en la que se fue propagando el virus y la repercusin inmediata que tuvo en el individuo y la sociedad, cre la necesidad de tomar medidas serias a nivel mundial, desde el punto de vista de la salud, con base en las evidencias disponibles hasta el momento (Greenhalgh et al, 2020).

De manera que, la pandemia de COVID-19 empez a dar lugar a un estallido de informacin recogida en publicaciones cientficas, donde cada quince das se van duplicando las referencias; tal y como lo menciona Torres-Salinas (2020), cuando seala que con la llegada de la pandemia, el primer problema que ha debido afrontar al universo de la publicacin es la avalancha de preprints y artculos cientficos, as como, la necesidad de que estos lleguen a ser accesibles . Cabe acotar que, una de las respuestas por parte de editoriales fue la creacin de centros de recursos para unificar en una nica web y que sea de acceso abierto, todo lo que se vaya publicando acerca de la COVID-19.

En este mismo orden de ideas, segn Torres-Salinas (2020), la tasa de crecimiento bibliomtrico segn el anlisis realizado en la base de datos Dimensions se calcula en , el mismo que determina que la cantidad de publicaciones realizadas es de alrededor de quinientos artculos diarios. Sin duda, toda esta cantidad de informacin es el reflejo de los esfuerzos de la comunidad cientfica para hacer frente a esta crisis sanitaria que ha afectado a mltiples aspectos de la vida cotidiana alrededor del mundo.

Toda esta cantidad de publicaciones son de naturaleza multidisciplinar, siendo as que cualquier entidad o persona interesada en realizar investigacin sobre COVID-19 con base a un criterio de inters particular debe realizar la bsqueda e ir clasificando los resultados obtenidos de manera manual. Esto supone un alto costo en trminos de tiempo, siendo ahora ms que nunca el recurso tiempo un factor primordial para hacer frente a la pandemia.

El principal inters de los investigadores es extraer informacin a partir de artculos cientficos, con base en un criterio u objetivo determinado, segn el rea de inters; por lo que herramientas que permitan realizar una clasificacin automtica de tal informacin son cada vez ms importantes y requeridas por parte de la comunidad cientfica (Chandrasekaran y Fernandes, 2020). Por este motivo, la utilizacin de tcnicas informticas de procesamiento y clasificacin de datos, permitiran obtener informacin especfica en las distintas bases cientficas, y lo ms importante, que estn clasificadas.

Por lo antes dicho, se requiere el uso de tcnicas informticas que faciliten la bsqueda, lectura y clasificacin de un determinado documento; de forma rpida y precisa ante el exceso de informacin existente (Wang y Lo, 2021). Esto es importante, pues extraer informacin de inters particular puede llevar mucho esfuerzo y tiempo, ya que cada uno de los artculos de investigacin sobre cierta temtica en particular, pertenecen a distintas fuentes y dominios, como la medicina y atencin mdica, el reconocimiento de patrones, la minera de datos, el aprendizaje automtico, entre otros (Sonbhadra et al, 2020).

De hecho, organizaciones, editoriales, bibliotecas virtuales, redes acadmicas, catlogos, directorios acadmicos, revistas cientficas, entre otros, se han esforzado por organizar la informacin sobre COVID-19 de tal manera que sea encontrada y por ende de utilidad a la comunidad cientfica. Por ejemplo, la Organizacin Panamericana de la Salud ha compilado publicaciones cientficas, guas tcnicas, recomendaciones y protocolos de investigacin en curso de Amrica y el resto del mundo, relacionados con la pandemia actual; siendo esto de utilidad para autoridades, profesionales de la salud, investigadores, y la sociedad en general (Organizacin Panamericana de la Salud, 2022).

Se habla entonces de una tcnica denominada minera de textos, la cual, una de sus principales reas de aplicacin biomdica es la gestin de la sobrecarga de informacin (Ananiadou et al, 2006; Kilicoglu, 2018; Zweigenbaum et al, 2007). La minera de textos se centra en resolver problemas especficos como recuperar documentos relevantes o extraer parte de la informacin de dichos documentos. Puede utilizar tcnicas para la recuperacin, extraccin y clasificacin de la informacin; adems de aprovechar mtodos de campos relacionados, como el lenguaje de procesamiento y la construccin de bases de conocimientos (Cohen & Hersh, 2005).

Hoy ms que nunca, es imprescindible tener una visin completa del estado del arte de la literatura relacionada con la COVID-19, debido a razones tales como: organizar y categorizar la literatura; explorar temas de investigacin; identificar prioridades y necesidades para generar oportunidades de investigacin; entender la evolucin de la pandemia; reconocer a los lderes de la investigacin en esta rea, como investigadores, institutos y centro de investigaciones, pases lderes, entre otros; y explorar conexiones entre temas y reas de investigacin.

En este sentido, la clasificacin de documentos representa un rea admirada de investigacin en reconocimiento de patrones y minera de datos. Hoy da, la presencia de repositorios de investigacin en lnea masivos, llevan a que la bsqueda de artculos de investigacin de temas especficos o de inters para el usuario, se convierta en un proceso que demanda mucho tiempo. Los motores de bsqueda disponibles para encontrar documentos mediante palabras clave, son tiles, no obstante, a veces representan una tarea limitante y desafiante (Sonbhadra et al, 2020).

Por lo tanto, este artculo propone una metodologa que se enfoca en realizar categorizaciones de artculos cientficos publicados sobre COVID-19, mediante la aplicacin de tcnicas de PNL como el Word Embedding. Este procesamiento de lenguaje natural se ha venido aplicando a documentos mdicos que se redactan en textos libres a fin de construir bases de datos que programas computarizados puedan no solo entender, sino tambin analizar (Friedman & Johnson, 2006).

Con base en lo anterior, cabe acotar que una clasificacin automtica de documentacin mediante la aplicacin de tcnicas de Procesamiento de Lenguaje Natural (PLN), puede tener un gran impacto al momento de organizar y clasificar artculos de inters por campos y temas; facilitando la tarea de bsqueda de informacin y brindando soporte a las tareas de investigacin para sta nueva temtica sobre COVID-19.

Si bien varios estudios e investigaciones realizadas como Jimenez et al (2020), Jelodar et al (2020) y Dynomant et al (2019), han abordado el tema de la problemtica de clasificar artculos o documentos de texto acerca del COVID-19 y problemas de salud en general, es importante conocer si la tcnica de PLN conocida como Word Embedding puede brindar una clasificacin de artculos que permitan extraer conocimientos relevantes, y brindar soporte a la investigacin cientfica. El word embedding ha demostrado ser una tcnica til en diversas tareas del PLN aparte de la similitud de textos; por lo que en la actualidad tienen gran popularidad (Collobert, et al, 2011; Zou, et al, 2013).

Con la llegada de la pandemia, surgieron proyectos para abordar la problemtica antes descrita, como el COVIDScholar; un proyecto que nace del esfuerzo por afrontar los problemas aplicando tcnicas de PLN, para agregar, analizar y buscar literatura de investigacin acerca del COVID-19, mediante la implementacin de una infraestructura automatizada y escalable para buscar e integrar investigaciones recientes tal como stas aparecen, logrando as, levantar un corpus de ms de 81,000 artculos cientficos y dems documentos relacionados al COVID-19 (Trewartha et al., 2020).

Por otra parte, para afrontar el desafo que ha provocado la pandemia de COVID-19 en mltiples aspectos, se estn empleando mecanismos de PLN y aprendizaje automtico sobre los artculos de investigacin de la Organizacin Mundial de la Salud (OMS), con el fin de generar conocimiento que pueda guiar tanto las polticas del COVID-19, investigaciones y desarrollo (Awasthi, et al, 2020). Se aplican enfoques de resumen de texto y los modelos entrenados de Word Embeddings para resumir la informacin publicada, dando como resultado la herramienta CovidNLP.

 

Un abordaje terico sobre Procesamiento de Lenguaje Natural (PNL), Machine Learning (ML) y Word Embeddings (WE)

Actualmente es de inters realizar tareas que procesan el lenguaje natural, es decir, la lengua o idioma hablado o escrito por humanos para propsitos generales de comunicacin, mediante el empleo de tcnicas o mtodos de aprendizaje automtico. El objetivo del Procesamiento de Lenguaje Natural (PLN), es estudiar, analizar y emplear algoritmos y metodologas para desarrollar modelos computacionales que puedan ser capaces de procesar idiomas en lenguaje natural, que permitan o faciliten la comunicacin entre humanos y mquinas o realicen el procesamiento del habla o texto (Jurafsky & Martin, 2020).

Los enfoques de PLN actualmente incorporan algoritmos de Machine Learning (ML) o aprendizaje automtico, este enfoque desarrolla tcnicas y algoritmos los mismos que aprenden a realizar ciertas tareas en particular mediante el uso de datos o informacin que no han sido programados para dicho propsito, esto quiere decir que son capaces de desarrollar un modelo generalizado con un grupo de datos y hacer predicciones sobre datos nuevos (Daud et al, 2017).

Machine Learning (ML) o aprendizaje automtico, es una rama de la Inteligencia Artificial, que permite lidiar con el problema de grandes cantidades de informacin que resultan difciles de analizar, facilitando la entrega de informacin confiable y rpida, y la toma de decisiones, en especial de organizaciones de salud (Pedrero et al, 2021). Por tanto, el Machine Learning tiene como objetivo desarrollar mecanismos y algoritmos que partiendo de un conjunto de datos puedan realizar tareas especficas, sin que hayan sido programados especficamente para ello.

En otro orden de ideas, una de las principales tareas de la clasificacin de texto dentro de las tareas de PLN, es la representacin del mismo, teniendo como objetivo representar de manera numrica los documentos de texto para que luego puedan ser procesados computacionalmente, para ello, es necesario representar los elementos textuales de los documentos como son palabras, caracteres, n-gramas de palabras o incluso informacin morfolgica como categoras gramaticales etc. Usualmente existen dos tipos de representacin que son One-Hot y Representacin distribuida o Embeddings.

El mayor avance mtodos de representacin de palabras llega con el trabajo realizado en 2013 por Mikolov, et al., llamados modelos predictivos. Estos modelos tratan de predecir palabras a partir de las palabras que estn cercanas a stas en trminos de vectores ms pequeos y densos. Estos mtodos basan su concepto en que si se puede predecir el contexto en el cual aparece una palabra, entonces se entiende el significado de sta en su contexto. Por lo que palabras semnticamente similares estarn cerca entre s en sus representaciones de espacios vectoriales. A estos mtodos se los denomina Word Embeddings. (Mikolov, et al, 2013)

Las tcnicas de Word Embedding se han convertido en las principales herramientas dentro de los modelos de PLN, capturando el significado de las palabras y convirtindolas a una codificacin que puede ser utilizada para todo tipo de redes neuronales. Entre las principales aplicaciones de sta tcnica son: sistemas de traduccin; anlisis de opinin de textos; generacin de textos; chatbox; entre otros.

Algunas tcnicas para el PLN son el Word2Vec, el FastText y el Glove. El primero, Word2vec, es un grupo de varios modelos relacionados utilizados para producir word embeddings; que generan representaciones de palabras en vectores, los cuales almacenan la relacin semntica entre las mismas; estos vectores resultantes son empleados en distintas tareas de PLN, por lo general tienen cientos de dimensiones para cada una de las palabras en el corpus. Una vez que el modelo se ha entrenado, ste puede detectar sinnimos de palabras o sugerencias de las mismas para una oracin. (Mikolov, et al, 2013)

El segundo, FastText, representa una palabra mediante la suma de sus composiciones de caracteres llamados n-grams. Por ejemplo, el vector de la palabra "apple" consiste en la suma de los vectores n-gram <ap, app, appl, apple, apple>, ppl, pple, pple>, ple, ple>, le>. En consecuencia, aplicando sta tcnica, se obtiene una mejor representacin de las palabras "raras" que pocas veces aparecen en el cuerpo del texto, y as generar vectores para palabras que no existen en el vocabulario de los Word Embeddings. (Bojanowski, et al, 2017)

El tercero, Glove, es un modelo basado en conteo, en el cual se genera una matriz de gran tamao que almacena la informacin de la concurrencia entre palabras y contextos. Es decir, para cada palabra se realiza un conteo de las veces que sta aparece en algn contexto. El objetivo de entrenamiento de dicha matriz es aprender vectores de forma que el producto escalar entre las palabras sea igual al logaritmo de la probabilidad de co-ocurrencia entre las palabras. El nmero de contextos es muy alto, por lo tanto, se realiza una factorizacin de dicha matriz para obtener una de menores dimensiones, dando como resultado mejores representaciones de palabras o Word Embeddings (Pennington, et al, 2014)

 

Materiales y Mtodos

Para el presente estudio en la clasificacin de texto se propone un modelo basado en redes neuronales, mediante el empleo de arquitectura LSTM, se emplea este enfoque debido a la ventaja que tienen este tipo de redes de almacenar informacin para la siguiente iteracin y controlar la informacin que llega de entrada y de salida, de la misma manera como se mencion previamente en el anlisis de las redes neuronales, las redes neuronales de tipo RNN, son empleadas mayormente para tareas de PLN por brindar mejores resultados en dichas tareas.

Adems, se utiliza un entorno Google Colab, que es una herramienta de Google Research, la cual permite codificar y ejecutar cdigo en lenguaje Python desde el navegador web, esto con el objetivo de obtener las libreras que se requieren para la realizar tareas de PLN. Asimismo, el estudio propone tres modelos de clasificacin que emplean la combinacin de un modelo de Word Embedding junto con un modelo de red neuronal para la clasificacin, a saber,

      Modelo I - Word2Vec + LSTM Bidireccional

      Modelo II - FastText + LSTM Bidireccional

      Modelo III - Glove + LSTM Bidireccional

Para que el texto pueda ser procesado computacionalmente, ste debe ser transformado a una representacin que el computador pueda entenderlo, es decir, de forma numrica; para ello, el texto de anlisis debe pasar por un proceso de manera que se logre conseguir una representacin lo ms aceptable y ptima posible, para que el modelo de aprendizaje profundo pueda realizar de mejor manera las predicciones deseadas. La figura a continuacin muestra una representacin del proceso a seguir para la metodologa propuesta de clasificacin de artculos cientficos.

 

Figura 1. Metodologa de Clasificacin

 

 


Metodologa propuesta de clasificacin de artculos

1. Seleccin de Conjunto de Datos o DataSet:

El Dataset o conjunto de datos de LitCovid es una recopilacin de artculos recientemente publicados, cuyas temticas estn relacionadas con la literatura actual del Coronavirus. ste conjunto de datos contiene ms de 23.000 artculos y en promedio se agregan 2.000 nuevos artculos semanalmente, siendo as un recurso integral para que la comunidad cientfica pueda actualizarse con informacin acerca de la crisis que ha provocado la pandemia de la COVID-19. (Jimnez, et al, 2020)

Cada uno de los artculos contenidos en el conjunto de datos de LitCovid, son etiquetados en una de las siguientes temticas: Prevencin, Tratamiento, Diagnstico, Mecanismo, Reporte de casos, Transmisin, Pronstico, General. La mayora de estos artculos pueden ser etiquetados con varias de stas etiquetas, sin embargo, alrededor del 76% ha sido etiquetado solo con una.

LitCovid se actualiza diariamente con nuevos artculos relacionados con COVID-19 identificados en PubMed y categorizados en Tratamiento, Diagnstico, Prevencin e Infecciones. Inicialmente, toda la recopilacin de datos y el almacenamiento de documentos se realizaban de manera manual con poca ayuda de las mquinas. Sin embargo, a medida que avanzaba la pandemia, se implementaron enfoques automatizados para dar soporte al refinado manual y maximizar la productividad de la refinacin para mantener al da con la literatura en rpido crecimiento.

Los artculos se afinan o depuran a diario, permitiendo que los usuarios puedan navegar de manera rpida por el entorno de la investigacin de temas acerca del COVID-19 con un alto nivel, geolocalizacin y organizaciones relacionadas. La informacin afinada integra la bsqueda entre datos y conocimiento, lo que permite el descubrimiento de conocimientos en aplicaciones posteriores, como la sntesis de pruebas y la reutilizacin de frmacos. As tambin, permite descubrir informacin a travs de funciones de bsqueda avanzadas como clasificacin de relevancia, bsqueda de frases, entre otras.

Cabe sealar que LitCovid es una fuente de datos abierta por lo que se puede descargar libremente para la investigacin, as como para tareas de procesamiento automtico. La tarea de afinacin o depuracin de los artculos de LitCovid se realiza de la siguiente manera:

  • Los artculos candidatos son seleccionados utilizando consultas de palabras clave de PubMed por medio de la herramienta E-Utils de NCBI.
  • Los artculos seleccionados se examinan y clasifican como relevantes o irrelevantes.
  • Los artculos relevantes de COVID-19 se afinan a profundidad.
    • Se les asigna uno o ms de los ocho temas generales que correspondan.
    • Se extrae la geolocalizacin y las menciones de drogas o sustancias qumicas en el ttulo y el abstract.
    • Los artculos relevantes son indexados mediante Solr, una plataforma de bsqueda empresarial independiente de cdigo abierto.

 

2. Anlisis Exploratorio de los Datos:

El Anlisis Exploratorio de Datos o EDA por sus siglas en ingls (Exploratory Data Analysis), permite revisar cmo estn los datos antes de crear el modelo, este paso es importante ya que al realizar la inspeccin del conjunto de datos permite revisar qu distribucin tienen sobre ciertas caractersticas, si existen datos que aporten a la construccin del modelo o que deban ser descartados, normalizados, entre otros.

Para realizar la experimentacin se toma como base el conjunto de datos descritos previamente LitCovid de entrenamiento actualizada hasta el 12-09-2021 (Qingyu, et al, 2021), la misma que consta de un total de 24,960 artculos de LitCovid. Si el anlisis exploratorio de los datos o EDA por sus siglas en ingls (Exploratory Data Analysis), no se realiza adecuadamente, pueden darse problemas o dificultades en las etapas o fases siguientes durante la construccin del modelo de ML. Entre los pasos que se emplean para realizar ste anlisis se encuentran:

      Revisin de la cantidad de datos, lo que permite determinar si existen los suficientes recursos para el procesamiento de los mismos.

      Identificar si existen filas o columnas en blanco, ya que si estos datos son parte de la construccin del modelo podran introducir ruido y afectar el clculo del modelo.

      Identificar el tipo de datos, es decir, si la informacin a analizar comprende nicamente texto o tambin se componen de otro tipo de datos nmeros como enteros, decimales, alfanumricos, etc.

      Tener siempre claro qu tipo de tarea es la que se va a realizar, es decir, si la tarea consiste en abordar un problema supervisado, si es de salida binaria o multiclase, ya que esto permitir seleccionar la arquitectura adecuada para la construccin del modelo.

      Visualizacin del corpus en una nube de palabras (representacin grfica de la frecuencia de las palabras en un texto), esta representacin grfica puede proveer una descripcin general del corpus de texto, permitiendo visualizar si el texto a ser analizado contiene los temas de inters.

      Revisin de la distribucin de los datos, esto permite revisar cmo se distribuyen los mismos en relacin a cierta caracterstica a lo largo del dataset.

A continuacin, se muestran algunas imgenes del proceso EDA realizado sobre el conjunto de datos, compuesto de 24,960 registros.

 

Tabla 1. Descripcin del Conjunto de Datos

#

Columna

Cant. No-Null

0

Pmid

24,960 non-null

1

Journal

24,960 non-null

2

Title

24,960 non-null

3

Abstract

24,960 non-null

4

Keywords

18,968 non-null

5

pub_type

24,960 non-null

6

Authors

24,859 non-null

7

Doi

24,406 non-null

8

Label

24,960 non-null

 

Como se puede observar, algunos de estos datos no estn completos como el campo de keywords, authors y doi, sin embargo, estos datos no son representativos, ya que el presente estudio se enfoca en el anlisis del abstract. Con sta informacin inicial se puede empezar a trabajar sobre la tarea a desarrollarse, ya que por la inspeccin realizada el conjunto de datos seleccionado no contienen vacos o datos de tipo null en el abstract, sobre el cual se va a realizar la construccin del modelo de contexto o modelo de Word embeddings y sobre el que se va a realizar la clasificacin.

 

3. Pre-procesamiento:

El pre-procesamiento del texto antes de ejecutar cualquier tarea de PLN es un proceso importante, para el presente estudio se abordan las siguientes subtareas de pre-procesamiento: eliminacin de stopwords o palabras vacas, eliminacin de signos o caracteres especiales, normalizacin y Stemming. Debido a que el conjunto de datos se compone de informacin de varias fuentes poseen distintas caractersticas, lo que hace necesario estandarizar todas estas caractersticas de manera que el modelo que va a realizar la prediccin para la clasificacin de texto contenga nicamente informacin que sea relevante.

Es importante destacar que no existe un mtodo estandarizado para realizar el pre-procesamiento, ya que muchos de estos procedimientos pueden utilizarse dependiendo del tipo de tarea a realizar y del texto que vaya a ser analizado, ya que podra ser el caso que, para ciertas tareas de PLN, puede requerir realizar ciertos procedimientos de pre-procesamiento y para otras tareas no.

      Filtrado de Datos: Para lograr el objetivo de realizar una clasificacin de artculos se toma nicamente los artculos que contengan ste atributo en el conjunto de datos, ya que pueden existir diversos documentos que no contengan ste atributo, pudiendo introducir ruido al momento de realizar el anlisis de texto y podra provocar una mala precisin del modelo de clasificacin. El conjunto de datos est compuesto de 24,960 artculos, una vez aplicado el filtro los artculos resultantes para el anlisis son 16,814.

 

 

 

 

 

 

 

 

Figura 2. Filtro de datos

 

 

 

 

 

 

 

 

      Eliminacin de caracteres especiales y puntuacin: La tarea de clasificacin que se propone en el presente proyecto se basa en la aplicacin de enfoque de word embedding, y en vista que estas representaciones vectoriales de texto no proporcionan representaciones para signos de puntuacin y caracteres especiales, estos deben eliminarse.

      Eliminacin de enlaces o URLs: De la misma manera que los caracteres especiales las direcciones web o urls no aportan informacin semntica o sintctica para establecer relacin del texto, por lo que debe eliminarse ste tipo de contenido.

      Eliminacin de stopword o palabras vacas: El lenguaje natural est conformado de dos clases de palabras las que contienen significado asociado entre ellas y palabras funcionales que no contienen ningn significado. Las stopwords o palabras vacas, son trminos utilizados para identificar palabras funcionales y no necesitan ser parte del procesamiento de tareas de PLN por su bajo aporte al anlisis. Las stopwords o palabras vacas son palabras funcionales que carecen de sentido en el contexto de tareas de clasificacin de texto. Estas deben ser eliminadas con el propsito de reducir el tamao del texto y analizar palabras que nicamente aportan al contexto dentro del corpus.

       Identificacin de n-grams: El proceso de identificacin de n-grams permite identificar caractersticas dentro del documento como, por ejemplo, determinar conjuntos de palabras que ocurren con frecuencia, para el caso del presente estudio se ha definido la identificacin de unigrams, bigrams y trigrams; por ejemplo: Unigram: coronavirus, Bigrams: coronavirus pandemic y Trigrams: test positive coronavirus.

      Tokenizacin: La identificacin de ngram tokenizacin no es ms que el proceso de dividir el texto en unidades textuales ms pequeas, se puede interpretar como dividir un conjunto de informacin en smbolos, es decir los token o smbolos de una palabra son cada una de sus letras; de un prrafo un smbolo o token podra ser toda una oracin.

4. Representacin semntica de palabras:

La representacin del texto debe ser capaz de mantener la similitud semntica entre las palabras que componen el texto, la representacin por Word Embedding es generar vectores de manera que las palabras que sean similares entre s semnticamente, estn cerca una de las otras en el espacio vectorial. Con esto se logra que los vectores resultantes de ste modelo puedan ser utilizados como entrada para el modelo de clasificacin y tengan un mejor rendimiento, al momento de realizar las predicciones de clasificacin.

A pesar de que existen ya modelos pre-establecidos de vectores por Word Embeddings generalizados para tareas de PLN, para el presente estudio se realiza la construccin de un modelo de contexto propio a partir del corpus del conjunto de datos seleccionado, por lo que se obtienen tres modelos de contexto con las distintas arquitecturas antes mencionadas: Word2Vec, FastText y Glove.

Para la construccin de los mencionados modelos de contexto se tienen que establecer ciertos hiper parmetros, los cuales afectan la calidad de entrenamiento, as como la velocidad del mismo. Para los modelos de Word2Vec y FastText se han determinado los siguientes hiper parmetros para el presente estudio:

      MIN_COUNT: Este parmetro se utiliza para delimitar el nmero de veces que la palabra se repite dentro del corpus, ste valor por defecto es 5, sin embargo, depende mucho del tamao del conjunto de datos para entrenar.

      SIZE: Este parmetro determina el tamao del vector resultante que va representar cada palabra; para el presente estudio se configura con un tamao de 300, ya que son los tamaos por defecto que maneja sta arquitectura.

      WINDOW: La ventana o tamao de ventana significa que la palabra del centro es la palabra objetivo y las dems son las palabras de contexto, para el presente estudio se ha considerado un valor de 5.

      SG: este parmetro indica que arquitectura de Word2Vec se utiliza, para el caso de Skip-Gram es 1 y para CBOW es 0.

En el caso del modelo Glove, se define nicamente el hiper parmetro NO_COMPONENT, el mismo que indica la dimensin que van a tener los vectores para cada palabra, lo que equivale al hiper parmetro SIZE, del modelo anterior. La tabla a continuacin muestra la informacin del modelo de contexto obtenido mediante el empleo de la arquitectura Word2Vec con la arquitectura Skip-Gram.

 

Tabla 2. Descripcin del Modelo Word Embedding - Word2Vec

Descripcin de elemento

Valor

Nmero de Documentos

24,960

Tamao del Corpus

3191,187 total words

Tamao del Vocabulario

83,439

Tiempo de entrenamiento

564.44 segundos

Prdidas en el entrenamiento

0.0

pocas

30

Tamao del vector

300

Arquitectura

Skip-Gram

 

Como se puede observar, se han generado vectores de palabras de trecientas dimensiones, esto quiere decir que, para cada palabra dentro del corpus, existe un vector donde cada una de sus dimensiones representa una relacin que tiene sta palabra con el resto de palabras del texto, como se muestra en la siguiente ilustracin:

 

Figura 3. Representacin de Vectores de Palabras por Word Embedding

 

5. Generacin de Secuencias:

Se transforma el corpus de texto en secuencias rellenas de identificadores de palabras para obtener una matriz de caractersticas, cabe resaltar que el relleno de las secuencias se determina con base al tamao de la secuencia de mayor tamao, por lo que, secuencias de menor tamao son rellenadas con cero, hasta lograr un tamao igual a la secuencia mayor, para el presente estudio, el artculo con mayor nmero de palabras dentro del abstract es de 847 palabras, por lo que las secuencias de los dems abstracts de menor tamao sern rellenados con cero, hasta completar el tamao mencionado.

 

6. Divisin de Datos de Entrenamiento y Prueba:

Una vez obtenidas las secuencias para cada uno de los abstracts del corpus, se procede a dividir el conjunto de datos de las secuencias obtenidas en datos de entrenamiento y prueba. Los artculos o datos de entrenamiento son los que aportan a la identificacin de patrones en los datos, tambin en sta etapa se reducen las tasas de error para la etapa de prueba y evaluacin del rendimiento del modelo. Algunos estudios como Khan, et al (2010), indican que, para realizar el entrenamiento de modelos de ML, es necesario contar con un subconjunto representativo lo suficiente para evitar el sobreentrenamiento. Del conjunto de datos seleccionado, el 70% de ellos se consideran como datos de entrenamiento y el 30% como datos de prueba del modelo.

 

 

 

7. Creacin de Matriz de Embeddings

Esta matriz acta como una matriz de pesos, donde el vector de la palabra se ubica en la fila , esto se logra mediante la tokenizacin, que se realiz en la etapa de Pre-procesamiento, donde se obtuvo un diccionario para cada palabra dentro del corpus. Este diccionario contiene un ndice de cada palabra, el mismo que sirve para ubicar cada vector de palabra en la fila correspondiente a dicho ndice. La figura a continuacin muestra el proceso de generacin de la matriz de embeddings.

 

Figura 4. Matriz de Embeddings

 

 

 

       

       

       

       

       

 

 

 

 

 

 

 

8. Modelo de Red Neuronal

Por ltimo, el modelo de red neuronal es creado con la matriz de pesos de cada una de las palabras en el vector de secuencias correspondiente. El objetivo es desarrollar un modelo de clasificacin basado en redes neuronales basado en la arquitectura LSTM, un tipo especial de redes recurrentes; las cuales tienen un mejor desempeo al momento de procesar secuencias de datos, y predecir la salida.

La arquitectura de la red neuronal utilizada en el presente estudio consiste en una red neuronal recurrente LSTM bidireccional, la misma que consta de capas hacia adelante y hacia atrs que estn conectadas juntas a la capa de salida, de esta manera, tales redes neuronales mantienen la informacin contextual en ambas direcciones, lo que es precisamente til para el caso de tareas de clasificacin de texto.

Para entenderlo de mejor manera, la celda RNN toma como valor de entrada un estado oculto o vector, y un vector de palabra, luego esta celda produce como salida el siguiente estado oculto, esta celda RNN tiene algunos pesos que se autoajustan mediante backpropagation de las prdidas. Adems, a todas las palabras se aplica la misma celda para que los pesos se compartan.

Una red neuronal RNN tradicional, para una secuencia longitud determinada proporciona el mismo nmero de salidas que se pueden vincular y luego esta pasarse a la capa de densidad hacia adelante. Por otra parte, la diferencia con las redes LSTM Bidireccionales es que toma la secuencia de entrada tanto en su forma inicial, as como inversa (forward y backward); se aplican dos RNN en paralelo y se obtiene una salida del doble de tamao de la entrada. Una vez obtenida esta salida se enva a la capa de densidad para luego aplicar una funcin softmax y obtener el clasificador de texto. (Abduljabbar, et al, 2021).

Teniendo en cuenta este tipo de red neuronal, se ha construido el modelo de clasificacin para el presente estudio de la siguiente manera:

      La capa de embedding toma las secuencias como entrada y los vectores de palabras como pesos.

      Dos capas de red neuronal LSTM Bidireccional, que tienen como objetivo modelar el orden de palabras en una secuencia en ambas direcciones.

      Dos capas finales de densidad que lo que hacen es predecir la probabilidad de cada una de las distintas categoras.

      Debido a que es un problema multiclase, se emplea una funcin softmax, sta funcin devuelve valores entre 0 y 1, los cuales representan las probabilidades para cada categora.

 

Figura 5. Modelo de Clasificacin basado en una Red Neuronal LSTM Bidireccional

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

De la misma manera que para la construccin de los modelos de contexto o word embeddings se establecieron ciertos hiper parmetros, as tambin, se debe realizar para el modelo de clasificacin basado en redes neuronales. La siguiente tabla muestra los hiper parmetros utilizados en el modelo neuronal del presente estudio junto con una descripcin de cada uno de ellos.

 

Tabla 3. Hiper Parmetros del Modelo de Clasificacin

Hyper Parmetro

Valor

Descripcin

Neuronas en capas BiDirectional LSTM

32

Nmero de neuronas en cada una de las capas de la red neuronal

Nmero de capas

2

Nmero de capas ocultas de la red neuronal

Tamao de vocabulario

83,439

Tamao del vocabulario del corpus de texto, palabras nicas.

Tamao de vectores

300

Tamao del vector de cada palabra obtenido en el modelo

Dropout

0.2

Tcnica para regularizar el sobreajuste en modelos de redes neuronales

Optimizador

adam

 

Activacin

Softmax

Funcin de activacin brinda la probabilidad de cada clase en la salida

 

Anlisis y discusin de resultados

El desarrollo de la experimentacin se realiza en dos partes. La primera consiste en el anlisis de los datos directamente, empleando el modelo propuesto sin considerar la distribucin de los datos y aplicando la metodologa propuesta. Para la segunda parte de la experimentacin se considera la distribucin del conjunto de datos, y en vista que los mismos tienen una distribucin desbalanceada, donde existen clases muy minoritarias, las predicciones del modelo pueden verse afectadas al tener ste tipo de distribucin.

Con el objetivo de afrontar ste fenmeno se aplica la tcnica de muestreo estratificado, la cual consiste en dividir los datos de forma aleatoria en grupos o muestras del mismo tamao, estos grupos o muestras son utilizados para entrenar el modelo. Se han obtenido los resultados de clasificacin con base a los tres modelos propuestos (Mikolov, et al, 2013; Bojanowski, et al, 2017; Pennington, et al, 2014); para la clasificacin de artculos cientficos mediante el anlisis de los abstracts de cada uno de stos artculos.

La Figura a continuacin visualiza el desempeo de los tres modelos propuestos, aplicando las tcnicas de evaluacin de ML, las cuales, de acuerdo con Pedrero et al (2021), permiten lidiar con el problema de grandes cantidades de informacin que resultan difciles de analizar, facilitando la entrega de informacin confiable y rpida, y la toma de decisiones. Los tres modelos presentan un desempeo de las mtricas de precision, recall y f1-score superiores al 80%, lo que se puede entender como un rendimiento aceptable de las predicciones realizadas.

 

Figura 6. Mtricas de Evaluacin

 

 

 

 

 

 

 

 

Para determinar la exactitud o accuracy de cada uno de los modelos, se evala mediante la precisin equilibrada, que no es ms que la media aritmtica sobre la mtrica recall, obtenida para cada clase, sta medida se aplica en vista de que se tiene el conjunto de datos desbalanceado, entonces la mtrica recall, brinda el porcentaje de clasificaciones acertadas que el modelo es capaz de realizar. La siguiente figura muestra la exactitud de cada uno de los modelos.

 

Figura 7. Exactitud de los modelos

 

 

 

 

 

 

 

 

 

 

 

Tal como se observa en la imagen anterior, la exactitud o accuracy de los modelos que emplean Word2Vec y FastText est entre el 72% y 74% respectivamente, mientras que en el caso del modelo empleando Glove se encuentra en el 65%. Esta evaluacin de cada modelo muestra qu tan eficientes son cada uno de ellos, sin embargo, al ser una tarea de clasificacin de tipo multiclase es importante conocer cul es el desempeo que los modelos tienen al predecir cada una de las clases. A continuacin, se presentan las distintas mtricas para cada uno de los modelos desarrollados.

 

Tabla 4. Mtricas de Clase de Modelo Word2Vec

 

Mtricas

Clase

precision

recall

f1-score

Case Report

0,72

0,93

0,81

Diagnosis

0,88

0,82

0,85

Epidemic Forecasting

0,45

0,83

0,58

Mechanism

0,90

0,70

0,79

Prevention

0,97

0,93

0,95

Transmission

0,00

0,00

0,00

Treatment

0,83

0,86

0,85

 

 

Tabla 5. Mtricas de Clase de Modelo FastText

 

Mtricas

Clase

precision

recall

f1-score

Case Report

0,81

0,86

0,83

Diagnosis

0,87

0,89

0,88

Epidemic Forecasting

0,63

0,75

0,68

Mechanism

0,73

0,84

0,78

Prevention

0,96

0,94

0,95

Transmission

1,00

0,02

0,04

Treatment

0,84

0,87

0,86

 

 

 

Tabla 6. Mtricas de Clase de Modelo Glove

 

Mtricas

Clase

precision

recall

f1-score

Case Report

0,77

0,83

0,80

Diagnosis

0,83

0,85

0,84

Epidemic Forecasting

0,61

0,34

0,43

Mechanism

0,78

0,66

0,71

Prevention

0,95

0,94

0,94

Transmission

0,00

0,00

0,00

Treatment

0,81

0,90

0,85

 

Como se puede observar en las tablas anteriormente presentadas, los resultados de las mtricas de evaluacin para cada clase son similares, sin embargo, la mtrica de precision, para el caso del modelo que emplea FastText es del 100% en el caso de la clase Transmission, mientras que los modelos de Word2Vec y Glove son de 0% para dicha clase. Esto se debe a que el conjunto de datos est desbalanceado y existen clases muy mayoritarias en comparacin con otras, por lo que los resultados de la clasificacin realizada se ven afectados por ste fenmeno. Tal como se observ en la etapa de preprocesamiento y anlisis exploratorio de datos, la clase Transmission representa apenas el 0.79% de artculos etiquetados con esta clase, por lo que las predicciones al entrenar los modelos afectan.

Esto tambin puede visualizarse de mejor manera mediante las matrices de confusin de cada modelo, donde se analizan los valores reales de cada clase versus los valores predichos.

Figura 8. Matriz de confusin Modelo: Word2Vec

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figura 9. Matriz de confusin Modelo: FastText

 

 

 

 

 

 

 

 

 

 

 

 

Figura 10. Matriz de confusin Modelo: Glove

Como muestran las figuras anteriores sobre las matrices de confusin de cada modelo, el mayor nmero de artculos que se han logrado clasificar efectivamente corresponde a la clase de Prevention, siendo las siguientes clases con mejor cantidad de artculos clasificados las de Diagnosis, Treatment y Case Report, por otra parte las clases minoritarias la cantidad de artculos clasificados se ven muy afectados, tal es el caso para la clase Transmission, en donde el modelo que emplea FastText realiza una sola prediccin correcta mientras que los otros dos modelos no realizan ninguna.

Con base en el anlisis anteriormente planteado, puede observarse que el presente estudio se ha centrado en la clasificacin de artculos acadmicos sobre la pandemia de COVID-19 a travs de la tcnica de minera de texto Word Embedding; algo muy til hoy da debido a la avalancha de informacin publicada que ha trado consigo la pandemia. As lo afirman Wang & Lo (2021) al mencionar que se han publicado ms de cincuenta mil artculos sobre COVID-19 desde principios de 2020 y se siguen publicando varios cientos de artculos nuevos todos los das. Esta enorme tasa de productividad cientfica, lleva a una sobrecarga de informacin, dificultando que los mdicos, enfermeros, bioanalistas, funcionarios de salud pblica, gobiernos e investigadores, estn al da con los ltimos hallazgos sobre la temtica.

La metodologa analizada parte del procedimiento para la clasificacin multiclase, del conjunto de entrenamiento de LitCovid, que, segn Jimnez, et al (2020) representa una recopilacin de artculos recientemente publicados, cuyas temticas estn relacionadas con la literatura actual del Coronavirus. Este conjunto de datos contiene ms de 23.000 artculos y en promedio se agregan 2.000 nuevos artculos semanalmente, siendo as un recurso integral para que la comunidad cientfica pueda actualizarse con informacin acerca de la crisis que ha provocado la pandemia de la COVID-19.

Se desarrolla la metodologa a seguir para la clasificacin de artculos cientficos, mediante la aplicacin de tcnicas de Deep Learning como lo es Word Embedding, un modelo que, de acuerdo con Mikolov, et al (2013), predice palabras a partir de trminos que estn cercanos a stas en funcin a vectores ms pequeos y densos. Este tipo de mtodos basan su concepto en que si se puede predecir el contexto en el cual aparece una palabra, entonces se entiende el significado de sta en su contexto. Por lo que palabras semnticamente similares estarn cerca entre s en sus representaciones de espacios vectoriales.

Se evaluaron tres modelos propuestos que se basan en tres arquitecturas diferentes de Word Embeddings, a saber, Word2Vec, el FastText y el Glove (Mikolov, et al, 2013; Bojanowski, et al, 2017; Pennington, et al, 2014), con la arquitectura LSTM Bidireccional. La comparacin de los resultados de rendimiento obtenidos para cada modelo mostr que la exactitud o accuracy de cada modelo se encuentran en un rango del 65% al 74%, siendo el modelo que emplea FastText el que alcanz el mayor porcentaje de exactitud mientras que el modelo que emplea Glove alcanz la menor exactitud de los tres.

Sin embargo, al analizar los resultados obtenidos por cada uno de los modelos se observa que no se logr una prediccin con resultados favorables en todas las clases, esto debido a que los datos estn desbalanceados y existen clases muy mayoritarias en comparacin a otras, por lo que las predicciones se ven afectadas por estas clases.

 

Conclusiones

A modo de conclusin, debido a la avalancha de informacin visible en la web sobre COVID-19, es imprescindible la clasificacin de artculos cientficos publicados sobre la mencionada temtica, para lo cual pueden aplicarse tcnicas de Machine Learning, a travs de mecanismos de representacin semntica de palabras como el Word Embeddings y tecnologas basadas en redes neuronales; utilizando el anlisis y procesamiento de los abstracts de artculos cientficos disponibles en las fuentes de informacin como LitCovid.

Con la aplicacin de la propuesta del modelo de clasificacin, se puede concluir que al analizar los resultados obtenidos por cada uno de los modelos se observa que no se logr una prediccin con resultados favorables en todas las clases, esto debido a que los datos estn desbalanceados y existen clases muy mayoritarias en comparacin a otras, por lo que las predicciones se ven afectadas por estas clases.

Por lo tanto, se concluye que, si bien los resultados obtenidos han demostrado que la clasificacin de los artculos acadmicos de tipo multiclase es posible realizarla aplicando la metodologa propuesta, es necesario sealar que se puede mejorar el rendimiento de los modelos aplicando otras tcnicas de seleccin de datos para aminorar el problema que se presenta con el desbalance en la distribucin de los mismos. Adems, a fin de obtener una mayor calidad la representacin semntica de las palabras, pudiera emplearse no solo el anlisis del abstract, sino tambin de partes de segmentos de mayor tamao, como, por ejemplo, la introduccin u otros apartados del documento.

 

Referencias

1.     Abduljabbar, R., Dia, H., & Tsai, P. (2021). Modelos LSTM unidireccionales y bidireccionales para la prediccin del trfico a corto plazo . Journal of Advanced Transportation , 2021(5589075). doi: https://doi.org/10.1155/2021/5589075

2.     Ananiadou, S., Kell, D., & Tsujii, J. (2006). Text mining and its potential applications in systems biology. Trends Biotechnol (24), 571579.

3.     Awasthi, R., Pal, R., Singh, P., Nagori, A., Reddy, S., Gulati, A., . . . Sethi, T. (2020). CovidNLP: A Web Application for Distilling Systemic Implications of COVID-19 Pandemic with Natural Language Processing. MedRxiv.

4.     BMJ Best Practice. (17 de agosto de 2020). Visin general de los coronavirus. (B. P. Group, Ed.) Obtenido de https://bestpractice.bmj.com: https://bestpractice.bmj.com/topics/eses/3000165/

5.     Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, 5, 135-146. doi:https://doi.org/10.1162/tacl_a_00051

6.     Chandrasekaran, B., & Fernandes, S. (january de 2020). Target specific mining of COVID-19 scholarly articles using one-class approach. Diabetes Metab Syndr, 14(4), 337339.

7.     Cohen, A., & Hersh, W. (2005). A survey of current work in biomedical text mining. Brief Bioinform(6), 57-71.

8.     Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. J. Mach. Learn. Res.(12), 24932537.

9.     Daud, A., Khan, W., & Che, D. (2017). Urdu language processing: a survey. . Artificial Intelligence Review, 47(3), 279311. doi:https://doi.org/10.1007/s10462-016-9482-x

10.  Friedman, C., & Johnson, S. (2006). Natural language and text processing in biomedicine. . En E. Shortliffe, & J. Cimino, Biomedical informatics: computer applications in health care and biomedicine (Third ed., pgs. 312 - 343). New York: Springer.

11.  Greenhalgh, T., Choon, G., & Koh, H. (2020). Covid-19: una evaluacin remota en atencin primaria. Practice(368:m1182), 1-5. doi:doi: 10.1136/bmj.m1182

12.  Jimnez, B., Zeng, J., Zhang, D., Zhang, P., & Su, Y. (2020). Clasificacin de documentos para la literatura COVID-19. En A. d. Computacional (Ed.), En Hallazgos de la Asociacin de Lingstica Computacional: : EMNLP 2020 (pgs. 3715-3722). doi:10.18653/v1/2020.hallazgos-emnlp.332

13.  Jurafsky, D., & Martin, J. (2020). Speech and Language Processing: An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition (Third Edition ed.).

14.  Khan, A., Baharudin, B., Hong, L., & khan, K. (2010). A Review of Machine Learning Algorithms for Text-Documents Classification. ournal of Advances in Information Technology, 1(1). doi:https://doi.org/10.4304/jait.1.1.4-20

15.  Kilicoglu, H. (2018). Biomedical text mining for research rigor and integrity: tasks, challenges, directions. Brief Bioinform (19), 1400-1414.

16.  Maguia, C., Gastelo, R., & Tequen, A. (2020). El nuevo Coronavirus y la pandemia del Covid-19. Revista Medica Herediana, 31(2), 125-131. Obtenido de https://doi.org/10.20453/rmh.v31i2.3776

17.  Mikolov, T., Chen, K., Corrado, G., & Dean, J. (16 de January de 2013). Efficient estimation of word representations in vector space. En C. University (Ed.), 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings. Obtenido de https://arxiv.org/abs/1301.3

18.  Ministerio de Sanidad. (2020). Neumona por nuevo coronavirus (2019-nCoV) en Wuhan, provincia de Hubei, (China). Informe Actualizacin n 13, Ministerio de Sanidad, Madrid. Obtenido de https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Actualizacion_13_2019-nCoV_China.pdf

19.  Muhammad, A., Suliman, K., Abeer, K., Nadia, B., & Rabeea, S. (2020). COVID-19 infection: Emergence, transmission, and characteristics of human coronaviruses. Journal ofAdvanced Research(24), 91-98.

20.  Organizacin Panamericana de la Salud. (2022). Artculos cientficos y recursos sobre la COVID-19. Revista Panamericana de Salud Pblica(Nmeros Especiales).

21.  Pedrero, V., Reynaldos-Grandn, K., Ureta-Achurra, J., & Cortez-Pinto, E. (2021). Generalidades del Machine Learning y su aplicacin en la gestin sanitaria en Servicios de Urgencia. Revista mdica de Chile, 149(2), 248-254. doi:https://dx.doi.org/10.4067/s0034-98872021000200248

22.  Pennington, J., Socher, R., & Manning, C. (2014). GloVe: Global Vectors for Word Representation. Actas de la Conferencia de 2014 sobre mtodos empricos en el procesamiento del lenguaje natural (EMNLP) (pgs. 1532-1543). Doha, Qatar: Asociacin de Lingstica Computacional.

23.  Qingyu, C., Alexis, A., & Zhiyong, L. (2021). LitCovid: una base de datos abierta de literatura sobre COVID-19. Nucleic Acids Research, 49(D1), D1534-D1540. doi:https://doi.org/10.1093/nar /gkaa952

24.  Sonbhadra, S., Agarwal, S., & Nagabhushan, P. (2020). Apunte a la extraccin especfica de artculos acadmicos sobre el COVID-19 utilizando un enfoque de clase nica. Caos, solitones y fractales(140 , 110155). Obtenido de https://doi.org/10.1016/j.chaos.2020.110155

25.  Thompson, L. (2003). Inicio de una nueva epidemia, SARS. Rev Med Hered, 14(2), 49.

26.  Torres-Salinas, D. (2020). Ritmo de crecimiento diario de la produccin cientfica sobre Covid-19. Anlisis en bases de datos y repositorios en acceso abierto. El profesional de la informacion(29:e290215). doi:10.3145/epi.2020.mar.15

27.  Wang, L., & Lo, K. (2021). Text mining approaches for dealing with the rapidly expanding literature on COVID-19 . Briefings in Bioinformatics, 22(2), 781799. Obtenido de https://doi.org/10.1093/bib/bbaa296

28.  Zou, W., Socher, R., Cer, D., & Manning, C. (2013). Bilingual word embeddings for phrase-based machine translation. EMNLP, 1393 - 1398.

29.  Zweigenbaum, P., Demner-Fushman, D., Yu, H., & al, e. (2007). Frontiers of biomedical text mining: current progress. Brief Bioinform (8), 358-375.

 

 

 

 

2022 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/