Algoritmos de Aprendizaje Automático en la Predicción del Rendimiento Académico en la Educación Superior

María Gabriela López Barriga; Alex Eduardo Pozo Valdiviezo; Natalia Alexandra Pérez Londo; Cristina Estefanía Ramos Araujo

��

Algoritmos de Aprendizaje Autom�tico en la Predicci�n del Rendimiento Acad�mico en la Educaci�n Superior

Machine Learning Algorithms in Predicting Academic Performance in Higher Education

Algoritmos de aprendizagem autom�tica na previs�o do desempenho acad�mico no ensino superior

Correspondencia: gaby07lopez12@gmail.com

Ciencias de la Educaci�n

Art�culo de Investigaci�n

* Recibido: 01 de mayo de 2024 *Aceptado: 07 de junio de 2024 * Publicado: �25 de julio de 2024

I. Ingeniera Estad�stica, Investigador Externo en la Escuela Superior Polit�cnica de Chimborazo, Riobamba, Ecuador.

II. M�ster en Ciencias, Tecnolog�as, Salud Menci�n Matem�ticas y Aplicaciones-Matem�ticas para las Ciencias de la Vida, Profesor Ocasional Tiempo Completo en la Escuela Superior Polit�cnica de Chimborazo, Riobamba, Ecuador.

III. M�ster Universitario en Estad�stica Aplicada, Profesor Ocasional en la Escuela Superior Polit�cnica de Chimborazo, Riobamba, Ecuador.

IV. M�ster of Science in Applied Mathematics, Profesor Ocasional Tiempo Completo en la Escuela Superior Polit�cnica de Chimborazo, Riobamba, Ecuador.

Resumen

En la educaci�n un problema controversial es el desempe�o acad�mico de los estudiantes lo cual est� asociado con m�ltiples factores internos y externos que afectan a los universitarios los mismos que conllevan al �xito o fracaso del estudiante, por lo tanto, el objetivo de la presente investigaci�n fue elaborar una revisi�n sistem�tica de los algoritmos de Aprendizaje Autom�tico para predecir el rendimiento acad�mico de los estudiantes universitarios. La metodolog�a implementada tuvo un enfoque cualitativo y cuantitativo, se utiliz� un dise�o no experimental y la poblaci�n de estudio corresponde a los art�culos relacionados al rendimiento acad�mico encontrados en las bases de datos como: Scopus, Dialnet, SciELO y ERIC. Se utiliz� el diagrama de flujo PRISMA en donde se encontraron un total de 6437 publicaciones correspondiente a los �ltimos 10 a�os, posteriormente a partir de criterios de inclusi�n y exclusi�n se redujeron a 52 art�culos para ser analizados. Mediante esta metodolog�a se logr� determinar que durante el 2022 hubo mayor parte de publicaciones sobre el tema las mismas que fueron desarrolladas en el continente americano. Tambi�n, se compar� las m�tricas de evaluaci�n como la precisi�n, exactitud, sensibilidad, especificidad, el puntaje F1 y la curva ROC de los algoritmos de Aprendizaje Autom�tico obteniendo que el mejor algoritmo supervisado para predecir el rendimiento acad�mico fue �rbol de Decisi�n con un valor superior al 90% en casi todos los indicadores. En este contexto se concluy� que las variables que m�s influyen en el rendimiento acad�mico fueron las variables relacionadas al factor socioecon�mico, familiar, demogr�fico, personal, institucional, acad�mico pre-universidad y acad�mico universitario los mismos que podr�an ser recolectados para realizar un an�lisis del rendimiento acad�mico en la ESPOCH.

Palabras clave: Revisi�n sistem�tica; �rbol de decisi�n; Aprendizaje autom�tico; M�tricas de evaluaci�n; Rendimiento acad�mico; Educaci�n universitaria; Directrices prisma.

Abstract

In education, a controversial problem is the academic performance of students, which is associated with multiple internal and external factors that affect university students, which lead to the success or failure of the student, therefore, the objective of the present research was to prepare a systematic review of Machine Learning algorithms to predict the academic performance of university students. The methodology implemented had a qualitative and quantitative approach, a non-experimental design was used and the study population corresponds to the articles related to academic performance found in databases such as: Scopus, Dialnet, SciELO and ERIC. The PRISMA flowchart was used where a total of 6,437 publications corresponding to the last 10 years were found, later based on inclusion and exclusion criteria they were reduced to 52 articles to be analyzed. Through this methodology, it was determined that during 2022 there were most publications on the subject, which were developed in the American continent. Also, the evaluation metrics such as precision, accuracy, sensitivity, specificity, F1 score and ROC curve of the Machine Learning algorithms were compared, obtaining that the best supervised algorithm to predict academic performance was Decision Tree with a value higher than 90% in almost all indicators. In this context, it was concluded that the variables that most influence academic performance were the variables related to the socioeconomic, family, demographic, personal, institutional, pre-university academic and university academic factors, which could be collected to perform an analysis of academic performance at ESPOCH.

Keywords: Systematic review; Decision tree; Machine learning; Evaluation metrics; Academic performance; University education; Prisma guidelines.

Resumo

Na educa��o, um problema controverso � o desempenho acad�mico dos estudantes, que est� associado a m�ltiplos fatores internos e externos que afetam os estudantes universit�rios, que levam ao sucesso ou insucesso do aluno, pelo que, o objetivo desta investiga��o foi preparar uma revis�o sistem�tica de algoritmos de aprendizagem autom�tica para prever o desempenho acad�mico de estudantes universit�rios. A metodologia implementada teve uma abordagem qualitativa e quantitativa, foi utilizado um desenho n�o experimental e a popula��o do estudo corresponde aos artigos relacionados com o desempenho acad�mico encontrados em bases de dados como: Scopus, Dialnet, SciELO e ERIC. Foi utilizado o fluxograma PRISMA onde foram encontradas um total de 6.437 publica��es correspondentes aos �ltimos 10 anos, posteriormente, com base em crit�rios de inclus�o e exclus�o, foram reduzidas a 52 artigos a analisar; Recorrendo a esta metodologia, foi poss�vel constatar que durante o ano de 2022 houve um maior n�mero de publica��es sobre o tema, as mesmas que foram desenvolvidas no continente americano. Al�m disso, foram comparadas as m�tricas de avalia��o como a precis�o, exatid�o, sensibilidade, especificidade, o score F1 e a curva ROC dos algoritmos de Machine Learning, obtendo-se que o melhor algoritmo supervisionado para prever o desempenho acad�mico foi a �rvore de Decis�o com valor superior 90% em quase todos os indicadores. Neste contexto, concluiu-se que as vari�veis que mais influenciaram o desempenho acad�mico foram as vari�veis relacionadas com os fatores socioecon�micos, familiares, demogr�ficos, pessoais, institucionais, acad�micos pr�-universit�rios e acad�micos universit�rios, os mesmos que poderiam ser recolhidos para a realiza��o de um estudo.

Palavras-chave: Revis�o sistem�tica; �rvore de decis�o; aprendizagem de m�quina; M�tricas de avalia��o; Rendimento acad�mico; Forma��o universit�ria; Orienta��es do Prisma.

Introducci�n

La educaci�n universitaria ofrece la oportunidad de mejorar la calidad de vida, capacitando a los estudiantes para el campo laboral. Los docentes, capacitados en estrategias y metodolog�as de aprendizaje, son fundamentales para guiar a los estudiantes y extraer su potencial (Arras Vota et al., 2016; Acu�a Benites et al., 2021; Chuyma Huilca et al., 2021; Moreno Dur�n et al., 2016; citados en Mireles y Garc�a, 2022)

El rendimiento de los estudiantes se ve afectado por factores personales, socioculturales, econ�micos y acad�micos, siendo los personales y sociales los m�s comunes (Torres y Rodr�guez, 2006; citados en Gonz�lez y Guadalupe, 2017). El desempe�o escolar refleja conocimientos y rasgos psicol�gicos adquiridos durante el proceso educativo, y se eval�a objetivamente al final del periodo acad�mico (Bravo et al., 2021).

El rendimiento acad�mico puede medirse en diferentes fases y recopilarse en informes y sistemas inform�ticos, permitiendo predecir resultados y tomar decisiones para mejorar el aprendizaje (Guti�rrez et al., 2021; citados en P�ez & Gayt�n, 2022). La predicci�n del rendimiento acad�mico es un campo en crecimiento que emplea enfoques inform�ticos como an�lisis de aprendizaje, aprendizaje autom�tico, miner�a y exploraci�n de datos educativos (Rastrollo et al., 2020; citados en Estrada & Fuentes, 2021). Estos avances facilitan la toma de decisiones en el �mbito educativo (Murnion y Helfert, 2013; citados en Bravo et al., 2021).

Revisar la literatura es esencial para contextualizar y fundamentar la investigaci�n, definir conceptos y teor�as, desarrollar hip�tesis y mejorar la metodolog�a (Arnau & Sala, 2020). Dada la influencia de factores internos y externos en el rendimiento acad�mico, es necesario revisar la literatura cient�fica para identificarlos.

Aprendizaje Autom�tico

El Aprendizaje Autom�tico (AA) es un �rea de la inteligencia artificial centrada en desarrollar algoritmos que pueden aprender y mejorar a partir de los datos sin programaci�n expl�cita, lo cual ahorra tiempo y esfuerzo (Sandoval, 2018). Permite a los ordenadores aprender de los datos disponibles, extrayendo patrones y generando algoritmos para categorizaci�n, predicci�n y explicaci�n, en lugar de seguir instrucciones paso a paso (Bobadilla, 2020). Aunque es una t�cnica dentro de la inteligencia artificial, esta �ltima incluye una gama m�s amplia de m�todos para analizar datos, como el procesamiento del lenguaje natural. El AA se introdujo en la d�cada de 1950 para simular aspectos de la cognici�n humana (Pedrero et al., 2021).

Algoritmos de Aprendizaje Autom�tico

Los algoritmos de aprendizaje autom�tico se dividen en tres categor�as: supervisado, no supervisado y por refuerzo. El aprendizaje supervisado se denomina as� porque se entrena un algoritmo con preguntas (caracter�sticas) y respuestas (etiquetas), permitiendo al modelo hacer predicciones futuras basadas en ese conocimiento (Sandoval, 2018). Su objetivo es relacionar variables con un resultado deseado y hacer predicciones con nuevos datos una vez terminado el entrenamiento (Pedrero et al., 2021). Los algoritmos comunes de aprendizaje supervisado son:� Regresi�n Lineal y algoritmo de Clasificaci�n. Dentro de los algoritmos de clasificaci�n constan redes neuronales, m�quina de Vectores de Soporte (SVM), Na�ve Bayes, �rbol de Decisi�n, K-Nearest Neighbor (KNN) y bosque Aleatorio (Random Forest) (MENASALVAS et al., 2023).

El aprendizaje no supervisado se refiere a t�cnicas donde se analizan datos no etiquetados para descubrir patrones ocultos, en contraste con el aprendizaje supervisado, que intenta predecir valores basados en datos etiquetados. Los dos enfoques principales en aprendizaje no supervisado son: Clustering (Agrupaci�n y Reducci�n de Dimensionalidad. Ambos m�todos ayudan a analizar datos complejos y a extraer informaci�n valiosa sin necesidad de etiquetas predefinidas (Romero, 2015).

El Aprendizaje por Refuerzo es una t�cnica de Aprendizaje Autom�tico que permite a los agentes aprender a trav�s de interacciones de prueba y error en un entorno din�mico. Se enfoca en optimizar el comportamiento del agente para maximizar una recompensa acumulada, en lugar de usar un conjunto de datos de entrenamiento fijo. Es especialmente �til en problemas donde crear un algoritmo de antemano es muy costoso, como en la gesti�n de recursos, planificaci�n, control del tr�fico, rob�tica, detecci�n de intrusos, control de sistemas energ�ticos, y detecci�n de fraudes. Actualmente, se requiere un gran poder de procesamiento de datos para abordar estos problemas (Cervantes et al., 2019).

M�tricas de evaluaci�n de los algoritmos del Aprendizaje Autom�tico

Para evaluar la calidad de un algoritmo de Aprendizaje Autom�tico, es crucial considerar la calidad de la predicci�n y el grado de generalizaci�n. Estas evaluaciones se basan en m�tricas derivadas de la matriz de confusi�n. Esta matriz, utilizada en pruebas binarias, muestra los resultados de las predicciones comparadas con los valores verdaderos. Los cuatro resultados principales en la matriz de confusi�n son:

Falsos positivos (FP): Casos etiquetados como positivos por el algoritmo, pero en realidad son negativos.

Falsos negativos (FN): Casos etiquetados como negativos, pero en realidad son positivos.

Verdaderos negativos (TN): Casos correctamente predichos como negativos.

Verdaderos positivos (TP): Casos correctamente predichos como positivos (Pedrero et al., 2021; Arias, 2013).

Tabla 1: Matriz de confusi�n

	PREDICHOS
	Positivos	Negativos
Positivos	Verdaderos Positivos (TP) Falsos Positivos (FP)	Falsos Negativos (FN) Verdaderos Negativos (TN)
Negativos	Verdaderos Positivos (TP) Falsos Positivos (FP)	Falsos Negativos (FN) Verdaderos Negativos (TN)

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

Precisi�n: La proporci�n de casos positivos predichos con precisi�n respecto al n�mero total de casos positivos esperados es una m�trica de evaluaci�n utilizada con frecuencia para tareas de clasificaci�n (Contreras et al., 2020, p.239).

�� (1)

Exactitud: El n�mero de instancias predichas correctamente dividido por el n�mero total de registros es la forma m�s directa de evaluar la precisi�n de un clasificador (Contreras et al., 2020, p.239).

�� (2)

Sensibilidad: Esta m�trica ilustra lo bien que el algoritmo predice situaciones positivas; indica la proporci�n de predicciones positivas que son realmente positivas en relaci�n con el n�mero total de predicciones reales clasificadas como positivas (Mart�nez, 2022, p.33).

�� (3)

Puntaje F1: Es la media de la precisi�n y la sensibilidad, ponderadas conjuntamente. La asociaci�n entre esta puntuaci�n y la calidad del algoritmo se basa en la idea de que mayores porcentajes de F1 indican algoritmos m�s potentes. Esta puntuaci�n tiene en cuenta tanto los falsos positivos como los falsos negativos (Silva, 2020).

�� (4)

Especificidad: Una medida de la precisi�n del algoritmo en la clasificaci�n de situaciones negativas es el n�mero de verdaderos negativos dividido por el n�mero total de verdaderos negativos, que es lo mismo que el n�mero de casos negativos (Camps, 2023, p.63).

�� (5)

Curva ROC: El t�rmino hace referencia a la Caracter�stica Operativa del Receptor, que es una representaci�n gr�fica de la especificidad (eje X) frente a la sensibilidad (eje Y) de un clasificador binario. Bas�ndose en un umbral predeterminado, se mide por el �rea bajo la curva (AUC), que indica lo bien que el algoritmo distingue y predice entre las dos clases. Los valores en ambos ejes van de 0 a 1, o lo que es lo mismo, de 0% a 100% en t�rminos porcentuales (Mart�nez, 2022).

Metodolog�a

Por el m�todo de investigaci�n el estudio fue mixto, te�rico y descriptivo, debido a la combinaci�n de resultados cuantitativos y cualitativos. Se ha realizado de manera no experimental e inductivo-deductiva, analizando el rendimiento acad�mico en la educaci�n superior en funci�n de factores geogr�ficos, econ�micos y sociales durante el periodo 2013-2022. La poblaci�n de estudio corresponde a las publicaciones relacionados al rendimiento acad�mico con algoritmos de Aprendizaje Autom�tico encontrados en las diferentes bases de datos cient�ficas durante el per�odo 2013 � 2022.

Para el desarrollo del presente estudio se utiliz� como estrategia metodol�gica la revisi�n sistem�tica de art�culos cient�ficos, la cual adopta t�cnicas claras y sistem�ticos para la identificaci�n, cribado e inclusi�n de la informaci�n sobre el tema de inter�s garantizando que la investigaci�n sea fiable y rigurosa. La t�cnica PRISMA, acr�nimo de Preferred Reporting Items for Systematic Reviews and Meta-Analyses, cre� una normativa internacional, se ha considerado durante la selecci�n de los trabajos y el proceso de revisi�n sistem�tica. Los estudios fueron evaluados cr�ticamente para comparar los algoritmos de aprendizaje autom�tico en t�rminos de precisi�n, sensibilidad y especificidad.

Resultados

Se realiz� una b�squeda en diversas bases de datos usando descriptores y operadores booleanos, centrada en �predicci�n del rendimiento acad�mico con algoritmos de Aprendizaje Autom�tico�. Los resultados obtenidos se muestran en las tablas siguientes. Se aplicaron criterios adicionales de inclusi�n y exclusi�n para seleccionar los art�culos finales para la investigaci�n. Se consideraron un total de 6,437 art�culos cient�ficos sobre el rendimiento acad�mico utilizando algoritmos de Aprendizaje Autom�tico, publicados en los �ltimos 10 a�os. Posteriormente, se eliminaron los documentos duplicados mediante la herramienta de automatizaci�n Zotero, reduciendo la poblaci�n a 6,019 art�culos. A continuaci�n, se realiz� una revisi�n preliminar de t�tulos y res�menes, eliminando 5,788 publicaciones que no estaban relacionadas con el �rea de educaci�n.

Asimismo, se excluyeron 88 art�culos que no ofrec�an acceso libre. Tras una lectura completa y de acuerdo con los criterios de exclusi�n establecidos, se descartaron 91 estudios adicionales. Finalmente, se incluyeron 52 art�culos en la revisi�n sistem�tica.

Tabla 2: Resultados de b�squeda

Bases de datos	N� de art�culos
Scopus	5948
Dialnet	246
SciELO	44
ERIC	199
Total	6437

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

La Figura 1 muestra el diagrama de flujo que ejemplifica c�mo se han encontrado y seleccionado los art�culos cient�ficos utilizando las directrices PRISMA 2020.

Figura 1: Diagrama de flujo mediante las directrices internacionales PRISMA

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

Se ha dise�ado una serie de preguntas con el fin de evaluar la rigurosidad, la credibilidad y pertinencia de los estudios seleccionados. Para esta evaluaci�n se ha empleado los criterios para evaluar la calidad del estudio en referencia al autor (Wen et al., 2010) debido a que estos son aplicables a cualquier estudio.

Tabla 3: Criterios para evaluar la calidad de los estudios

Pregunta	ID
�Est�n bien definidos los objetivos de la investigaci�n?	PC1
�Existe una descripci�n apropiada del contexto en el que se llev� a cabo la investigaci�n?	PC2
�El dise�o de la investigaci�n fue apropiado y justificable?	PC3
�Se analizan expl�citamente las limitaciones del estudio?	PC4
�Se aplica el experimento en suficientes conjuntos de datos del estudio?	PC5
�Se compara el m�todo de estimaci�n propuesto con otros m�todos?	PC6
�Los hallazgos del estudio est�n claramente establecidos?	PC7
�Los resultados del estudio son de gran valor para la comunidad acad�mica?	PC8

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

Tras aplicar los criterios de calidad, se determin� que los 52 art�culos cient�ficos seleccionados cumplen con un nivel aceptable, puesto que el valor final de calidad es superior a 4 (50% de la puntuaci�n correcta). Estos art�culos conforman una muestra significativa que facilitar� el desarrollo s�lido de la investigaci�n. Se ha identificado los art�culos cient�ficos de acuerdo al pa�s de origen y se agrup� de acuerdo al continente al que pertenece.

Se observ� que el 48%de las investigaciones sobre rendimiento acad�mico se llevaron a cabo en el continente americano, con Colombia y M�xico destac�ndose como los principales contribuyentes. En contraste, solo el 1.92% de los art�culos provienen del continente oce�nico. Dado que los datos no provienen de una distribuci�n normal y la varianza entre los grupos es constante, se opt� por aplicar el test no param�trico de Kruskal-Wallis. Este test se utiliza para determinar si existen diferencias significativas en las m�tricas de evaluaci�n en relaci�n con los diferentes continentes.

Figura 2: N�mero de art�culos clasificados por continentes

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

En la Tabla 4 se evidenci� un valor p-valor menor que el nivel de significancia 0.05, por tanto, no existe diferencias significativas en las m�tricas de precisi�n, puntaje F1 y especificidad (p-valores de 0.1125, 0.1021 y 0.3126 respectivamente), lo que indica que la calidad predictiva de los algoritmos de aprendizaje autom�tico clasificados por continentes es estad�sticamente igual en estas m�tricas. Sin embargo, s� se encontraron diferencias significativas en las m�tricas de exactitud y sensibilidad (p-valores de 0.02878 y 0.0392 respectivamente), lo que sugiere que la calidad predictiva de al menos dos algoritmos de aprendizaje autom�tico entre continentes es estad�sticamente diferente en estas m�tricas.

El test de Kruscal Wallis ha mostrado la existencia de diferencia significativa entre los algoritmos, pero no se conoce en cuales difieren, por esta raz�n se ha aplicado el test de Nemenyi para comparar entre pares de continentes.

Precisi�n:

Tabla 4: Test de Kruscal Wallis de la m�trica de precisi�n, exactitud, sensibilidad especificidad y puntaje f1

M�trica	Estad�stico Chi-cuadrado	Grados de libertad	p-valor
Precisi�n	59.823	3	0.1125
Exactitud	90.386	3	0.02878
Sensibilidad	10.074	4	0.0392
Especificidad	35.635	3	0.3126
Puntaje	62.043	3	0.1021

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

Mediante el test de Nemenyi (Tabla 5 y 6), se observ� que los algoritmos de aprendizaje autom�tico presentan diferencias significativas en las m�tricas de exactitud y sensibilidad entre los continentes de Asia y Am�rica. Sin embargo, para el resto de los continentes, no se encontraron diferencias significativas.

Como es de inter�s encontrar un algoritmo predictivo del rendimiento acad�mico en nuestro pa�s Ecuador se ha analizado minuciosamente las m�tricas de evaluaci�n de los algoritmos de Aprendizaje Autom�tico en el continente americano.

Tabla 5: Diferencia significativa de Nemenyi de la exactitud

Continentes	p-valor
Am�rica - Africa	1.00
Asia - �frica	0.71
Europa - �frica	0.99
Asia - Am�rica	0.03
Europa � Am�rica	1.00
Europa - Asia	0.13

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

A continuaci�n, se ha aplicado el test de Nemenyi para comparar entre pares de continentes.

Tabla 6: Diferencia significativa de Nemenyi de la sensibilidad

Continentes	p-valor
Am�rica - Africa	0.995
Asia - �frica	0.852
Europa - �frica	0.978
Ocean�a - �frica	0.999
Asia - Am�rica	0.037
Europa � Am�rica	0.996
Ocean�a � Am�rica	1.000
Europa - Asia	0.122
Ocean�a - Asia	0.843
Ocean�a - Europa	1.000

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

Cumpliendo con los supuestos de normalidad y homocedasticidad, aplicamos un an�lisis de varianza (ANOVA) para evaluar las diferencias en las m�tricas de evaluaci�n de los algoritmos de aprendizaje autom�tico en el continente americano. Los resultados indican diferencias significativas en las m�tricas de precisi�n (p-valor = 0.0206), exactitud (p-valor = 0.0144), sensibilidad (p-valor = 0.0287) y puntaje F1 (p-valor = 0.0208), todas con p-valores menores que el nivel de significancia de 0.05, lo que lleva a rechazar la hip�tesis nula. Esto sugiere que, en promedio, al menos dos algoritmos difieren en estas m�tricas. Sin embargo, no se encontraron diferencias significativas en la m�trica de especificidad (p-valor = 0.518), lo que implica que la especificidad de los algoritmos es estad�sticamente igual.

Curva ROC

Al analizar las representaciones gr�ficas (Fig. 3) de la curva ROC y el �rea bajo la curva (AUC) de los algoritmos encontrados en precisi�n, se observ� que el algoritmo Random Forest present� un AUC de 89.60%, indicando una mayor capacidad predictiva con aproximadamente un 90% de probabilidad de realizar predicciones correctas. Dado que el valor AUC del algoritmo RF se encuentra en el intervalo [0.75, 0.9), se ha considerado un algoritmo bueno en comparaci�n con RN, cuyo AUC se sit�a en el intervalo [0.6, 0.75), consider�ndose as� un algoritmo regular para el c�lculo de predicciones.

Para la m�trica de exactitud, se evidenci� que el algoritmo Decisi�n Tree present� un AUC de 94.8%, indicando una mayor capacidad predictiva con aproximadamente un 95% de probabilidad de realizar predicciones correctas. Dado que el valor AUC del algoritmo DT se encuentra en el intervalo [0.9, 0.97), se ha considerado un algoritmo muy bueno en comparaci�n con NB, cuyo AUC se sit�a en el intervalo [0.6, 0.75), consider�ndose as� un algoritmo regular para el c�lculo de predicciones.

En cuanto a la sensibilidad, el algoritmo Gradient Boosting present� un AUC de 94.85%, indicando una mayor capacidad predictiva con aproximadamente un 95% de probabilidad de realizar predicciones correctas. Dado que el valor AUC del algoritmo GB se encuentra en el intervalo [0.9, 0.97), se ha considerado un algoritmo muy bueno en comparaci�n con NB, cuyo AUC se sit�a en el intervalo [0.6, 0.75), consider�ndose as� un algoritmo regular para el c�lculo de predicciones.

Para el puntaje F1, el algoritmo Decisi�n Tree obtuvo un AUC de 94.85%, indicando una mayor capacidad predictiva con aproximadamente un 95% de probabilidad de realizar predicciones correctas. Dado que el valor AUC del algoritmo DT se encuentra en el intervalo [0.9, 0.97), se ha considerado un algoritmo muy bueno en comparaci�n con NB, cuyo AUC se sit�a en el intervalo [0.6, 0.75), consider�ndose as� un algoritmo regular para el c�lculo de predicciones.

Figura 3: Curvas ROC de los algoritmos Redes Neuronales y Random Forest

Precisi�n

�

Exactitud

Sencibilidad

Puntaje F1

Realizado por: L�pez, Mar�a y Gualpa, Henry, 2023

Discusi�n

La revisi�n sistem�tica revela varios estudios sobre la predicci�n del rendimiento acad�mico, identificando diversos factores que afectan el desempe�o de los estudiantes universitarios (Garc�a, 2020). Se analizaron diferentes algoritmos de aprendizaje autom�tico, destacando: Random Forest, que clasific� correctamente el 97.51% de los estudiantes potenciales desertores (P�ez & Ram�rez, 2022) (Huguet-Torres et al., 2024).

�Este resultado super� al Gradient Boosting (Chen & Yuanzhao, 2023) por una diferencia del 4.58%. Sin embargo, el Decisi�n Tree (Buena�o et al., 2019) mostr� una exactitud del 96.55% en la clasificaci�n de desertores y no desertores, superior al 91.23% del Random Forest.

En t�rminos de sensibilidad, el Decisi�n Tree identific� el 98.37% de los estudiantes que desertaron, mientras que la especificidad del Random Forest fue del 93.51%, mayor que el 81.34% del Gradient Boosting. El puntaje F1 del Decisi�n Tree fue el mejor, alcanzando un 97.86%, en comparaci�n con el 85.51% del Random Forest. El AUC de la curva ROC mostr� que el Decisi�n Tree obtuvo un 94.85%, superior al 89.86% del Gradient Boosting, indicando un mejor umbral de conveniencia. El Decisi�n Tree se considera el mejor algoritmo debido a su estructura jer�rquica, facilidad de interpretaci�n, y bajo costo computacional. Es un algoritmo no param�trico, por lo que no requiere normalizaci�n de datos y es �til tanto para clasificaci�n como para regresi�n.

En cuanto a la recolecci�n de datos, el estudio de Huguet-Torres et al. (2024) utiliz� un cuestionario con 41 preguntas aplicadas a 4987 estudiantes. Buena�o et al. (2019) emplearon datos hist�ricos de 335 estudiantes entre los semestres 2016-1 y 2018-2 en una universidad de Ecuador. Taya et al. (2022) utilizaron una muestra de 3406 estudiantes en los periodos acad�micos 2019-I y 2020-I, considerando variables como calificaciones finales, acceso al aula virtual, y factores institucionales. Para predecir el rendimiento acad�mico en la ESPOCH, se consideran variables relevantes como la situaci�n laboral del estudiante, tecnolog�a disponible, ingreso familiar, clima familiar, nivel educativo de los padres, entre otras. En contraste, variables como el n�mero de integrantes de la familia y la provincia tienen menor relevancia.

Conclusiones

Para esta investigaci�n se seleccionaron cuatro bases de datos de lectura cient�fica Scopus, SciELO, Dialnet y ERIC debido a su relevancia educativa, facilidad de navegaci�n y capacidad para realizar b�squedas avanzadas. Estas bases de datos permitieron identificar un total de 6,437 art�culos cient�ficos publicados en los �ltimos 10 a�os. Aplicando las directrices internacionales del m�todo PRISMA, que proporciona un enfoque estructurado para la identificaci�n, cribado e inclusi�n de estudios, se logr� obtener una muestra significativa de 52 art�culos relevantes para esta investigaci�n. La aplicaci�n rigurosa del m�todo PRISMA asegur� la calidad y pertinencia de los estudios seleccionados, proporcionando una base s�lida para el an�lisis y las conclusiones de esta investigaci�n.

En este estudio se compararon las m�tricas de evaluaci�n de algoritmos de Aprendizaje Autom�tico, incluyendo precisi�n, exactitud, sensibilidad, puntaje F1 y especificidad, utilizando pruebas de hip�tesis como ANOVA, Kruskal-Wallis y Nemenyi. Los resultados revelaron que el algoritmo de Decisi�n Tree es el m�s eficaz para predecir el rendimiento acad�mico, destac�ndose con valores superiores al 90% en casi todas las m�tricas evaluadas. Este rendimiento sobresaliente se debe a varias caracter�sticas del algoritmo: es relativamente f�cil de entrenar, predecir e interpretar; es no param�trico, por lo que no requiere normalizaci�n de datos; y presenta un costo computacional menor en comparaci�n con otros algoritmos. Adem�s, el Decisi�n Tree es variable para tareas de clasificaci�n y regresi�n, y resulta muy �til en la exploraci�n de datos. Su capacidad para manejar una variedad de variables cualitativas y cuantitativas, seleccionando autom�ticamente las m�s relevantes, lo convierte en una herramienta valiosa para la predicci�n del rendimiento acad�mico.

Referencias

1. Arias, R., Santa, J. & Veloza, J. (2013). Aplicaci�n del aprendizaje autom�tico con �rboles de decisi�n en el diagn�stico m�dico. Cultura del cuidado, 10(1), 63-72. https://doi.org/10.18041/1794-5232/cultrua.2013v10n1.2102

2. Arnau Sabat�s, L., & Sala Roca, J. (2013). La revisi�n de la literatura cient�fica: Pautas, procedimientos y crit�rios de calidad. Universitat Aut�noma de Barcelona, 1(1), 1-22. https://ddd.uab.cat/pub/recdoc/2020/222109/revliltcie_a2020.pdf

3. Bobadilla, J. (2021). Machine learning y deep learning: usando Python, Scikit y Keras. Ediciones de la U. https://acortar.link/knhqbH

4. Bravo, L., Fuentes, H., & Rivas, E. (2021). An�lisis del rendimiento acad�mico mediante t�cnicas de aprendizaje autom�tico con m�todos de ensamble. Revista Bolet�n Redipe, 10(13), 171-190. https://doi.org/10.36260/rbr.v10i13.1737

5. Buena�o, D., Gil, D., & Luj�n, S. (2019). Application of machine learning in predicting performance for computer engineering students: A case study. Sustainability, 11(10), 2833. https://doi.org/10.3390/su11102833

6. Camps, N. (2023). Mejora de modelos de predicci�n de sepsis en pacientes en Unidades de Cuidados Intensivos mediante t�cnicas de Machine Learning (Tesis de Grado, Universidad de Alicante). http://rua.ua.es/dspace/handle/10045/136223

7. Cervantes, G., Vega, E., & Portilla, E. (2019). Machine Learning para Robots, del Entrenamiento Virtual a la Tarea Real. P�di Bolet�n Cient�fico de Ciencias B�sicas e Ingenier�as del ICBI, 7(Especial), 14-18. https://doi.org/10.29057/icbi.v7iEspecial.4785

8. Chen, S., & Yuanzhao , D. (2023). A machine learning approach to predicting academic performance in Pennsylvania�s schools. Social Sciences, 12(3), 118. https://doi.org/10.3390/socsci12030118

9. Contreras, L., Fuentes, H., & Rodr�guez, J. (2020). Predicci�n del rendimiento acad�mico como indicador de �xito/fracaso de los estudiantes de ingenier�a, mediante aprendizaje autom�tico. Formaci�n universitaria, 13(5), 233-246. http://dx.doi.org/10.4067/S0718-50062020000500233

10. Estrada, O., & Fuentes, D. (2021). � Se logra predecir el rendimiento acad�mico? Un an�lisis desde la tecnolog�a educativa. Revista Fuentes, 23(3), 363-375. https://doi.org/10.12795/revistafuentes.2021.14278

11. Garcia, L. (2020). Revisi�n sistem�tica sobre la predicci�n del rendimiento acad�mico en estudiantes: t�cnicas y algoritmos (Tesis de Grado, Universidad Cat�lica Santo Toribio de Mogrovejo). http://hdl.handle.net/20.500.12423/3635

12. Gonz�lez, C., & Guadalupe, E. (2017). Factores que inciden en el rendimiento acad�mico de los estudiantes de la Universidad Polit�cnica del Valle de Toluca. Revista Latinoamericana de estudios Educativos, 47(1), 91-108. http://ri.ibero.mx/handle/ibero/4886

13. Huguet-Torres, A., Carrero-Planells, A., Fresneda, A., Sebasti�n-Hern�ndez, R., Sans�, N., Moreno-Mulet, C., & Y��ez, A. (2024). Impacto personal y acad�mico de la pandemia por COVID-19 en los estudiantes de enfermer�a en Espa�a (EsE-COVID). Medicina Balear, 38 (5), 108-116. https://repositori.uib.es/xmlui/handle/11201/164289

14. Mart�nez, T. (2022). Comparaci�n de modelos machine learning aplicados al riesgo de cr�dito. 33-34. (F. d. Universidad de Concepci�n, Ed.) Chile. http://repositorio.udec.cl/xmlui/handle/11594/9846

15. MENASALVAS, H., & etal. (2023). Newsletter trimestral de la C�tedra Idanae:�tica e Inteligencia Artificial -Management Solutions. Universidad Polit�cnica de Madrid. https://blogs.upm.es/catedra-idanae/wp-content/uploads/sites/698/2020/01/Idanae-ESP-4T19-LR.pdf

16. Mireles, M., & Garc�a, J. (2022). Satisfacci�n estudiantil en universitarios: una revisi�n sistem�tica de la literatura. Revista Educaci�n, 46(2), 610-626. https://revistas.ucr.ac.cr/index.php/educacion/article/view/47621

17. P�ez, A., & Gayt�n, N. (2022). Modelos predictivos del rendimiento acad�mico a partir de caracter�sticas de estudiantes de ingenier�a. IE Revista de Investigaci�n Educativa de la REDIECH, 13, 1-18. https://www.redalyc.org/journal/5216/521670731008/521670731008.pdf

18. Pedrero, V., Reynaldos, K., Ureta, J., & Cortez, E. (2021). Generalidades del Machine Learning y su aplicaci�n en la gesti�n sanitaria en Servicios de Urgencia. Revista m�dica de Chile, 149(2), 248-254. http://dx.doi.org/10.4067/s0034-98872021000200248

19. Romero, S. (2015). Uso de t�cnicas de machine learning para predecir el rendimiento acad�mico de los estudiantes de la Carrera de Ingenier�a Civil en Inform�tica de la Universidad del B�o-B�o, Chill�n (Tesis de Grado, Universidad del B�o B�o) http://repobib.ubiobio.cl/jspui/bitstream/123456789/2610/1/Soto%20Romero%2c%20Gaspar.pdf

20. Sandoval, L. (2018). Algoritmos de aprendizaje autom�tico para an�lisis y predicci�n de datos. Revista Tecnol�gica(11). http://redicces.org.sv/jspui/bitstream/10972/3626/1/Art6_RT2018.pdf

21. Silva, I. (2020). Una metodolog�a sistem�tica para evaluar los modelos de predicci�n para la clasificaci�n del estilo de conducci�n. Madrid (Tesis Doctoral, Universidad Polit�cnica de Madrid). https://doi.org/10.20868/UPM.thesis.66065

22. Taya-Acosta, E., Barraza-Vizcarra, H., Ramirez-Rejas, R., & Taya-Osorio, E. (2022). Academic Performance Evaluation Using Data Mining in Times of Pandemic: Relationship between Access to the Virtual Classroom and Grades of University Students. TECHNO REVIEW. International Technology, Science and Society Review/Revista Internacional De Tecnolog�a, Ciencia Y Sociedad, 11(1), 89-106. https://eaapublishing.org/journals/index.php/technorev/article/view/484

23. Wen, P., Macdonald, D., Reardon, D., Cloughesy, T., Sorensen, A., Galanis, E., & Chang, S. (2010). Updated response assessment criteria for high-grade gliomas: response assessment in neuro-oncology working group. Journal of clinical oncology, 28(11), 1963-1972. https://ascopubs.org/doi/full/10.1200/JCO.2009.26.3541

� 2024 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

Polo del Conocimiento

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo

Manta - Ecuador

Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/

Normas para los Autores

Manual para subir artículos en OJS

REGÍSTRATE

INFORMACIÓN

Enlaces de Referencia

Nombre de usuario
Clave
Recordar mis datos