Técnicas supervisadas de minería de datos para el análisis del rendimiento académico … 2
Rev. Amaz. Cienc. Básicas. Apli. 1(2): e190 (2022). e-ISSN: 2810-8736
1. Introducción
El rendimiento académico ha sido por décadas un tema de estudio, actualmente constituye uno
de los temas importantes y trascendentales en la investigación educativa que haciendo uso de las
herramientas y técnicas tradicionales será difícil comprenderlos y analizarlo en su real magnitud,
en este sentido es necesario un análisis empleando técnicas cercanas al aprendizaje automático y
minería de datos (Cano Celestino & Robles Rivera, 2018). En relación a ello Norabuena Penadillo
(2011), manifiesta que en una sociedad de la información como la que estamos atravesando, uno
de los grandes desafíos de la educación en todos sus niveles, es transformar la gran cantidad de
información disponible en conocimiento con fines de mejorar la toma de decisiones.
La minería de datos se define como el conjunto de técnicas y tecnologías que permiten explorar
grandes bases de datos, de forma automática o semiautomática, con el objetivo de encontrar
patrones, tendencias o reglas repetitivas que expliquen el comportamiento de los datos en un
contexto dado (Enke & Thawornwong, 2005; Trakunphutthirak & Lee, 2022; Khor, 2022).
La minería de datos en el sector educativo o minería de datos educativos es un tema emergente
debido a la gran cantidad de datos que se generan diariamente en las instituciones de educación
básica y superior públicas o privadas de cualquier país. La minería de datos educativos se centra
en el descubrimiento de conocimientos de todas las bases de datos educativas generadas por
individuos y grupos de individuos apoyados en marcos institucionales (Lemay et al., 2021; Nabil
et al., 2022). Los últimos avances en la minería de datos permiten la extracción de conocimiento
con fines de mejorar la calidad del proceso educativo (Asif et al., 2017).
Según Han et al. (2012) las técnicas de minería de datos se clasifican en: técnicas predictivas o
supervisadas y técnicas descriptivas. Los algoritmos predictivos o supervisados permiten
predecir el valor de un atributo (etiqueta) de un conjunto de datos, conociendo otros atributos
(atributos descriptivos). A partir de los datos cuya etiqueta se conoce, se obtiene una relación
entre esa etiqueta y otro conjunto de atributos (Han et al., 2012).
Estas relaciones se utilizan para hacer la predicción en datos cuya etiqueta se desconoce. Según
Rosado Gómez & Verjel Ibáñez (2015) las técnicas predictivas tienen las tareas de clasificación y
regresión. Las tareas de regresión buscan obtener un modelo que permita predecir el valor
numérico de alguna variable, mientras que la tarea de clasificación tiene una respuesta categórica
(Valcárcel Asencios, 2014). Las técnicas supervisadas o predictivas incluyen los métodos de
Análisis de Regresión Logística, Redes Neuronales Artificiales, Árboles de Decisión, Bootstrap,
Bagging, CART, Random Forest, C5.0 y Support Vector Machines.
Por otro lado, en las técnicas no supervisadas o descriptivas no se asigna un objetivo
predeterminado a las variables. Se supone que no existen variables dependientes o
independientes, ni se supone la existencia de un modelo previo para los datos. Los modelos se
crean automáticamente a partir del reconocimiento de patrones. Esta técnica incluye métodos de
agrupamiento y segmentación, métodos de asociación y reducción de dimensiones y escalado
multidimensional. Tanto las técnicas predictivas como las descriptivas se centran en el
descubrimiento de conocimiento integrado en los datos.
El rendimiento de los estudiantes es una parte esencial en las instituciones de enseñanza superior,
esto se debe a que uno de los criterios de una universidad de alta calidad se basa en su excelente
historial de logros académicos (Shahiri et al., 2015). En este contexto el análisis y estudio del
rendimiento académico mediante técnicas de minería de datos en centros de educación superior
cobra importancia, con fines de entender de mejor manera el rendimiento académico y poder
valorar la calidad de los aprendizajes, como lo afirma Cano Celestino & Robles Rivera (2018)
textualmente: “el rendimiento académico constituye un indicador importante a la hora de valorar
la calidad educativa en la educación superior”. La minería de datos y el campo de la educación
se combinan en lo que se denomina minería de datos educativos, que ayuda a identificar las
características y la información de los estudiantes (Amjad et al., 2022). Asimismo, la minería de
datos es una de las técnicas más populares para analizar el rendimiento de los estudiantes. Así,