����������������������������������������������������������������������������������

 

Modelos de minado de texto para la implementaci�n de sistemas de predicci�n de plagio de la Universidad T�cnica de Manab�

 

Text mining models for the implementation of plagiarism prediction systems at the Technical University of Manab�

 

Modelos de minera��o de texto para a implementa��o de sistemas de previs�o de pl�gio na Universidade T�cnica de Manab�

 

 

Dario Xavier Mieles Macias I
dmiles0735@utml.edu.ec
 https://orcid.org/0000-0001-8689-8218
Ermenson Ricardo Ordo�ez Avila II
ermensonrodo�ez@gmail.com
https://orcid.org/0000-0003-2583-2076
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: dmiles0735@utml.edu.ec

 

 

Ciencias T�cnica y Aplicadas ���

Art�culo de Investigaci�n

��

* Recibido: 23 de abril de 2023 *Aceptado: 12 de mayo de 2023 * Publicado: �12 de junio de 2023

 

  1. Estudiante de la carrera de Ingenier�a en Sistemas inform�ticos, Universidad T�cnica de Manab�, Ecuador.
  2. Mag�ster en Gesti�n de Sistemas de Informaci�n e Inteligencia de Negocios, Ingeniero en Sistemas Inform�ticos, Facultad de Ciencias Inform�ticas, Universidad T�cnica de Manab�, Ecuador.

Resumen

El presente estudio tiene como prop�sito analizar los modelos de minado de texto para la implementaci�n de sistemas de predicci�n de plagio como herramientas modernas que deben ajustarse a los desaf�os complejos de este problema de crecimiento continuo. Para ello se realiz� una revisi�n sistem�tica de literatura enmarcada en par�metros PRISMA para selecci�n de art�culo y reducci�n de sesgo, identificaci�n de cadenas de b�squeda en bases de datos como ACM, Science direct, IEEE xplore, Scopus considerando criterios de enfoque y contenido para evaluar cada art�culo seleccionado. Entre las t�cnicas de miner�a de texto fueron m�s comunes los clasificadores espec�ficamente, las redes neuronales y los �rboles de decisi�n, tambi�n se identificaron t�cnicas de agrupamiento. El sistema de detecci�n de plagio m�s utilizado es Turnitin, el modelo de miner�a m�s utilizado son las redes recurrentes (LSTM) cuya precisi�n fue del 100%, la recuperaci�n de 97%, exactitud del 99% y una detecci�n de plagio del 94%. En conclusi�n, las Universidades e institutos se han visto en la necesidad de implementar procesos de detecci�n de plagio a trav�s del uso de sistemas de detecci�n, se ha considerado el empleo de t�cnicas de miner�a de texto que facilitan la detecci�n y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobaci�n de plagio en textos acad�micos; las redes recurrentes han presentado mejores resultados en diversos escenarios de detecci�n, por ello, se sugieren como modelo de miner�a de datos de tipo predictivo.

Palabras Clave: Miner�a de texto; predicci�n; plagio; software antiplagio; publicaciones acad�micas.

 

Abstract

The purpose of this study is to analyze text mining models for the implementation of plagiarism prediction systems as modern tools that must be adjusted to the complex challenges of this continuously growing problem. For this, a systematic review of the literature was carried out framed in PRISMA parameters for article selection and bias reduction, identification of search strings in databases such as ACM, Science direct, IEEE xplore, Scopus considering focus and content criteria to evaluate each study. selected item. Among the text mining techniques, specifically classifiers, neural networks and decision trees were more common, clustering techniques were also identified. The most used plagiarism detection system is Turnitin, the most used mining model is recurring networks (LSTM) whose accuracy was 100%, recovery 97%, accuracy 99% and plagiarism detection 94%. In conclusion, Universities and institutes have seen the need to implement plagiarism detection processes through the use of detection systems, the use of text mining techniques has been considered that facilitate the detection and recognition of elements, similarities , coincidences and similarities that contribute to the verification of plagiarism in academic texts; recurrent networks have presented better results in various detection scenarios, therefore, they are suggested as a predictive data mining model.

Keywords: Text mining; prediction; plagiarism; anti-plagiarism software; academic publications.

 

Resumo

O objetivo deste estudo � analisar modelos de minera��o de texto para a implementa��o de sistemas de previs�o de pl�gio como ferramentas modernas que devem ser ajustadas aos complexos desafios desse problema crescente. Para isso, foi realizada uma revis�o sistem�tica da literatura enquadrada nos par�metros PRISMA para sele��o de artigos e redu��o de vi�s, identifica��o de strings de busca em bases de dados como ACM, Science direct, IEEE xplore, Scopus considerando crit�rios de foco e conte�do para avaliar cada estudo. item selecionado. Entre as t�cnicas de minera��o de texto, especificamente classificadores, redes neurais e �rvores de decis�o foram mais comuns, t�cnicas de agrupamento tamb�m foram identificadas. O sistema de detec��o de pl�gio mais utilizado � o Turnitin, o modelo de minera��o mais utilizado � redes recorrentes (LSTM) cuja precis�o foi de 100%, recupera��o 97%, precis�o 99% e detec��o de pl�gio 94%. Em conclus�o, Universidades e institutos t�m visto a necessidade de implementar processos de detec��o de pl�gio atrav�s do uso de sistemas de detec��o, foi considerado o uso de t�cnicas de minera��o de texto que facilitam a detec��o e reconhecimento de elementos, semelhan�as, coincid�ncias e semelhan�as que contribuem para a verifica��o de pl�gio em textos acad�micos; redes recorrentes t�m apresentado melhores resultados em v�rios cen�rios de detec��o, portanto, s�o sugeridas como um modelo preditivo de minera��o de dados.

Palavras-chave: Minera��o de texto; predi��o; pl�gio; software antipl�gio; publica��es acad�micas.

 

 

����������������������������������������������������������������������������������������������

Introducci�n

La tecnolog�a ha permitido generar escenarios de informaci�n que favorecen los nuevos conocimientos; sin embargo, la gran cantidad de datos que se encuentran en la Web se ha convertido en un arma de dos caras, especialmente en el campo de la investigaci�n acad�mica donde resulta indispensable el buen manejo de la informaci�n como una habilidad que contribuya con la localizaci�n y uso eficiente de la informaci�n (Mich�n y �lvarez, 2019).

Los formatos digitales y el acceso abierto a gran cantidad de informaci�n forman parte de la revoluci�n inform�tica (reconocida como un proceso innovador que ha experimentado con datos cient�ficos) donde los datos constituyen un nuevo recurso valioso que no s�lo se genera e impulsa, sino que, adem�s, se comercializa. Por ello, cada vez, existe mayor inter�s por la creaci�n de enfoques, herramientas, m�todos y aplicaciones computacionales innovadores orientados a la caracterizaci�n, estudio, sistematizaci�n, estructuraci�n, entre otros, para obtener nuevo conocimiento, resolver problemas y tomar decisiones en base al resultado de los procesos inform�ticos que manejan esos datos (Venkatakrihnan et al., 2016).

En el campo de la investigaci�n, cada vez existe un mayor desaf�o por parte de las Universidades para aprobar los trabajos investigativos realizados por los estudiantes, pues si bien es un proceso que demanda indagaci�n, pruebas, comprobaci�n y an�lisis, en la pr�ctica no siempre se cumplen todas esas fases; al contrario, la din�mica actual de los estudiantes con el advenimiento de la era digital, las demandas sociales que exigen cada vez mayor grado de preparaci�n acad�mica a j�venes profesionales y la deshonestidad acad�mica se ha convertido en una realidad que atenta directamente contra las investigaciones originales y confiables, pues se trata de un problema de principios �ticos-morales producto de las nuevas caracter�sticas adquiridas en el plagio acad�mico derivadas de la era digital (Rogerson y McCarthy, 2017).

A este respecto, Llovera (2023) indica que, el �uso de los diferentes recursos e informaci�n en formato digital ha conducido al estudiantado a buscar formas m�s r�pidas para realizar sus trabajos acad�micos y, por ello, incurrir muchas veces en la pr�ctica conocida como ciberplagio� lo cual ocurre de forma consciente (copia y pega de Internet) e inconsciente, esta �ltima cuando se desconoce la debida norma de citaci�n como APA, Vancouver, IEEE, etc., cuya aplicaci�n es fundamental, especialmente cuando se ha parafraseado el texto de referencia.��

En este contexto, el plagio acad�mico ha cobrado especial relevancia en el campo de la investigaci�n universitaria, especialmente a partir de casos que han involucrado figuras p�blicas como congresistas, funcionarios p�blicos y hasta presidentes (Navarro, 2023); a esto, se suma informaci�n como la resultante de la encuesta del Programa Universitario de Bio�tica realizado por la Universidad Aut�noma de M�xico que revela c�mo un 52% de acad�micos de dicha casa de estudios que ha sido testigo de plagio acad�mico por parte de sus colegas en procesos de investigaci�n para titulaci�n de pregrado, postgrado y hasta doctorado (Cruz, 2023).

Frente a este creciente problema del ciberplagio, el mismo que ocurre en el contexto acad�mico en investigaciones realizadas por estudiantes de educaci�n superior, se ha incrementado el uso de programas y sistemas inform�ticos por parte de las universidades y revistas cient�ficas para la detecci�n de coincidencias y patrones que puedan evidenciar plagio en el material que se presente ante las autoridades universitarias en virtud de evitar investigaciones fraudulentas y generar las respectivas sanciones o correctivos necesarios para mantener la confianza y validez de los trabajos que se aprueben para su futura publicaci�n.

La miner�a de textos forma parte de esas soluciones inform�ticas que se han perfeccionado con el paso de los a�os y las innovaciones tecnol�gicas que han ocurrido, pues se trata de un subconjunto de la miner�a de datos �til para extraer informaci�n de datos no estructurados y, a su vez, detectar grupos, tendencias, asociaciones y derivaciones de patrones a partir de t�cnicas basadas en el procesamiento de textos como la �ling��stica computacional y la recuperaci�n de informaci�n� las cuales se aplican tanto en la fase de pre-procesamiento, donde los textos se transforman en un tipo de representaci�n semiestructurada, previo a la fase de descubrimiento, donde se detectan agrupamientos, asociaciones, desviaciones o tendencias (Gil, 2021).

Este proceso de descubrimiento se realiza mediante el uso de m�todos de aprendizaje autom�tico, estad�sticos, matem�ticos o artificiales para explorar en grandes bases de datos (Mancilla et al., 2020) que, de otra forma, no se podr�an analizar. Cuando se hace referencia a esta t�cnica, es preciso entender que la miner�a de datos puede ser descriptiva o predictiva; en el primer caso, se trata de aquella que encuentra patrones y relaciones en los datos utilizando t�cnicas de asociaci�n y agrupamiento, mientras que, en el segundo caso se trata de aquellas que predicen el valor particular de un atributo a partir de otros atributos enfocadas en algoritmos de clasificaci�n y regresi�n (Santamaria, 2015).

En el contexto universitario, en donde se desenvuelven los estudiantes de la Universidad T�cnica de Manab�, es necesario explorar las alternativas tecnol�gicas que permitan y garanticen una adecuada revisi�n de las publicaciones de sus estudiantes, reduciendo el plagio, y a su vez, alcanzando niveles adecuados de calidad.

Es por ello que, describiendo las caracter�sticas t�cnicas y metodol�gicas de las herramientas utilizadas para el dise�o e implementaci�n de soluciones orientadas a la predicci�n del plagio, se obtendr�an mejores m�rgenes de confiabilidad en los procesos de revisi�n de las producciones intelectuales elaboradas en el seno de esta casa de estudio.

Esta revisi�n sistem�tica de literatura tiene como objetivo explorar los modelos de minado de texto utilizados en sistemas de predicci�n de plagio en instituciones de educaci�n superior. Para alcanzar este prop�sito, se formularon las siguientes preguntas de investigaci�n:

RQ1. �Qu� t�cnicas de miner�a de texto se han utilizado para predecir el plagio en publicaciones acad�micas?, RQ2. �Cu�les son los sistemas de predicci�n de plagio utilizados en instituciones de educaci�n superior?, RQ3. �Cu�les son los modelos de miner�a de datos, con mejores indicadores de rendimiento, implementados en sistemas de predicci�n de plagio en universidades?

Finalmente, es preciso indicar que este trabajo de investigaci�n presenta el orden que sugiere el modelo PRISMA, para revisiones sistem�ticas de literatura: introducci�n, m�todo, resultados, discusi�n y conclusiones.

 

M�todo

El presente art�culo de revisi�n sistem�tica parte de la aplicaci�n de los par�metros PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses por sus siglas en ingl�s) para este tipo de investigaciones en el que se considera fundamental utilizar la lista de verificaci�n al momento de seleccionar los art�culos y publicaciones que conformar�n la sistematizaci�n, as� como la determinaci�n de una estrategia de b�squeda que responda a dichos par�metros con la finalidad de reducir los sesgos informativos.

En este caso, la estrategia de b�squeda utilizada inici� con la determinaci�n de los criterios de b�squedas, entre los cuales destacan como criterios de inclusi�n: publicaciones, art�culos de revisi�n sistem�tica, art�culos originales y art�culos de revisi�n bibliogr�fica; asimismo, se consideraron las publicaciones realizadas en revistas de alto impacto, redactadas en ingl�s o espa�ol, cuyo contenido sea completo y disponible, publicaciones realizadas en un per�odo de 2015-2023, que compartan m�s de una palabra clave.

Por su parte, los criterios excluyentes se enmarcaron en: publicaciones incompletas, tesis doctorales, monograf�as o libros, investigaciones publicadas en revistas no indexadas o de bajo impacto, publicaciones realizadas en otro idioma distinto al ingl�s o espa�ol, que no comparten variables o palabras claves, publicadas antes del 2015.

Posterior a la determinaci�n de los criterios de b�squeda, se especificaron las palabras claves a utilizar en base a las principales variables de investigaci�n las cuales fueron: �Plagio�, �miner�a de texto�, �aprendizaje autom�tico� �t�cnicas de miner�a de datos�, �predicci�n de plagio�, �algoritmos de predicci�n�, �educaci�n superior� en espa�ol y, �Plagiarism�, �text mining�, �machine learning�, �data mining techniques�, �plagiarism prediction�, �prediction algorithms�, �higher education� en ingl�s. Estas palabras junto a los criterios de b�squeda orientaron la indagaci�n a trav�s de los buscadores de alto impacto tales como: ACM, Science direct, IEEE Xplore, Scopus y Google Academy. Con estos t�rminos clave, se dise�� la cadena de b�squeda ideal (Tabla 1).

 

Tabla 1.- Cadena de b�squeda por cada buscador

Base de Datos

Cadena de B�squeda

ACM

[All: plagiarism] AND [[All: prediction] OR [All: detection]] AND [All: "text mining"] AND [E-Publication Date: (01/01/2015 TO 12/31/2023)]

Science direct

plagiarism AND (prediction OR detection) AND "text mining"

Google Academy

plagiarism + (prediction OR detection) + "text mining"

IEEE xplore

((plagiarism AND(prediction OR detection) AND "text mining"))

Scopus

1         �( plagiarism� AND� ( prediction� OR� detection )� AND� "text mining" )�� AND� PUBYEAR� >� 2014� AND� PUBYEAR� <� 2024� AND� PUBYEAR� >� 2014� AND� PUBYEAR� <� 2024

 

Para el proceso de revisi�n y selecci�n de los art�culos que conforman la sistematizaci�n, se utiliz� la lista de verificaci�n para res�menes estructurados de PRISMA, haciendo �nfasis en los �tems de: t�tulo, resumen, objetivos, m�todos y resultados, los cuales permitieron llevar a cabo la b�squeda y selecci�n en sus diferentes fases de identificaci�n, cribado, evaluaci�n e inclusi�n.

 

Para la evaluaci�n de los art�culos primarios se valoraron dos aspectos principales: enfoque y contenido, en tres niveles de acuerdo a los percentiles indicados donde moderado corresponde entre 0 y 40 de aportaci�n, aceptable entre 41 y 80, y finalmente, �ptimo entre 81 y 100 (Tabla 2).

 

Tabla 2.- Valoraci�n de cada nivel de aporte de los art�culos revisados

Nivel de aporte

Percentil

Moderado

0-40

Aceptable

41-80

�ptimo

81-100

 

En el primer caso, se evaluaron las referencias de sistemas de predicci�n de plagio y, en el segundo caso, se evaluaron las referencias relacionadas con la miner�a de datos, cada una de ellas con un conjunto de criterios (Tabla 3) que se ponderaron de acuerdo al aporte que tuvo cada uno de ellos a las variables: Nada (0), Algo (0.5), Cumple Totalmente (1).

 

Tabla 3.- Criterios a evaluar por cada aspecto de investigaci�n

Criterios

Aspectos

Enfoque

Contenido

1

E1-Menciona criterios de predicci�n de plagio

C1-Metodolog�a de miner�a de datos utilizadas

2

E2-Presenta indicadores de rendimiento de los algoritmos utilizados

C2-Secciones de limitaciones

3

E3-Describe las t�cnicas de miner�as de textos utilizadas

C3-Propuestas o referencias para el desarrollo de investigaciones futuras

 

Resultados

Los principales hallazgos de este estudio evidencian que los art�culos seleccionados y revisados cumplieron en un 100% con los par�metros de verificaci�n de res�menes estructurados PRISMA (Figura 1), los cuales se realizaron en su mayor�a en el a�o 2020 en pa�ses asi�ticos, seguidos de pa�ses latinoamericanos y, finalmente, los de Europa, los cuales cumplieron cada uno con las respectivas palabras claves en relaci�n a: detecci�n de plagio, machine learning, miner�a de texto, miner�a de datos, plagio acad�mico, etc., (Tabla 4)

 

Figura 1. El flujo de b�squeda y selecci�n de art�culos.

 

Tabla 4

Identificaci�n, evaluaci�n y selecci�n de art�culos seg�n PRISMA

 

P

Autor

A�o

T�tulo

Lugar del estudio

Tipo de estudio

�Palabras Claves Asociadas

P1

Sindhu y Idicula

2017

Plagiarism detection in Malayalam language text using a composition of similarity measures

Singapur

Revisi�n

Detecci�n de plagio

P2

Duracick et al.

2020

M�todo optimizado basado en algoritmo K-means como herramienta en la detecci�n de plagio en c�digo fuente

Colombia

Art�culo Original

Plagio, algoritmos, c�digo fuente

P3

Qiubo et al.

2019

Research on code plagiarism detection model based on Random Forest and Gradient Boosting Decision Tree

Hong Kong

Art�culo Original

Detecci�n de plagio, �rbol de decisi�n

P4

Xylogiannopoulos, et al.

2020

Text mining for plagiarism detection: multivariate pattern detection for recognition of text similarities

Espa�a

Art�culo Original

Miner�a de texto y detecci�n de plagio

P5

Viuginov et al.

2020

A Machine Learning based plagiarism detection in source code

China

Art�culo Original

Machine learning

P6

Al� et al.

2018

Detection of plagiarism in URDU text documents

Pakist�n

Art�culo Original

Plagio, algoritmos de clasificaci�n

P7

Mansoor y Al Tamimi

2022

Plagiarism detection system in scientific publication using LSTM networks

 

Art�culo Original

Detecci�n de plagio, miner�a de texto

P8

Massagram et al.

2018

A novel technique for Thai document plagiarism detection using syntactic parse trees

Tailandia

Revisi�n

Miner�a de texto y detecci�n de plagio

P9

Chakrabarty y Roy

2018

An efficient context-aware agglomerative fuzzy clustering framework for plagiarism detection

India

Art�culo Original

Miner�a de texto y detecci�n de plagio

P10

El-Rashidy et al.

2022

reliable plagiarism detection system based on deep learning approaches

Egipto

Art�culo Original

Miner�a de texto y detecci�n de plagio

P11

Priya et al.

2019

Plagiarism detection in source code using machine learning

India

Art�culo Original

Miner�a de texto, miner�a de datos, machine learning y detecci�n de plagio

P12

Perilla, M.

2020

Detecci�n de plagio en c�digo fuente java mediante tokenizaci�n y aprendizaje de m�quina

Colombia

Art�culo Original

Plagio, c�digo fuente, tokenizaci�n

P13

Reducindo et al.

2017

Integraci�n de plataformas LMS y algoritmo de c�digo abierto para detecci�n y prevenci�n de plagio en Educaci�n Superior

M�xico

Art�culo Original

Plagio acad�mico, algoritmo de detecci�n

P14

Santamar�a, W.

2015

T�cnicas de miner�a de datos aplicadas en la detecci�n de fraude: Estado del arte

Colombia

Art�culo Original

Detecci�n de fraude, miner�a de datos

P15

Hany y Gomaa

2022

A hybrid approach to paraphrase detection based on text

Egipto

Art�culo Original

Detecci�n de fraude, miner�a de datos

P16

Huang et al.

2020

Code plagiarism detection method based on code similarity and student behavior characteristics

China

Art�culo Original

Detecci�n de plagio, miner�a de datos

P17

Nennuri, et al.,

2021

Plagiarism detection through data mining techniques

Suiza

Art�culo Original

Detecci�n de plagio, miner�a de datos

P18

Kulkarni et al.

2021

Analysis of Plagiarism Detection Tools and Methods

 

Revisi�n Sistem�tica

Detecci�n de plagio

P19

Shakeel, et al.

2020

A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts

Pakistan

Art�culo Original

Detecci�n, miner�a

P20

Awale et al.,

2020

Plagiarism Detection in Programming Assignments using Machine Learning

Nepal

Art�culo Original

Detecci�n de plagio, Miner�a de textos

 

 

Los art�culos primarios seleccionados se valoraron por criterio en cada uno de los aspectos evaluados: enfoque y contenido ponderados de acuerdo a su nivel de aportaci�n en cada una de las variables de est6udio (Tabla 5). En este particular, se evidencia un mayor aporte aceptable y �ptimo en enfoque, mientras que, en el contenido, el mayor aporte es el moderado. En cuanto a los criterios de enfoque, la presentaci�n de indicadores de rendimiento de los algoritmos utilizados (E2) fue el mejor ponderado; por su parte, el criterio de contenido mejor ponderado fue el de metodolog�a de miner�a de datos utilizadas (C1) (Figura 2).

 

Tabla 5.- Tabla de valoraci�n seg�n aporte (enfoque-contenido)

P

Enfoque

%

Aporte

Contenido

%

Aporte

E1

E2

E3

C1

C2

C3

P1

1

1

1

100%

�ptimo

1

0

1

67%

Aceptable

P2

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P3

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P4

1

1

0.5

83%

�ptimo

0.5

0

0.5

33%

Moderado

P5

1

1

0.5

83%

�ptimo

0.5

0

1

50%

Aceptable

P6

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P7

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P8

1

1

1

100%

�ptimo

1

1

1

100%

�ptimo

P9

1

1

1

100%

�ptimo

1

0

1

67%

Aceptable

P10

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P11

1

0.5

1

83%

�ptimo

1

0

0

33%

Moderado

P12

1

1

1

100%

�ptimo

1

1

1

100%

�ptimo

P13

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P14

0.5

1

1

83%

�ptimo

1

0

1

67%

Aceptable

P15

1

1

1

100%

�ptimo

1

0

0

33%

Aceptable

P16

1

1

1

100%

�ptimo

1

1

0

67%

Aceptable

P17

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

P18

1

0.5

0.5

67%

Aceptable

0.5

0

0

17%

Moderado

P19

1

0.5

1

83%

�ptimo

1

0

0

33%

Moderado

P20

1

1

1

100%

�ptimo

1

0

0

33%

Moderado

 

 

Figura 2.- Nivel de aporte de los art�culos primarios (enfoque-contenido)

 

Entre las principales t�cnicas de miner�a de texto utilizadas para predecir plagio en las publicaciones acad�micas destacan los clasificadores de tipo predictivo a trav�s de redes neuronales, �rboles de decisiones, redes bayesianas y otros como datos etiquetados de Machine Learning; por su parte, el agrupamiento de tipo descriptivo se present� a partir del uso de agrupamiento difuso. En cuanto a los sistemas de predicci�n de plagio utilizados en las instituciones de educaci�n superior que fueron analizadas, destaca Turnitin como el principal y m�s com�n sistema de detecci�n a pesar de que se enuncian otros como Plagscam, Chamilo, Jplag.

En cuanto a las caracter�sticas funcionales de las soluciones inform�ticas que emplean la miner�a de datos para la predicci�n de plagio se utilizaron procesos como el algoritmo K-Means, Na�ve Bayes, KDD, K-NN, C4.5, clasificaci�n binaria, m�quina de soporte vectorial en algunos casos aplicados en WEKA. En la mayor�a de los casos los procedimientos realizados se enmarcaron en el an�lisis, consenso, patrones de comportamiento, tokenizaci�n de c�digo fuente, limpieza, extracci�n, recuperaci�n, agrupamiento, validaci�n y localizaci�n de conjuntos.

Por su parte, las soluciones funcionales que se presentaron en los estudios revisados contemplaron la creaci�n de nuevos algoritmos para la obtenci�n de correlaciones entre conjuntos de intemsets relevantes para reducir redundancias (D�az y Garc�a, 2018), detecci�n de plagio de c�digo fuente, mapeo de uso Weka, descubrimiento de conocimiento usando KDD, identificaci�n de datos para caracterizar fen�menos, identificaci�n de diversos tipos de plagio, determinaci�n de variables asociadas, selecci�n, limpieza, transformaci�n y proyecci�n de datos, comparaci�n de niveles de uso de texto, detecci�n de patrones investigativos, detecci�n de fraude, predicci�n de fracaso escolar, incremento de la eficiencia en la detecci�n de plagio y detecci�n de plagio sem�ntico (Tabla 6 ).

 

Tabla� 6.- Principales resultados en t�cnicas y modelo de miner�a utilizada

P

TMD utilizada

TM

Soluci�n funcional

Proceso

Procedimiento

P1

Red Neuronal (clasificador)

Predictiva

Predicci�n de plagio r�pido y con �ptima clasificaci�n

algoritmo NLP

Combinaci�n de puntuaciones de similitud

P2

Agrupaci�n

Descriptiva

Detecci�n de plagio de c�digo fuente

K-Means

Herramienta de clasificaci�n previa de vectores

P3

�rboles de decisi�n (clasificador)

Predictiva

Mejor rendimiento para determinar nivel de sospecha del c�digo

Algoritmos Random Forest y Gradient Boosting Decision Tree

Combinaci�n de algoritmos para determinar rango de grado de similitud

P4

Agrupaci�n

Descriptiva

Detecci�n de plagio en bibliotecas digitales de big data, detecci�n de patrones comunes entre documentos bajo inspecci�n y bibliotecas de referencia y detecci�n eficiente de diferentes tipos de plagio

Algoritmo LERP-RSA y ARPaD

Combinado multivariante que mejora la estructura de datos para la detecci�n de patrones

P5

�rbol de an�lisis comprimido (Clasificadores)

Predictiva

Canalizaci�n para clasificar c�digos fuente de pares
de soluciones para problemas de ACM

AST (�rbol de Sintaxis Abstracta)

Producci�n de �rbol estructurado con diferentes tipos de nodos

P6

Redes Bayesianas (Clasificadores)

Predictiva

Identificar diferentes tipos de plagio, como el reordenamiento de oraciones, la similitud intertextual inerte/borrada y la similitud de copia cercana

Support Vector Machine y Na�ve Bayes

M�todo de concenso

P7

Redes Neuronales (Clasificadores)

Predictiva

Detectar plagios internos y externos, ampl�a la memoria para aprender de sus experiencias recordando sus entradas.

Algoritmo LSTM (Long -Short Term Memory)

Extensi�n de redes neuronales recurrentes

P8

�rboles de an�lisis sint�ctico (clasificador)

Predictiva

Identificaci�n de clases sem�nticas de las oraciones. Mejora la precisi�n de la detecci�n de plagio

SRL (Semantic Role Labeling)

Etiquetado jer�rquico-no secuencial

P9

Agrupamiento difuso (Fuzzy clustering)

Descriptiva

Mejorar solidez y consistencia de resultados para agrupar art�culos multidisciplinarios

Enfoque aglomerativo

Construir jerarqu�a de grupos

P10

Redes Neuronales convolucionales (Clasificador)

Predictiva

Extrae autom�ticamente caracter�sticas que se utilizar�n para la clasificaci�n de objetos

RNN/CNN/ Modelo LSTM

Clasificar y predecir

P11

Datos etiquetados Mahine Learning (Clasificadores)

Predictiva

Determinar presencia o ausencia de plagio, estimar funci�n de densidad de las predictoras, reducir sesgo y varianza en el contexto de aprendizaje supervisado

LSTM

Combinaci�n de algoritmos clasificadores para optimizar precisi�n de resultados

P12

Clasificadores

Predictiva

Detecci�n de plagio de c�digo fuente

SMO usado en WEKA

Tokenizaci�n de c�digo fuente

P13

Agrupamiento

Descriptivo

Detecci�n de plagio de c�digo fuente

AAPD

Extracci�n-recuperaci�n

P14

Agrupamiento, �rboles de decisi�n y redes neuronales

Descriptiva y predictiva

Detecci�n de fraude

K-Means, CART, MLP

Descubrimiento y extracci�n de conocimiento

P15

Red Neuronal (clasificador)

Predictiva

Predicci�n de plagio r�pido y con �ptima clasificaci�n

Algoritmo NLP

Combinaci�n de t�cnicas de similitud (sem�ntica, de cadena y de incrustraci�n

P16

�rboles de decisi�n (clasificadores)

Predictivo

Detecci�n de plagio de c�digo basado en similitud del c�digo

Clasificaci�n binaria utilizando SCD (concentraci�n de similitud de c�digo)

Identificar distribuci�n de similitud entre todos los c�digos

P17

Redes Neuronales (Clasificadores)

Predictivo

Incrementar la eficiencia en la detecci�n de plagio

Enfoque k-NN

Localizaci�n de conjuntos de datos copiados

P18

Redes Neuronales (Clasificadores)

Predictivo

Detecci�n de plagio sem�ntico

Enfoque K-NN

Localizaci�n de conjuntos de datos copiados

P19

Redes Neuronales (Clasificadores)

Predictivo

Mejorar el rendimiento de los modelos de aprendizaje profundo y analizar el impacto de varios pasos de aumento de datos

CNN y LSTM

Detecci�n de par�frasis en textos breves

P20

�rboles de decisi�n (Clasificador)

Predictivo

Incrementar precisi�n en el modelo de detecci�n

Algoritmo xgBoost

Predecir pares de c�digo fuentes plagiados

�����������

Finalmente, los indicadores de rendimiento mejor valorados en los modelos de miner�a de datos revisados en los art�culos son: la precisi�n (f-measure) con un 100% en modelos como el enfoque aglomerativo, 99% en la clasificaci�n binaria y 98% en las LSTM; en cuanto a la recuperaci�n, el marco SPT y SRL report� un 100%, el algoritmo xgBoost 97% y las LSTM un 97%; por su parte, la exactitud tuvo mejor valoraci�n en modelos como las LSTM (99%), xgBoost (94%) y Gradient Boosting Decision Tree (95%) (Tabla 7).

Asimismo, se analiz� el nivel de detecci�n de plagio que report� mejor valoraci�n en las LSTM con un 94% y la especificidad de 98% fue generada utilizando Gradient Boosting Decision Tree; el mejor tiempo fue de 1.64 segundos y lo report� el SMO.

 

Tabla 7.- Indicadores de rendimiento por t�cnica y modelo de miner�a

Publicaci�n

Modelo

T�cnica de miner�a

Medida de rendimiento

Precisi�n

Recuperaci�n

Exactitud

Det. Plagio

Tiempo

Esp.Sen.

P1

NLP

Red Neuronal (PNN)

0.93

0.95

 **

 **

 **

 **

P2

K-means

Clustering

 **

** 

 **

 **

5.2 ''

*** 

P3

Random Forest y Gradient Boosting Decision Tree

�rbol de decisi�n

0.202 (RF)
0.929 (GBDT)

** 

0.202 (RF)
0.959 (GBDT)

 **

** 

1 (RF)
0.864 (GBDT)

P4

Algoritmo LERP-RSA y ARPaD

Clustering

 **

 **

 **

1

** 

** 

P6

Support Vector Machine y Na�ve Bayes

Redes Bayesianas

0.73 (SVM)
0.71(NB)

0.83 (SVM)
0.80 (NB)

** 

 **

** 

 **

P7

Algoritmo LSTM (Long -Short Term Memory)

Redes neuronales

0.98

0.97

0.99

** 

 **

** 

P8

Marco SPT y SRL

�rboles de an�lisis sint�ctico

0.33 (SRL)
0.79 (SPT)

1

 **

** 

 **

** 

P9

Enfoque aglomerativo

Agrupamiento difuso

1

0.95

 **

 **

 **

** 

P10

Modelo LSTM

Redes Neuronales convolucionales (Clasificador)

0.95

0.92

 **

0.94

**

 **

P11

LSTM

Datos etiquetados Mahine Learning

0.89

0.887

 **

0.887

** 

**

P12

SMO usado en WEKA

Clasificadores

 **

**

**

**

1.64 ''

**

P15

NLP

Red Neuronal (PNN)

0.76

**

**

**

**

**

P16

Clasificaci�n binaria

�rbol de decisi�n

0.99

**

**

**

**

**

P17

Enfoque k-NN

Redes neuronales

Alta

**

**

**

**

**

P18

Enfoque K-NN

Redes neuronales

Alta

**

**

**

**

**

Alta

**

**

**

**

**

P19

CNN y LSTM

Redes neuronales

0.70

0.80

0.90

**

**

**

P20

Algoritmo xgBoost

�rbol de decisi�n

0.95 (NP)
0.89 (P)

0.97 (NP)
0.82 (P)

0.94 (NP)
0.94 (P)

**

**

**

** Valores no disponibles

 

Discusi�n

Los hallazgos de este estudio muestran que el problema del plagio acad�mico, especialmente, a nivel universitario, es com�n en todos los continentes y en diversos idiomas, lo que supone un reto para la miner�a de datos en la creaci�n de algoritmos y programas de detecci�n de plagio que superen las barreras del idioma en virtud de incrementar la precisi�n en este tipo de recursos inform�ticos.

En atenci�n a la pregunta de investigaci�n RQ1: �Qu� t�cnicas de miner�a de texto se han utilizado para predecir el plagio en publicaciones acad�micas?� En esta investigaci�n destacaron entre las t�cnicas de miner�a de textos utilizadas para predecir plagio en publicaciones acad�micas los clasificadores de redes neuronales tal como exponen autores como: Sindhu e Idicula (2017);� Mansoor y Al Tamimi (2022); El-Rashidy (2022); Perilla (2019); Hany (2022); Nennuri et al., (2021); Kullkarni et al., (2021); Shakeel et al., (2020), los �rboles de decisiones referidos por: Awale et al., (2020); Huang et al., (2020); Massagram et al., (2018); Viuginov (2020), Qiubo, (2019); Santamar�a (2015) y las redes bayesianas (Al� et al., 2018). En este contexto, los clasificadores son id�neos para identificar coincidencias y generar m�tricas de similitud, especialmente utilizadas en la detecci�n de plagio porque, espec�ficamente en la identificaci�n de par�frasis, permiten inferir el contexto adecuado sobre una oraci�n debido a su corta longitud (Hunt et al., 2019).

Asimismo, los �rboles de decisi�n constituyen una potente herramienta de clasificaci�n porque soportan los posibles problemas de clasificaci�n y regresi�n que puedan surgir en el proceso al tiempo que son m�s f�ciles de comprender; en el caso de las predicciones, permite seleccionar el mejor punto de corte para hacerlas y repetir el proceso hasta alcanzar la profundidad fija deseada �(Espinoza, 2018).

En el caso de las redes bayesianas, permiten observar el comportamiento din�mico de un patr�n a partir de una aproximaci�n en funci�n de los valores que toman el resto de las variables; en este sentido, se genera un modelo emp�rico, inductivo que permite reconstruir un modelo de informaci�n real a partir de la propagaci�n de las influencias por esa red bayesiana (Sarmiento y Ocampo, 2023).

Por otro lado, los hallazgos mostraron una incidencia significativa en el uso de t�cnicas de agrupamiento o clustering, especialmente del agrupamiento difuso, tambi�n resulta �til para la detecci�n de plagio al tener la capacidad de pertenecer a m�s de un grupo, lo cual permite acortar el tiempo de an�lisis, pues cada uno de los grupos al que pertenece se asocia a un conjunto de niveles de pertenencia que indican la fuerza de asociaci�n entre un dato espec�fico y uno o varios grupos (Villanza et al., 2012).

En cuanto a la pregunta de investigaci�n RQ2: �Cu�les son los sistemas de predicci�n de plagio utilizados en instituciones de educaci�n superior? En relaci�n a los sistemas de predicci�n de plagio utilizadas en las instituciones de educaci�n superior en todo el mundo, Turnitin es la herramienta antiplagio m�s com�n que apoya al docente y a los estudiantes, especialmente cuando se consultan fuentes electr�nicas (Moreno, 2018). Este sistema realiza sus b�squedas de similitud entre m�s de un bill�n de p�ginas y sitios de Internet, siendo �til en la reducci�n de porcentaje de similitud y mejoramiento de los trabajos de investigaci�n acad�mica debido a que permite realizar retroalimentaci�n por parte del docente (D�az, 2015).

Finalmente, en relaci�n a RQ3: �Cu�les son los modelos de miner�a de datos, con mejores indicadores de rendimiento, implementados en sistemas de predicci�n de plagio en universidades? En este caso, las redes recurrentes de LSTM (Long Short Term Memory por sus siglas en ingl�s) fueron las m�s usadas y mejor valoradas, pues adem�s de presentar elevados niveles de precisi�n, recuperaci�n, exactitud y detecci�n de plagio, tal como mencionan El-Rashidy et al., (2022); Mansoor y Al Tamimi, (2022); Priya et al., (2019) Shakeel et al., (2020); (Reducindo et al., 2017) son altamente efectivas para tal fin por su capacidad de aprender y recordar secuencias por largos per�odos de tiempo debido a la elevada sensibilidad que tienen a los datos de entrada (S�nchez, et al., 2020).

Otro modelo de miner�a de datos que fue valorado con el 100% de precisi�n fue el enfoque aglomerativo que se utiliz� para mejorar la solidez y consistencia de los resultados en virtud de poder realizar una mejor agrupaci�n de art�culos multidisciplinarios para dar respuesta a la integraci�n de caracter�sticas sem�nticas y alcanzar una mejor y optimizada funci�n (Chakrabarty y Roy, 2018)

El algoritmo xgBoost, tambi�n es uno de los modelos mejor valorados con una recuperaci�n del 97% y una exactitud del 94%; en este caso, se utiliz� como parte del aprendizaje autom�tico bajo el marco de Gradient Boosting optimizada y distribuida que brinda una elevada eficiencia en la resoluci�n de problemas manejando grandes cantidades de datos con mayor rapidez (Awale et al., 2020).

 

Limitaciones

Si bien el presente estudio se realiz� atendiendo a los par�metros de revisiones sistem�ticas con est�ndares internacionales, el acceso limitado a plataformas con mayor n�mero de art�culos con textos completos disponibles dificult� el hallazgo de estudio �ptimo, especialmente en relaci�n al contenido. Adem�s, s�lo se atendieron estudios en ingl�s y espa�ol, lo cual es otra limitante entendiendo que existen estudios en otros idiomas que se realizan en pa�ses desarrollados y m�s avanzados en esta materia que no fueron revisados y podr�an generar informaci�n id�nea para profundizar en este estudio.

 

Conclusiones

El plagio acad�mico se ha convertido en uno de los problemas m�s graves, desde el punto de vista �tico, a los que se enfrentan las universidades frente al uso desmedido, poco �tico e irresponsable de las publicaciones e informaci�n que se encuentran en Internet por parte de los estudiantes que presentan investigaciones que atentan contra el derecho de autor de quienes s� se han tomado la tarea de analizar, profundizar y crear textos cient�ficos de calidad. Ante esta compleja situaci�n, las Universidades e institutos se han visto en la necesidad de implementar procesos de detecci�n de plagio a trav�s del uso de sistemas de detecci�n como es el caso de Turnitin o Urkund; no obstante, el elevado costo de las licencias que autorizan su uso y el incremento en los falsos positivos de estos han contribuido a la necesidad de replantear los sistemas y usos implementados para tal fin.

En consecuencia, se ha considerado el empleo de t�cnicas de miner�a de texto que facilitan la detecci�n y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobaci�n de plagio en textos acad�micos en estudios universitarios, pues permiten atender a este problema que cada vez crece y se vuelve m�s complejo de detectar.

Por ello, utilizar modelos que tengan elevados niveles de precisi�n, exactitud y recuperaci�n constituye una premisa al analizar la idoneidad de estas herramientas para la detecci�n de plagio acad�mico, siendo las redes recurrentes (LSTM) las que han presentado mejores resultados en diversos escenarios de detecci�n, por ello, se sugieren como modelo de miner�a de datos de tipo predictivo.

 

Referencias

  1. Al�, W., Ahmed, T., Rehman, Z., Rehman, A., Slaman, M. (22 de noviembre de 2018). Detection of plagiarism in URDU text documents.� Conferencia internacional sobre tecnolog�as emergentes (ICET) de 2018, Islambad, Pakist�n. DOI: 10.1109/ICET.2018.8603616.
  2. Awale, N., Pandey, M., dulal, A., Timsin�, B. (2020). Plagiarism Detection in Programming Assignments using Machine Learning. Journal or artificial intelligence and capsule networks, 2(3), 177-184. DOI: 10.36548/jaicn.2020.3.005
  3. Chakrabarty, A., Roy, S. (2018). An efficient context-aware agglomerative fuzzy clustering framework for plagiarism detection. International journal of data mining modelling and management, 10(2), 188. DOI: 10.1504/IJDMMM.2018.092533
  4. Cruz, E. (30 de enero 2023). Desde 2013 encuesta de UNAM revel� que 52% de acad�micos atestiguaron alg�n plagio de tesis. La Hoguera. https://lahoguera.mx/desde-2013-encuesta-de-unam-revelo-que-52-de-academicos-atestiguaron-algun-plagio-de-tesis/
  5. D�az, D. (2015). El uso de Turnitin con retroalimentaci�n mejora la propiedad acad�mica de estudiantes de bachillerato. Ciencia, docencia y tecnolog�a, 26(51), 197-216. https://dialnet.unirioja.es/servlet/articulo?codigo=5265867
  6. D�az, A., Garc�a, L. (2018). FP-MAXFLOW: Un algoritmo para la miner�a de patrones relevantes de longitud m�xima. Computaci�n y Sistemas, 22(2), 563-583. DOI: 10.13053/cys-22-2-2498
  7. Duracik, M., Callejas, M., Mikusova, M. (2020). M�todo optimizado basado en algoritmo K-Means como herramienta en la detecci�n de plagio de c�digo fuente. RISTI, (e29),620-632. https://www.proquest.com/openview/fb8bfe36673b48be7b95c99d83529f32/1?pq-origsite=gscholar&cbl=1006393
  8. El-Rashidy, M., Mohamed, R., El-Fishawy, N., Shouman, M. (2022). Reliable plagiarism detection system based on deep learning approaches. Neural Computing and Applications, 34, 18837-18858. https://doi.org/10.1007/s00521-022-07486-w
  9. Espinoza, M. (2018). Weka, �reas de aplicaci�n y sus algoritmos: una revisi�n sistem�tica de literatura. Revista Cient�fica Ecociencia, 5(Edici�n Especial), 1-26. DOI: https://doi.org/10.21855/ecociencia.50.153
  10. Gil, J. (2021). Miner�a de texto con R: Aplicaciones y t�cnicas estad�sticas de apoyo. UNED.
  11. Hany, M., Gomaa, W. (09 de mayo de 2022). A hybrid approach to paraphrase detection based on text similarities and machine learning classifiers. 2nd International Mobile, Intelligent and Ubiquitous computing conference, El Cairo, Egipto. DOI: 10.1109/MIUCC55081.2022.9781678.
  12. Huang, Q., Song, X., Fang, G. (01 de junio de 2020). Code plagiarism detection method based on code similarity and student behavior characteristics.� IEEE International Conference on Artificia Intelligence and Computer Applications, Dalian, China. DOI: 10.1109/ICAICA50127.2020.9182389.
  13. Hunt, E., Janamsetty, R., Kinares, C., Koh, C., S�nchez, A., Zhan, F., �zdemir, M., Wasim, S., Yolcu, O., Dahal, B., Zhan, J., Geali, L., Oh, P. (2019). Modelos de aprendizaje autom�tico para la identificaci�n de par�frasis y sus aplicaciones en la detecci�n de plagio.� Conferencia Internacional IEEE sobre Gran conocimiento.
  14. Kulkarni, S., Govilkar, S., Amin, D. (7 de mayo de 2021). Analysis of Plagiarism Detection Tools and Methods.� Proceedings of the 4th international conference on advances in science & technology. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3869091
  15. Llovera, Y., Arag�n, Y., Cano, P. (2023). Ciberplagio acad�mico entre el estudiantado universitario: un acercamiento al estado actual de la tem�tica (2017-2020). Revista Colombiana de Educaci�n, (87), 207-226. DOI: https://doi.org/10.17227/rce.num87-13143
  16. Mancilla, G., Leal, P., S�nchez, A., Vidal, C. (2020). Factores asociados al �xito de los estudiantes en modalidad de aprendizaje en l�nea: un an�lisis en miner�a de datos. Formaci�n Universitaria, 13(6), 23-36. DOI: http://dx.doi.org/10.4067/S0718-50062020000600023
  17. Mansoor, M., Al Tamimi, M. (2022). Plagiarism detection system in scientific publication using LSTM networks. Internacional Journal Technical and physical problems of engineering, 4(4), 17-24. http://www.iotpe.com/IJTPE/IJTPE-2022/IJTPE-Issue53-Vol14-No4-Dec2022/3-IJTPE-Issue53-Vol14-No4-Dec2022-pp17-24.pdf
  18. Massagram, W., Prapanitisatian, S., Kerson, K. (2018). A novel technique for Thai document plagiarism detection using syntactic parse trees. Engineering & Applied Science Research, 45(4), 290-311. DOI: 10.14456/easr.2018.39
  19. Mich�n, L., �lvarez, E. (2019). Tendencias actuales en el manejo de datos de investigaci�n. BIOCIT, 12(45), 869-880. https://dialnet.unirioja.es/servlet/articulo?codigo=6971157
  20. Moreno, J. (2018). Plagio en universidades: estudio de Turnitin y Compilatorio. Sego-Bit (7), 16-23. https://www.researchgate.net/publication/329151488_Plagio_en_universidades_estudio_de_Turnitin_y_Compilatio
  21. Navarro, M. (07 de febrero de 2023). Denuncian ante la CNMS la �cara oculta� de las publicaciones cient�ficas universitarias. El cierre digital. https://elcierredigital.com/investigacion/945608780/llevan-juzgado-cara-oculta-negocio-publicaciones-cientificas-universitarias.html
  22. Nennuri, R., Geetha, M., Samhitha, M., Sandeep, S., Rochini, G. (26 de mayo2021). Plagiarism detection through data mining techniques. Journal of physiscs: conference series, International Conference on Recent Trends in Computing, San Francisco, EE.UU.� DOI: 10.1088/1742-6596/1979/1/012070
  23. Perilla, M. (2019). Detecci�n de plagio en c�digo fuente java mediante tokenizaci�n y aprendizaje de m�quina. Educaci�n, ciencia y tecnolog�as emergentes para la generaci�n del siglo 21, 79-100. https://www.researchgate.net/publication/344755167
  24. Priya, S., Dixit, A., Das, K., Harish, R. (2019). Plagiarism detection in source code using Machine Learning. International journal of engineering and advanced technology, 8,898-900. https://www.ijeat.org/wp-content/uploads/papers/v8i4/D6359048419.pdf
  25. Qiubo, H., Jingdong, T., Guozheng, F. (28 de abril de 2019). Research on code plagiarism detection model based on Random Forest and Gradient Boosting Decision Tree. Conferencia internacional de 2019 sobre miner�a de datos y aprendizaje autom�tico, Hong Kong. DOI: 10.1145/3335656.3335692
  26. Reducindo, I., Rivera, L., Rivera, J., Olvera, M. (2017). Integraci�n de plataforma LMS y algoritmo de c�digo abierto para detecci�n y prevenci�n de plagio en Educaci�n Superior. Revista general de informaci�n y documentaci�n, 27(2), 299-315. DOI: https://doi.org/10.5209/RGID.58205
  27. Rogerson, A., McCarthy, G. (2017). Using internet based paraphrasing tools: Original work, patchwriting or facilitated plagiarism? International Journal for Educational Integrity, 13(2), 1-15. DOI: 10.1007/s40979-016-0013-y
  28. S�nchez, D., Gonz�lez, H., Hern�ndez, Y. (2020). Revisi�n de algoritmos de detecci�n y seguimiento de objetos con redes profundas para videovigilancia inteligente. Revista Cubana de Ciencias Inform�ticas, 14(3), 165-197. https://www.redalyc.org/journal/3783/378365834009/html/
  29. Santamar�a, W. (2015). T�cnicas de miner�a de datos aplicadas en la detecci�n de fraude: Estado del Arte. Universidad Nacional de Colombia. https://www.researchgate.net/publication/240724702_Tecnicas_de_Mineria_de_Datos_Aplicadas_en_la_Deteccion_de_FraudeEstado_del_Arte
  30. Sarmiento, J., Ocampo, C. (2023). Enfoques frecuentistas y bayesiano en el estudio del plagio acad�mico. Una propuesta innovadora en investigaci�n educativa. REICE, 21(1), 139-158. DOI: https://doi.org/10.15366/reice2023.21.1.007
  31. Shakeel, M., Karim, A. Khan, I. (2020). A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts. Information processing & management, 57(3), 102204. DOI: https://doi.org/10.1016/j.ipm.2020.102204
  32. Sindhu, L., Idicula, S. (24 de febrero de 2017). Plagiarism detection in Malayalam language text using a composition of similarity measures. Conferencia internacional sobre aprendizaje autom�tico y computaci�n, Singapur. DOI: https://doi.org/10.1145/3055635.3056655
  33. Venkatakrishnan, S., Mohan, K., Beattie, J., Correa, E., Dart, J., Deslippe, A., Hexemer, H., Krishnan, A., MacDowell, S., Marchesini, S., Patton, T., Perciano, J., Sethian, R., Stromsness, B., Tierney, C., Tull, D., Ushizima, D., Parkinson, D. (2016). Making advanced scientific algorithms and big scientific data management more accesible. Electronic Imaging, (19),1-7. DOI: 10.2352/ISSN.2470-1173.2016.19.COIMG-155
  34. Villanaza S., Arteaga, F., Seijas, c., Rodr�guez, O. (2012). Estudio comparativo entre algoritmos de agrupamiento basado en SVM y C-medios difuso aplicados a se�ales electrocardiogr�ficas arr�tmicas. Revista Ingenier�a UC, 19(1), 16-24. https://www.redalyc.org/articulo.oa?id=70732261003
  35. Viuginov, N., Grachev, P., filchenkov, A. (26 de diciembre de 2020). A Machine Learning based plagiarism detection in source code. 3ra Conferencia Internacional sobre algoritmos, computaci�n e Inteligencia Artificial. Sanya, China. DOI: 10.1145/3446132
  36. Xylogiannopoulos, K., Karampelas, P., Alhajj, R. (31 de agosto de 2018). Text mining for plagiarism detection: Multivariate pattern detection for recognition of text similarities. Conferencia Internacional IEEE/ACM 2018 sobre avances en an�lisis y miner�a de redes sociales, Barcelona, Espa�a. DOI: 10.1109/ASONAM.2018.8508265.

 

 

 

 

 

 

� 2023 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/