Modelos de minado de texto para la implementación de sistemas de predicción de plagio de la Universidad Técnica de Manabí

Dario Xavier Mieles Macias, Ermenson Ricardo Ordoñez Avila

Resumen


El presente estudio tiene como propósito analizar los modelos de minado de texto para la implementación de sistemas de predicción de plagio como herramientas modernas que deben ajustarse a los desafíos complejos de este problema de crecimiento continuo. Para ello se realizó una revisión sistemática de literatura enmarcada en parámetros PRISMA para selección de artículo y reducción de sesgo, identificación de cadenas de búsqueda en bases de datos como ACM, Science direct, IEEE xplore, Scopus considerando criterios de enfoque y contenido para evaluar cada artículo seleccionado. Entre las técnicas de minería de texto fueron más comunes los clasificadores específicamente, las redes neuronales y los árboles de decisión, también se identificaron técnicas de agrupamiento. El sistema de detección de plagio más utilizado es Turnitin, el modelo de minería más utilizado son las redes recurrentes (LSTM) cuya precisión fue del 100%, la recuperación de 97%, exactitud del 99% y una detección de plagio del 94%. En conclusión, las Universidades e institutos se han visto en la necesidad de implementar procesos de detección de plagio a través del uso de sistemas de detección, se ha considerado el empleo de técnicas de minería de texto que facilitan la detección y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobación de plagio en textos académicos; las redes recurrentes han presentado mejores resultados en diversos escenarios de detección, por ello, se sugieren como modelo de minería de datos de tipo predictivo.


Palabras clave


Minería de texto; predicción; plagio; software antiplagio; publicaciones académicas.

Texto completo:

PDF HTML XML

Referencias


Alí, W., Ahmed, T., Rehman, Z., Rehman, A., Slaman, M. (22 de noviembre de 2018). Detection of plagiarism in URDU text documents. Conferencia internacional sobre tecnologías emergentes (ICET) de 2018, Islambad, Pakistán. DOI: 10.1109/ICET.2018.8603616.

Awale, N., Pandey, M., dulal, A., Timsiná, B. (2020). Plagiarism Detection in Programming Assignments using Machine Learning. Journal or artificial intelligence and capsule networks, 2(3), 177-184. DOI: 10.36548/jaicn.2020.3.005

Chakrabarty, A., Roy, S. (2018). An efficient context-aware agglomerative fuzzy clustering framework for plagiarism detection. International journal of data mining modelling and management, 10(2), 188. DOI: 10.1504/IJDMMM.2018.092533

Cruz, E. (30 de enero 2023). Desde 2013 encuesta de UNAM reveló que 52% de académicos atestiguaron algún plagio de tesis. La Hoguera. https://lahoguera.mx/desde-2013-encuesta-de-unam-revelo-que-52-de-academicos-atestiguaron-algun-plagio-de-tesis/

Díaz, D. (2015). El uso de Turnitin con retroalimentación mejora la propiedad académica de estudiantes de bachillerato. Ciencia, docencia y tecnología, 26(51), 197-216. https://dialnet.unirioja.es/servlet/articulo?codigo=5265867

Díaz, A., García, L. (2018). FP-MAXFLOW: Un algoritmo para la minería de patrones relevantes de longitud máxima. Computación y Sistemas, 22(2), 563-583. DOI: 10.13053/cys-22-2-2498

Duracik, M., Callejas, M., Mikusova, M. (2020). Método optimizado basado en algoritmo K-Means como herramienta en la detección de plagio de código fuente. RISTI, (e29),620-632. https://www.proquest.com/openview/fb8bfe36673b48be7b95c99d83529f32/1?pq-origsite=gscholar&cbl=1006393

El-Rashidy, M., Mohamed, R., El-Fishawy, N., Shouman, M. (2022). Reliable plagiarism detection system based on deep learning approaches. Neural Computing and Applications, 34, 18837-18858. https://doi.org/10.1007/s00521-022-07486-w

Espinoza, M. (2018). Weka, áreas de aplicación y sus algoritmos: una revisión sistemática de literatura. Revista Científica Ecociencia, 5(Edición Especial), 1-26. DOI: https://doi.org/10.21855/ecociencia.50.153

Gil, J. (2021). Minería de texto con R: Aplicaciones y técnicas estadísticas de apoyo. UNED.

Hany, M., Gomaa, W. (09 de mayo de 2022). A hybrid approach to paraphrase detection based on text similarities and machine learning classifiers. 2nd International Mobile, Intelligent and Ubiquitous computing conference, El Cairo, Egipto. DOI: 10.1109/MIUCC55081.2022.9781678.

Huang, Q., Song, X., Fang, G. (01 de junio de 2020). Code plagiarism detection method based on code similarity and student behavior characteristics. IEEE International Conference on Artificia Intelligence and Computer Applications, Dalian, China. DOI: 10.1109/ICAICA50127.2020.9182389.

Hunt, E., Janamsetty, R., Kinares, C., Koh, C., Sánchez, A., Zhan, F., Özdemir, M., Wasim, S., Yolcu, O., Dahal, B., Zhan, J., Geali, L., Oh, P. (2019). Modelos de aprendizaje automático para la identificación de paráfrasis y sus aplicaciones en la detección de plagio. Conferencia Internacional IEEE sobre Gran conocimiento.

Kulkarni, S., Govilkar, S., Amin, D. (7 de mayo de 2021). Analysis of Plagiarism Detection Tools and Methods. Proceedings of the 4th international conference on advances in science & technology. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3869091

Llovera, Y., Aragón, Y., Cano, P. (2023). Ciberplagio académico entre el estudiantado universitario: un acercamiento al estado actual de la temática (2017-2020). Revista Colombiana de Educación, (87), 207-226. DOI: https://doi.org/10.17227/rce.num87-13143

Mancilla, G., Leal, P., Sánchez, A., Vidal, C. (2020). Factores asociados al éxito de los estudiantes en modalidad de aprendizaje en línea: un análisis en minería de datos. Formación Universitaria, 13(6), 23-36. DOI: http://dx.doi.org/10.4067/S0718-50062020000600023

Mansoor, M., Al Tamimi, M. (2022). Plagiarism detection system in scientific publication using LSTM networks. Internacional Journal Technical and physical problems of engineering, 4(4), 17-24. http://www.iotpe.com/IJTPE/IJTPE-2022/IJTPE-Issue53-Vol14-No4-Dec2022/3-IJTPE-Issue53-Vol14-No4-Dec2022-pp17-24.pdf

Massagram, W., Prapanitisatian, S., Kerson, K. (2018). A novel technique for Thai document plagiarism detection using syntactic parse trees. Engineering & Applied Science Research, 45(4), 290-311. DOI: 10.14456/easr.2018.39

Michán, L., Álvarez, E. (2019). Tendencias actuales en el manejo de datos de investigación. BIOCIT, 12(45), 869-880. https://dialnet.unirioja.es/servlet/articulo?codigo=6971157

Moreno, J. (2018). Plagio en universidades: estudio de Turnitin y Compilatorio. Sego-Bit (7), 16-23. https://www.researchgate.net/publication/329151488_Plagio_en_universidades_estudio_de_Turnitin_y_Compilatio

Navarro, M. (07 de febrero de 2023). Denuncian ante la CNMS la “cara oculta” de las publicaciones científicas universitarias. El cierre digital. https://elcierredigital.com/investigacion/945608780/llevan-juzgado-cara-oculta-negocio-publicaciones-cientificas-universitarias.html

Nennuri, R., Geetha, M., Samhitha, M., Sandeep, S., Rochini, G. (26 de mayo2021). Plagiarism detection through data mining techniques. Journal of physiscs: conference series, International Conference on Recent Trends in Computing, San Francisco, EE.UU. DOI: 10.1088/1742-6596/1979/1/012070

Perilla, M. (2019). Detección de plagio en código fuente java mediante tokenización y aprendizaje de máquina. Educación, ciencia y tecnologías emergentes para la generación del siglo 21, 79-100. https://www.researchgate.net/publication/344755167

Priya, S., Dixit, A., Das, K., Harish, R. (2019). Plagiarism detection in source code using Machine Learning. International journal of engineering and advanced technology, 8,898-900. https://www.ijeat.org/wp-content/uploads/papers/v8i4/D6359048419.pdf

Qiubo, H., Jingdong, T., Guozheng, F. (28 de abril de 2019). Research on code plagiarism detection model based on Random Forest and Gradient Boosting Decision Tree. Conferencia internacional de 2019 sobre minería de datos y aprendizaje automático, Hong Kong. DOI: 10.1145/3335656.3335692

Reducindo, I., Rivera, L., Rivera, J., Olvera, M. (2017). Integración de plataforma LMS y algoritmo de código abierto para detección y prevención de plagio en Educación Superior. Revista general de información y documentación, 27(2), 299-315. DOI: https://doi.org/10.5209/RGID.58205

Rogerson, A., McCarthy, G. (2017). Using internet based paraphrasing tools: Original work, patchwriting or facilitated plagiarism? International Journal for Educational Integrity, 13(2), 1-15. DOI: 10.1007/s40979-016-0013-y

Sánchez, D., González, H., Hernández, Y. (2020). Revisión de algoritmos de detección y seguimiento de objetos con redes profundas para videovigilancia inteligente. Revista Cubana de Ciencias Informáticas, 14(3), 165-197. https://www.redalyc.org/journal/3783/378365834009/html/

Santamaría, W. (2015). Técnicas de minería de datos aplicadas en la detección de fraude: Estado del Arte. Universidad Nacional de Colombia. https://www.researchgate.net/publication/240724702_Tecnicas_de_Mineria_de_Datos_Aplicadas_en_la_Deteccion_de_FraudeEstado_del_Arte

Sarmiento, J., Ocampo, C. (2023). Enfoques frecuentistas y bayesiano en el estudio del plagio académico. Una propuesta innovadora en investigación educativa. REICE, 21(1), 139-158. DOI: https://doi.org/10.15366/reice2023.21.1.007

Shakeel, M., Karim, A. Khan, I. (2020). A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts. Information processing & management, 57(3), 102204. DOI: https://doi.org/10.1016/j.ipm.2020.102204

Sindhu, L., Idicula, S. (24 de febrero de 2017). Plagiarism detection in Malayalam language text using a composition of similarity measures. Conferencia internacional sobre aprendizaje automático y computación, Singapur. DOI: https://doi.org/10.1145/3055635.3056655

Venkatakrishnan, S., Mohan, K., Beattie, J., Correa, E., Dart, J., Deslippe, A., Hexemer, H., Krishnan, A., MacDowell, S., Marchesini, S., Patton, T., Perciano, J., Sethian, R., Stromsness, B., Tierney, C., Tull, D., Ushizima, D., Parkinson, D. (2016). Making advanced scientific algorithms and big scientific data management more accesible. Electronic Imaging, (19),1-7. DOI: 10.2352/ISSN.2470-1173.2016.19.COIMG-155

Villanaza S., Arteaga, F., Seijas, c., Rodríguez, O. (2012). Estudio comparativo entre algoritmos de agrupamiento basado en SVM y C-medios difuso aplicados a señales electrocardiográficas arrítmicas. Revista Ingeniería UC, 19(1), 16-24. https://www.redalyc.org/articulo.oa?id=70732261003

Viuginov, N., Grachev, P., filchenkov, A. (26 de diciembre de 2020). A Machine Learning based plagiarism detection in source code. 3ra Conferencia Internacional sobre algoritmos, computación e Inteligencia Artificial. Sanya, China. DOI: 10.1145/3446132

Xylogiannopoulos, K., Karampelas, P., Alhajj, R. (31 de agosto de 2018). Text mining for plagiarism detection: Multivariate pattern detection for recognition of text similarities. Conferencia Internacional IEEE/ACM 2018 sobre avances en análisis y minería de redes sociales, Barcelona, España. DOI: 10.1109/ASONAM.2018.8508265.




DOI: https://doi.org/10.23857/pc.v8i6.5706

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/