Modelos de minado de texto para la implementación de sistemas de predicción de plagio de la Universidad Técnica de Manabí
Resumen
El presente estudio tiene como propósito analizar los modelos de minado de texto para la implementación de sistemas de predicción de plagio como herramientas modernas que deben ajustarse a los desafíos complejos de este problema de crecimiento continuo. Para ello se realizó una revisión sistemática de literatura enmarcada en parámetros PRISMA para selección de artículo y reducción de sesgo, identificación de cadenas de búsqueda en bases de datos como ACM, Science direct, IEEE xplore, Scopus considerando criterios de enfoque y contenido para evaluar cada artículo seleccionado. Entre las técnicas de minería de texto fueron más comunes los clasificadores específicamente, las redes neuronales y los árboles de decisión, también se identificaron técnicas de agrupamiento. El sistema de detección de plagio más utilizado es Turnitin, el modelo de minería más utilizado son las redes recurrentes (LSTM) cuya precisión fue del 100%, la recuperación de 97%, exactitud del 99% y una detección de plagio del 94%. En conclusión, las Universidades e institutos se han visto en la necesidad de implementar procesos de detección de plagio a través del uso de sistemas de detección, se ha considerado el empleo de técnicas de minería de texto que facilitan la detección y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobación de plagio en textos académicos; las redes recurrentes han presentado mejores resultados en diversos escenarios de detección, por ello, se sugieren como modelo de minería de datos de tipo predictivo.
Palabras clave
Referencias
Alí, W., Ahmed, T., Rehman, Z., Rehman, A., Slaman, M. (22 de noviembre de 2018). Detection of plagiarism in URDU text documents. Conferencia internacional sobre tecnologías emergentes (ICET) de 2018, Islambad, Pakistán. DOI: 10.1109/ICET.2018.8603616.
Awale, N., Pandey, M., dulal, A., Timsiná, B. (2020). Plagiarism Detection in Programming Assignments using Machine Learning. Journal or artificial intelligence and capsule networks, 2(3), 177-184. DOI: 10.36548/jaicn.2020.3.005
Chakrabarty, A., Roy, S. (2018). An efficient context-aware agglomerative fuzzy clustering framework for plagiarism detection. International journal of data mining modelling and management, 10(2), 188. DOI: 10.1504/IJDMMM.2018.092533
Cruz, E. (30 de enero 2023). Desde 2013 encuesta de UNAM reveló que 52% de académicos atestiguaron algún plagio de tesis. La Hoguera. https://lahoguera.mx/desde-2013-encuesta-de-unam-revelo-que-52-de-academicos-atestiguaron-algun-plagio-de-tesis/
Díaz, D. (2015). El uso de Turnitin con retroalimentación mejora la propiedad académica de estudiantes de bachillerato. Ciencia, docencia y tecnología, 26(51), 197-216. https://dialnet.unirioja.es/servlet/articulo?codigo=5265867
Díaz, A., García, L. (2018). FP-MAXFLOW: Un algoritmo para la minería de patrones relevantes de longitud máxima. Computación y Sistemas, 22(2), 563-583. DOI: 10.13053/cys-22-2-2498
Duracik, M., Callejas, M., Mikusova, M. (2020). Método optimizado basado en algoritmo K-Means como herramienta en la detección de plagio de código fuente. RISTI, (e29),620-632. https://www.proquest.com/openview/fb8bfe36673b48be7b95c99d83529f32/1?pq-origsite=gscholar&cbl=1006393
El-Rashidy, M., Mohamed, R., El-Fishawy, N., Shouman, M. (2022). Reliable plagiarism detection system based on deep learning approaches. Neural Computing and Applications, 34, 18837-18858. https://doi.org/10.1007/s00521-022-07486-w
Espinoza, M. (2018). Weka, áreas de aplicación y sus algoritmos: una revisión sistemática de literatura. Revista Científica Ecociencia, 5(Edición Especial), 1-26. DOI: https://doi.org/10.21855/ecociencia.50.153
Gil, J. (2021). Minería de texto con R: Aplicaciones y técnicas estadísticas de apoyo. UNED.
Hany, M., Gomaa, W. (09 de mayo de 2022). A hybrid approach to paraphrase detection based on text similarities and machine learning classifiers. 2nd International Mobile, Intelligent and Ubiquitous computing conference, El Cairo, Egipto. DOI: 10.1109/MIUCC55081.2022.9781678.
Huang, Q., Song, X., Fang, G. (01 de junio de 2020). Code plagiarism detection method based on code similarity and student behavior characteristics. IEEE International Conference on Artificia Intelligence and Computer Applications, Dalian, China. DOI: 10.1109/ICAICA50127.2020.9182389.
Hunt, E., Janamsetty, R., Kinares, C., Koh, C., Sánchez, A., Zhan, F., Özdemir, M., Wasim, S., Yolcu, O., Dahal, B., Zhan, J., Geali, L., Oh, P. (2019). Modelos de aprendizaje automático para la identificación de paráfrasis y sus aplicaciones en la detección de plagio. Conferencia Internacional IEEE sobre Gran conocimiento.
Kulkarni, S., Govilkar, S., Amin, D. (7 de mayo de 2021). Analysis of Plagiarism Detection Tools and Methods. Proceedings of the 4th international conference on advances in science & technology. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3869091
Llovera, Y., Aragón, Y., Cano, P. (2023). Ciberplagio académico entre el estudiantado universitario: un acercamiento al estado actual de la temática (2017-2020). Revista Colombiana de Educación, (87), 207-226. DOI: https://doi.org/10.17227/rce.num87-13143
Mancilla, G., Leal, P., Sánchez, A., Vidal, C. (2020). Factores asociados al éxito de los estudiantes en modalidad de aprendizaje en línea: un análisis en minería de datos. Formación Universitaria, 13(6), 23-36. DOI: http://dx.doi.org/10.4067/S0718-50062020000600023
Mansoor, M., Al Tamimi, M. (2022). Plagiarism detection system in scientific publication using LSTM networks. Internacional Journal Technical and physical problems of engineering, 4(4), 17-24. http://www.iotpe.com/IJTPE/IJTPE-2022/IJTPE-Issue53-Vol14-No4-Dec2022/3-IJTPE-Issue53-Vol14-No4-Dec2022-pp17-24.pdf
Massagram, W., Prapanitisatian, S., Kerson, K. (2018). A novel technique for Thai document plagiarism detection using syntactic parse trees. Engineering & Applied Science Research, 45(4), 290-311. DOI: 10.14456/easr.2018.39
Michán, L., Álvarez, E. (2019). Tendencias actuales en el manejo de datos de investigación. BIOCIT, 12(45), 869-880. https://dialnet.unirioja.es/servlet/articulo?codigo=6971157
Moreno, J. (2018). Plagio en universidades: estudio de Turnitin y Compilatorio. Sego-Bit (7), 16-23. https://www.researchgate.net/publication/329151488_Plagio_en_universidades_estudio_de_Turnitin_y_Compilatio
Navarro, M. (07 de febrero de 2023). Denuncian ante la CNMS la “cara oculta” de las publicaciones científicas universitarias. El cierre digital. https://elcierredigital.com/investigacion/945608780/llevan-juzgado-cara-oculta-negocio-publicaciones-cientificas-universitarias.html
Nennuri, R., Geetha, M., Samhitha, M., Sandeep, S., Rochini, G. (26 de mayo2021). Plagiarism detection through data mining techniques. Journal of physiscs: conference series, International Conference on Recent Trends in Computing, San Francisco, EE.UU. DOI: 10.1088/1742-6596/1979/1/012070
Perilla, M. (2019). Detección de plagio en código fuente java mediante tokenización y aprendizaje de máquina. Educación, ciencia y tecnologías emergentes para la generación del siglo 21, 79-100. https://www.researchgate.net/publication/344755167
Priya, S., Dixit, A., Das, K., Harish, R. (2019). Plagiarism detection in source code using Machine Learning. International journal of engineering and advanced technology, 8,898-900. https://www.ijeat.org/wp-content/uploads/papers/v8i4/D6359048419.pdf
Qiubo, H., Jingdong, T., Guozheng, F. (28 de abril de 2019). Research on code plagiarism detection model based on Random Forest and Gradient Boosting Decision Tree. Conferencia internacional de 2019 sobre minería de datos y aprendizaje automático, Hong Kong. DOI: 10.1145/3335656.3335692
Reducindo, I., Rivera, L., Rivera, J., Olvera, M. (2017). Integración de plataforma LMS y algoritmo de código abierto para detección y prevención de plagio en Educación Superior. Revista general de información y documentación, 27(2), 299-315. DOI: https://doi.org/10.5209/RGID.58205
Rogerson, A., McCarthy, G. (2017). Using internet based paraphrasing tools: Original work, patchwriting or facilitated plagiarism? International Journal for Educational Integrity, 13(2), 1-15. DOI: 10.1007/s40979-016-0013-y
Sánchez, D., González, H., Hernández, Y. (2020). Revisión de algoritmos de detección y seguimiento de objetos con redes profundas para videovigilancia inteligente. Revista Cubana de Ciencias Informáticas, 14(3), 165-197. https://www.redalyc.org/journal/3783/378365834009/html/
Santamaría, W. (2015). Técnicas de minería de datos aplicadas en la detección de fraude: Estado del Arte. Universidad Nacional de Colombia. https://www.researchgate.net/publication/240724702_Tecnicas_de_Mineria_de_Datos_Aplicadas_en_la_Deteccion_de_FraudeEstado_del_Arte
Sarmiento, J., Ocampo, C. (2023). Enfoques frecuentistas y bayesiano en el estudio del plagio académico. Una propuesta innovadora en investigación educativa. REICE, 21(1), 139-158. DOI: https://doi.org/10.15366/reice2023.21.1.007
Shakeel, M., Karim, A. Khan, I. (2020). A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts. Information processing & management, 57(3), 102204. DOI: https://doi.org/10.1016/j.ipm.2020.102204
Sindhu, L., Idicula, S. (24 de febrero de 2017). Plagiarism detection in Malayalam language text using a composition of similarity measures. Conferencia internacional sobre aprendizaje automático y computación, Singapur. DOI: https://doi.org/10.1145/3055635.3056655
Venkatakrishnan, S., Mohan, K., Beattie, J., Correa, E., Dart, J., Deslippe, A., Hexemer, H., Krishnan, A., MacDowell, S., Marchesini, S., Patton, T., Perciano, J., Sethian, R., Stromsness, B., Tierney, C., Tull, D., Ushizima, D., Parkinson, D. (2016). Making advanced scientific algorithms and big scientific data management more accesible. Electronic Imaging, (19),1-7. DOI: 10.2352/ISSN.2470-1173.2016.19.COIMG-155
Villanaza S., Arteaga, F., Seijas, c., Rodríguez, O. (2012). Estudio comparativo entre algoritmos de agrupamiento basado en SVM y C-medios difuso aplicados a señales electrocardiográficas arrítmicas. Revista Ingeniería UC, 19(1), 16-24. https://www.redalyc.org/articulo.oa?id=70732261003
Viuginov, N., Grachev, P., filchenkov, A. (26 de diciembre de 2020). A Machine Learning based plagiarism detection in source code. 3ra Conferencia Internacional sobre algoritmos, computación e Inteligencia Artificial. Sanya, China. DOI: 10.1145/3446132
Xylogiannopoulos, K., Karampelas, P., Alhajj, R. (31 de agosto de 2018). Text mining for plagiarism detection: Multivariate pattern detection for recognition of text similarities. Conferencia Internacional IEEE/ACM 2018 sobre avances en análisis y minería de redes sociales, Barcelona, España. DOI: 10.1109/ASONAM.2018.8508265.
DOI: https://doi.org/10.23857/pc.v8i6.5706
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/