GPT-4 y sus modelos sucesores en la predicción de la complejidad léxica en textos públicos Ecuatorianos mediante Few-Shot Learning

Jenny Alexandra Ortiz Zambrano, Arturo Montejo Ráez

Resumen


Evaluar la complejidad léxica en documentos utilizando los modelos Generative Pre-trained Transformer (GPT-4, GPT-4o y GPT-4 Turbo) permitió analizar su impacto en la comprensión del lenguaje específicamente en textos estatales ecuatorianos en español. Se aplicó la técnica de few-shot learning en todos los modelos, tomando el conjunto de datos GovAIEc. El enfoque aplicado de la investigación es cuantitativo y descriptivo, con un diseño cuasi experimental. Los modelos se evalúan mediante métricas del error común: MAE, MSE, RMSE. El objetivo de esta investigación es evaluar el rendimiento del modelo GPT-4 y sus modelos sucesores en la predicción de la complejidad léxica en textos públicos ecuatorianos mediante Few-Shot Learning. Los resultados indican que el modelo GPT-4 obtiene un mayor rendimiento frente a sus sucesores con un MAE = 0.2464, mientras que GPT-4o presenta un MAE = 0.3889, y finalmente los resultados aplicando el modelo GPT-4 Turbo dieron un MAE = 0.2540.


Palabras clave


GPT-4; GPT-4 Turbo; GPT-4º; few-shot learning; predicción; complejidad léxica.

Texto completo:

PDF HTML

Referencias


Bono Cabré, R. (2012). Diseños cuasi-experimentales y longitudinales. OMADO (Objectes i MAterials DOcents). https://diposit.ub.edu/dspace/handle/2445/30783

Chicco, D., Warrens, M. J., & Jurman, G. (2021). The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation. PeerJ Computer Science, 7, 1–24. https://doi.org/10.7717/PEERJ-CS.623

Emanuel, Y., Solis, C., & Rivas, H. H. (2024). Comparison of machine learning algorithms for natural language processing (Vol. 11). https://orcid.org/0000-0002-2650-8932

Godínez López, E. M., & Rosas-Mayen, N. (2024a). Producción Escrita en Español L2: Influencia de la Autoeficacia y el Perfil Lingüístico en la Complejidad Textual. Revista Veritas de Difusão Científica, 5(3), 1263–1287. https://doi.org/10.61616/rvdc.v5i3.267

Godínez López, E. M., & Rosas-Mayen, N. (2024b). Producción Escrita en Español L2: Influencia de la Autoeficacia y el Perfil Lingüístico en la Complejidad Textual. Revista Veritas de Difusão Científica, 5(3), 1263–1287. https://doi.org/10.61616/rvdc.v5i3.267

Hodson, T. O. (2022). Root-mean-square error (RMSE) or mean absolute error (MAE): when to use them or not. In Geoscientific Model Development (Vol. 15, Issue 14, pp. 5481–5487). Copernicus GmbH. https://doi.org/10.5194/gmd-15-5481-2022

LOTAIP. (2004). LEY ORGANICA DE TRANSPARENCIA Y ACCESO A LA INFORMACION PUBLICA. 2004. https://www.educacionsuperior.gob.ec/wp-content/uploads/downloads/2014/09/LOTAIP.pdf

Ortiz Zambrano, J., MontejoRáez, A., Lino Castillo, K. N., Gonzalez Mendoza, O. R., & Cañizales Perdomo, B. C. (2020). VYTEDU-CW: Difficult Words as a Barrier in the Reading Comprehension of University Students. Advances in Intelligent Systems and Computing, 1066, 167–176. https://doi.org/10.1007/978-3-030-32022-5_16

Ortiz-Zambrano, J. A., Espín-Riofrío, C. H., & Montejo-Ráez, A. (2024). Deep Encodings vs. Linguistic Features in Lexical Complexity Prediction. Neural Computing and Applications. https://doi.org/10.1007/s00521-024-10662-9

Ortiz-Zambrano, J. A., & Montejo-Ráez, A. (2020). Overview of ALexS 2020: First Workshop on Lexical Analysis at SEPLN. https://www.ujaen.es/

Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Ráez, A. (2022). Transformers for Lexical Complexity Prediction in Spanish Language. Procesamiento Del Lenguaje Natural, 69, 177–188. https://doi.org/10.26342/2022-69-15

Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Ráez, A. (2023). SINAI Participation in SimpleText Task 2 at CLEF 2023: GPT-3 in Lexical Complexity Prediction for General Audience Notebook for the SimpleText Lab at CLEF 2023. http://ceur-ws.org

Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Ráez, A. (2024). SINAI Participation in SimpleText Task 2 at CLEF 2024: Zero-shot Prompting on GPT-4-Turbo for Lexical Complexity Prediction Notebook for the SimpleText Lab at CLEF 2024. https://openai.com/

Ortiz-Zambrano, J., & Montejo-Ráez, A. (2021). SINAI at SemEval-2021 Task 1: Complex word identification using Word-level features. https://pypi.

Prada, V., Santiago, D., Martinez, L., & Enrique, F. (2025). Optimización de la evaluación académica mediante procesamiento de lenguaje natural: desarrollo de un sistema de calificación automática para textos en educación superior.

Reyes, S. (2024). Aplicación de la espectroscopía NIR y herramientas Quimiométricas para la determinación de componentes químicos del café verde especial producido en la provincia de Charquí, Panamá.

Roque López Verónica Montserrat. (2024). Estudios multidisciplinarios: Transparencia y esquemas anticorrupción.

Salgado Reyes, N. I., & Elizabeth Trujillo Moreno, G. I. (2024). Sentiment Analysis in Social Network Data: Application of natural language processing and machine learning techniques to analyze opinions and feelings in social network data in the context of information systems. Núm. 1. Enero-Marzo, 10, 314–327. https://doi.org/10.23857/dc.v10i1.3714

Taboada Villamarín, A. (2024). Big data en ciencias sociales. Una introducción a la automatización de análisis de datos de texto mediante procesamiento de lenguaje natural y aprendizaje automático. Revista CENTRA de Ciencias Sociales, 3(1). https://doi.org/10.54790/rccs.51

Tatachar, A. V. (2021). Comparative Assessment of Regression Models Based On Model Evaluation Metrics. International Research Journal of Engineering and Technology. www.irjet.net




DOI: https://doi.org/10.23857/pc.v10i2.8921

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/