Dataset de textos en espaol de Ecuador con cuatro versiones reescritas por GPT para tareas de identificacin de texto generado automticamente

 

Dataset of Spanish texts from Ecuador with four versions rewritten by GPT for automatically generated text identification tasks

 

Conjunto de dados de textos em espanhol do Equador com quatro verses reescritas pela GPT para tarefas de identificao de texto geradas automaticamente

Csar Humberto Espn-Riofrio I
cesar.espinr@ug.edu.ec
https://orcid.org/0000-0001-8864-756X 

,Richard Espinoza-Fajardo II
richard.espinozaf@ug.edu.ec
https://orcid.org/0009-0004-5789-1366

,Fausto Javier Ortiz-Serrano III
fausto.ortizs@ug.edu.ec 
https://orcid.org/0009-0001-3965-5253

,Tania Peralta-Guaraca IV
tania.peraltag@ug.edu.ec
https://orcid.org/0000-0002-4879-6824
Rocio Carchi-Encalada V
rocio.carchie@ug.edu.ec 
https://orcid.org/0009-0009-6343-2939
 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: cesar.espinr@ug.edu.ec

 

Ciencias de la Educacin

Artculo de Investigacin

 

* Recibido: 30 de diciembre de 2023 *Aceptado: 10 de enero de 2024 * Publicado: 12 de febrero de 2024

 

        I.            Magster en Sistemas de Informacin Gerencial, Universidad de Guayaquil, Guayaquil, Ecuador.

      II.            Universidad de Guayaquil, Guayaquil, Ecuador.

    III.            Universidad de Guayaquil, Guayaquil, Ecuador.

    IV.            Magster en Ingeniera de Software y Sistemas Informticos, Universidad de Guayaquil, Guayaquil, Ecuador.

      V.            Mster Universitario en Educacin Bilinge, Universidad de Guayaquil, Guayaquil, Ecuador.


Resumen

Los generadores automticos de texto como GPT de OpenAI, se han vuelto herramientas valiosas por su capacidad de producir texto muy similar al escrito por el humano. Esa capacidad plantea desafos a la hora de identificar la autora del texto generado. El enfoque principal del presente trabajo se basa en la necesidad de contar con un dataset de textos en espaol para ser utilizado en tareas y herramientas de identificacin de texto humano o mquina. La intencin es proporcionar un dataset de textos en espaol originario de Ecuador de diversos mbitos como X (Twitter), noticias y resmenes de tesis, con una representacin variada de estilos y contextos del lenguaje. Utilizando tcnicas de web scraping, se recopilaron textos de los distintos dominios, que luego fueron reescritos automticamente por GPT con la ayuda de la API de OpenAI, generando cuatro versiones distintas de cada uno de los textos originales humanos, para formar as el dataset requerido. De esta manera, se logr formar un conjunto de datos slido con ms de 15,000 textos en espaol cada uno con su versin original y cuatro versiones reescritas automticamente por GPT, el mismo que puede ser usado en futuras investigaciones relacionadas a la deteccin de texto generado automticamente.

Palabras clave: Generadores automticos de texto; Dataset, GPT; Procesamiento de Lenguaje Natural.

 

Abstract

Automatic text generators, such as OpenAI's GPT, have become valuable tools for their ability to produce text very similar to that written by humans. This ability poses challenges when identifying authorship of the generated text. The main focus of this work is based on the need to have a dataset of texts in Spanish to be used in human or machine text identification tasks and tools. The intention is to provide a dataset of texts in Spanish originating in Ecuador from various fields such as X (Twitter), news and thesis summaries, with a varied representation of language styles and contexts. Using web scraping techniques, texts from the different domains were collected, which were then automatically rewritten by GPT with the help of the OpenAI API, generating four different versions of each of the original human texts, thus forming the required dataset. In this way, it was possible to form a solid data set with more than 15,000 texts in Spanish, each with its original version and four versions automatically rewritten by GPT, which can be used in future research related to the detection of automatically generated text.

Keywords: Automatic text generators; Dataset; GPT; Natural Language Processing.

 

Resumo

Geradores automticos de texto, como o GPT da OpenAI, tornaram-se ferramentas valiosas pela sua capacidade de produzir texto muito semelhante ao escrito por humanos. Essa habilidade apresenta desafios na identificao da autoria do texto gerado. O foco principal deste trabalho baseia-se na necessidade de contar com um conjunto de dados de textos em espanhol para ser utilizado em tarefas e ferramentas de identificao de textos humanos ou mquinas. A inteno fornecer um conjunto de textos em espanhol originrios do Equador de diversas reas como X (Twitter), notcias e resumos de teses, com uma representao variada de estilos e contextos lingusticos. Utilizando tcnicas de web scraping, foram coletados textos dos diferentes domnios, que foram reescritos automaticamente pelo GPT com o auxlio da API OpenAI, gerando quatro verses diferentes de cada um dos textos humanos originais, formando assim o conjunto de dados necessrio. Desta forma, foi possvel formar um slido conjunto de dados com mais de 15.000 textos em espanhol, cada um com sua verso original e quatro verses reescritas automaticamente pelo GPT, que poder ser utilizado em futuras pesquisas relacionadas deteco de texto gerado automaticamente.

Palavras-chave: Geradores automticos de texto; Conjunto de dados; GPT; Processamento de linguagem natural.

 

Introduccin

Actualmente los generadores de texto automtico han tenido una evolucin significativa, y han experimentado una notoria evolucin en su capacidad para producir texto que se asemeja al escrito por humanos. Esto los convierte en herramientas eficientes que pueden ser usados en diversos campos como la educacin y el trabajo, ya que pueden generar material de estudio o laboral muy rpidamente y con buenos resultados. Los aspectos principales de la generacin de texto segn (IEEE Xplore Full-Text PDF: n.d.) es la creacin de texto desde cero con la mnima intervencin humana y la modificacin de texto existente que puede mejorar la claridad, cambiar el tono o adaptar el estilo segn requisitos especficos. Entre los generadores de texto ms conocidos estn: Bard el cual fue lanzado por Google en marzo de 2023 (Manyika, n.d.), Jasper AI un generador de texto muy verstil y elogiado por los usuarios (Preview & Ai, 2023) y por ltimo tenemos a GPT (Generative Pretrained Transformer) creado por OpenAI, el cual es un modelo de aprendizaje automtico que utiliza tcnicas de aprendizaje no supervisado y supervisado para comprender y generar lenguaje similar al humano (Lund & Wang, n.d.).

Aunque estas herramientas son tiles, su uso excesivo plantea preocupaciones respecto al impacto en el desarrollo de habilidades fundamentales, como la creatividad y el juicio propio. (Chan, 2023) aborda la creciente inquietud en el mbito acadmico respecto al uso de inteligencia artificial generativa de texto y destaca la preocupacin por el posible uso indebido de estas herramientas por parte de estudiantes para hacer trampas o copian en sus tareas y exmenes. (Dwivedi et al., 2023) menciona lo til de ChatGPT en diversos campos. Sin embargo, plantea preocupaciones sobre la dificultad de distinguir entre la autora humana o mquina. Estas inquietudes sugieren desafos ticos y prcticos al atribuir la autora de un texto, afectando la valoracin de la originalidad y autenticidad del trabajo humano. (Brown et al., 2020) menciona la creciente dificultad para diferenciar entre texto generado por mquina y humano. Explora beneficios y riesgos, enfocndose en mal uso, sesgos y la capacidad de amplificar actividades perjudiciales.

Por otro lado, cabe mencionar que cada vez es ms difcil para el ser humano poder identificar si un texto fue escrito por humano o mquina. (Clark et al., n.d.) aborda la capacidad de personas no expertas para distinguir entre textos generados por inteligencia artificial, especialmente modelos avanzados como GPT, y textos escritos por humanos. (Ippolito et al., n.d.) destaca la limitada capacidad humana para discernir si un texto fue generado automticamente, incluso expertos en el tema enfrentan dificultades, mostrando una tasa de error del 30% en las evaluaciones realizadas. Todo esto nos indica que hay una necesidad de herramientas capaces de detectar la autora de texto humano o mquina, esto ha generado que se lleven a cabo investigaciones y tareas que abordan esta necesidad. (Liyanage & Buscaldi, n.d.) nos describe ALTA una tarea que involucra la creacin de sistemas de deteccin automtica que pueden distinguir entre textos escritos por seres humanos y aquellos generados de forma automtica. (Sarvazyan et al., n.d.) nos habla de AuTexTification, que forma parte del workshop IberLEF 2023, en donde los participantes, primero tuvieron que reconocer si un texto fue escrito por humano o mquina y despus deban atribuir un texto a uno de los seis modelos de generacin de textos diferentes. Los resultados generales no fueron concluyentes, pero demostraron que es ms fcil detectar el texto en ingls que en espaol. (LLM - Detect AI Generated Text | Kaggle, n.d.) presentan "LLM - Detect AI Generated Text", una tarea con el objetivo de simplificar la identificacin de textos creados por inteligencia artificial y progresar en el conocimiento actual sobre la deteccin de modelos de lenguaje de gran tamao (LLM). (Wu et al., n.d.) proponen large language models detecting (LLMDet), una herramienta de deteccin de modelos de lenguaje grandes segura y eficiente. No necesita datos de entrenamiento especficos y utiliza informacin de diversos modelos para identificar textos generados automticamente. Con una precisin del 98.54% y una velocidad de deteccin x3.5 ms rpida para textos humanos. (Canhasi & Shijaku, n.d.) utilizaron un modelo basado en XGBoost para detectar ensayos generados por ChatGPT, logrando una precisin del 96%. La ingeniera de caractersticas fue crucial, destacando la viabilidad de usar aprendizaje automtico para identificar texto.

Estas tareas e investigaciones no seran posible sin un conjunto de datos para entrenamiento y prueba, como es el caso de las tareas antes mencionada que utilizaron conjuntos de datos con textos en diferentes idiomas. Existen varios datasets orientados a la deteccin de texto humano mquina, y mencionamos algunos como: ai-text-detection-pile (Ingls) que contiene 990,000 textos humanos y 340,000 generados por un modelo GPT (Artem9k/Ai-Text-Detection-Pile Datasets at Hugging Face, n.d.), GPT-wiki-intro (Ingls) contiene 150,00 temas de introducciones de Wikipedia y generados automticamente por GPT, (Aadityaubhat/GPT-Wiki-Intro Datasets at Hugging Face, n.d.) y Text sample datasets and AI detectors test results (Ingls) con 100 artculos acadmicos de acceso abierto sobre salud mental y psiquiatra generados por GPT imitando un estilo acadmico (Text Sample Datasets and AI Detectors Test Results, n.d.), entre otros.

Es aqu donde se hace presente nuestro trabajo, con un dataset de texto en espaol de diferentes mbitos como informal, de noticias y resmenes de tesis, de origen ecuatoriano, dichos textos sern reescritos por GPT 3.5 el cual nos dar cuatro versiones diferentes del texto original. La recoleccin de textos fue llevada a cabo mediante tcnicas de web scraping, que es, bsicamente extraer datos directamente de la web utilizando bots para su posterior anlisis (Gomes Barbosa & Cavalcanti, n.d.). los datos se almacenaron en un archivo CSV, para posteriormente ser usado por la API de OpenAi que nos ofrece acceso GPT-3.5, e integrarlo al proyecto. Obtenemos 4 versiones del texto original reescritas por un modelo generador de texto automtico, ms el texto original. Este dataset final se destinar a futuras herramientas de deteccin de texto, ya sea humano o generado por mquinas. La diversidad en las reescrituras proporcionar una muestra variada que pueden ser utilizados para entrenar algoritmos que puedan distinguir entre ambos tipos de texto, mejorando as la capacidad de las aplicaciones futuras para diferenciar el texto escrito por humano del generado automticamente.

 

Mtodo

Este trabajo se basa en un anlisis bibliogrfico documental y cuasi experimental, centrado en la revisin de diversos artculos cientficos de gran relevancia y complementado con la exploracin de contenido en pginas web especializadas. Este enfoque nos proporcion una comprensin profunda de diversos mtodos para la extraccin de datos y generacin de texto mediante inteligencia artificial. La recoleccin de informacin se automatiz mediante prcticas de web scraping respaldadas por la documentacin.

El proceso de desarrollo consta de tres etapas: la evaluacin de la estructura de la pgina para obtener informacin, la construccin del script para ejecutar el cdigo y la reescritura de todos los textos obtenidos. Recopilamos informacin de tres dominios diferentes: informal, formal y resmenes. Para los textos de estilo informal, seleccionamos la red social X (Twitter), mientras que para los textos de estilo formal optamos por un portal de noticias en Ecuador y los resmenes de tesis fueron recopilados desde el repositorio de la Universidad de Guayaquil. Todos los textos recopilados tienen su origen en Ecuador. El proceso se visualiza en la figura 1.

 

Figura 1: Mtodo de obtencin y rescritura de texto

 

 

Extraccin de datos

Implementamos un enfoque integral para la extraccin de datos que abarc tres plataformas clave: X (Twitter), noticias y resmenes de tesis. Para llevar a cabo este proceso, utilizamos herramientas avanzadas en el mbito de la programacin, destacando el uso de Python y la biblioteca Selenium. En el caso de la recopilacin de datos de X, desarrollamos un script utilizando tcnicas de web scraping, que interactu con la interfaz de X. Este script fue diseado para extraer tweets relevantes, considerando la fecha de creacin, el nombre de usuario asociado considerando sea de Ecuador. Esto nos permiti capturar informacin informal y conversacional, convirtiendo a X en una fuente invaluable de datos que reflejan las opiniones y tendencias actuales en el contexto ecuatoriano. Para el portal de noticias ecuatoriano, optamos por utilizar tcnicas de web scraping centradas en la estructura de noticias. Nuestro script, tambin implementado en Python con Selenium, naveg por secciones especficas del sitio web, extrayendo contenido variado y estructurado. Este enfoque asegur la obtencin de informacin de calidad, preservando la coherencia y la estructura propia de las noticias, aspectos esenciales para nuestro anlisis. En cuanto a los datos acadmicos, recurrimos al repositorio de tesis de la Universidad de Guayaquil, el script naveg por secciones especficas, capturando los resmenes de las tesis. Este mtodo nos proporcion una perspectiva ms formal y especializada, complementando la diversidad de datos recopilados en otros contextos.

 

Generacin Automtica de texto

En el proceso de reescritura de datos, se emple la potente API de OpenAI para el modelo GPT-3.5, para transformar los textos originales recopilados de X (Twitter), el portal de noticias y resmenes de tesis. Adems, diseamos y desarrollamos un script que facilit la interaccin eficiente entre nuestros datos y la API de GPT-3.5. Este script se configur para gestionar las solicitudes y respuestas de manera efectiva, actuando como un intermediario esencial en el proceso de reescritura de datos. La utilizacin del script contribuy a la automatizacin del proceso de reescritura, agilizando la generacin de textos alternativos sin perder la coherencia semntica. Este enfoque integral y automatizado garantiz la eficacia y calidad de las cuatro versiones reescritas, enriqueciendo as nuestro conjunto de datos para anlisis posteriores.

Se utilizaron tres parmetros a GPT-3: la instruccin de la solicitud, el mensaje del usuario; el modelo, que ser el GPT-3.5-turbo; y la temperatura. La eleccin del modelo GPT-3.5 se basa en su destacado desempeo en el Procesamiento de Lenguaje Natural, mientras que la temperatura se ajusta para lograr un equilibrio adecuado entre creatividad en la generacin y coherencia textual, como se puede observar en la siguiente tabla 1.

 

Tabla 1: Parmetros requeridos por el api de OpenAI.

Parmetro

Valores

Modelo

GPT-3.5

Temperatura

0.9

 

La instruccin de sistema que empleamos es un texto que posibilita su reescritura sin perder el sentido semntico, conservando toda la informacin, como se evidencia en la figura 2.

 

Figura 2: Instruccin dada para la generacin de texto

 

Estos ajustes garantizaron resultados ptimos durante la generacin de textos. Es esencial destacar que, antes de enviar los datos a procesar, implementamos un control integral para asegurarnos de que la informacin recopilada mediante web scraping est libre de insultos, frases xenfobas o sexistas. Esta medida se tom para mantener la integridad y tica en la generacin de textos, evitando la inclusin de contenido inapropiado. Este enfoque riguroso garantiza que los resultados generados por GPT-3.5 se alineen con los estndares ticos y de calidad que buscamos mantener en nuestra investigacin.

 

Resultados

El resultado obtenido es un dataset con tres conjuntos de datos en espaol, cada uno correspondiente a diferentes dominios: informal, formal y resmenes. Los textos fueron recolectados junto con sus respectivas reescrituras, totalizando 15,384 instancias, como se detalla en la siguiente tabla:

Tabla 2: Divisin de dataset obtenido

Tipo

Cantidad

Fuente

Tiempo extraccin (das)

Informal

5258

X (Twitter)

2

Formal

5053

Noticias

4

Resumen

5073

Resmenes de Tesis

3

Total

15384

 

9

 

El dataset obtenido, representa un logro significativo en el mbito del Procesamiento de Lenguaje Natural, proporcionando una base de datos rica y diversa de textos en espaol. En el dataset de X, se logr la extraccin de texto escrito por diversos usuarios ecuatorianos. La diversidad de temas y estilos de escritura en X enriquece el conjunto de datos, permitiendo un anlisis ms completo del uso del lenguaje en un contexto social y contemporneo, como se muestra en la siguiente figura.

 

Figura 3: Resultado final de los datos extrados de X (Twitter) con sus 4 versiones reescritas por GPT.

 

El conjunto de noticias se construy mediante la obtencin de informacin de un portal de noticias ecuatoriano, refleja el lenguaje utilizado en el mbito periodstico, capturando la formalidad y la estructura caracterstica de las noticias. La variedad de temas cubiertos proporciona una visin integral del uso del lenguaje en el contexto de la informacin y las noticias, como se muestra en la siguiente figura.

 

Figura 4: Resultado final del dataset de noticias. Elaboracin propia.

 

En el conjunto de resmenes de tesis, se recopilaron textos representativos de un estilo ms formal y tcnico. La variedad de temas abordados en las tesis contribuye a un conjunto de datos que abarca diversas reas del conocimiento. Este dominio proporciona una perspectiva nica sobre el lenguaje utilizado en contextos acadmicos y cientficos en espaol, como se muestra en la siguiente figura.

 

Figura 5: Resultado final del dataset de resmenes de tesis. Elaboracin propia.

 

La aplicacin de la API de GPT-3.5 ha demostrado ser altamente efectiva en la generacin de mltiples versiones reescritas para cada fragmento de texto, proporcionando una diversidad que se ajusta a distintos tonos y estilos de escritura. La capacidad de preservar la informacin esencial ha sido clave, garantizando la coherencia y relevancia en diferentes contextos, desde textos informales de redes sociales hasta documentos acadmicos formales. La herramienta de interaccin desarrollada, mediante un script, ha facilitado de manera eficiente la comunicacin entre los datos obtenidos y la API, permitiendo un control efectivo sobre el proceso de reescritura. La validacin manual ha confirmado la fidelidad al contenido original y la adaptabilidad al contexto, asegurando resultados de calidad. La aplicacin de webscraping para la recopilacin de datos ha arrojado un conjunto robusto y diversificado, abarcando diferentes tipologas de textos en espaol, tanto formales como informales. El enfoque integral, que combina la potencia de la inteligencia artificial con tcnicas de obtencin de datos, sienta las bases para futuras investigaciones y aplicaciones en el campo del procesamiento de lenguaje natural en espaol.

 

Discusin

El dataset obtenido de texto en espaol de diferentes dominios como X (Twitter), noticias y resmenes de tesis, fue posible gracias a los mtodos utilizados. Es importante mencionar que esto es un enfoque, novedoso no solo porque sea en espaol y que este compuesto de textos originarios de Ecuador, sino tambin porque se generaron cuatro versiones del texto original que da variedad al estilo de escritura de GPT, y as poder identificar en trabajos futuros, cmo el modelo estructura y crea una oracin.

Si bien se utiliz GPT como modelo de generacin de texto automtico para la reescritura, se pudieron elegir otros modelos, pero GPT se adapt a las necesidades del proyecto. Explorar otros modelos y comparar la estructura en la escritura es algo que podra ser posible en futuros trabajos.

Si bien el dataset final est completo es su totalidad, se podra aumentar la cantidad de dominios, y poder obtener ms variedad y cantidad en los textos.

Este dataset ser una gran herramienta que podr ser utilizado en futuras tareas, investigaciones y herramientas orientadas a la deteccin de texto automtico, por tanto, contribuye a apreciar la originalidad de los textos humanos.

 

Conclusiones

En esta investigacin se usaron mtodos y tcnicas indispensables para la creacin de un dataset de textos en espaol. La recoleccin de texto se llev a cabo mediante tcnicas avanzadas de web scraping, permitiendo la extraccin de ms de 15,000 textos en espaol procedentes de diversos mbitos como X (Twitter), noticias y resmenes de tesis, todos originarios de Ecuador. Estos textos representan una amplia gama de formalidades lingsticas utilizadas por los usuarios ecuatorianos, ofreciendo as una muestra representativa y diversa del lenguaje en contexto.

Adems, se destaca tambin, la correcta eleccin del modelo GPT-3.5 y la implementacin de la API de OpenAI, que facilitaron la generacin coherente y variada de cuatro versiones reescritas de cada texto original obtenido. Esta eleccin permiti no solo mantener la coherencia en los textos generados, sino tambin preservar el sentido original, su diversidad y relevancia en distintos contextos.

Este proceso ha culminado en la creacin exitosa de un conjunto de datos no solo valioso en s mismo, sino que tambin se posiciona como una herramienta para investigaciones futuras y avances en el campo de la deteccin de texto generado automticamente.

 

Referencias

      1.            aadityaubhat/GPT-wiki-intro Datasets at Hugging Face. (n.d.). Retrieved January 22, 2024, from https://huggingface.co/datasets/aadityaubhat/GPT-wiki-intro

      2.            Alves, A. D. (n.d.). Introduo API da OpenAI. https://platform.openai.com/docs/supported-countries

      3.            artem9k/ai-text-detection-pile Datasets at Hugging Face. (n.d.). Retrieved January 22, 2024, from https://huggingface.co/datasets/artem9k/ai-text-detection-pile

      4.            Canhasi, E., & Shijaku, R. (n.d.). ChatGPT Generated Text Detection. https://doi.org/10.13140/RG.2.2.21317.52960

      5.            Chan, C. K. Y. (2023). A comprehensive AI policy education framework for university teaching and learning. International Journal of Educational Technology in Higher Education, 20(1). https://doi.org/10.1186/s41239-023-00408-3

      6.            Clark, E., August, T., Serrano, S., Haduong, N., Gururangan, S., & Smith, N. A. (n.d.). Human Evaluation of Generated Text. 72827296. Retrieved January 8, 2024, from www.nltk.org/

      7.            Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., Baabdullah, A. M., Koohang, A., Raghavan, V., Ahuja, M., Albanna, H., Albashrawi, M. A., Al-Busaidi, A. S., Balakrishnan, J., Barlette, Y., Basu, S., Bose, I., Brooks, L., Buhalis, D., Wright, R. (2023). Opinion Paper: So what if ChatGPT wrote it? Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management, 71, 102642. https://doi.org/10.1016/J.IJINFOMGT.2023.102642

      8.            Gomes Barbosa, A. B., & Cavalcanti, A. B. (n.d.). Web Scraping e Anlise de dados.

      9.            IEEE Xplore Full-Text PDF: (n.d.). Retrieved December 4, 2023, from https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10177704

  10.            Ippolito, D., Duckworth, D., Callison-Burch, C., & Eck, D. (n.d.). Automatic Detection of Generated Text is Easiest when Humans Are Fooled. Association for Computational Linguistics. https://github.com/openai/

  11.            Liyanage, V., & Buscaldi, D. (n.d.). An Ensemble Method Based on the Combination of Transformers with Convolutional Neural Networks to Detect Artificially Generated Text. Retrieved November 24, 2023, from https://gptzero.me/

  12.            LLM - Detect AI Generated Text | Kaggle. (n.d.). Retrieved January 21, 2024, from https://www.kaggle.com/competitions/llm-detect-ai-generated-text/overview

  13.            Lund, B. D., & Wang, T. (n.d.). Chatting about ChatGPT: how may AI and GPT impact academia and libraries? https://doi.org/10.1108/LHTN-01-2023-0009

  14.            Manyika, J. (n.d.). An overview of Bard: an early experiment with generative AI.

  15.            Preview, A., & Ai, J. (2023). Competitor Analysis Report. https://zapier.com/blog/jasper-ai/

  16.            Sarvazyan, A. M., Jos, J., Gonzlez, J., Franco-Salvador, M., Rangel, F., Chulvi, B., & Rosso, P. (n.d.). Overview of AuTexTification at IberLEF 2023: Detection and Attribution of Machine-Generated Text in Multiple Domains. Retrieved November 24, 2023, from https://tinyurl.com/bloom-1b7

  17.            Text sample datasets and AI detectors test results. (n.d.). Retrieved January 21, 2024, from https://figshare.com/articles/dataset/Text_sample_datasets_and_AI_detectors_test_results/24208443

  18.            Wu, K., Pang, L., Shen, H., Cheng, X., & Chua, T.-S. (n.d.). LLMDet: A Third Party Large Language Models Generated Text Detection Tool. https://github.com/TrustedLLM/LLMDet.

 

 

 

 

 

2024 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/