����������������������������������������������������������������������������������
Identificando cambios de autor en un texto mediante codificaci�n de embeddings de tokens iniciales de las capas de atenci�n.
Identifying author changes in a text by encoding embeddings of initial tokens from the attention layers.
Identificar altera��es de autor em um texto codificando incorpora��es de tokens iniciais das camadas de aten��o.
![]() |
||||
![]() |
||||
![]() |
�����������������������
�������������������������������� Correspondencia: https://orcid.org/0000-0001-8864-756X
Ciencias de la Computaci�n
Art�culo de Investigaci�n
��
* Recibido: 23 de junio de 2023 *Aceptado: 12 de julio de 2023 * Publicado: �30 de agosto de 2023
- Magister, Universidad de Guayaquil, Ecuador
- Universidad de Guayaquil, Ecuador
- Universidad de Guayaquil, Ecuador
- Magister, Universidad de Guayaquil, Ecuador
- M�ster, Universidad de Guayaquil, Ecuador
Resumen
La determinaci�n de autor�a es una herramienta esencial en la detecci�n de plagio y atribuci�n err�nea de autor en diversas �reas. En este trabajo, se aborda la problem�tica de determinar cambios de autor en un texto.� Tradicionalmente, muchas investigaciones utilizan la salida final de codificaci�n de las capas de atenci�n en tareas de clasificaci�n de textos. Proponemos extraer los embeddings de codificaci�n de los tokens iniciales de las capas de atenci�n de modelos Transformer pre entrenados basados en BERT, aplicando aprendizaje por transferencia para realizar un ajuste fino del modelo y luego proceder a la predicci�n. Los modelos mDeBERTa y DeBERTa se seleccionan para la experimentaci�n. El enfoque se valida utilizando un dataset de las campa�as PAN 2023 para determinar cambios de autor, que contiene pares de textos en ingl�s de distintos dominios. Este estudio tiene una importancia significativa en diversas disciplinas que requieran la verificaci�n de autor�a. Si bien los resultados obtenidos no fueron los esperados, el m�todo propuesto es un prometedor punto de partida para futuras investigaciones sobre el tema.
Palabras Clave: Cambios de autor; Procesamiento de Lenguaje Natural; Modelos Transformers; Embeddings de tokens iniciales.
Abstract
The determination of authorship is an essential tool in the detection of plagiarism and erroneous author attribution in various areas. In this paper, the problem of determining author changes in a text is addressed. Traditionally, many investigations use the final encoding output of attentional layers in text classification tasks. We propose to extract the encoding embeddings of the initial tokens from the attention layers of pre-trained BERT-based Transformer models, applying transfer learning to fine tune the model and then proceed to prediction. The mDeBERTa and DeBERTa models are selected for experimentation. The approach is validated using a dataset from the PAN 2023 campaigns to determine author changes, which contains pairs of texts in English from different domains. This study has significant importance in various disciplines that require verification of authorship. Although the results obtained were not as expected, the proposed method is a promising starting point for future research on the subject.
Keywords: Author changes; Natural Language Processing; Transformer models; Initial token embeddings.
Resumo
A determina��o da autoria � uma ferramenta essencial na detec��o de pl�gio e atribui��o err�nea de autores em diversas �reas. Neste artigo, � abordado o problema de determinar mudan�as de autor em um texto. Tradicionalmente, muitas investiga��es utilizam a sa�da final de codifica��o de camadas de aten��o em tarefas de classifica��o de texto. Propomos extrair os embeddings de codifica��o dos tokens iniciais das camadas de aten��o de modelos Transformer pr�-treinados baseados em BERT, aplicando aprendizagem de transfer�ncia para ajustar o modelo e ent�o prosseguir para a previs�o. Os modelos mDeBERTa e DeBERTa s�o selecionados para experimenta��o. A abordagem � validada utilizando um conjunto de dados das campanhas PAN 2023 para determinar mudan�as de autor, que cont�m pares de textos em ingl�s de diferentes dom�nios. Este estudo tem import�ncia significativa em diversas disciplinas que exigem verifica��o de autoria. Embora os resultados obtidos n�o tenham sido os esperados, o m�todo proposto � um ponto de partida promissor para futuras pesquisas sobre o tema.
Palavras-chave: Mudan�as de autor; Processamento de linguagem natural; Modelos de transformadores; Incorpora��es de token iniciais.
����������������������������������������������������������������������������������������������
Introducci�n
En la era digital, con la proliferaci�n de informaci�n en l�nea, la atribuci�n de autor�a se ha vuelto un campo de relevancia para la detecci�n de cambio de autores, la desinformaci�n y el contenido generado autom�ticamente. Esto lo hace una herramienta clave para verificar la autenticidad de la informaci�n y protegerse contra la manipulaci�n y fraude, lo que da relevancia al presente art�culo que se enfoca en la verificaci�n de autor�a de textos de diferentes tipos usando modelos de lenguaje basados en Transformers.
El Procesamiento del Lenguaje Natural (PLN) se encuentra inmerso en el reconocimiento de discursos, entendimiento del lenguaje, establece como objetivo principal que las computadoras entiendan el lenguaje y lo procesen de la misma forma que los humanos (Beltr�n & Rodr�guez Mojica, 2021).
La verificaci�n de autor�a ha tomado mucho poder, a trav�s de esta es posible determinar si un texto pertenece a un autor, han disminuido las formas de plagio, y tambi�n se ha aplicado en otras �reas como la seguridad ya que es posible detectar y obtener informaci�n de personas que expresan violencia u odio en Internet. La verificaci�n de autor�a aplica diversas t�cnicas y m�todos para determinar a qu� autor pertenece un texto, recoge las caracter�sticas de estos autores, su elecci�n de palabras, su forma de escribir oraciones, la aplicaci�n de signos de puntuaci�n. La clasificaci�n de textos se basa en insertar de manera correcta a un texto dentro de una categor�a, bajo las diversas caracter�sticas que presente. (Minaee et al., 2021).
Existen varios estudios que abordan la detecci�n de cambio de autor usando diversas t�cnicas de clasificaci�n, entre los cuales podemos destacar a (Barlas & Stamatatos, 2020) donde proponen verificar cambio de autor�a en un texto utilizando Multi Neural Network (MNN) combinado con modelos pre entrenados BERT, ELMo, ULMFiT y GPT-2, donde los resultados demuestran que BERT y ELMo contienen los enfoques m�s estables. (Fabien et al., n.d.) para la identificaci�n de autor proponen utilizar el modelo BertAA, el cual es basado en el modelo BERT y que contiene un ajuste fino a�adiendo la aplicaci�n de rasgos estilom�tricos, donde analizan 3 conjuntos de datos mediante los cuales se analizar� el rendimiento del modelo. Los resultados demuestran que BertAA es �til para resolver este tipo de tareas donde mejora la precisi�n a�adiendo las caracter�sticas estilom�tricas. (Avram, 2023) para la identificaci�n de cambio autor�a, us� un modelo Transformer basado en BERT, en un dataset en lengua rumana a pesar de que se encontraba desbalanceado porque eran textos de �pocas distintas y el n�mero de autores desigual, se presentaron resultados favorables aplicando los m�todos Support Vector Machine (SVM), Decision Trees (DT), Multi Expression Programming (MEP), Artificial Neural Networks (ANN) y k-Nearest Neighbour, donde luego de evaluar al modelo BERT present� un 85.9% de precisi�n en las m�tricas usadas.
El concepto de Transformer se hace presente en 2017 por medio del art�culo Attention Is All You Need (Vaswani et al., 2017), este se basa en un mecanismo de atenci�n conectando la entrada y salida de una red neuronal de manera que el desempe�o y rendimiento sea mejor (Beltr�n & Rodr�guez Mojica, 2021).
A finales del 2018 los cient�ficos del laboratorio del lenguaje de IA de Google presentaron un modelo ling��stico BERT (Bidirectional Encoder Representations from Transformers) (Devlin et al., 2018), su prop�sito es permitir un aprendizaje profundo representado de forma bidireccional para ser usado en los modelos de aprendizaje autom�tico. BERT presenta 2 arquitecturas: BERT-base y BERT-large, el primero cuenta con 12 bloques codificadores y cada uno tiene 12 capas de atenci�n y 768 capas ocultas, el segundo posee 24 bloques codificadores con 16 capas de atenci�n cada uno y 1024 capas ocultas. Dentro de estas capas BERT posee una jerarqu�a de informaci�n ling��stica, en las capas inferiores tiene rasgos superficiales, en las capas intermedias rasgos sint�cticos y en las capas superiores rasgos sem�nticos (Singh, 2022). El modelo DeBERTa (Decoding-enhanced BERT with disentangled attention) cuenta con un mecanismo de atenci�n desarrollado y un decodificador mejorado esto lo hace m�s eficiente al momento de entrenar. El modelo mDeBERTa es una versi�n multiling�e del anterior, este cuenta con 12 capas que permite insertar 190M de par�metros en las capas de embedding (Xia et al., n.d.)
El enfoque propuesto en la presente investigaci�n involucra la obtenci�n de los tokens iniciales de informaci�n de capas de atenci�n en modelos basados en BERT, es una alternativa distinta y poco investigada a los m�todos actuales de verificaci�n de autor�a. La utilizaci�n de la informaci�n de capas de atenci�n de BERT puede potenciar a mejorar la precisi�n de la verificaci�n de autor�a y permitir la verificaci�n de textos de diferentes tipos de discurso. Los resultados podr�an tener un impacto positivo en campos como el forense digital, la literatura y la seguridad de la informaci�n, y podr�an ser utilizados por organizaciones gubernamentales, empresas y entidades acad�micas para mejorar la autenticidad y la integridad de la informaci�n.
M�todo
Este trabajo est� sustentado por medio de una investigaci�n bibliogr�fica, indicada para el an�lisis de distintos art�culos cient�ficos de alta relevancia que permitieron conocer el estado del arte y a su vez los diversos m�todos empleados en investigaciones similares. Se hace uso de una metodolog�a experimental dentro de la cual se realizan pruebas en la extracci�n de los embeddings de los tokens iniciales usando modelos Transformers basados en BERT. Empleando adem�s el m�todo cuantitativo que por medio de diversas m�tricas eval�a el rendimiento del modelo planteado dentro de sus dos etapas, la de entrenamiento y la de prueba.
En figura 1 se plantea el m�todo propuesto y sus etapas, donde el dataset de entrenamiento pasa por un pre procesamiento de los datos y extracci�n de embeddings iniciales en todos los modelos pre entrenados, por otra parte, el dataset de pruebas se tokeniza y de esa forma ambos datasets quedan listo para el entrenamiento y ajuste. Una vez entrenado el modelo es guardado y llamado para realizar las predicciones y posterior evaluaci�n de rendimiento.
Figura 1 M�todo implementado en la investigaci�n
Dataset
El dataset utilizado corresponde a una de las campa�as PAN 2023 de CLEF para determinar cambios de autor. Se encuentra compuesto por correos, ensayos, entrevistas y transcripciones de discursos en idioma ingl�s, donde su nivel de formalidad var�a entre los distintos tipos de texto. Cuenta con 8836 pares de datos que contienen dos textos de dominio distintos, como se muestra en la tabla 1.
Tabla 1
Cantidad de muestra de los dataset
Dataset |
Cantidad de Muestras |
Valores |
Entrenamiento |
[interview, email]: [essay, email]: [email, speech_transcription]: [essay, interview]: [speech_transcription, interview]: [essay, speech_transcription]: Total: |
4564 1454 1036 884 642 256 8836 |
El dataset tiene un campo que nos indica si el texto fue escrito o no por el mismo autor. Con el valor �True� indica que el texto es escrito por el mismo autor, por otra parte, el valor �False� determina que el texto no es escrito por el mismo autor.
Figura 2 Muestra del dataset de origen.
Pre procesamiento de datos
Al tener valores �True" y "False", se dificulta el entrenamiento del modelo, para ello lo codificamos para que los valores sean 1 y 0 respectivamente para la correcta comprensi�n del algoritmo, como se puede apreciar en la siguiente figura 3. Por lo tanto, si el valor es 1 significa que el texto tiene el mismo autor, por el contrario, si el valor es 0 significa que el autor no es el mismo, es decir existe un cambio de autor.
Figura 3 Datos preprocesados.
Tokenizaci�n
Se debe implementar los tokenizadores adecuados para cada modelo ya que estos necesitan procesar la informaci�n de manera num�rica. La cantidad m�xima de tokens con la que trabajan los modelos son 512, se realiza una segmentaci�n de datos para evitar la p�rdida de informaci�n y se los concatena para conservar la misma cantidad de registros.
Tabla 2
Tokenizadores utilizados
Modelo |
Tokenizador |
BERT |
BertTokenizer |
DeBERTa |
DebertaTokenizer |
mDeBERTa |
AutoTokenizer |
Hiperpar�metros
Los hiperpar�metros determinados para el entrenamiento del modelo son: funci�n de activaci�n, learning rate, batch size y dropout. Mediante la librer�a Optuna se realizaron diversas pruebas para obtener los mejores hiperpar�metros en base a distintos valores o rangos propuestos.
Tabla 3
Valores para optimizar los Hiperpar�metros
Hiperpar�metro |
Rango |
Funci�n de activaci�n |
Tanh, ReLU, GELU |
Learning rate |
3e-5 � 5e-5 |
Dropout |
0.2 � 0.5 |
Epoch |
1 � 5 |
Batch size |
8, 16 |
Para potenciar la determinaci�n de hiperpar�metros, usamos la caracter�stica �EarlyStopping� la cual permite hacer una parada temprana cuando se alcanzan los criterios de maximizaci�n definidos y no se tienen variaciones relevantes en las diversas ejecuciones que realiza Optuna. Para la presente investigaci�n, se define la parada temprana para que tome acci�n si en las �ltimas 4 ejecuciones no existen variaciones en los resultados de la variable a maximizar �F1�. Con esto podemos lograr tener ejecuciones m�s �giles y evitar realizar intentos innecesarios que pueden aumentar el tiempo de ejecuci�n y uso de recursos.
Tabla 4
Mejores hiperpar�metros obtenidos Optuna
modelo |
Funci�n activaci�n |
Learning rate |
Dropout |
Epoch |
Batch size |
BERT |
GELU |
3.8e-5 |
0.2313 |
3 |
8 |
DeBERTa |
Tanh |
3e-5 |
0.2169 |
2 |
8 |
mDeBERTa |
Tanh |
4e-5 |
0.3303 |
3 |
16 |
Ajuste y entrenamiento del modelo
A los modelos base pre entrenados se les realiza un ajuste fino (fine tuning) a�adiendo 2 dos funciones lineales, dropout, la funci�n de activaci�n y la funci�n CrossEntropyLoss que calcula la p�rdida durante el entrenamiento.
Figura 4 Ajuste fino de los modelos preentrenados.
Para el entrenamiento de los modelos por medio del dataset para entrenamiento, se aplican los mejores hiperpar�metros capturados en la ejecuci�n de Optuna para potenciar el entrenamiento y precisi�n en las m�tricas de evaluaci�n.
Figura 5 Entrenamiento de los modelos.
Predicci�n
Una vez llamado el modelo, tokenizado el dataset de prueba con el tokenizer del modelo entrenado para ser usado como entrada, se ejecuta el m�todo model.predict() cargado para realizar predicciones y poder realizar evaluaciones de rendimiento.
.
Resultados
Para evaluar los modelos tomamos las m�tricas F1, accuracy, Brier y la matriz de confusi�n. Donde el F1 demuestra qu� tan preciso son los resultados de las predicciones, Brier detalla los valores de p�rdida que existan en los resultados, el accuracy va a medir la exactitud de los algoritmos y la matriz de confusi�n es la encargada de determinar la cantidad de predicciones correctas e incorrectas. Luego de obtener las predicciones y m�tricas de evaluaci�n para ambos modelos, se procede a realizar el an�lisis y la valoraci�n de los diversos resultados para evaluaci�n de entrenamiento y predicci�n del modelo. Tabla 5 muestra la evaluaci�n durante el entrenamiento.
Tabla 5
M�tricas de evaluaci�n en entrenamiento de los modelos
Modelo |
Accuracy |
F1 |
Brier |
Precision |
BERT |
0.5253 |
0.5252 |
0.5253 |
0.5254 |
mDeBERTa |
0.5099 |
0.3377 |
0.5099 |
0.2549 |
DeBERTa |
0.5173 |
0.51731 |
0.5173 |
0.5175 |
Aunque los resultados obtenidos no han sido los esperados, se analiza mediante el Accuracy que los valores obtenidos para determinar el mejor rendimiento en entrenamiento, se puede evidenciar que los modelos BERT y DeBERTa tienen las mejores marcas con un accuracy de 52.53% y 51.73% respectivamente en la determinaci�n de autor�a de textos en idioma ingl�s, mientras que mDeBERTa siendo el menos efectivo obtuvo un 50.99%.
Una vez finalizada la etapa de entrenamiento, se realizan pruebas de predicci�n con el dataset de prueba con los cuales obtuvimos el siguiente rendimiento:
Tabla 6
M�tricas de evaluaci�n en predicci�n de los modelos
Modelo |
Accuracy |
F1 |
Brier |
Precision |
Tiempo |
BERT |
0.5173 |
0.5173 |
0.5173 |
0.5174 |
02:43h |
mDeBERTa |
0.4984 |
0.3326 |
0.4985 |
0.2492 |
01:44h |
DeBERTa |
0.5203 |
0.5202 |
0.5204 |
0.5203 |
03:20h |
Por medio de la evaluaci�n F1 se determina el modelo m�s preciso en las predicciones para determinar cambio de autor en un texto. Los modelos BERT y DeBERTa obtuvieron las mejores marcas con 51.73% y 52.02% respectivamente. La m�trica Brier muestra el porcentaje de p�rdida, al obtener una puntuaci�n menor indica que tan bueno es el rendimiento del modelo en evitar p�rdida de informaci�n en la predicci�n, en este caso, el modelo mDeBERTa tiene un mejor rendimiento en porcentaje menor de p�rdida a comparaci�n con BERT y DeBERTa. Dentro de los resultados se debe tomar en cuenta el tiempo que le toma a los modelos entrenar y predecir, como se aprecia en la tabla, al modelo mDeBERTa le tom� menos la ejecuci�n de las predicciones, sin embargo, fue el modelo m�s impreciso en la determinaci�n de cambio de autor seg�n el resto de las m�tricas. Como adicional, se muestra la matriz de confusi�n de los modelos, la cual detalla la informaci�n expuesta en la tabla anterior acorde a las predicciones realizadas, mostrando de manera gr�fica los resultados verdaderos positivos y verdaderos negativos.
Figura 6 Matrices de confusi�n de la predicci�n
Discusi�n
Con base a las m�tricas de evaluaci�n seleccionadas para el presente trabajo, se realiza una comparaci�n de los resultados obtenidos para determinar el desempe�o de cada uno, demostrando que BERT tuvo un rendimiento del 51.73% mientras que DeBERTa obtuvo un 52.03% y por �ltimo mDeBERTa con un 33.26% en la predicci�n de cambio de autor en un texto, por otro lado, este �ltimo modelo muestra un tiempo de ejecuci�n de 01:44h y valor de p�rdida del 49.84%, ambos valores menores que los obtenidos en los modelos BERT y DeBERTa.
El dataset utilizado cuenta con 8836 datos los cuales tienen entradas con textos largos que superan los 512 tokens admitidos por los modelos utilizados, lo que puede afectar el tratamiento de la data, el rendimiento del entrenamiento y la predicci�n de los valores, a lo que se sugiere utilizar m�todos apropiados para el tratamiento de textos largos.
La extracci�n de embeddings de los tokens iniciales de las capas de atenci�n es un enfoque novedoso y poco implementado al momento de determinar el cambio de autor en un texto, este enfoque puede llegar a tener efectividad en este tipo de tareas, debido a que se extrae la caracter�sticas sem�nticas y sint�cticas de los textos que pueden ayudar al aprendizaje del modelo.
Conclusiones
Para esta investigaci�n� se plante� un m�todo de aprendizaje autom�tico que permita determinar el cambio de autor en un texto mediante la codificaci�n de capas de atenci�n de modelos basados en BERT, donde se demuestra que los modelos BERT y DeBERTa logran rendimientos similares en cuanto a la predicci�n de cambio de autor en textos de idioma ingl�s, teniendo una ligera ventaja en el modelo DeBERTa con un 52.03% evidenciando as� que las experimentaciones realizadas siembran una base interesante para el tipo de tarea elegido con el enfoque de extracci�n de embeddings de tokens iniciales en las capas de atenci�n.
Para trabajos futuros se recomienda experimentar con otros modelos y diferentes m�todos para la identificaci�n de autor como la extracci�n de caracter�sticas estilom�tricas de los textos con la finalidad de obtener un mejor rendimiento de los modelos.
Si bien los resultados no fueron los esperados en la determinaci�n de cambio de autor en un texto, el m�todo propuesto de extraer la informaci�n sint�ctica y sem�ntica de los embbedings iniciales de las capas de atenci�n, abre paso a nuevas investigaciones que puedan adoptar el enfoque a la determinaci�n de cambio de autor en un texto.
Referencias
Avram, S.-M. (2023). BERT-based Authorship Attribution on the Romanian Dataset called ROST. January, 1�18. http://arxiv.org/abs/2301.12500
Barlas, G., & Stamatatos, E. (2020). Cross-domain authorship attribution using pre-trained language models. IFIP Advances in Information and Communication Technology, 583 IFIP, 255�266. https://doi.org/10.1007/978-3-030-49161-1_22/FIGURES/2
Beltr�n, N. C., & Rodr�guez Mojica, E. C. (2021). Procesamiento del lenguaje natural (PLN) - GPT-3.: Aplicaci�n en la Ingenier�a de Software. Tecnolog�a Investigaci�n y Academia, 8(1), 18�37. https://revistas.udistrital.edu.co/index.php/tia/article/view/17323
Devlin, J., Chang, M.-W., Lee, K., Google, K. T., & Language, A. I. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Naacl-Hlt 2019, Mlm, 4171�4186.
Fabien, M., Villatoro-Tello, E., Motlicek, P., & Parida, S. (n.d.). BertAA: BERT fine-tuning for Authorship Attribution. 127�137.
Minaee, S., Kalchbrenner, N., Cambria, E., Nikzad, N., Chenaghlu, M., & Gao, J. (2021). Deep Learning-Based Text Classification. ACM Computing Surveys, 54(3). https://doi.org/10.1145/3439726
Singh, R. (2022). Utilizing Transformer Representations Efficiently | Kaggle. https://www.kaggle.com/code/rhtsingh/utilizing-transformer-representations-efficiently/notebook
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem(Nips), 5999�6009.
Xia, F., Li, B., Weng, Y., He, S., Sun, B., Li, S., Liu, K., & Zhao, J. (n.d.). LingJing at SemEval-2022 Task 3: Applying DeBERTa to Lexical-level Presupposed Relation Taxonomy with Knowledge Transfer. 239�246. Retrieved June 12, 2023, from https://sites.google.com/view/semeval2022-pretens/
� 2023 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/).
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/