������������������������������������������������������������������������������������������������������������������������������������������������������������
���������������������������������������������������������������������������������
Modelos probabil�sticos� IA del
procesamiento de lenguaje natural�� en
conversaciones� de personas contagiadas
con Covid-19
Probabilistic AI models of natural language processing in conversations
of people infected with Covid-19
Modelos
probabil�sticos de IA de processamento de linguagem natural em conversas de
pessoas infectadas com
Covid-19
![]() |
�������������������������������������������������������������������������������������������������������������
![]() |
Correspondencia: Lady_tapia@hotmail.com
Ciencias
de la Salud
Art�culos
de investigaci�n
*Recibido: 16
de julio de 2021 *Aceptado: 30 de agosto
de 2021 * Publicado: 08 de septiembre
de 2021
I.
Mag�ster en Sistemas
de Informaci�n Aplicada; Mag�ster Universitario en ingenier�a de software y sistemas
inform�tico, Guayaquil, Ecuador.
II.
Ingeniero en Sistemas
Inform�ticos; Magister Universitario en ingenier�a de software y sistemas
inform�tico; Docente Universidad T�cnica Luis Vargas Torres de Esmeraldas.
III.
Mag�ster en Sistemas
de Información Gerencial; Magister en Docencia
y Gerencia en Educación Superior; Diploma
Superior en Diseño Curricular por Competencias;
Ingeniera en Computación; Docente Universidad
de Guayaquil, Guayaquil, Ecuador.
IV.
Mag�ster en Sistemas
de Información Gerencial; Magister en Administración de Empresas; Ingeniero en Computación; Docente Universidad de Guayaquil,
Guayaquil, Ecuador.
Resumen
El Procesamiento del
Lenguaje Natural que en ingl�s se lo identifica como NLP es una de las ramas de
la Inteligencia Artificial, donde los ordenadores son programables para simular
la comunicaci�n entre la m�quina y la lengua humana, en nuestro caso se pretendi�
ofrecer un aplicativo que realice una conversaci�n textual m�vil dirigido a un
sector vulnerable de la zona 8 en vista que existe la necesidad de otorgar
informaci�n de buenos h�bitos de higiene cuando�� se encuentran� con covid-19, sobre el dimensionado o sub
dimensionado con la ambiguedad del lenguaje a�n es un
gran problema de tratar� sin embargo en
el planteamiento actual se� enfatiza el
avance de resultados de la primera fase de la investigaci�n, teniendo como
objetivo� la identificaci�n de los �modelos para lenguaje de procesamiento
natural� en las conversaciones textuales
de personas contagiadas de covid-19, en ello se presenta tablas comparativas,
donde se aplic� una metodolog�a de un m�todo de la recopilaci�n documental, una
revisi�n de an�lisis de los diferentes modelos para ese procesamiento de
lenguaje natural, conociendo donde el lenguaje puede ser tratada por el
dispositivo m�vil, de esta manera el resultado de� reconocer�
fue la combinaci�n de varios modelos del TRIGRAN y el perplejidad, que
permiten la probabilidad estimada de una secuencia de palabras, la cual nos
optimiza el tiempo de respuesta del mismo ya que calcula la probabilidad
condicionada, disminuyendo la confusi�n del texto, con la aplicaci�n de un
corpus de entrenamiento.
Palabras claves: Procesamiento de
lenguaje natural; corpus; modelo para nlp; trigram; perplejidad.
Abstract
The Natural Language
Processing that in English is identified as NLP is one of the branches of
Artificial Intelligence, where computers are programmable to simulate the
communication between the machine and the human language, in our case it was
intended to offer you an application that performs a mobile text conversation
directed to a vulnerable sector of zone 8 in view of the need to provide
information on good hygiene habits when they encounter covid-19, on the
dimensioning or undersizing with the ambiguity of the
language is still a great However, the current approach emphasizes the
advancement of the results of the first phase of the research, aiming at the
identification of models for natural processing language in the textual
conversations of people infected with covid-19. Comparative tables are
presented, where a methodology of a document collection method was applied.
Thus, a review of the analysis of the different models for that natural
language processing, knowing where the language can be treated by the mobile
device, in this way the result of recognizing was the combination of several
models of TRIGRAN and perplexity, which allow the estimated probability of a
sequence of words, which optimizes its response time since it calculates the
conditional probability, reducing the confusion of the text, with the
application of a training corpus.
Keywords: Natural language processing; corpus; model for
nlp; trigram; perplexity.
Resumo
O Processamento
de Linguagem Natural que em ingl�s � identificado
como PNL � um dos ramos da Intelig�ncia Artificial, onde os computadores s�o program�veis
para simular a comunica��o
entre a m�quina e a linguagem
humana, no nosso caso pretendia-se oferecer um aplicativo que realizasse um mobile conversa de texto dirigida a um setor vulner�vel da zona 8 tendo em vista a necessidade de fornecer informa��es sobre bons h�bitos de higiene quando se deparam com covid-19, sobre o dimensionamento ou subdimensionamento com a ambig�idade
da l�ngua ainda � um grande. No entanto, a abordagem atual enfatiza o avan�o dos resultados da primeira fase da pesquisa, visando a identifica��o de modelos de processamento natural
da linguagem nas conversas textuais de pessoas infectadas com covid-19.
S�o apresentadas tabelas comparativas, onde foi aplicada uma
metodologia de m�todo de coleta de documentos . l, uma revis�o da an�lise dos diferentes modelos para aquele processamento de linguagem
natural, sabendo onde a linguagem pode ser tratada pelo
dispositivo m�vel, desta forma o resultado do reconhecimento foi a combina��o de v�rios modelos de TRIGRAN e perplexidade,
que permitem a probabilidade estimada de uma sequ�ncia de palavras, o que otimiza seu tempo de resposta, pois calcula a probabilidade condicional, reduzindo a confus�o do texto, com a aplica��o de um corpus de treinamento.
Keywords: Processamento de linguagem natural; corpus; modelo
para nlp; trigrama; perplexidade.
Introducci�n
En 1940 inici� su
funcionamiento la primera bomba criptol�gica inglesa
en Bletchley Park, inventada por Allan Turing, llamada el Proyecto Ultra o Bomba de Turing, con la cual se logr� interpretar los mensajes
cifrados por la marina alemana quienes aplicaban el esquema de cifrado Enigna con la variante delf�n, la cual fue de mucha ayuda
en la segunda guerra mundial (Morales-Luna, 2013), luego de varios
acontecimientos referentes a la relaci�n del lenguaje y el pensamiento, la
teor�a de Chomsky emitida en 1957 seg�n el enfoque ling��stico, permanece
vigente a pesar de sus detractores, ya que en los �ltimos 60 a�os ha sido uno
de los fundamentos acad�micos m�s importantes para comprender la mente, y es
actualmente contin�a siendo una de las explicaciones m�s influyentes sobre c�mo
los seres humanos adquirimos, y producimos el lenguaje. (Birchenall� & M�ller, 2014)
El entendimiento del
lenguaje, y su correspondiente procesamiento de textos de forma� conversacional ha sido un problema de
investigaci�n desde los a�os 50s hasta la actualidad, sin embargo hoy en d�a se
cuenta con la rama de la Inteligencia Artificial (IA), denominada Procesamiento
de Lenguaje Natural (PLN, o NLP en ingl�s), la cual se espera permita impulsar
la ling��stica computacional aplicada en lenguaje verbal y/o en lenguaje
textual.
En la actualidad existen
dos grandes desaf�os al momento de procesar textos, los cuales son:
�
�
La ambig�edad y
�
La dimensionalidad
del lenguaje
Estos aspectos hacen
que el proceso de NLP se transforme en un problema complejo, puesto que la
combinaci�n entre Ciencia de Datos� y
Ling��stica Computacional.
Mientras que la
Ciencia de Datos permite recopilar, analizar, deducir informaci�n, apoyada en
el aprendizaje autom�tico, la ling��stica computacional permite la comprensi�n
y la elaboraci�n de contenidos en lenguajes nativos. Ambos componentes tornan
compleja la b�squeda de un modelo que sea el m�s adecuado para el
procesamiento, interpretaci�n y utilizaci�n automatizada del Lenguaje. (Egea,
2019)
El presente trabajo,
busca realizar la revisi�n de modelos disponibles en PLN, con la finalidad de
identificar el algoritmo, t�cnica y entrenamiento adecuados, disponibles en las
t�cnicas de machine learning, enfocados al an�lisis del lenguaje textual.
Por otra parte, entre
los niveles del procesamiento de Lenguaje Natural se tiene el morfol�gico,
sint�ctico, sem�ntico, pragm�tico.� Se
revis� el desarrollo de cada uno as� como la clasificaci�n de NLP, dos modelos
son esenciales en el procesamiento de lenguaje natural, el l�gico (basado en
gram�tica) y el probabil�stico (basado en los datos) (Egea, 2019).
En este documento se
desarrolla en el estudio de los datos en el an�lisis de un corpus, es decir en
el modelo para NLP probabil�stico, para ello es fundamental tomar el lenguaje
como objeto de estudio y la comprensi�n del mismo como un proceso complejo en
que intervienen gigantes cantidades de datos, en los que se descubrir�n
contenidos mediante mecanismos de tratamientos variados. Se procesar�n
conversaciones textuales relacionadas a la pandemia covid-19 en Ecuador, con el
modelo identificado aplicable a NLP.�
Esta primera etapa de la investigaci�n busca establecer el punto de
partida para la fase 2, en la que se propone implementar un algoritmo mejorado
con agentes virtuales optimizados utilizables en dispositivos m�viles (Guaman et al., 2020).
Como parte de la
primeras actividades se encuentra la de generar, conseguir o seleccionar el Dataset adecuado basado en conversaciones textuales
obtenidas de ecuatorianos que fueron contagiados por Covid-19, por tal raz�n se
ha considerado varias estrategias para la obtenci�n de esa data, entre ellas se
ha optado por la utilizaci�n de las bondades disponibles en redes sociales, en
este estudio se eligio twitter,
empleada en otras investigaciones por la disponibilidad la API de Twitter utilizable desde programas creados en Python o R, que permiten la contar con una interfaz que
apoya al proceso ETL (Twitter, 2017). al permitir
contar con la etapa de Extracci�n (E) o toma de conversaciones, viabilizando
as� la posterior etapa que consiste en el tratamiento o transformaci�n (T) de
la data y carga (L de Load) al repositorio de destino (Mutlu
et al., 2020).
Fundamentos de la Inteligencia Artificial
Entre los
acontecimiento m�s relevantes de la evoluci�n de la IA se identifican los
siguientes:
Or�gen IA en la Filosof�a (428 a.C)
La formulaci�n del
conjunto de precisi�n de leyes que explicaban la parte racional de la
inteligencia fue de Arist�teles entre los 384-322 a.C.
La formulaci�n
informal para razonar acertadamente con silogismo comprende en la argumentaci�n
estructurada, puesto que antes del siglo 19 era por conclusiones, por premisas.
Por lo que Ram�n Lull dio a conocer que ese
razonamiento (Su�rez, 2014) funcionaba mejor a trav�s del uso de� medios artificiales.
Seg�n
Orozco-Echeverri(2009), indic� que Thomas Hobbes se�al� como propuesta que el
razonamiento era la computaci�n num�rica. Incluso Leonardo da Vinci (Valencia
Giraldo, 2000) solo dise�� una calculadora mec�nica donde en la actualidad se
ha demostrado que era funcional ya que alrededor de 1623 se construyo
la maquina calculadora por Wilhelm Schickard pero la pascalina fue creada en 1642 por Blaise Pascal (Reckoner, 1930), en esa �poca Gottfried Wilhelm Libniz cre� el dispositivo mec�nico� la cual pose�a limitaciones.
Entre los a�os 1596 a
1650 surge la primera discusi�n clara acerca de la diferencia entre la mente y
la materia� (Russell, 2004), adem�s de
los problemas que suscitan, en aquella �poca se dec�a que los pensamientos eran
gobernados, por lo cual en el transcurso del tiempo se presentan discusiones
como:
�
El Dualismo
�
El Materialismo
�
El Movimiento Emp�rico
�
La Inducci�n
�
El Positivismo L�gico
�
Las Sentencias de Observaci�n
�
La Teor�a de Conformaci�n
Luego del concepto de
la l�gica aparece el pensamiento del primer algoritmo, aunque en la l�gica de
primer orden no era posible capturar principios de inducci�n matem�tica de la
caracterizaci�n de los n�meros naturales debido a que el teorema de la incompletitud demostr� las propiedades de los n�meros
naturales (Da Silva, 2014).
Por otra parte,
aparecen las �Aseveraciones Verdaderas� las cuales sostienen que no era posible
decidir la validez de algunas funciones con n�meros enteros indicando que no es
posible ser representada por algoritmos, por tal raz�n esas funciones que son
realizadas con n�meros enteros no permit�an calcular por lo que esta situaci�n
llev� a Alan Turing (1912-1954) a� tomar en cuenta caracter�sticas que conlleven
a las funciones a ser caracterizadas, a ra�z de esta idea surge la m�quina de Turing en 1936, la cual era capaz de realizar los c�lculos
de funciones computables. El creador de la m�quina indic� con frontalidad que
la m�quina no pod�a decidir por lo que surgi� la noci�n de intratabilidad, en
1971 surge la teor�a de la NP-completitud generada por Steven Cook��� (Vanoye, 2008).
En el a�o 1929 aparece
la tercera aportaci�n de las matem�ticas a la IA, la teor�a de la probabilidad
por Geolamo Cardano, siendo
el primero en proponer la idea en el mundo de las matem�ticas (Pellicer, 2007).
En la econom�a el
pensamiento surgi� (Smith, 1776) en la que se combina la teor�a de la decisi�n
con la teor�a de la probabilidad, en aquella �poca era tan emocionante
realizarla para luego adecuarla con la teor�a de los juegos.
La aparici�n de la
neurociencia en el a�o 1861, enfocado o apoyado el estudio del sistema
neurol�gico en especial del cerebro.
En cambio en el a�o de
1879 aparece la psicolog�a cient�fica por el alem�n Hermann
Von (Abrego Almaz�n et al., 2017)
En los a�os de 1940
aparece la ingenier�a computacional, donde se conoce que para ello se necesita
combinar el artefacto y la inteligencia, lo que ser�a llamado el ordenador, el
cual fue empleado en la segunda guerra mundial constituy�ndose en el primer
computador operacional de los 40s con la finalidad de descifrar mensajes
alemanes.
Claro est� que antes
de la aparici�n de computadoras ya hab�an dispositivos creados para realizar
c�lculos, la aparici�n de m�quinas autom�ticas, programables puede remontarse a
1805 donde se crea una m�quina para la elaboraci�n de un telar, en 1822 tenemos
la m�quina diferencias y 1837 la m�quina anal�tica ambas propuestas de Babbage
(Giudice, 2001) (Merodio,
2020), en los recientes a�os por su parte la Inteligencia Artificial ha
proporcionado ayuda a los seres humanos en m�ltiples frentes o disciplinas, una
de ellas es su presencia en los sistemas operativos con IA, los lenguajes de
programaci�n con IA, Asistentes Virtuales, Seguridad,� Reconocimiento de im�genes en fotos, videos,
entre otras numerosas aplicaciones (Libertad Digital, 2018) (ENAE, 2021).
En el a�o 1948 donde Norbert Wiener plante� la teor�a de control y
retroalimentaci�n, dando paso a la ciencia de la cibern�tica, plasmando sus
ideas en la creaci�n de la primera m�quina autocontrolada.
En el a�o 1957 algunos
autores demostraron inter�s por el estudio del Aprendizaje del Lenguaje, entre
ellos Chomsky quien propone un estudio a trav�s del enfoque ling��stico, cuyos
inicios se remontan a los modelos sint�cticos de la ling��stica de Panini en el a�o 350 a.C.
Origen del Procesamiento de Lenguaje Natural (PLN o NLP)
En el a�o de 1957 se
present� la complejidad del entendimiento del lenguaje, se encontr� lo
complicado que era comprender el contexto con el contenido de la materia. Por
tal raz�n el nacimiento del Procesamiento de Lenguaje Natural est� bajo la
ling��stica computacional o procesamiento del lenguaje natural (Gomez, 2019).
Est� en el �rea
multidisciplinaria de la ling��stica computacional contiene clasificaciones
como son:
�
La Comprensi�n del Lenguaje Natural con sus
siglas en ingl�s NLU
�
La Generaci�n del Lenguaje Natural con sus
siglas en ingl�s es NLG
Definici�n
Procesamiento de Lenguaje Natural (PLN o NPL)
En los a�os 60
revoluciono la curiosidad del contenido llamado ling��stica de corpus
(Dom�nguez Burgos, 2002). Recordando que Eliza fue uno de los programas con la
capacidad de realizar conversaciones de forma muy limitada con personas.
Existen algunas
definiciones de procesamiento de Lenguaje Natural,� que se presentaron en los a�os 2000, una de
ellas indica que el NPL es parte de la Inteligencia Artificial, y un �rea de la
Ling��stica Computacional, la cual permite el estudio de la comunicaci�n entre
el humano y la m�quina (Borja, 2020)
Otra definici�n� indica que el lenguaje Natural est�
conformado por palabras, reglas sint�cticas, sem�nticas por el sonido de la
voz, gestos que permite la comunicaci�n de los humanos (Borja, 2020)
Modelos para PLN
Existe mucha
informaci�n de la Inteligencia Artificial, hoy en d�a a�n se est� investigando
distintas ramas de la misma, entre ellas el��
Procesamiento de Lenguaje Natural, sobre todo por los dos grandes
problemas que este procedimiento conlleva, los cuales son la ambig�edad y la dimensionalidad de los textos. Es por ello que para lograr
llegar a un entrenamiento es importante conocer bajo qu� modelo se realizar�a
el procesamiento, en este trabajo se reviso 2 modelos
muy utilizados (Gomez, 2019)�� en diversas aplicaciones mismos que se menciona
a continuaci�n:
�
Modelos L�gicos
�
Modelos Probabil�sticos
Estos modelos son
tomados desde el conocimiento matem�tico, esto implica que es necesario tener
claro los beneficios de cada modelo para realizar el an�lisis y por supuesto el
tratamiento del lenguaje. En particular el desarrollo de este art�culo se enfoco en el estudio del modelo probabil�stico.
Modelo l�gicos
En los a�os 70 se
presentaron� varias propuestas de
arquitecturas, entre ellas el modelo de MArkov
Ocultos (MMO) el cual ha tomado importancia por su interesante teor�a
matem�tica, manteniendo la significancia por varias d�cadas (Angela A, 2018)
Por su parte surgen
los modelos gramaticales, propuestos por ling�istas expertos quienes fueron los
creadores con base a determinadas formas gramaticales, extrayendo
caracter�sticas del mundo en modelo conceptual a un lenguaje l�gico (Contreras,
2001).�
Modelos probabil�stico
Son mencionados como
basados en corpus, bas�ndose en datos, donde su esencia es el an�lisis de la
informaci�n recopilada ling��sticamente, se pueden tomar de muchas formas como
las grabaciones, registros, en la actualidad son tomados desde las
conversaciones de las redes sociales, un conjunto infinitos de enunciados
gramaticalmente, donde sus t�rminos, reglas gramaticales, fonemas, palabras,
frases etc, donde ese lenguaje es tomado para
encontrar un algoritmo que determine a qu� grupo pertenece el lenguaje, es
decir que reconozca el lenguaje.
Para ello se es
empleada con la utilizaci�n de estructura gramaticales, que pueden ser de forma
secuencial como de pares o de tr�os, aqu� tambi�n se incluyen la estad�stica
del uso de la regla de gram�tica. A continuaci�n se presenta el enfoque de los
diferentes algoritmos probabil�sticos
�
N-gram
�
Unigram
�
Bigram
�
Trigram
El modelo N-gram formado por n palabras seguidas integradas en el
corpus
Conversaciones de Covid-19 con personas contagiadas
El gobierno
ecuatoriano declar� el estado de excepci�n en el mes de marzo del a�o 2020, con
la finalidad de confinar a los ciudadanos o no ciudadano del Ecuador, debido al
virus declarado en pandemia porque la contaminaci�n que era a nivel mundial,
para nadie ha sido sorpresa los momentos dif�ciles que vivi� cada familia, cada
clase social, y de los diferentes sectores, aunque en la econom�a del sector productivo
de alimentos se benefici� por el momento presentado.
Las conversaciones se
dieron por mensajer�as, por llamadas a voz, incluso resalt� el uso de las redes
sociales como el tweeter.
M�todo
Para lograr
identificar el modelo para el procesamiento de datos� como fase 1 de la investigaci�n se tuvo la
necesidad de la recopilaci�n de fuentes bibliogr�ficas, art�culos, revistas,
realizando una serie de actividades para la obtenci�n de un cuadro comparativo.
Dentro de ellas se considera una 3 momentos de la FASE 1 que se detalla a
continuaci�n:
Desarrollo de la FASE 1
Momento 1: Creaci�n de espacio cluster
que se podr� reconectar todo el equipo investigador, con la ayuda de los
contenido de la revista, ayudar� alimentar el espacio de art�culos, revistas,
acad�micas, la cual son revisadas, evaluadas y seleccionadas todos aquellos
contenidos de mayor relevancias, esa preparaci�n de vital importancia para la
consecuci�n de la investigaci�n, obteniendo la tabla comparativa de los dos
diferente modelos para PLN.
Momento 2: Creaci�n del pre-procesamiento de datos,
antes de la realizaci�n del estudio de conversaciones textuales de personas
contagiadas de covid-19, se cre� el OBJETIVO de proyecto, muy vital para este
momento.� Una vez teniendo� la informaci�n textual de los ecuatorianos
desde las redes sociales, eso permiti� la creaci�n de una mini data set que
permitir� realizar el entrenamiento con el modelo escogido para PLN.
Momento 3: La obtenci�n de resultados, se crean las
tablas comparativas en base a los momentos anteriores pero de los diferentes
algoritmos.
El desarrollo del
momento 1 no present� problema porque contamos con un equipo de buen
conocimiento a la inform�tica, la creaci�n de un espacio que se pueda abarcar,
crear una base donde est� la recolecci�n de diferentes fuentes de informaci�n,
desde los a�os iniciales del procesamiento de lenguaje natural hasta en los
a�os actuales, la herramienta permite la interacci�n con cada uno de los
investigadores.
Se presenta una tabla
comparativa� entre modelos (Ochoa, 2009)
de los dos modelos para PLN que en la secci�n superior se transcribi� con (Dahl, n.d. 2010) y (Cerezo,
2020).
Figura 1: Conceptos
comparativos de los diferentes modelos para PLN
En el desarrollo del
momento 2, se consider� un orden a tomar para llegar a lo deseado, por lo que
es importante respetar el an�lisis de lo que se va a requerir, en este caso lo
primero es tener claro el objetivo del proyecto para llegar a un pre
procesamiento de datos, como segundo orden es la elaboraci�n de preguntas que
en este caso ser�a utilizar la herramienta de investigaci�n de formularios como
tercer caso es la recolecci�n de informaci�n para que finalmente los datos sean
tratados y pre procesados como primera toma que fue aproximadamente m�s de 138
personas encuestadas.
Figura 2: Datos para ser pre procesados
Desarrollo del momento 3, una vez revisado, analizado en un nivel de
exhaustividad intermedia se obtiene una tabla de los diferentes modelos para
PLN entre (Alberich, 2007), (Cortez, n.d, 2012.), y (Vel�zquez, 2001)�� que se presenta
a continuaci�n:
MODELO |
NOMBRE |
DESCRIPCION |
|
Probabilistico |
Modelos n-gram |
El modelo de lenguaje para la
predicci�n de palabras usa las N-1 palabras anteriores para predecir la
siguiente. Donde la memoria N define el n�mero de probabilidades a ser
estimadas (= |V|N ), valores bajos de N son requeridos para obtener suficiente
precisi�n dado un conjunto limitado de entrenamiento. |
|
Tabla 2 Continuidad� comparativa�
de los algoritmos del modelo probabil�stico
MODELO |
NOMBRE |
DESCRIPCION |
Probabilistico |
Modelo unigram |
Se coloca una probabilidad P(w) a
cada palabra del l�xico donde el modelo aduce� que las palabras est�n elegidas independientemente, as� que la probabilidad de
una secuencia es el producto� de la probabilidad de sus palabras dada por�
π P(wi). Se utiliza de manera aislada
con poca frecuencia, debido a que la restricci�n de la probabilidad de una
palabra no es muy �til por si sola. |
Probabilistico |
Modelo� bigram |
Se asigna una probabilidad πP(wi/wi-1) a cada palabra dependiendo de la otra palabra
anterior. Un modelo n-gram condiciona una palabra
a las N - 1 anteriores, asignando una probabilidad:� πP(wi/wi-(i-1)...wi-1),� est� basado en la aproximaci�n de que una palabra es
estad�sticamente dependiente de la palabra temporal anterior. Adem�s se los utiliza para
reconocer el habla. |
Probabilistico |
Modelo� trigram |
Llamados trigramas, son un caso
especial del N-gram, donde N es 3. Usualmente se
usan en el procesamiento del lenguaje natural para hacer el an�lisis
estad�stico de los textos, son modelos utilizados para el reconocimiento del
habla |
PROBABILISTICO |
Perplejidad |
Es la probabilidad que tiene el
conjunto de prueba, normalizada por la cantidad de palabras. Disminuir la perplejidad de un modelo
es igual a maximizar su probabilidad total. |
En vista que se tomar� una dataset con los datos recopilados de conversaciones
textuales, el proceso indica que luego esa informaci�n son clasificados para el
modelamiento, ya que ser�n analizados estad�sticamente en el habla escrito, o
sea por el pensamiento, se sugiere tomar el modelo� trigram y
perplejidad en las pruebas de investigaci�n de los diferentes entrenamiento.
Resultados
Despu�s de las
revisiones medianamente exhaustivas de las diferentes fuentes de informaci�n ya
sea de hace m�s de 10 a�os atr�s como de a�os recientes, se encontr� que a�n
existe la problem�tica del manejo de texto por su ambig�edad y su dimensionalidad. Por tal raz�n tener claro la funcionalidad
probabil�stica de los diferentes modelos para PLN fue esencial, dando a conocer
que existe modelo n-gram, unigram,
bigram, trigram y el
de� perplejidad. Esto se aplicar�a
en� un an�lisis estad�stico, en� datos que fueron tomados de la data set de
m�s� de 138 personas que compartieron sus
experiencias cuando fueron contagiados con covid-19 .
Referencias
- Alberich,
M. (2007). Procesamiento del Lenguaje Natural - Gu�a Introductoria. Gu�a
Introductoria, 27. https://www.cs.us.es/cursos/ia2/temas/tema-06.pdf��
- Vel�zquez,
J, S (2001, agosto 13). An�lisis Robusto en Sistemas Conversacionales con
Iniciativa Mixta. Disponible en http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/velazquez_s_j/
- Borja,
M, Q. (2020). An�lisis de las Herramientas de Procesamiento de Lenguaje
Natural para estructurar textos m�dicos. https://dadun.unav.edu/handle/10171/60003
- Contreras,
H. Z. (2001). Procesamiento del Lenguaje Natural basado en una �gram�tica
de estilos� para el idioma espa�ol. Facultad de Ingenier�a, Colombia,
Universidad de Los Andes., 54. http://www.saber.ula.ve/bitstream/123456789/13157/1/hc_propuestatesis.pdf
- Cortez,
A. (2012). 555-Texto del art�culo-1119-1-10-20161126.pdf.
- Dahl, V. (2010). Vista de An Introduction to
Natural Language Processing_ the Main Problems-tabala
comparativa.pdf.
- Cerezo,
H, C. (2020). Contribuci�n a la Investigaci�n de Nuevos Modelos de
Extracci�n de Conocimiento sobre Sistemas Big Data. Disponible en http://www.investigo.biblioteca.uvigo.es/xmlui/handle/11093/1655
- Gomez,
H, L (2019, septiembre 18). Agente conversacional para b�squeda y
recomendaci�n de ofertas laborales. 177. Disponible en https://reunir.unir.net/handle/123456789/9564
- Guaman,
W. E., Pi, P. F. M.-, Sof, P., & Iv, G. (2020). Agentes Virtuales en Dispositivos
M�viles Virtual Agents on
Mobile Devices Agentes virtuais
em dispositivos m�veis.
5(08), 544�560.Disponible en https://dialnet.unirioja.es/servlet/articulo?codigo=7554393
- Egea,
J. A. L. (2019). Gu�a para la publicaci�n. Los estados de la Inteligencia
Artificial. Cap�tulo 7-2�. Procesamiento del Lenguaje Natural
(PLN).https://www.researchgate.net/publication/337172055_Procesamiento_del_Lenguaje_Natural_PLN_Natural_Language_Processing_NLP
- GRA�A
GIL, Jorge. �T�cnicas de an�lisis sint�ctico robusto para la etiquetaci�n
del lenguaje natural�. Procesamiento del lenguaje natural. N� 28 (mayo
2002), pp. 117-118. Disponible en http://rua.ua.es/dspace/handle/10045/1843
- Mutlu,
E. C., Oghaz, T., Jasser,
J., Tutunculer, E., Rajabi,
A., Tayebi, A., Ozmen,
O., & Garibay, I. (2020). A stance data set on polarized conversations on Twitter about the
efficacy of hydroxychloroquine as a treatment
for COVID-19. Data in Brief,
33. https://doi.org/10.1016/j.dib.2020.106401
- Morales-Luna,
G. (2013, mayo 7). El h�roe Alan Turing:
Aportaciones de la Criptolog�a a la victoria
aliada en la Segunda Guerra Mundial. Dispnbible
en http://cs.cinvestav.mx/~gmorales/12Enigma/enigma.pdf
- Birchenall, L. B., & M�ller, O. (2014). La
teor�a ling��stica de Noam Chomsky: del inicio a la actualidad. Lenguaje,
42(2), 417-442. Dispoible en http://www.scielo.org.co/pdf/leng/v42n2/v42n2a08.pdf
- Twitter
(2017). Reglas de automatizaci�n. Disponible en https://help.twitter.com/es/rules-and-policies/twitter-automation
- Su�rez,
A., G. (2014). La inteligencia artificial a trav�s de sus cient�ficos.
Encuentros Multidisciplinares. Disponible en https://repositorio.uam.es/handle/10486/678701
- Alberich,
M. (2007). Procesamiento del Lenguaje Natural - Gu�a Introductoria. Gu�a
Introductoria, 27. http://www.sopadebits.com/content/file_download/cms_file/file/58/pln-1.0-20070630.pdf
- Da
Silva, R. (2014). Los teoremas de incompletitud
de G�del, teor�a de conjuntos y el programa de
David Hilbert. Episteme, 34(1),
19�40.http://ve.scielo.org/scielo.php?script=sci_arttext&pid=S0798-43242014000100002
- Orozco,
S, O. (2009). Thomas Hobbes y la geometr�a del estado: anotaciones sobre
el estado de naturaleza desde la historia de la ciencia. Estudios de Filosofia (Medellin), 39,
153�175. Disponible en https://revistas.udea.edu.co/index.php/estudios_de_filosofia/article/view/12680
- Reckoner,
S. (1930). Calculadoras mec�nicas. 1897.Valencia Giraldo, A. (2000).
Revista Facultad de Ingenier�a. Leonardo Da Vinci. Revista Facultad de
Ingenier�a Universidad de Antioquia, 7(32), 13�19. https://www.redalyc.org/html/430/43003211/%0Ahttp://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=11400702
- Giudice,
J. P. (2001). Complejidad y dimensiones en los estudios sobre Babbage: la
m�quina anal�tica. Un an�lisis del fracaso cultural del primer proyecto de
calculadora digital programable secuencialmente. Argumentos de Raz�n
T�cnica, 2001,(4): 13-56.
- Merodio,
J. (2020, Junio 17). El matem�tico que so�aba con ordenadores en 1830.
Disponible en https://elpais.com/ciencia/2020-06-17/el-matematico-que-sonaba-con-ordenadores-en-1830.html
- Libertad
Digital (2018, octubre 17).� La
inteligencia artificial toma el control de tu m�vil. Disponible en https://www.libertaddigital.com/ciencia-tecnologia/tecnologia/2018-10-17/la-inteligencia-artificial-toma-el-control-de-tu-movil-1276626583/
�
2021 por los autores. Este art�culo es de acceso abierto y distribuido seg�n
los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/)
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/