Combinacin de mtodos: anlisis de correspondencia, simple y mltiple bajo el enfoque de correlaciones cannicas. Clases latentes

 

Combination of methods: correspondence analysis, simple and multiple under the canonical correlation approach. Latent classes

Combinao de mtodos: anlise de correspondncia, simples e mltipla sob a abordagem de correlao cannica. Classes latentes



Correspondencia: yoel.hernandez@uta.edu.ec

 

 

Ciencias tcnicas y aplicadas

Artculo de investigacin

 

*Recibido: 05 de julio de 2020 *Aceptado: 20 de agosto 2020 * Publicado: 07 de septiembre de 2020

 

 

 

 

        I.            Mster en Ciencias Matemticas Mencin Probabilidades y Estadsticas, Licenciado en Educacin en la Especialidad de Matemtica Computacin, Investigador Independiente, Ecuador.

     II.            Investigador Independiente, Ecuador.


Resumen

Se presentan diversos mtodos asociados al anlisis de datos categricos. Se hace una extensa descripcin de las posibilidades de vinculacin entre ellos, especialmente del Anlisis de las Correspondencias con los dems.

Palabras Claves: Anlisis de las correspondencias; Anlisis de las frecuencias de configuraciones; anlisis de clases latentes.

 

Abstract

Various methods associated with the analysis of categorical data are presented. An extensive description is made of the possibilities of linking them, especially the Analysis of Correspondences with others.

Keywords: Analysis of the correspondences; Analysis of the frequencies of configurations; latent class analysis.

 

Resumo

Vrios mtodos associados anlise de dados categricos so apresentados. feita uma extensa descrio das possibilidades de vincul-los, especialmente a Anlise de Correspondncias com outras.

Palavras-chave: Anlise das correspondncias; Anlise das frequncias das configuraes; anlise de classe latente.

 

Introduccin

El anlisis de datos categricos ha experimentado un extraordinario desarrollo en los ltimos aos. El creciente proceso de matematizacin de las investigaciones en ciencias sociales, as como el establecimiento de formas tpicas de anlisis para datos provenientes de la psicologa y la medicina, ha hecho que muchos estadsticos se hayan vuelto hacia el trabajo en este campo, que, hasta hace muy poco, era un coto casi exclusivo de especialistas de otras disciplinas con intereses y conocimientos suficientes como para embarcarse en este tipo de estudio.

Lo anterior se refleja en la gran cantidad de artculos sobre la temtica del uso de la estadstica en las ciencias sociales que aparece en publicaciones de esas disciplinas, mientras que la mayora de las revistas de estadstica han ignorado todo lo que se ha venido realizando en temticas que son, por su naturaleza, propias de ella.

Un ejemplo de que los estadsticos han comenzado a trabajar en serio en las temticas de datos categricos lo constituye el libro Statistics for the 21st Century (2000), editado por C. R. Rao y GborJ. Szkely, que incluye un conjunto de artculos por renombrados autores.

En este trabajo se pretende hacer una recopilacin de los aspectos fundamentales de trabajo con datos categricos desde el punto de vista de la mejora en la interpretacin, de modo que se logre una potenciacin de la capacidad de comprensin del analista. Los artculos estn dispersos, como se dijo anteriormente, en muchas revistas de otras especialidades; en algunos casos, la terminologa es propia y se hace necesario su identificacin con los conceptos estadsticos reconocidos. Sin nimo de que este trabajo sea un "estado del arte", s se quiso que los interesados tuvieran reunidos los puntos esenciales del desarrollo ms reciente y dar, de una forma preliminar, la opinin de los autores acerca del trabajo con los mtodos propuestos.

 

Representacin de datos categricos

En esta seccin se presentan las dos formas habituales en que se representan los datos categricos.

Tablas de contingencia

La forma usual de presentacin de datos categricos es a travs de una tabla de contingencia. Con vistas a una mejor comprensin sta se definir mediante un ejemplo.

Sea un grupo de individuos a los cuales se les miden dos atributos: el color de los ojos (categoras: Azules, Verdes y Pardos) y tamao de los mismos (Categoras: normal o grande).

 

Tabla 1: Ejemplo de tabla de contingencia

Tamao/Color

Azules

Verdes

Pardos

Total

Normal

10

5

20

35

Grande

3

8

6

17

Total

13

13

26

52

 

 

Forma matricial

Dada la tabla de contingencia, se puede definir las categoras de las variables que la conforman como variables mudas (dummy). A las cuales se les da valor 1 si la categora est presente y 0 si no. Al hacer este procedimiento se convierte esta tabla en una matriz, de modo que en las columnas tenemos las categoras de las variables de la tabla y en las filas, a los individuos de la muestra.

Esta matriz se puede ver como una matriz particionada por columnas. Por ejemplo, en el caso de una tabla de contingencia de doble entrada, se define dos conjuntos de variables.

Para la mejor comprensin de lo que se acaba de explicar, se utilizar nuevamente la tabla (1).

Por ejemplo:

Los (10) sujetos que tienen tamao normal y ojos azules ( 1 0 0 1 0 )

Los (5) sujetos que tienen tamao normal y ojos verdes ( 0 1 0 1 0 )

Los (20) sujetos que tienen tamao normal y ojos pardos ( 0 0 1 1 0 )

as sucesivamente.

De este modo, se obtienen 6 perfiles de respuestas y el tamao de la matriz quedara

 

 

En este trabajo se le llamar a este tipo de matrices indicadoras.

 

Algunos mtodos asociados al anlisis de tablas de contingencia

El anlisis de las correspondencias (AC)

El anlisis de las correspondencias (Benzcri, 1973; Greenacre, 1984) es una tcnica estadstica que se utiliza para representar, desde un punto de vista grfico, las relaciones de dependencia e independencia de un conjunto de variables categricas a partir de los datos de una tabla de contingencia. Existen dos tipos de anlisis de correspondencias:

Simple: cuando se trabaja con 2 dimensiones.

Mltiple: cuando se trabaja con ms de 2 dimensiones.

A continuacin, se explicar cada uno de ellos.

Anlisis de las correspondencias simples (ACS)

Sean A y B variables categricas. Se desea analizar la asociacin entre ellas. En lo que sigue se utilizar la representacin matricial de las tablas de contingencia.

Las respuestas a las preguntas de las 2 variables (A y B) se codifican en las matrices indicadoras Z1 y Z2 respectivamente, cuyas columnas son variables dummy. La tabla de contingencia (1) no es ms que el producto Z1TZ2 de las matrices indicadoras.

Sean los vectores S1 y S2 que contienen los valores propuestos para las categoras de las dos variables. A partir de aqu, queda claro que los vectores Z1S1 y Z2S2 contienen las respuestas individuales cuantificadas.

La media centrada de las respuestas cuantificadas se puede escribir como:

 

 

Adems, la covarianza S12 entre las dos variables y las varianzas v_1^2 y v_2^2 se obtienen;

 

y

 

Donde es la matriz de correspondencia que contiene las frecuencias relativas y y son las matrices diagonales de las frecuencias relativas marginales (masas) de las dos variables. El coeficiente de correlacin es igual a:

 

 

La ecuacin anterior se obtuvo para los valores dados a los atributos. Sin embargo, se puede suponer que estos valores son desconocidos y se transforma el problema en la bsqueda de las escalas que maximizan la correlacin. Est claro que ese problema no es ms que el objetivo del anlisis de las correlaciones cannicas (ACC) . En la seccin siguiente se presentar el desarrollo del ACS a partir de esta nocin.

A la luz de las consideraciones anteriores, se incorporan al problema las condiciones de identificacin propias del ACC que son: utilizar las variables estandarizadas (media cero y varianza 1).

 

y

 

con estas condiciones se muestra que la solucin ptima coincide con las coordenadas estndar de las categoras de respuestas sobre la primera dimensin principal del (ACS) de la tabla original.


 

El anlisis de las correspondencias simples con un enfoque de correlaciones cannicas

Goodman (2000) hace una presentacin abarcadora de este enfoque y en lo que sigue se tratarn sus aspectos fundamentales. Este trabajo est restringido a las tablas de contingencia de doble entrada.

 

Sea la tabla I x J, para cada casilla se cumple que:

 

(3.1)

 

donde πi y πj son las distribuciones marginales de las filas y las columnas.

La ecuacin (3.1) es el modelo con independencia estadstica, entre las clasificaciones de las filas y las clasificaciones de las columnas en la tabla de contingencia.

Cmo analizar la dependencia? Goodman (2000) propone el siguiente esquema:

 

(3.2)

 

Donde M= min (I,J) - 1, y los puntajes de las filas xim (m=l, , M) y los de las columnas yjm, (m= 1, ..., M) son los coeficientes de las combinaciones lineales que satisfacen las siguientes condiciones:

 

(3.2)

 

para m = m'. Los coeficientes xim y yjm en el modelo (3.2) son los puntajes estandarizados para las categoras de las filas (i = 1,...,I) y las categoras de las columnas (j = 1,...,J), respectivamente, correspondientes a la m-sima componente (m = 1,...,M) en el trmino derecho del modelo (3.2). Los puntajes de filas diferentes estn incorrelacionados; lo mismo ocurre con los de las columnas. El parmetro en el modelo (3.2) es la medida de la correlacin entre los puntajes de las filas y las columnas (xim y yjm), que se calcula.


 

 

(3.3)

 

para m = 1, , M, en el modelo (3.2). Los parmetros de la correlacin se ordenan como

 

Los puntajes de las filas y las columnas, xi1, yj1, en el modelo (3.2) son los puntajes estandarizados que maximizan la correlacin ρ_1 y as sucesivamente.

El modelo (3.2) es una representacin de la asociacin en tablas de contingencias por la va del anlisis de correlaciones cannicas. En este contexto, el coeficiente ρ_1, es la primera correlacin cannica entre las combinaciones lineales y , donde xi1 y yj1 son los coeficientes asociados a la correlacin cannica y X y Yj son las variables mudas de la matriz construida en el sentido del acpite anterior.

 

Definicin de una medida de no independencia

Goodman (2000) define λij, como la contingencia de Pearson, de la forma siguiente:

 

(3.4)

 

El modelo (1.4) satisface las siguientes condiciones:

 

(3.4)

 

Si se despeja el trmino en (3,2) se llega a:

 

(3.5)

 

Con lo que se ve que la contingencia de Pearson mide tambin la asociacin entre las variables de la tabla de contingencia.

 


 

Relacin con caractersticas bsicas del ACS

Goodman (2000) define la contingencia cuadrtica media como una medida global de la asociacin en una tabla de contingencia de la forma siguiente:

 

A partir de esta definicin y con la aplicacin de las propiedades de (3.2) se tiene:

 

 

Esta relacin es fundamental para la justificacin del enfoque, porque (3.7) no es ms que la inercia total del anlisis de las correspondencias.

De igual forma, siguiendo las ideas de van der Heijden et al. (1999) se tiene al sumar los elementos de la tabla de contingencia segn (3.2):

 

 

Que establece una importante relacin entre la X2 Y la inercia total asociada al anlisis de las correspondencias.

 

El Anlisis de las Correspondencias Mltiples (ACM)

Despus de haber visto lo anterior puede pasarse ahora a una posible generalizacin del AC al caso multivariado.

Sean P variables categricas, cuantificadas en Z1, Z2, ... ,Zp matrices indicadoras. El problema consiste en buscar los valores escalas s1, s2, ... , sp para las variables de modo que se maximicen un conjunto de medidas de correlacin.

Al igual que en el ACS (2 variables) , la medida seleccionada es la suma de correlaciones al cuadrado de las puntuaciones individuales Z1s1, Z2s2, , Zpsp con la suma de puntajes Zi, donde Z y s son las concatenaciones de Z q' s y s q' s respectivamente.

STD s = l es la identificacin general.

 

 

la varianza individual STp Dp sp no necesariamente es 1 en la solucin final como en el caso de P= 2

 

Para alcanzar la solucin se tienen dos vas:

1.      AC a la matriz sper indicadora Z = [Z, , Zp]. Las dimensiones de esta matriz son n x J , donde

 

La matriz de correspondencias es , la matriz de las masas de las filas es y la matriz columna de las masas es D.

 

Luego la DVS para calcular la solucin del AC de Z (no centrada) es:

 

 

Anlisis centrado:

 

donde es el vector de las masas de filas y 1TD es el vector de las masas de las columnas de la matriz indicadora denotado por CTen el ACS).

 

2.      AC aplicado a la matriz d Burt (Benzcri, 1992). Para la definicin de la matriz de Burt se trabajar con 3 variables categricas con I, J y K categoras, respectivamente. La generalizacin a ms variables es inmediata. La matriz de Burt tiene la forma siguiente:

         Los bloques diagonales son matrices diagonales, uno para cada variable; sus elementos en la diagonal son del tipo

         Los bloques no diagonales son matrices que contiene las sumas marginales de dos variables cada vez, por ejemplo, para el caso de I y J:

 

La matriz de Burt es cuadrada y su dimensin es J x J . La aplicacin- del ACS a la matriz de Burt produce una descomposicin de cada una de las submatrices:

donde

ρ_m>0

 

 

(La simultaneidad se aprecia en . la aparicin reiterada de las coordenadas).

El anlisis de las correspondencias mltiples con un enfoque de correlaciones cannicas

En analoga a lo que se present con respecto al ACS, tambin existe una manera de definir el ACM mediante una generalizacin del ACC. En lo que sigue se presenta a grandes rasgos las ideas de Tenenhaus & Young (1985).

La idea bsica es la aplicacin de la generalizacin del anlisis de correlaciones cannicas (Horst, 1961). Para ello se considera cada particin de la matriz de variables dummy como una submatriz y se plantea maximizar la suma de las correlaciones al cuadrado entre los datos rescalados y el escalamiento de los sujetos. Esto es:

 

 

donde Zj es la submatriz indicadora correspondiente a la variable categrica j. ϕ^h, h=1, , m; normalizados (es el valor del vector dividido entre la raz cuadrada del valor propio correspondiente) e incorrelacionados y ψ^h, h=1, , m; normalizados e incorrelacionados.

En Tenenhaus & Young (1985) se demuestra que la solucin ptima del problema anterior es precisamente, los factores del anlisis de las correspondencias mltiples y que el valor en el ptimo es:

 

En ese mismo trabajo, Tenenhaus & Young (1985) demuestran que el anlisis de las correspondencias mltiples de variables binarias es equivalente al anlisis de componentes principales de las matrices indicadoras normalizadas.

Este resultado es importante desde el punto de vista de la obtencin de los valores de los factores, ya que el anlisis de componentes principales es de fcil realizacin.

El anlisis de clases latentes

El anlisis de clases latentes (Lazarsfeld, 1950; Lazarsfeld y Henry, 1968) es un mtodo de anlisis factorial, cuya caracterstica ms importante es que la variable latente es nominal u ordinal, por lo que su efecto es el d clasificar los individuos en clases. A continuacin, se dan los elementos esenciales del mtodo sobre la base del anlisis para una tabla de doble entrada. La generalizacin a ms categoras no ofrece ninguna dificultad.

Considrese una tabla de contingencia H con I filas y J columnas, de modo que en sus casillas se tengan las frecuencias relativas. Esto es:

 

 

Si se considera vlido el modelo de T clases latentes para una tabla de contingencia, se puede escribir:

(3.10)

donde , es la probabilidad de que una observacin caiga en la clase latente t (tambin se le llama el tamao de la clase t); y son las probabilidades condicionales que dan la probabilidad de estar en la categora i o j respectivamente dado que la observacin est en la clase latente t.

La generalizacin del ACL a ms de dos variables manifiestas es directa. La exposicin de la misma se har con el ejemplo de 3 variables.

El ACL para tres clases no es ms que:

 

(3.11)

 

y las restricciones:

 

con A, B y C las variables manifiestas y Q la variable latente.

De igual forma que en el caso bivariado, en este tambin se pueden rescalar los parmetros con la misma interpretacin que ya se analiz.

 

El anlisis de las frecuencias de las configuraciones

El anlisis de las frecuencias de las configuraciones (AFC) (Lienert, 1969, Krauth & Lienert, 1973) es un mtodo en el que se buscan las combinaciones de rasgos o sntomas que se presentan con una mayor frecuencia que la esperada. El concepto bsico dentro del mtodo lo constituye el "tipo", esto es: la casilla de la tabla de contingencia que muestra una frecuencia significativamente mayor que la esperada.

Para lograr una comprensin ms ntegra del mtodo, se explicar a partir de una tabla de contingencia de cuatro entradas; la generalizacin a mayores dimensiones es inmediata.

Sea Π una tabla de contingencia de cuatro categoras: A, B, C y D, con I, J, K, L atributos, respectivamente. Las I x J x K x L configuraciones se. denotan por {i, j, k, L} con i = 1,..., I; j = 1,...,J; k = 1,...,K y L = 1,...,L. La probabilidad asociada a cada configuracin se denota por πijkl. Aqu es necesario precisar el trmino "esperado" ya que es esencial para la cabal comprensin del concepto fundamental de "tipo".

Se dice que una cierta configuracin {i, j, k, L} es un tipo si se cumple que manera de probar lo anterior es a travs del contraste de la hiptesis de independencia local.

 

Vinculacin de mtodos

La vinculacin de los mtodos se hace a travs del anlisis de las correspondencias en sus dos variantes: simple y mltiple. La idea bsica es encontrar la semejanza del anlisis de clases latentes y el anlisis de las frecuencias de las configuraciones, respectivamente, con estas variantes del AC. En esta seccin se siguen las ideas generales dadas por van der Heijden et al (1999).

El anlisis de las frecuencias de las configuraciones y el anlisis de las correspondencias

La relacin entre el AFC y el AC, en general, no presenta ninguna dificultad. Una vez determinados los tipos segn la forma usual, se pasa al anlisis de las correspondencias mltiples. En este sentido se tienen en cuenta dos aspectos:

         El anlisis usual de las categoras de las variables implicadas a partir del grfico (bidimensional o tridimensional, segn sea el caso)

         El anlisis de las configuraciones, que no es ms que la transformacin de las casillas al espacio factorial determinado por el ACM.

 

El anlisis de clases latentes y el anlisis de las correspondencias simple

En la seccin anterior se present el anlisis de las correspondencias simples con el enfoque del anlisis de las correlaciones cannicas. En esta se ver qu, bajo ciertas condiciones, existe semejanza entre este y el ACL.

Tanto el ACS como el ACL pueden considerarse como mtodos que dan una descomposicin de rango reducido de la matriz, en el sentido siguiente: si se considera Π como una matriz, ambos mtodos lo que persiguen es dar una representacin reducida de la matriz.

Por ejemplo, en el caso presentado anteriormente, (3.10) define una matriz de rango R. Se pueden ver los siguientes casos:

(a) Si R = min(I, J) , se tiene que Π es de rango completo y el modelo propuesto es el saturado.

(b) Si R = 1, se tiene el modelo de independencia

(c) Si 1 < R < min(I, J) , (3.10) nos da una matriz de rango reducido

Con vistas al establecimiento de la relacin entre ambos mtodos, es necesario aplicar una transformacin (Goodman, 1974) que da pie, en el marco de las ciencias sociales, a lo que se conoce por el nombre de anlisis de presupuesto latente. La transformacin se da a continuacin:

 

Esta transformacin juega un papel importante en el establecimiento de la vinculacin entre los dos anlisis, por eso a continuacin se presentan algunas de sus caractersticas ms importantes:

Es conocido que los modelos de anlisis de clases latentes se pueden presentar de varias maneras y que una de las ms conocidas es el enfoque a travs de modelos loglineales. En este contexto, se tiene que las variables manifiestas A y B son independientes condicionadas por Q, debido a las reglas de colapsibilidad para modelos loglineales (vase Agresti, 2002). De las diversas formas de estudiar la dependencia para tablas de 3 entradas, la ms conveniente para el fin que se persigue es la siguiente:

         Si se define independencia para elementos del tipo [1] como sigue: , entonces es fcil estudiarla mediante la comparacin de las condicionales con las marginales, antes expuestas, ya que es fcil ver que el miembro izquierdo no es ms que . Esto es lo usual en el ACL.

         Con lo anterior queda claro que los parmetros rescalados tienen una interpretacin en el sentido de la masa de la categora i que corresponde a la clase t.

Una vez visto que tiene sentido trabajar con los parmetros rescalados, se presenta a continuacin la forma en que se produce la vinculacin entre el ACS y el ACL.

Es conocido (Benzcri, 1973, Greenacre, 1991) que el ACS se tiene siempre que el nmero de factores es igual al rango de la matriz Π, con lo que se logra una descomposicin de sta. A partir de aqu se puede establecer una relacin con lo que se mencion anteriormente acerca de los modelos de clases latentes y el rango de Π:

(a) El nmero de factores del ACS coincide con el de clases latentes

(b) El nmero de factores del ACS es 1 y el ACL =1

(c) El nmero de factores ser igual al rango, pero no siempre se lograr el mismo nmero de clases latentes

Adems, de Leeuw & van der Heijden (1991) demuestran un caso adicional:

(d) Si R = 2, ACS implica ACL y los modelos son equivalentes.

Por lo que se aprecia en los puntos anteriores, existe coincidencia entre ambos mtodos en algunos casos, siempre que se utilice para estimar los parmetros el mismo mtodo de estimacin. Si se supone que las estimaciones de ambos mtodos son iguales se encuentra la siguiente relacin muy interesante para los fines del anlisis de datos:

 

(4.1)

 

Al comparar (3.2) con (4.1) se tiene la siguiente relacin:

 

(4.2)

 

De (4.2) se aprecia una relacin lineal entre ambas expresiones, esto es: Existen matrices F y G de transformacin con dimensiones R x R que dan lo siguiente:

         Sea X, de dimensin I x R, la matriz que contiene los Xim ms la primera columna de 1; sea igualmente Y, de dimensin J x R, la matriz que contiene los yjm ms la primera columna igual a 1. Se tiene entonces

 

 

donde Πi y Πj son matrices de I x R y J x R, respectivamente, tales que: y

Claro que esta relacin slo se cumple bajo la hiptesis de igualdad de los parmetros ajustados.

 

El anlisis de clases latentes y el anlisis de las correspondencias mltiples

La relacin el ACL y el ACM se hace muy claro cuando (3.11) se suma en i, j y k, respectivamente. Una vez hecho esto, se obtiene:

 

Como se ve, el ACL da tres matrices con mrgenes bivariados de rango reducido T, adems, estas ecuaciones tienen parmetros en comn. De aqu es fcil establecer relaciones semejantes al caso bivariado. Si bien el procedimiento es muy semejante, no se puede llegar al establecimiento de la relacin que se obtuvo para rango 2, ya que el recproco no se cumple, esto es: varias tablas de doble entrada no implican una tabla de orden superior.

 

De igual forma que antes, se puede poner:

 

 

Nuevamente se tiene la validez a partir de la repeticin de los elementos. Si se supone que existe algn caso en el que se da la igualdad, como se hizo con el bivariado, se puede llegar a una expresin matricial con las correspondientes matrices de transformacin.

 

Representacin grfica

Precisamente en la representacin grfica es donde mejor se aprecia la vinculacin de los mtodos que se explic en el acpite anterior.

Bsicamente existen tres formas de representacin, a saber:

         Grfico unidimensional

         Grfico bidimensional (Scatterplot)

         Grfico ternario

 

Los dos primeros no necesitan explicacin, ya que son los ms comnmente usados en Estadstica. El tercero, aunque es menos conocido, tampoco es exclusivo de los mtodos que se analizan en el presente trabajo, ya que son la forma clsica para la representacin de los resultados en las superficies de respuestas para modelos de mezcla (Montgomery, 1991). En el contexto del anlisis de clases latentes, este grfico se utiliza' para la representacin de los parmetros rescalados que, al sumar uno, pueden ubicarse dentro de un simplex.

Realmente, el AC es el mtodo que tiene como una parte consustancial un grfico. De ah que en lo que sigue se tratarn en detalle las caractersticas del mismo.

En el AC se distinguen dos tipos de grficos:

 

         Grfico asimtrico: En el caso del ACS, las filas y las columnas se presentan de forma independiente, con escalas distintas. En el ACM, se representan los primeros factores tambin de manera independiente.

         Grfico simtrico: Para el ACS, las filas y las columnas se reproducen sobre el mismo grfico, con una misma escala. De igual forma se procede con el ACM, en el que se presentan por pares.

 

Como el objetivo de este trabajo es la vinculacin con los otros mtodos de anlisis de datos categricos expuestos anteriormente, se continuar slo con el simtrico, ya que el asimtrico no es til para estos fines.

Greenacre (2006) considera el grfico simtrico como una opcin conveniente debido a que la representacin de los puntos de filas y columnas se hace con la misma escala. Esta forma es conocida tambin como el "escalamiento francs o de Benzcri" y es el preferido por la escuela francesa de anlisis de datos.

En este contexto se proponen las siguientes reglas de anlisis:

Para interpretar el grfico, se deben considerar las posiciones relativas a un eje de puntos perteneciente a la misma nube. Dos puntos cercanos en el grfico tendrn un perfil similar.

Interpretacin angular entre los puntos pertenecientes a la nube diferente.

Se puede interpretar el ngulo entre los puntos de las filas y las columnas tomando el origen de coordenadas como el vrtice.

Figura 1: Relacin angular en el ACS

 

Siguiendo algunas reglas:

a) Si el ngulo entre los puntos es agudo (< 90) la correlacin entre las dos caractersticas, es alta.

b) Si el ngulo entre los puntos es obtuso (> 90) la correlacin entre las dos caractersticas, es baja (o negativa).

c) Si el ngulo es recto, los puntos no interactan o no hay correlacin entre ellos.

 

Contrariamente a lo expuesto por Greenacre y la escuela francesa, Goodman (2000) plantea en su exhaustivo trabajo sobre el anlisis de tablas de contingencia de dos entradas, contenido en Statistics for the 21st Century, la necesidad de hacer un rescalamiento de las coordenadas para lograr una representacin que d una interpretacin geomtrica directa. Para ello, define una familia de transformaciones del tipo siguiente:

 

 

Donde γ+δ=1. En el caso de inters para el anlisis de las correspondencias, se toman δ= γ=0.5 y se tiene una formulacin simplificada del modelo de dependencia (3.2). De aqu se tiene que la contingencia de Pearson se puede expresar como el producto escalar de los dos vectores rescalados, con lo que se obtiene la posibilidad de una interpretacin geomtrica directa.

 

Conclusiones y recomendaciones

         La combinacin de mtodos para el anlisis de datos categricos mejora considerablemente las posibilidades de interpretacin y son una ayuda eficaz para el analista.

 

         Si bien, en el trabajo se presentan algunos aspectos de cmo se realiza la vinculacin entre el AC y el ACL, es necesario continuar con esa investigacin, para lograr una comprensin ms cabal de las relaciones entre ambos tipos de anlisis.

 

 

Referencias

1.      AGRESTI, A. (2002): Categorical Data Analysis (2nd Edition), Wiley, Nueva York

 

2.      BENZCRI, J.-P et collaborateurs ( 1973) : L'Analyse des Donns. L'Analyse des Correspondences, Duno, Pars

 

3.      BENZCRI, J.-P. (1992): Correspondence Analysis Handbook, Marcel Dekker, Inc., Nueva York, 665 + xi pp.

 

4.      FERNNDEZ, R. S. M. (2011). Anlisis de correspondencias simples y mltiples. Universidad Autnoma de Madrid: Facultad de Ciencias Econmicas y Empresariales.

 

5.      GABRIEL, K. R. (1971): The biplot graphic display of matrices with application to principal component analysis, Biometrika 58(3), 453-467 pp.

 

6.      GONZALEZ, D. A. (2006): Dos enfoques para el anlisis de clases latentes ordinales. En: Revista de la Facultad de Matemtica y Computacin de la Universidad de La Habana. Cuba. Vol. 27, Nm. 1.

 

7.      GONZALEZ, D. A. (2006): Algunas consideraciones prcticas acerca de la estimacin de parmetros en el modelo clsico de clases latentes. En: Revista de la Facultad de Matemtica y Computacin de la Universidad de La Habana. Cuba. Vol. 27, Nm. 1.

 

8.      GOODMAN, L.A. (1997): Statistical Methods, Graphical Displays, and Tukey's Ladder of Re-expression in the Analysis of Nonindependence in Contingency Tables: Correspondence. Analysis, Association Analysis, and the Midway View of Nonindependence, en: BRILLINGER, D., FERNHOLZ, L.T. & MORGENTHALER, S.: The Practice of Data Analysis: Essays in Honor of John W. Tukey, Princeton, Nueva Jersey, Princeton University Press, pp0. 101-132

 

9.      GOODMAN, L. A. (2000) : The Analysis of Cross-Classified Data: Notes on a Century of Progress in Contingency Table Analysis, and Some Comments on Its Prehistory and Its Future, Marcel Dekker, Inc., New York, 231 + i pp.

 

10.  GREENACRE, M. (1984): Theory and Applications of Correspondence Analysis, Academic Press, Londres

 

11.  GREENACRE, M. (2006) : Tying up the loose ends in simple correspondence analysis, Economic Working Paper 940.

 

12.  GREENACRE, M. (2005): From correspondence analysis to mltiple and joint correspondence analysis.

 

13.  JAMBU, M. (1991) : Exploratory and Multivariate Data Analysis, Academic Press, Inc., Boston, 474 + xv pp.

 

14.  LAUTSCH, E. y PLICHTA, M.M. (2003): Configural Frecuency Analysis (CFA), Mltiple Correspondence Analysis (MCA) and Latent Class Analysis (LCA): An empirical comparison, Psychology Science 45(2), 298-323 pp.

 

15.  LAZARSFELD, P.F. (1950): The logical and mathematical foundation of latent structure analysis. En: STOUFFER, S. A.et al. (Eds.): The American Soldier, Vol. IV, Measurement and Prediction, Princeton

 

16.  LAZARSFELD, P.F. y HENRY, N. W. (1968): Latent Structure Analysis, Houghton Mifflin, Boston

 

17.  LEEUW, J. & Van der HEIJDEN, P.G.M. (1991): Reduced rank models for contingency tablas, Biometrika, 78, pp. 229-232

 

18.  MOOD, A.M., GRAYBILL, R.A. y BOES, D.C. (1974): Introduction to the Theory of Statistics (3rd Edition), MacGraw Hill, Londres

 

19.  MONTGOMERY, D, C. (1991) : Design and Analysis of Experiments, Third Edition, John Wiley and Sons, Nueva York, 649 + xvii pp.

 

20.  RAO, C.R. y SZKELY, G.J. (Eds.) (2000) : Statistics for the 21st Century. Methodologies for Applications of the Future, Marcel Dekker, Inc., Nueva York

 

21.  Van der HEIJDEN, GILULA, P. G. y van der ARK, L. A. (1999) : An extended study into the relationships between correspondence analysis and latent class analysis, 40 + vii pp.

 

22.  VERMUNT, J. K. (1997): LEM 1.0: A general programa for the analysis of categorical data. Tilburg: Tilburg university Von EYE, A. y NIEDERMEIER, K.E. (1999) : Statistical Analysis of Longitudinal Categorical Data in the Social and Behavioral Sciences, Lawrence Er

 

2020 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) (https://creativecommons.org/licenses/by-nc-sa/4.0/).



[1] En Mood et al. (1974) se dan las tres formas de definir independencia para elementos del tipo marginal en tablas de 3 entradas.

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/