Análisis de Componentes Principales (III)
Aproximación al Análisis de Componentes Principales.
El Análisis de Componentes Principales (ACP) tratará de representar “de forma clara y ordenada”, la variedad de los comportamientos observados en un conjunto de n individuos mediante un conjunto de p variables. Es decir, buscará un nuevo sistema de ejes coordenados, ordenados (nuevas variables de referencia que llamaremos componentes principales) con el que poder apreciar y analizar más claramente la diversidad de comportamiento reflejada en los datos. Para ello, determinará como primer eje coordenado la nueva variable (primera componente principal) que explique la máxima variabilidad (diversidad) posible de los datos observados, para proceder secuencialmente y de forma análoga a determinar los sucesivos ejes coordenados (sucesivas componentes principales) a partir del resto de la variablidad (diversidad) de los datos, aún no explicada por los anteriores.
Así, siguiendo con nuestro ejemplo, el ACP tratará de responder a la pregunta ¿en qué sistema de nuevos ejes coordenados podríamos apreciar de una forma más clara y ordenada la diversidad de las calificaciones?
Si representamos por X1,..., Xp las variables originales y nuestro objetivo es pues, encontrar unas nuevas variables (componentes principales) Z1,..., Zp, que nos expliquen ordenadamente y de una forma más clara la variabilidad de los datos, parece lógico determinar la primera componente principal Z1 como aquella que vaya en la dirección de máxima variabilidad de los datos y que, por tanto, explicará la mayor diversidad entre los datos; ya que los datos se dispersan de una forma máxima justamente en esa dirección. Esta dirección, pues, nos informará mucho del comportamiento más diversamente llamativo de esa nube de puntos.
Por otra parte, obsérvese que para que estas nuevas variables de referencia (nuevo sistema de ejes coordenados) permita una representación “clara” de la realidad, deberíamos pedir lógicamente que estuviesen incorrelacionadas para que cada nueva variable informara de aspectos diferentes de la realidad y así facilitar la interpretación. Recordemos que nubes de puntos inclinadas indicaban correlación entre variables y que nubes de puntos paralelas a los ejes indicaban incorrelación entre variables, por lo que la incorrelación entre las nuevas variables de referencia (componentes principales) se conseguirá cuando se tomen paralelas a los ejes principales de la nube de puntos. Ello nos induce a pensar que si la nube de puntos es lo suficientemente regular (aproximadamente elipsoidal), la dirección de las componentes principales deben ser ejes ortogonales.
Así pues, la variable Z2 deberá ser la variable que, siendo ortogonal a Z1, tenga la dirección de máxima dispersión de las restantes. Así aportará una información adicional del resto de la variabilidad de los datos y que no quedaba explicada por la dirección Z1 (nótese que existe toda una gama de individuos con un mismo valor para Z1 que pueden presentar diferentes valores para Z2).
Intuitivamente, este proceso puede verse reflejado en la siguiente figura.
Secuencialmente, las sucesivas componentes principales irán perdiendo importancia explicativa de la diversidad o variabilidad de los datos, ya que se extienden en direcciones de cada vez menos dispersión. Ello se acentuará más cuanto mayor sea la correlación entre las variables originales, ya que cuanta mayor dependencia haya entre ellas, más alargada será la nube de puntos en alguna dirección y más estrecha en alguna dirección perpendicular (suponiendo siempre que la relación entre ellas fuera lineal), como se aprecia en la siguiente figura:
En el caso límite de que esa regresión fuera perfecta, y por tanto todos los puntos estuvieran sobre elhiperplano, la componente principal perpendicular al hiperplano no aportaría ninguna información porque no habría variabilidad en su dirección. Es en estos casos cuando vamos a conseguir una reducción efectiva de la dimensión de nuestro problema, al poder obviar o suprimir las componentes principales que no aportan información sobre la diversidad.
Así que, como consecuencia del proceso, el ACP no sólo encuentra ordenadamente las direcciones que mejor explican la variabilidad de esa nube de puntos, sino que también en el caso de que haya información redundante, permitirá prescindir de alguna de las últimas componentes, bien porque estrictamente no expliquen nada acerca de la variación de los datos, o bien porque expliquen una cantidad despreciable de la misma, consiguiendo simplificar el problema mediante la reducción efectiva de la dimensión del mismo.