Análisis de Componentes Principales (II)

En cualquier caso, con las 9 variables originales podemos construir 84 proyecciones tridimensionales sustancialmente diferentes. Surge inmediatamente la necesidad de simplificar este enfoque: para empezar, ¿cuál de todas estas proyecciones refleja mejor la realidad global? ¿se pierde mucha información? Y si no nos restringimos a las variables, ¿existen proyecciones más fidedignas sobre otros sub-espacios? Desde una óptima más intuitiva, 3 dimensiones son deseables, pero ¿son suficientes para reflejar la realidad con cierta precisión?.

Si nuestro objetivo es llegar a comprender de una forma sencilla y simplificada a qué se debe la diversidad de calificaciones que se observan, intuitivamente podríamos estar de acuerdo en que los alumnos más inteligentes y con mejor presdisposición al estudio tendrán generalmente mejores notas en la mayoría de las asignaturas, o en que los alumnos con peor formación cuantitativa probablemente tendrán más problemas a la hora de sacar buenas notas en asignaturas como las matemáticas o las estadísticas. Al hacer este razonamiento estamos implícitamente admitiendo que probablemente existen unas variables (factores, componentes...), probablemente no observadas directamente, y que, de forma causal o no, permiten “simplificar” la explicación de los comportamientos observados.

Así, el Análisis de Componentes Principales simplemente se pregunta por cuántas y cuáles serán esas pocas variables que nos permitirían resumir la diversidad de las calificaciones observadas con la menor pérdida de información posible. Por su parte, el Análisis Factorial presupone la existencia de un número pequeño de variables no observables o latentes (factores) que serían la causa de las calificaciones observadas y que trata de identificar.

Para el autor César Pérez López, “el Análisis de Componentes Principales es una técnica de análisis estadístico Multivariante que se clasifica entre los métodos de simplificación o reducción de la dimensión y que se aplica cuando se dispone de un conjunto elevado de variables con datos cuantitativos persiguiendo obtener un menor número de variables, combinación lineal de las primitivas, que se denominan componentes principales o factores, cuya posterior interpretación permitirá un análisis más simple del problema estudiado. Su aplicación es directa sobre cualquier conjunto de variables, a las que considera en bloque, sin que el investigador haya previamente establecido jerarquías entre ellas, ni necesite comprobar la normalidad de su distribución. Se trata por tanto de una técnica para el análisis de la interdependencia (en contraposición con las técnicas de la dependencia). En análisis en componentes principales permite describir, de un modo sintético, la estructura y las interrelaciones de las variables originales en el fenómeno que se estudia a partir de las componentes obtenidas, que, naturalmente, habrá que interpretar y ‘nombrar’. El mayor número posible de componentes coincide, como veremos, con el número total de variables. Quedarse con todas ellas no simplificaría el problema, por lo que el investigador deberá seleccionar entre las distintas alternativas aquéllas que, siendo pocas e interpretables, expliquen una proporción aceptable de la varianza global o inercia de la nube de puntos que suponga una razonable pérdida de información. Esta reducción de muchas variables a pocas componentes puede simplificar la aplicación sobre estas últimas de otras técnicas multivariantes (regresión, clusters, etc.)”.