Regresión lineal
Representamos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente fórmula:
y = a + bx |
Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b":
El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
El parámetro "b" determina la pendiente de la recta, su grado de inclinación.
La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos.
El parámetro "b" viene determinado por la siguiente fórmula:
Es la covarianza de las dos variables, dividida por la varianza de la variable "x".
El parámetro "a" viene determinado por:
a = ym - (b * xm) |
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b" que hemos calculado.
Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podíamos hacerlo también al contrario):
Alumno | Estatura | Peso | Alumno | Estatura | Peso | Alumno | Estatura | Peso |
x | x | x | x | x | x | x | x | x |
Alumno 1 |
1,25 |
32 |
Alumno 11 |
1,25 |
33 |
Alumno 21 |
1,25 |
33 |
Alumno 2 |
1,28 |
33 |
Alumno 12 |
1,28 |
35 |
Alumno 22 |
1,28 |
34 |
Alumno 3 |
1,27 |
34 |
Alumno 13 |
1,27 |
34 |
Alumno 23 |
1,27 |
34 |
Alumno 4 |
1,21 |
30 |
Alumno 14 |
1,21 |
30 |
Alumno 24 |
1,21 |
31 |
Alumno 5 |
1,22 |
32 |
Alumno 15 |
1,22 |
33 |
Alumno 25 |
1,22 |
32 |
Alumno 6 |
1,29 |
35 |
Alumno 16 |
1,29 |
34 |
Alumno 26 |
1,29 |
34 |
Alumno 7 |
1,30 |
34 |
Alumno 17 |
1,30 |
35 |
Alumno 27 |
1,30 |
34 |
Alumno 8 |
1,24 |
32 |
Alumno 18 |
1,24 |
32 |
Alumno 28 |
1,24 |
31 |
Alumno 9 |
1,27 |
32 |
Alumno 19 |
1,27 |
33 |
Alumno 29 |
1,27 |
35 |
Alumno 10 |
1,29 |
35 |
Alumno 20 |
1,29 |
33 |
Alumno 30 |
1,29 |
34 |
El parámetro "b" viene determinado por:
b = |
(1/30) * 1,034 |
----------------------------------------- | = 40,265 |
(1/30) * 0,00856 |
Y el parámetro "a" por:
a = 33,1 - (40,265 * 1,262) = -17,714 |
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + (40,265 * x) |
Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):
Estatura | Peso |
x | x |
1,20 |
30,6 |
1,21 |
31,0 |
1,22 |
31,4 |
1,23 |
31,8 |
1,24 |
32,2 |
1,25 |
32,6 |
1,26 |
33,0 |
1,27 |
33,4 |
1,28 |
33,8 |
1,29 |
34,2 |
1,30 |
34,6 |