Sean X e Y dos variables aleatorias definidas sobre una población cualquiera, llamamos convarianza de X e Y
donde se define la esperanza como
con
la función de distribución conjunta de X e Y.
Si tomamos muestras aleatorias de tamaño N de las variables aleatorias X e Y podemos calcular la covarianza como
Sin embargo, la covarianza no es una medida útil para comparar el grado de asociación lineal entre distintos pares de variables, ya que depende de las escalas de medida de las variables. La solución está en estandarizarla y es de aquí de donde surgen llamados coeficientes de correlación.
Se define el coeficiente de correlación de Pearson como
donde
- es la covarianza de (X,Y)
- la desviación típica de la variable X
- la desviación típica de la variable Y
Si los datos no son normales o cuantitativos entonces se debe usar otro tipo de coeficientes como el de Spearman o el de Kendall.
Las principales características de este coeficiente son:
- Medida de asociación lineal libre de escala
- Valores comprendidos entre -1 y 1
- Invariante a transformaciones lineales de las variables.
Su interpretación es la siguiente:
- Si r = 0 (asociación lineal nula) no existe relación entre las variables.
- Si r = 1 o -1 (asociación lineal perfecta).
- Cuando r> 0 (correlación positiva) existe una relación directa entre las variables
- Cuando r < 0 (correlación negativa) existe una relación inversa entre las variables.
Por último indicar que este coeficiente hay que interpretarlo en magnitud, es decir, tomar su valor absoluto. Esto significa que cuanto más cerca estemos de los extremos ( -1 ó +1 ) más relación existe entre las variables. Por eso, una correlación r=-0.9 es más fuerte que r=0.7, pues 0.9 es mayor que 0.7, aunque sea negativa.
No hay comentarios:
Publicar un comentario