lunes, 9 de marzo de 2015

Tarea 7A. Correlación lineal simple - Mª ELvira Ferre Jaén

Un análisis de correlación nos permite cuantificar el grado de asociación lineal entre variables , indica la fuerza y dirección de la relación lineal entre dos o más variables.

Sean X  e Y dos variables aleatorias definidas sobre una población cualquiera, llamamos convarianza de X e Y




donde se define la esperanza como


con

la función de distribución conjunta de X e Y.


Si tomamos muestras aleatorias de tamaño de las variables aleatorias X e Y podemos calcular la covarianza como

Sin embargo, la covarianza no es una medida útil para comparar el grado de asociación lineal entre distintos pares de variables, ya que depende de las escalas de medida de las variables. La solución está en estandarizarla y es de aquí de donde surgen llamados coeficientes de correlación.


Se define el coeficiente de correlación de Pearson como

donde
  •   es la covarianza de (X,Y)
  •   la desviación típica de la variable X
  •  la desviación típica de la variable Y


El coeficiente de correlación de Pearson se trata de una correlación estandarizada entre dos variables aleatorias, pero para que esta medida sea precisa se exige que las variables sean cuantitativas y que las dos variables se distribuyan normalmente, aunque podemos hacer una excepción si sólo una de las variables es normal y la otra es categórica con dos categorías.

Si los datos no son normales o cuantitativos entonces se debe usar otro tipo de coeficientes como el de Spearman o el de Kendall.

Las principales características de este coeficiente son:
  1. Medida de asociación lineal libre de escala 
  2. Valores comprendidos entre -1 y 1
  3. Invariante a transformaciones lineales de las variables.

Su interpretación es la siguiente:

  • Si  r = 0 (asociación lineal nula) no existe relación entre las variables.
  • Si r = 1 o -1 (asociación lineal perfecta). 
  • Cuando r> 0 (correlación positiva) existe una relación directa entre las variables 
  • Cuando r < 0 (correlación negativa) existe una relación inversa entre las variables.

Por último indicar que este coeficiente hay que interpretarlo en magnitud, es decir, tomar su valor absoluto. Esto significa que cuanto más cerca estemos de los extremos ( -1 ó +1 ) más relación existe entre las variables. Por eso, una correlación r=-0.9 es más fuerte que  r=0.7, pues 0.9 es mayor que 0.7, aunque sea negativa.

No hay comentarios:

Publicar un comentario