Test de Correlación de Pearson. Resumen teorico.

El Test de Correlación de Pearson es una prueba que mide la diferencia entre una distribución observada y otra teórica. Es decir, mide su bondad de ajuste. Indica si las diferencias existentes entre las distribuciones se deben al azar. También se utiliza para probar la independencia de dos variables entre sí.

Hablamos de correlación cuando nos referimos a la relación existente entre dos variables, su intensidad y su sentido (positivo o negativo).

La covarianza, definida como el promedio de desviaciones conjuntas de dos variables sobre sus medias, no resulta ser una medida adecuada de la relación entre dos variables. Ya que el valor de Sxy está relacionado con el valor de la media de X y también con el valor de la media de Y. Por esto, si cambiamos la unidad de medida, la covarianza se verá afectada.

Como el valor de la covarianza depende de la unidad de medida, para evitarlo podemos dividir las diferencias a cada una de las medias por las respectivas desviaciones típicas Sx y Sy. El nuevo índice de relación que obtengamos tendrá la ventaja de ser invariante ante cualquier cambio en la unidad de medida.

A este índice de correlación se le denomina coeficiente de correlación de Pearson. También se le conoce como coeficiente de correlación producto momento.

{\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.}

Aplicación y uso

Aplicar el coeficiente de correlación de Pearson exige que las variables estén medidas al menos en una escala de intervalos y que se de una relación lineal entre ellas. Es decir, que los puntos del diagrama de dispersión se posicionen en la forma aproximada de una línea recta. Por tanto, usar el coeficiente de correlación de Pearson presupone la sospecha de que entre los grupos de puntuaciones se da una relación lineal.

El valor del coeficiente dado por el Test de Correlación de Pearson se encuentra comprendido entre -1 y 1.

  • Próximos a 1 indicarán fuerte asociación lineal positiva.
  • Valores próximos a -1 indicarán fuerte asociación lineal negativa.
  • Cercanos a 0 indicarán no asociación lineal, lo que no significa que no pueda existir otro tipo de asociación.

Resulta difícil precisar a partir de que valor de rxy podemos considerar que existe una correlación lineal entre dos variables. Siempre debemos tener en cuenta para la interpretación el tipo de variables a las que se aplica. Sin embargo, para tener un referente, y siendo conscientes de que estos coeficientes no son aplicables a todas las situaciones, tomamos los determinados por Bisquerra:

r = 1 correlación perfecta
0’8 < r < 1 correlación muy alta
0’6 < r < 0’8 correlación alta
0’4 < r < 0’6 correlación moderada
0’2 < r < 0’4 correlación baja
0 < r < 0’2 correlación muy baja
r = 0 correlación nula

Otras consideraciones

Debemos tener presente que la existencia de una correlación no implica que necesariamente deba existir una relación causal directa. Por relación causal directa se entiende que si X e Y están correlacionadas, entonces X es en gran parte la causa de Y, o Y es en parte la causa de X.
No obstante, es habitual que tras encontrar una elevada correlación entre variables se hipoteticen relaciones causa efecto. Pero la existencia de una relación de este tipo habrá de ser comprobada recurriendo a otras estrategias de investigación y a otras técnicas estadísticas.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn