Saltar al contenido

Sobre Ignacio Moreno

Estadístico diplomado, con alta experiencia en desarrollo de software y medición de datos. Gestión de grupos de desarrollo de software mediante el apoyo de procedimientos estadísticos como son la optimización de recursos y estimaciones. Creación de tiendas online y páginas corporativas orientadas a su posicionamiento mediante técnicas de análisis numérico.

Entradas recientes por Ignacio Moreno

Test Estadísticos: Prueba de Kolmogorov-Smirnov

El test de Kolmogorov-Smirnov es una prueba de significación estadística no paramétrica utilizada para determinar la bondad del ajuste de dos distribuciones de probabilidad entre sí.

Es decir, trataremos de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de Bondad de Ajuste”.

 

La Prueba de Kolmogorov-Smirnov  mide, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:
  • H0: f(x,q) = f0(x,q)
  • H1: f(x,q) <> f0(x,q)

donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por que puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación.

Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios:

 

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de fallo de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal.

 

b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar.

 

Este contraste, que es válido únicamente para variables continuas, compara la función de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de discrepancia, representado habitualmente como D, que corresponde a la discrepancia máxima en valor absoluto entre la distribución observada y la distribución teórica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal.

 

Si esa probabilidad es grande no habrá por tanto razones estadísticas para suponer que nuestros datos no proceden de una distribución, mientras que si es muy pequeña, no será aceptable suponer ese modelo probabilístico para los datos.
0 Seguir leyendo →

Retos a los que se enfrenta el Big Data

Retos del Big Data

Los retos a los que se enfrenta el Big data son muchos y variados. Cada fase del uso de la información tiene los suyo, pero desde el punto de vista general podemos distinguir los siguientes:

  • Falta de unificación: Hoy en día hay multitud de plataformas y tecnologías para el manejo de los datos. Cual es mejor o peor para las necesidades de cada uno es una cuestión difícil de responder. LA infraestructura que reciba y almacene cualquier tipo de dato para que puedan se procesados
  • Instrumentación: Se deben tener los instrumentos necesarios para medir la información.
  • Análisis: Al igual que ocurre con el almacenamiento, el análisis también cuenta con demasiadas formas de trabajo y pocas herramientas que realice un preprocesamiento de ellos. Se debe recoger y analizar cualquier tipo de datos, no solo los que están relacionados con el problema, si no también los que puedan influir en la decisión
  • Presentación: La visualización de los datos y de los resultados de manera que sean entendibles por cualquier usuario.
  • Mejora de las herramientas: Cada vez más se necesitan herramientas más sofisticadas que permitan extraer mejores conclusiones y más rápidas.
  • Limitación: Big Data no es la solución a todos los problemas, siempre hay que mirar más allá.
  • Predicciones incorrectas: No se debe caer en la trampa de pensar que los datos siempre son la solución. Big Data nos dice que es lo que ha ocurrido, pero no el porque.

Problemas en la recopilación de información

Ya desde el momento de recopilar los datos debemos tener e cuenta que pueden existir detalles que influyen negativamente:

  • Confianza: La fuente de información debe ser confiable, no podemos recoger cualquier tipo de dato, sin saber el como y por que se han recogido.
  • Protección: Durante todo el ciclo de vida de los datos, éstos deben estar protegidos y no deben ser cambiados o manejados de forma que puedan influir en el resultado.
  • Integración: Todo este aseguramiento de la información recopilada debe estar integrada dentro de la plataforma de manejo de datos
  • Privacidad: Aunque los datos recogidos sirvan para un determinado fin, no sabemos si pueden utilizarlos para otras tareas. La información debe protegerse escrupulosamente.
  • Legislación: Es necesario una legislación sobre el buen uso de la información. Se debe proteger a las personas frente a la intromisión en sus datos privados.
0 Seguir leyendo →

Datos, pilar fundamental en el Big Data.

La importancia de los datos en las empresas

Para muchas empresas, los datos han pasado a ser uno de los pilares fundamentales de su negocio. No solo puede venderlos, si no utilizarlos para poder realizar otras acciones que les recabe más dinero.

Gracias al Big Data los grandes volúmenes de información recogidos, por muy insignificante que sea, pueden utilizarse para crear modelos de conducta, responder preguntas complicadas, ver relaciones únicas y aprender detalles que la competencia puede no ver. Con esto se consigue una ventaja suficiente para triunfar frente a la competencia.

Así, cualquier tipo de compañía puede utilizar el Big Data para desatacar frente a otras. Podemos encontrar diversas compañías que utilizan como núcleo principal de su negocio la información:

  1. Recopiladoras: Recogen información y permiten su uso a otras compañías o se convierten en proveedoras de información: Twitter o compañías telefónicas
  2. Analistas: Utilizando la información que adquieren de otras empresas, se dedican a realizar estudios y análisis pero sin conocer el valor añadido de esos datos: Consultoras, empresas tecnológicas o empresas de análisis estadístico.
  3. Big Data real: No suelen tener datos ni los analizan, pero tienen ideas novedosas de como utilizar los datos. Waze o Amazon

La importancia de los datos en las personas

Al igual que el Big Data ofrece una gran oportunidad a las empresas, también se lo ofrece a las personas. Actualmente ha ofrecido la oportunidad de crear un nuevo perfil de estudios: el “data scientist”. Este perfil debe tener altos conocimientos en ciencia de la computación, en estadística y también como experto del negocio.

No hay una forma simple de llegar a ese perfil. No es sencillo que una sola persona sea experta en todos los conocimientos que engloba el Big Data. Así se podrá encontrar perfiles que tengan conocimientos globales, pero que sean más expertos en el análisis o en la recuperación o en la lógica de su uso.

0 Seguir leyendo →

Iniciación e instalación del Framework Apache Hadoop

1. Introducción al Framework Apache Hadoop.

Primeros pasos con el Framework Apache Hadoop: Para poner en contexto lo que es Hadoop podemos decir que se trata de un framework opensource escrito en Java utilizado principalmente para ejecutar aplicaciones distribuidas bajo un cluster de máquinas ‘commodity’.

Dispone de un sistema de archivos propio: el HDFS (Hadoop Distributed File System). Se trata de un sistema de archivos distribuido en cada nodo del cluster. Utiliza un tamaño de bloque de entre 64Mb y 128Mb y está pensado para trabajar con grandes ficheros de datos. Está basado en el Google File System (GFS) creado en 2003 ya que en ese momento Google comprobó que los sistemas utilizados hasta entonces para tratar con toda la información de que disponían no eran suficientes. Necesitaban un sistema de ficheros distribuido, escalable, tolerante a fallos, con un intensivo acceso a datos y alta concurrencia.

En 2006 Dough Cutting crea Hadoop en un sistema de procesar datos a nivel web. En 2008 se gradúa como proyecto independiente de Apache Software Foundation.

Se basa en el paradigma MapReduce utilizado para paralelizar procesos en dos fases. La fase de mapeo donde se realiza el ‘escaneo’ o recogida de los datos de entrada produciendo una lista de pares (clave, valor). Estos pares son agrupados por clave y pasados a la función reduce que se encarga de procesarlos y generar un resultado agrupado de los mismos.

Hay varias formas de utilizar el Framework Apache Hadoop. Dependiendo de nuestras necesidades podemos optar a varios tipos de instalación o modos de funcionamiento:

  • Un único nodo en local (single node), utilizado por ejemplo para hacer pruebas de concepto corriendo Hadoop en una misma máquina
  • Un cluster pseudo-distribuido para simular un cluster de varios nodos pero corriendo en una misma máquina es decir en la misma Java VM.
  • Montar un cluster entre distintas máquinas (multi node) totalmente distribuido que sería el modo que utilizaríamos para montar un sistema Big Data en producción.

En este tutorial vamos a mostrar la forma de instalar el Framework Apache Hadoop en Linux de forma pseudo-distribuida.

2. Entorno.

El tutorial se ha realizado con el siguiente entorno:

  • Ubuntu 12.04 64 bits
  • Oracle Java SDK 1.6.0_27
  • Framework Apache Hadoop 2.2.0

3. Instalación de Framework Apache Hadoop.

Vamos a partir de que en la máquina ya está instalada una JDK de Java, preferiblemente la 1.6. Lo primero que haremos, obviamente será descargar el Framework Apache Hadoop de la página oficial. Descargar versión 2.2.0

A continuación muestro los pasos para descomprimir el archivo y copiarlo a un directorio de nuestro equipo.

Es una buena práctica crear un usuario y un grupo específico para configurar y administrar el Framework Apache Hadoop. Pongo los pasos necesarios para crear el usuario, asignarle la password, añadir el usuario al fichero sudoers, etc.

Nos logamos en la máquina con el usuario hadoop su hadoop. A continuacion añadimos las variables de entorno para hadoop en el $HOME/.bashrc.

Una vez editado el .bashrc hacemos un source .bashrc para cargar la nueva configuración. Para comprobar que todo ha ido bien escribimos en la consola hadoop version y nos debería devolver la versión del Framework Apache Hadoop con la que estamos trabajando.

3.1 Configuración de SSH.

Ahora vamos a configurar el ssh para que el Framework Apache Hadoop pueda autenticarse con una clave pública y acceder a los nodos del cluster y sobre la máquina local para el usuario que creamos anteriormente. Generaremos una nueva clave pública añadiéndola al directorio de claves del usuario. No debemos poner password ya que hadoop necesita poder conectarse al cluster directamente, imaginad si cada vez que intenta acceder a un nodo del cluster tuvieramos que meter contraseña!

Le damos permisos:

Para comprobar que se ha instalado correctamente puedes ejecutar el comando ssh localhost y si se conecta es que todo ha ido bien. Si no fuera así revisa los pasos anteriores. Salimos de la sesión ssh con exit.

Para dejar lista la configuración de Ubuntu debemos deshabilitar IPv6 ya que como dice la documentación oficial, Hadoop no lo admite para gestionar correctamente el cluster. Ubuntu trae por defecto esta configuración por lo que debemos desactivarla. Para ello añadimos las siguientes líneas al fichero /etc/sysctl.conf.

Para que coja los cambios debemos reiniciar la máquina. Una vez reiniciada podemos comprobar que ha cogido bien la nueva configuración con el comando cat /proc/sys/net/ipv6/conf/all/disable_ipv6.

4. Arquitectura HDFS.

HDFS es una implementación del sistema de ficheros descrito en el paper de Google (GFS). Sigue una filosofía “Write once, read more” en concreto para albergar grandes ficheros y principalmente pensado para programas batch donde los datos no son en tiempo real.

En HDFS se trabaja con una cantidad mínima de información llamada bloque que normalmente estará comprendida entre 64-128 Mb debido a que se trabaja con ficheros muy grandes (Gigabytes, Petabytes…). El objetivo de HDFS es dividir el fichero en bloques de tamaño fijo y distribuirlo en los distintos nodos del cluster. Debido a que se produce mucho tráfico por la red para distribuir la información con el coste que esto conlleva se opta por un tamaño de bloque alto. Recuerdo que HDFS es tolerante a fallos y caídas de nodos del cluster por lo que se replica la información en varios nodos (por defecto 3 veces).

La gestión del cluster la realiza el NameNode. Es el nodo maestro encargado de gestionar los metadatos de los ficheros y los directorios, coordina los bloques que se envían a cada datanode monitorizando su estado para asegurar que todos los trabajos se completan correctamente, redirigiendo bloques a otros datanodes si alguno estuviera caído. La información de los metadatos se almacena en memoria RAM para que el acceso sea más rápido. El NameNode es vital en el cluster por lo que se suele montar en una máquina mucho más potente que para los datanodes con mayor capacidad de proceso y sobre todo mucha memoria RAM.

Los DataNodes son los nodos esclavos encargados del almacenamiento de los bloques realizando las operaciones de lectura y escritura. Estos informan al NameNode de los bloques almacenados.

El SecondaryNameNode es un servicio auxiliar y opcional en el cluster. Es un error pensar que se trata de un segundo Namenode por si el primero fallara. Puede usarse como backup de los metadatos.

 

4.1 Configuración HDFS.

Con la instalación que hemos realizado hasta ahora tendríamos un nodo de hadoop instalado en la máquina. Si queremos configurar hadoop en un modo pseudo-distribuido debemos modificar algunos ficheros de configuración. Nos situamos en el directorio /user/local/hadoop/etc/hadoop y editamos el fichero core-site.xml

Esto configura el directorio hdfs por defecto en localhost.

A continuación configuramos algunas propiedades del sistema de ficheros en el fichero hdfs-site.xml. Como estamos configurando un cluster en un única máquina no tiene sentido indicar un factor de replicación mayor a 1.

Creamos los directorios /home/hadoop/workspace/dfs/name y /home/hadoop/workspace/dfs/data

Editamos ahora el fichero hadoop-env.sh para indicar el directorio JAVA_HOME de nuestra máquina.

Otra propiedad que vamos a configurar será la que configura los directorios donde se realiza el MapReduce, editamos el mapred-site.xml. También configuraremos el MapReduce de nuestro Hadoop al nuevo framework MapReduce disponible a partir de la versión 2 de Hadoop llamado Yarn (Yet Another Resource Negotiator). Es un framework MapReduce mejorado capaz de realizar más trabajos y un sinfín de cosas más que veremos en otros tutoriales. De momento lo dejaremos configurado. Como nuestro cluster es pseudo-distribuido únicamente habrá una tarea map y una reduce.

Por defecto viene como mapred-site.xml.template por lo que hacemos una copia y renombramos a mapred-site.xml

Creamos los directorios:

Por último configuramos un par de propiedades en el yarn-site.xml. Habilitamos la fase de Suffle para que se pueda hacer entre las fases de Map y Reduce ya que YARN por defecto no lo incluye.

Una vez instalado Hadoop vamos a comentar algunos comandos que se utilizan normalmente a la hora de trabajar con un cluster Hadoop. Lo primero será formatear el sistema de ficheros HDFS mediante el comando:

Lo siguiente será arrancar el cluster, es decir los diferentes demonios (Namenode, Datanode…) encargados de la ejecución de las tareas MapReduce y de la gestión del sistema de ficheros HDFS. Para hacer esto ejecutamos el script start-all.shz situado en /usr/local/hadoop/sbin/

Si ejecutamos el comando Jps que nos muestra los procesos Java corriendo en la máquina debería salir algo como esto:

Una vez arrancado podemos acceder al interfaz WebUI en http://localhost:8088/cluster/nodesdonde podemos realizar el seguimiento de los jobs que vayamos ejecutando. Es también muy útil para ver los logs, el histórico de jobs ejecutados, la configuración de MapReduce, etc.

Otra interfaz muy útil para ver la información del NameNode es accesible en http://localhost:50070/dfshealth.jsp. Aquí podemos ver la información de nuestro NameNode y también podemos acceder de forma visual al filesystem hdfs.

5. Conclusiones.

En este tutorial he querido hacer una primera introducción a la arquitectura de Hadoop, su instalación, configuración y arranque. En sucesivos tutoriales iremos entrando en detalle en los aspectos más destacados de la arquitectura y veremos las distintas partes en que se compone.

Espero que te haya sido de ayuda.

0 Seguir leyendo →

Big Data. Introducción breve.

Que es Big Data

El Big Data es un nuevo paradigma que permite poner en valor grandes volúmenes de datos. Este uso se hace mediante herramientas ya conocidas de minería de datos. Pero gracias a las nuevas tecnologías permite realizar los mismos estudios con toda la población, no solo con muestras.

Empieza a mostrar su viabilidad sobre el año 2000, mostrándose como una nueva revolución para la resolución de problemas. Desde entonces se ha visto que es una nueva forma de ver tendencias, predecir comportamientos y con ello obtener nuevos beneficios. Todo ello gracias al aumento de dispositivos de almacenamiento y la mejora en el procesamiento de datos.

Uso actual

Hoy en día, en un solo minuto, Internet es capaz de arrojar millones de acciones que se convierten en datos. Big Data intenta sacar un rendimiento extra a esos datos utilizando análisis estadístico. Al contrario de lo que se hacía hasta ahora, se utiliza toda la población de datos. Por esta razón el tamaño muestral pasa a segundo plano. Por consiguiente, el error muestral no existe. Los datos extraños y sesgos no se tienen que buscar y eliminar, dado que se diluyen y equilibran en la medida exacta que se producen.

El uso de los datos y su análisis busca más una relación causal entre los datos que una razón por la que se producen. Por esto, no se suelen utilizar para inteligencia artificial, si no para obtener tendencias y conocimientos globales. Estas tendencias permitan predecir acontecimientos futuros como causa relacional de acciones pasadas. Por ejemplo, es muy común ofrecer productos relacionados a una compra ya realizada.

Retos futuros

Sin duda, esta nueva herramienta trae consigo problemas que también hay que tener en cuenta. La seguridad, la privacidad de las personas o el coste de almacenamiento y procesamiento. En menor medida, las formas de visualizar y presentar los resultados son dificultades que hay que resolver a la hora de enfrentarse a esta nueva tecnología.

Las 3v del BigDataComo concepto práctico, a menudo se indica que el Big Data necesita de grandes ‘V’ para trabajar: Volumen, Velocidad y Variedad.

Algunos autores añaden dos más: Veracidad y Valor, pero son conceptos mucho más subjetivos.

0 Seguir leyendo →

Recopilación de datos en el Big Data

Recopilación de datos en grandes volúmenes

La recopilación de datos es el primer paso para poder realizar cualquier tipo de estudio con datos. Este proceso se realiza mediante la digitalización de los datos, es decir, convertir cualquier dato a formato digital.

Hasta ahora el proceso de capturar la información se realizaba de infinidad de formas, muchas de las cuales impedía el posterior análisis. Esto suponía perder esa información. Incluso hoy pueden haber acciones que no pueden ser medidas o digitalizadas, pero cada vez son menos.

Datos como los movimiento de personas, las revoluciones de un motor o el recorrido de las grúas, pueden convertirse a datos digitales para su posterior análisis. La idea es recoger toda la información que se produzca de cualquier evento. De esta forma no se pierde ningún detalle de lo que sucede con el fin de tener una información completa de ese evento.

Cada fuente de datos y cada tipología tiene su propia forma de recopilación. La forma más sencilla hoy en día es el uso de los sistemas informáticos. Pero depende del experto decidir la forma de recopilar información para que su uso sea lo más sencillo posible.

Uso de los datos

Uno de los principales objetivos de esta recopilación de datos es que posteriormente se pueda analizar para detectar patrones de comportamiento. Para realizar dicho análisis se utilizará el Big Data, por lo que la recopilación debe ir orientada a esa forma de analizar. Esto supone que el almacenamiento y la estructuración de la información debe estar en formatos utilizables y si es posible en bases de datos.

La fuente de los datos puede ser muchos y variados (usuarios, aplicaciones, sistemas, bases de datos, sensores…). Su uso posterior puede ser cualquiera, incluso algunos que en principio nada tienen que ver con la fuente.

Pongamos un ejemplo: la captura de movimiento de personas en un aeropuerto. Inicialmente estaba orientado a mejorar y optimizar el flujo de personas. Pero puede utilizarse para detectar movimientos extraños de personas particulares. Puede indicar que esa persona tiene problemas de salud o desorientación.

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

0 Seguir leyendo →

Test Estadísticos: Spearman, Wilcoxon y Shapiro-Wilks

TEST ESTADÍSTICOS: CORRELACIÓN DE SPEARMAN

Dentro de los test estadísticos este se utiliza para describir la relación entre dos variables sin presuponer ninguna distribución de frecuencias de las variables. Es una variante del test de correlación de Pearson. Pero se aplica cuando cada valor en sí no es tan importante como su situación respecto a los restantes. Así que se usa si no se cumplen las condiciones para aplicar el test de Pearson.

Mide el grado de asociación entre dos variables cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. Cubre más relaciones que el Coeficiente de correlación de Pearson. Se puede utilizar para calcular relaciones exponenciales o logarítmicas entre las variables. Así que no necesita asumir una relación lineal entre las variables como ocurre con el test de Pearson. Tampoco que sean medidas en escalas de intervalo, así que puede usarse para variables ordinales.

Es una medición de correlación sin parámetros y sus valores se interpretan igual que los del coeficiente de correlación de Pearson.

TEST ESTADÍSTICOS: TEST DE WILCOXON

Este test estadístico se usa cuando se comparan dos muestras relacionadas, emparejadas o medidas en una sola toma de datos. Evalúa si las diferencias positivas y negativas entre los valores de las variables es constante.

Puede ser utilizado como una alternativa a la prueba t de Student pareada, prueba t de pares emparejados o la prueba t para muestras dependientes. Es muy útil cuando la población no se puede suponer que se distribuye normalmente, por lo que no es necesario que las distribuciones sigan una normal.

TEST ESTADÍSTICOS: PRUEBA DE SHAPIRO-WILKS.

Esta prueba se recomienda para contrastar el ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra es pequeña (n<50). Se han realizado simulaciones de Monte Carlo para comparar su eficacia con otros test estadísticos. Se ha encontrando que éste es el mejor, seguido muy de cerca por el test de Anderson–Darling, Kolmogorov–Smirnov y Lilliefors.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

2 Seguir leyendo →

Test Estadísticos: Test de Correlación de Pearson

Test de Correlación de Pearson. Resumen teorico.

El Test de Correlación de Pearson es una prueba que mide la diferencia entre una distribución observada y otra teórica. Es decir, mide su bondad de ajuste. Indica si las diferencias existentes entre las distribuciones se deben al azar. También se utiliza para probar la independencia de dos variables entre sí.

Hablamos de correlación cuando nos referimos a la relación existente entre dos variables, su intensidad y su sentido (positivo o negativo).

La covarianza, definida como el promedio de desviaciones conjuntas de dos variables sobre sus medias, no resulta ser una medida adecuada de la relación entre dos variables. Ya que el valor de Sxy está relacionado con el valor de la media de X y también con el valor de la media de Y. Por esto, si cambiamos la unidad de medida, la covarianza se verá afectada.

Como el valor de la covarianza depende de la unidad de medida, para evitarlo podemos dividir las diferencias a cada una de las medias por las respectivas desviaciones típicas Sx y Sy. El nuevo índice de relación que obtengamos tendrá la ventaja de ser invariante ante cualquier cambio en la unidad de medida.

A este índice de correlación se le denomina coeficiente de correlación de Pearson. También se le conoce como coeficiente de correlación producto momento.

{\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.}

Aplicación y uso

Aplicar el coeficiente de correlación de Pearson exige que las variables estén medidas al menos en una escala de intervalos y que se de una relación lineal entre ellas. Es decir, que los puntos del diagrama de dispersión se posicionen en la forma aproximada de una línea recta. Por tanto, usar el coeficiente de correlación de Pearson presupone la sospecha de que entre los grupos de puntuaciones se da una relación lineal.

El valor del coeficiente dado por el Test de Correlación de Pearson se encuentra comprendido entre -1 y 1.

  • Próximos a 1 indicarán fuerte asociación lineal positiva.
  • Valores próximos a -1 indicarán fuerte asociación lineal negativa.
  • Cercanos a 0 indicarán no asociación lineal, lo que no significa que no pueda existir otro tipo de asociación.

Resulta difícil precisar a partir de que valor de rxy podemos considerar que existe una correlación lineal entre dos variables. Siempre debemos tener en cuenta para la interpretación el tipo de variables a las que se aplica. Sin embargo, para tener un referente, y siendo conscientes de que estos coeficientes no son aplicables a todas las situaciones, tomamos los determinados por Bisquerra:

r = 1 correlación perfecta
0’8 < r < 1 correlación muy alta
0’6 < r < 0’8 correlación alta
0’4 < r < 0’6 correlación moderada
0’2 < r < 0’4 correlación baja
0 < r < 0’2 correlación muy baja
r = 0 correlación nula

Otras consideraciones

Debemos tener presente que la existencia de una correlación no implica que necesariamente deba existir una relación causal directa. Por relación causal directa se entiende que si X e Y están correlacionadas, entonces X es en gran parte la causa de Y, o Y es en parte la causa de X.
No obstante, es habitual que tras encontrar una elevada correlación entre variables se hipoteticen relaciones causa efecto. Pero la existencia de una relación de este tipo habrá de ser comprobada recurriendo a otras estrategias de investigación y a otras técnicas estadísticas.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

0 Seguir leyendo →

Test Estadísticos: Test de Chi-Cuadrado (Ji-Cuadrado)

Introducción al test de chi-cuadrado

El test de Chi-cuadrado determina si existe asociación entre variables cualitativas. Se utiliza para analizar tablas de contingencia y compara las proporciones en datos independientes.

Existen diferentes procedimientos estadísticos para el análisis de las tablas de contingencia como el test de chi-cuadrado, la prueba exacta de fisher, la prueba de McNemar o la prueba Q de Cochran. En esta entrada me centro en el cálculo e interpretación de la prueba como método estándar de análisis en el caso de grupos independientes.

La prueba permite determinar si dos variables cualitativas están o no asociadas. Si al final del estudio concluimos que las variables no están relacionadas podremos decir, con un determinado nivel de confianza, previamente fijado, que ambas son independientes y que no hay relación entre ellas.

Guía rápida de ejecución

Para realizar este estudio se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada. A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores, la frecuencia absoluta que cabría esperar. El estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define como:

Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande. Es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.

Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0. Si existe una gran discrepancias entre estas frecuencias el estadístico tomará un valor grande. Cuando esto es así, se rechazará la hipótesis nula. Entonces, la región crítica está situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

1 Seguir leyendo →

 

Comentarios recientes por Ignacio Moreno

    No hay comentarios por Ignacio Moreno