Introducción al modelo de regresión.

Tabla de datos de cochesPara la introducción al modelo de regresión, vamos a utilizar el conjunto de datos que se muestra. Estos estan relacionados con las emisiones de Co2 de los diferentes coches. Incluye el tamaño del motor, el número de cilíndros, el consumo de combustible y las emisiones de Co2 de varios modelos. La pregunta es, «Dado este conjunto de datos, podemos predecir la emisión Co2 de un coche utilizando otros campos como, por ejemplo, EngineSize o Cylinders?»

Supongamos que tenemos algunos datos históricos de diferentes coches, y suponemos que uno de ellos aún no se ha fabricado, pero estamos interesados en la estimación de su emisión de Co2, después de la producción. ¿Es posible? Podemos utilizar métodos de regresión para predecir un valor continuo, como por ejemplo Emisión de CO2, algunas otras variables.

La regresión es el proceso de predicción de un valor continuo. En la regresión hay dos tipos de variables: una variable dependiente y una o más independientes. La variable dependiente se puede ver como el «estado», el «objetivo» o «el objetivo final» que estudiamos y tratamos de predecir, y las variables independientes, también conocidas como variables explicativas, pueden ser la «causa» de los «estados». Las variables independientes se muestran convencionalmente por x; y la variable dependiente es denotada por y. Un modelo de regresión se refiere a y, o a la variable dependiente, a una función de x, es decir, a las variables independientes.

El punto clave de la regresión es que nuestro valor dependiente debe ser continuo, y no puede ser un valor discreto. Sin embargo, la variable independiente o las variables se pueden medir en categóricas o escala de medición continua. Por lo tanto, lo que queremos hacer aquí es usar los datos históricos de algunos coches, usando uno o más de sus características, y a partir de esos datos, hacer un modelo. Utilizamos la regresión para construir un modelo de regresión/estimación. A continuación, el modelo se utiliza para predecir la emisión de Co2 esperada para un coche nuevo o desconocido.

Básicamente, hay 2 tipos de modelos de regresión: regresión simple y regresión múltiple.

La regresión simple es cuando se utiliza una variable independiente para estimar una variable dependiente. Puede ser lineal en no lineales. Por ejemplo, pronosticar la emisión de Co2emisiones utilizando la variable EngineSize. La linealidad de la regresión se basa en la naturaleza de la relación entre la independencia y la dependencia variables. Cuando hay más de una variable independiente presente, el proceso se llama regresión múltiple lineal. Por ejemplo, predicando Co2emisiones utilizando EngineSize y el número de Cylinders en cualquier coche dado. De nuevo, en función de la relación entre las variables dependientes e independientes, puede ser regresión lineal o no lineal.

Examinemos algunas aplicaciones de muestra de regresión. Esencialmente, utilizamos la regresión cuando queremos estimar un valor continuo. Por ejemplo, una de las aplicaciones del análisis de regresión podría estar en el área de la previsión de ventas. Puede intentar predecir las ventas anuales totales de un vendedor de variables independientes como, por ejemplo, como la edad, la educación y los años de experiencia. También se puede utilizar en el campo de la psicología, por ejemplo, para determinar la satisfacción individual basado en factores demográficos y psicológicos. Podemos utilizar el análisis de regresión para predecir el precio de una casa en un área, basada en su tamaño, número de habitaciones, y así sucesivamente. Incluso podemos usarlo para predecir el ingreso de empleo para las variables independientes, como las horas de trabajo, educación, ocupación, sexo, edad, años de experiencia, etc.

Se pueden encontrar muchos ejemplos de la utilidad del análisis de regresión en estos y muchos otros campos o dominios, como las finanzas, la salud, las ventas, y más. Tenemos muchos algoritmos de regresión. Cada uno de ellos tiene su propia importancia y una condición específica a la que su aplicación es las más adecuado:

  • Ordinal regression
  • Poisson regression
  • Fast forest quantile regression
  • Linear, Polynomial, Lasso, Stepwise, Ridge regression
  • Bayesian linear regression
  • Neural network regression
  • Decision forest regression
  • Boosted decision tree regression
  • KNN (K-nearest neighbors)

 

Ir al artículo anterior de la serie: Aprendizaje Supervisado y No Supervisado

Ir al artículo siguiente de la serie:Regresión lineal simple