Regresión lineal múltiple

La regresión lineal múltiple es la extensión de el modelo de regresión lineal simple.
Este tipo de regresión puede utilizarse cuando queremos conocer la fuerza del efecto que las variables independientes tienen en una variable dependiente. Por ejemplo, el tiempo de revisión, la ansiedad de la prueba, la asistencia a clase y el género, ¿tiene algún efecto en el examen de rendimiento de los estudiantes?
También se utiliza para entender cómo cambia la variable dependiente cuando cambiamos las variables independientes. Por ejemplo, puede indicar cuánto aumenta la presión arterial de una persona por cada cambio en el índice de masa corporal (IMC), manteniendo constante otros factores.

La regresión lineal múltiple utiliza múltiples variables, llamadas variables independientes, o predictores, que mejor predicen el valor de la variable objetivo, que es llamada variable dependiente. En la regresión lineal múltiple, el valor objetivo, y, es una combinación lineal de variables independientes, x. Por lo general, el modelo tiene el formato: y = \theta_0 + \theta_1 \cdot x_1 + \theta_2 \cdot x_2 + \dots + \theta_n \cdot x_n. Matemáticamente, podemos mostrarlo como forma de vector. Esto significa que se puede mostrar como un producto de 2 vectores: el vector de parámetros y el vector de conjunto de características.

Generalmente, podemos mostrar la ecuación de un espacio multidimensional como \theta^{T} \cdot x, donde \theta es un vector de n, y x es el vector de los conjuntos de características, como \theta es un vector de coeficientes, y se supone que se multiplica por x, entonces \theta se muestra transpuestos. \theta es también llamado vector de parámetros o vector de peso de la ecuación de regresión. El primer elemento del conjunto de características se establecería en 1, porque convierte el \theta_0 en el parámetro de intercepción.

La idea es encontrar el mejor vector de parámetros para nuestros datos, como en el caso en la regresión lineal. Para lograr este objetivo, tenemos que minimizar el error de la predicción.

Cálculo de los parámetros de regresión

Para encontrar los parámetros optimizados para nuestro modelo, primero debemos entender cuáles son los parámetros optimizados. En resumen, los parámetros optimizados son los que conducen a un modelo con los errores menos graves. Como en el caso en regresión lineal, podemos decir que el error es la distancia desde el dato puntual hasta el modelo de regresión ajustado. La media de todos los errores muestra como ajusta el modelo al conjunto de datos real. Normalmente utilizamos el MSE (mean squared error), pero no es la única forma de mostrar el error de un modelo de regresión lineal múltiple, solo es una de las formas más populares de hacerlo. El objetivo de la regresión lineal múltiple es minimizar la ecuación de MSE, encontrando los mejores parámetros \theta, pero ¿cómo?

Hay muchas maneras de estimar el valor de estos coeficientes. Sin embargo, los métodos más comunes son los mínimos cuadrados ordinarios y el enfoque de optimización:

  • Los mínimos cuadrados ordinarios tratan de estimar los valores de los coeficientes minimizando el «Mean Square Error». Utiliza los datos como una matriz y operaciones de álgebra lineal para estimar los valores óptimos. El problema es el tiempo para calcular las operaciones matriciales, ya que puede tardar mucho tiempo en terminar. Cuando el número de filas del conjunto de datos es menos de 10.000 se puede pensar en esta técnica, sin embargo, para valores mayores, se deberían probar otros métodos más rápidos.
  • La segunda opción es utilizar un algoritmo de optimización para buscar los mejores parámetros. Proceso iterativos de optimización de los valores de los coeficientes, minimizando el error del modelo. Por ejemplo, «Gradient Descent», que inicia la optimización con valores aleatorios para cada coeficiente. A continuación, calcula los errores, e intenta minimizarlo cambiando los coeficientes en múltiples iteraciones. «Gradient Descent» es un enfoque adecuado si se tiene un conjunto de datos grande. Sin embargo, hay otros enfoques para estimar los parámetros de la regresión lineal múltiple que se puede explorar por su cuenta.

Uso del modelo y problemas

Después de que encontramos los parámetros de la ecuación lineal, hacer predicciones es tan simple como resolver la ecuación para un conjunto específico de entradas. Nuestra representación de modelo de regresión lineal para este problema sería: y = \theta^{T} \cdot x.

Como se ha visto, se puede utilizar múltiples variables independientes para predecir un valor objetivo en una regresión lineal múltiple. A veces es mejor modelo que la regresión lineal simple, que utiliza sólo una variable independiente para predecir la variable dependiente. Pero ¿Cuántas variables independientes se deberíamos utilizar para la predicción? ¿Deberíamos utilizar todos los campos de nuestro dataset? ¿Agregar variables independientes a un modelo regresión lineal múltiple siempre aumenta la precisión del módelo?
Básicamente, agregar demasiadas variables independientes sin ninguna justificación teórica puede darnos un modelo sobreajustado, demasiado complicado para el conjunto de datos y nada util para la predicción. Por lo tanto, se recomienda evitar el uso de muchas variables para la predicción. Hay diferentes maneras de evitar el sobreajuste de un modelo en regresión, que veremos en otros artículos.
Otra pregunta es si las variables independientes deben ser continuas. Las variables independientes categóricas pueden incorporarse en un modelo de regresión convirtiéndolas en variables numéricas. Por ejemplo, dada una variable binaria como tipo de coche, el código es «0» para «Manual» y 1 para los autos «automáticos».
Como último punto, recuerde que la «regresión lineal múltiple» es un tipo específico de regresión lineal. Por lo tanto, tiene que haber una relación lineal entre la variable dependiente y cada una de las variables independientes. Se pueden utilizar diagramas de dispersión y comprobar visualmente la linealidad. Si la relación mostrada en el diagrama de dispersión no es lineal, entonces, debe utilizar regresión no lineal.

Ir al artículo anterior de la serie: Regresión lineal simple

Ir al artículo siguiente de la serie: Evaluación del modelo de regresión