¿Que es regresión logística?

La regresión logística es una técnica estadística de machine learning para clasificar los registros de un conjunto de datos, basandose en los valores de los campos de entrada. En regresión logística, usaremos una o mas variables independientes para predecir un resultado, al cual llamaremos variable dependiente. La regresión logística es análoga a la regresión lineal pero intenta predecir un campo objetivo categórico o discreto en lugar de uno numérico.
En la regresión lineal, se intenta predecir variables de valor continuo (precio de una casa, presión sanguínea o consumo de gasolina). En regresión logística se predicen variables binarias (Si/No, Verdadero/Falso, Suceso o No suceso, embarazada o no). En la regresión logística las variables dependientes deben ser continuas, por lo que, si son categóricas hay que transformarlas en algún valor continuo. La regresión logística puede ser usada tanto para clasificación binaria como para multiclase, pero para simplificar, nos centraremos en la clasificación binaria.

¿Qué tipo de problemas pueden ser resueltos?

  • Predecir la probabilidad de que una persona tenga un ataque al corazón en un periodo especificado de tiempo, basado en nuestro conocimiento de la edad de la persona, sexo, e indice de masa corporal.
  • Predecir la probabilidad de mortalidad en un paciente herido, o predecir si un paciente tiene una enfermedad, como la diabetes, basado en las características observadas de ese paciente, como el peso, la altura, la presión sanguínea, y el resultado de varios test de sangre, etc.
  • En un contexto de marketing, podemos usarlo para predecir la probabilidad de un cliente de estar pagando o cancelando una suscripción.
  • También podemos usar regresión logística para predecir la probabilidad de fallo de un proceso, sistema o producto.
  • Podemos precedir la probabilidad del propietario de dejar de pagar la hipoteca.

En todos estos ejemplos no solo predecimos la clase de cada caso, tambien medimos la probabilidad de que un caso pertenezca a una clase específica.

¿Y en qué situaciones la usaremos?

Hay cuatro situaciones en las que la regresión logística es una buena candidata:

  • Primero, cuando el campo objetivo en los datos es categórico, o especificamente binario como son 0/1, si/no, positivo/negativo, etc.
  • Segundo, si se necesita la probabilidad de la predicción, por ejemplo, si se quiere conocer cual es la probabilidad de que un cliente compre un producto. La regresión logística devuelve una probabilidad entre 0 y 1 para una muestra dada.
  • Tercero, si los datos son linealmente separables. La frontera de decisión de una regresión logística es un línea o un plano o un hiperplano. Un clasificador clasificará todos los puntos en el lado de la línea de decisión al que pertenecen. Y los demás en el otro lado al que pertenece la otra clase. Por ejemplo, si tenemos dos características (y no se está aplicando un proceso polinómico), podremos obtener una inecuación como θ0 + θ1×1 + θ2×2 > 0, lo cuál es un medio plano facilmente dibujable. Usando regresión logística, podemos lograr un límite de decisión complejo usando procesos polinómicos.
  • Cuarto, si se necesita comprender el impacto de una característica. Se puede seleccionar las mejores características basadas en el significado estadístico
    de los coeficientes o parametros del modelo de regresión logística. Esto es, despues de encontrar los parametros óptimos, una característica X con el peso θ1 cercano a 0, tiene un efecto mas pequeño en la predicción, que características con amplios valores absolutos de θ1. Esto nos permite comprender el impacto de una variable independiente sobre una dependiente mientras controlamos otras variables independientes.

Ir al artículo anterior de la serie: Construyendo árboles de decisión

Ir al artículo siguiente de la serie: Regresión lineal Vs. regresión logística