Introducción a la clasificación

Para realizar esta introducción a la clasificación tenemos que conocer que en Machine Learning, la clasificación es un enfoque de aprendizaje supervisado, que puede ser pensado como un medio de categorización o “clasificación” de algunos elementos desconocidos en un conjunto discreto de “clases”.
La clasificación intenta aprender la relación entre un conjunto de variables características y una variable objetivo. El atributo objetivo en clasificación es una variable categórica con valores discretos.

¿Cómo funcionan las clasificaciones y los clasificadores?

Dado un conjunto de datos de entrenamiento, junto con las etiquetas objetivo, la clasificación determina la etiqueta de clase para un caso de prueba no etiquetado. Veamos un ejemplo: Veamos como clasificar la predicción de incumplimiento de pago de un préstamo. Supongamos que un banco está preocupado por el incumplimiento de pago de sus préstamos. Si se puede usar datos previos de préstamos no pagados para predecir qué clientes podrían tener problemas pagando sus préstamos, estos clientes de “riesgo” pueden no obtener un prestamos o se les puede ofrecer productos alternativos. El objetivo es utilizar los datos de incumplimiento de préstamo existentes de los clientes (edad, ingresos, educación, etc.) para construir un clasificador, pasar a un nuevo cliente por el modelo y luego etiquetarlo como “no pagador” o “pagador”.

Así es como un clasificador predice un caso de prueba sin etiquetas. Hay que tener en cuenta que en este ejemplo específico era de un clasificador binario con dos valores. También podemos crear modelos de clasificadores multi-clases. Por ejemplo, si hemos recopilado datos acerca de un conjunto de pacientes, los cuales sufrieron todos de la misma enfermedad. Durante su tratamiento, cada paciente respondió a uno de tres medicamentos. Puede utilizar este conjuunto de datos etiquetado, con un algoritmo de clasificación, para contruir un modelo de clasificación. De esta manera puedes usarlo para averiguar qué medicamento podría ser apropiado para un futuro paciente con la misma enfermedad. Como puede ver, se trata de una muestra de clasificación multi-clases.

La clasificación tiene también diferentes casos de uso empresarial, por ejemplo:

  • Para predecir la categoría a la que pertenece un cliente
  • Para la detección del ratio de abandono,donde predecimos si un cliente cambia a otro proveedor o marca; o para predecir si un cliente responde o no a una campaña publicitaria en particular.
  • Para el filtrado de correos electrónico, reconocimiento de voz, reconocimiento de escritura a mano, identificación bio-métrica, clasificación de documentos, y mucho más.

Aquí tenemos algunos tipos de algoritmos de clasificación en machine learning.

  • Árboles de decisión
  • Naïve Bayes
  • Análisis Linear Discriminante
  • K-nearest neighbor
  • Regresión logística
  • Neural Networks
  • Support Vector Machines.

Ir al artículo anterior de la serie: Regresión no lineal

Ir al artículo siguiente de la serie: K-vecinos más próximos