Saltar al contenido

Archivos de categoría Árboles de decisión

Construyendo árboles de decisión

Construyendo árboles de decisión

Vamos a ver como se están construyendo los árboles de decisión: se crean utilizando el particionamiento recursivo para clasificar los datos. El algoritmo elige la característica más predictiva en la que se deben dividir los datos. Lo que es importante en la elaboración de un árbol de decisiones es determinar qué atributo es el mejor, o más predictivo, para dividir los datos en función de la característica. La «predictibilidad» se basa en la disminución de la «impureza» de los nodos. Un nodo en el árbol se considera «puro» si, en el 100% de los casos, los nodos caen en una categoría específica del campo objetivo. De hecho, el método utiliza el particionamiento recursivo para dividir los registros en segmentos minimizando la «impureza» en cada paso. La «Impureza» de los nodos se calcula mediante la «Entropía» de los datos en el nodo.
VER EJEMPLO EN PYTHON

¿qué es «Entropía»?

La entropía es la cantidad de desorden de la información, o la cantidad de aleatoriedad en los datos. La entropía en un nodo depende de la cantidad de datos aleatorios que se encuentran en ese nodo y se debe calcular para cada nodo. En los árboles de decisión, buscamos a los árboles que tengan la entropía más pequeña en sus nodos. La entropía se utiliza para calcular la homogeneidad de las muestras en ese nodo. Si las muestras son completamente homogéneas la entropía es cero y si las muestras son divididas equitativamente tiene una entropía de uno.

Es posible calcular la entropía de un nodo utilizando la tabla de frecuencias del atributo a través de la fórmula de Entropía: Entropia(S) = \sum_{i=1}^{n}{-p_i \cdot log_2(p_i)}, donde p_i es la proporción o ratio de una categoría. Con esta fórmula podemos probar diferentes atributos para encontrar el que tiene la mejor «predictibilidad», menor entropía. Para ello deberíamos ir por todos los atributos y calcular la «Entropía» después de la división y, a continuación, elegir el mejor atributo.

Pero ¿qué atributo resulta en más nodos puros? ¿en qué árbol tenemos menos entropía después de la división en lugar de antes de la división? La respuesta es en el árbol con la mayor ganancia de información después de la división. Pero, ¿qué es la ganancia de información? La ganancia de información es la información que puede aumentar el nivel de certeza después de la división. Es la entropía de un árbol antes de la división menos la entropía ponderada después de la división por un atributo. Podemos pensar en la ganancia de la información y en la entropía como opuestos. Como la entropía, o la cantidad de aleatoriedad, disminuye, la ganancia de la información, o la cantidad de certeza, aumenta, y viceversa. Por lo tanto, la construcción de un árbol de decisión se trata de encontrar atributos que devuelvan la más alta ganancia de información.

Deberíamos repetir el proceso para cada rama,y probar cada uno de los otros atributos para alcanzar la mayor cantidaddes hojas puras.

Ir al artículo anterior de la serie: Introducción a los árboles de decisión

Ir al artículo siguiente de la serie:Introducción a la Regresión Logística

0 Seguir leyendo →

Introducción a los árboles de decisión

Introducción a los árboles de decisión

árbol de decisiónPara ver una introducción a los árboles de decisión, imagina que eres un investigador médico que compila datos para un estudio. Ya has recolectado datos sobre un conjunto de pacientes, los cuales sufrieron de la la misma enfermedad. Durante el curso de su tratamiento, cada paciente respondió a uno de los dos medicamentos; nosotros los llamaremos fármaco A y fármaco B. Tu trabajo consiste en construir un modelo para encontrar qué medicamento podría ser apropiado para un paciente futuro con la misma enfermedad. Los conjuntos de características de este dataset son edad, género, presión sanguinea y colesterol de nuestro grupo de pacientes, y el objetivo es el fármaco al que cada paciente respondió.

Es una muestra de clasificadores binarios, y se puede utilizar la parte de entrenamiento del dataset para construir un árbol de decisiones, y luego, usarlo para predecir la clase de un paciente desconocido … en esencia, para llegar a una decisión sobre qué medicamento se debería recetar a un nuevo paciente.

creación de un árbol de decisiones

Los árboles de decisión se crean dividiendo el conjunto entrenado en nodos distintos, donde un nodo contiene todo, o la mayoría, de una categoría de los datos. Así que, si queremos recetar un medicamento a un nuevo paciente, debemos tener en cuenta la situación del paciente. Empezamos con la Edad, el cual puede ser Joven, Mediana Edad o Mayor. Si el paciente es de mediana edad, entonces iremos por el fármaco B. Por otro lado, si el paciente es joven o mayor, necesitaremos más detalles para ayudarnos a decidir que medicamento recetar. Las variables de decisión adicionales pueden ser cosas tales como los niveles de colesterol, sexo o presión sanguínea. Por ejemplo, si el paciente es femenino, entonces recomendaremos el fármaco A, pero si el paciente es masculino, entonces iremos por el fármaco B. Como puedes ver, los árboles de decisión tratan sobre probar un atributo y ramificar los casos, basándose en el resultado de la prueba.

  • Cada nodo interno corresponde a una prueba.
  • Cada rama se corresponde con un resultado de la prueba.
  • Cada nodo de hoja asigna un paciente a una clase.

Se puede construir un árbol de decisiones teniendo en cuenta los atributos uno por uno. En primer lugar, elije un atributo de nuestro dataset. Calcula la importancia del atributo en la división de los datos. Más adelante explicaremos cómo calcular la importancia de un atributo, para ver si se trata de un atributo efectivo o no. A continuación, divide los datos en función del valor del mejor atributo. Luego, ve a cada rama y repitelo para el resto de los atributos. Después de construir este árbol, puede usarlo para predecir la clase de casos desconocidos o, en nuestro caso, el fármaco adecuado para un nuevo paciente basado en su caracterestica.

Ir al artículo anterior de la serie: Evaluación del modelo de clasificación

Ir al artículo siguiente de la serie: Construyendo árboles de decisión

0 Seguir leyendo →