Para la obtención de esta información censal, se utilizan métodos tradicionales de análisis de datos que incluyen el trabajo con variables estadísticas, varianza, desviación estándar, covarianza, análisis de factores entre otros, que generan largas demoras en el logro de los resultados y la publicación de los hallazgos, con lo que se reduce seriamente el valor práctico de los mismos. Todos estos métodos están orientados numéricamente, es decir , son esencialmente cuantitativos.
En la búsqueda de una alternativa metodológica que permitiese aligerar los lapsos de procesamiento, la minería de datos puede ser una solución, ya que esta permite construir sistemas capaces de adquirir el conocimiento necesario para realizar tareas, usando la experiencia acumulada.
La llegada de la minería de datos se considera como la última etapa de la introducción de métodos cuantitativos, científicos en el mundo del comercio, industria y negocios. Desde ahora, todos los no-estadísticos, es decir el 99,5% de nosotros pueden construir modelos exactos de algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas.
Estadística y Minería de datos conducen al mismo objetivo, el de efectuar "modelos" compactos y comprensibles que rindan cuenta de las relaciones establecidas entre la descripción de una situación y un resultado (o un juicio) relacionado con dicha descripción. Fundamentalmente, la diferencia entre ambas reside en que las técnicas de Minería de datos construyen el modelo de manera automática mientras que las técnicas estadísticas "clásicas" necesitan ser manejadas y orientadas por un estadístico profesional.
Actualmente en el Instituto Nacional de Estadística (INE), el procesamiento de los datos se realiza utilizando software estadístico especializado como por ejemplo: SPSS, STATA, SAS, MINITAB. Estos programas están orientados a la realización de análisis estadísticos aplicando métodos tradicionales. El costo de estos programas es muy elevado y el uso de los mismos está reservado para los estadísticos.
Los índices de pobreza en el país son calculados mediante técnicas tradicionales de análisis de datos, basándose en los métodos de Necesidades Básicas Insatisfechas (NBI) y Línea de Pobreza (LP), información que es aportada por la base de datos del censo de población correspondiendo al INE el cálculo de dichos índices.
Mediante el uso de técnicas de minería de datos, específicamente árboles de decisión, dichos índices podrán ser generados por cualquier persona que no sea estadístico.
Al haberse tornado económico el almacenamiento de los datos en medios físicos y relativamente fáciles y/o accesibles la recolección de dichos datos, las bases de datos crecen en forma desmesurada. Hoy en día se recolectan datos simplemente por estar al alcance de la mano, sin tener en cuenta su importancia lógica o práctica, o sin saber si son importantes en algún sentido. El almacenamiento masivo de información hace que la minería de datos tenga una importancia cada vez mayor. El análisis de los datos que se recolectan actualmente para toda actividad humana y para cualquier evento o hecho del universo, excede las capacidades de una persona.
Los métodos utilizados hasta ahora para el análisis de datos, son esencialmente cuantitativos (métodos estadísticos), sin embargo, ¿qué pasa cuando más allá de los modelos matemáticos encerrados en los datos, interesan los modelos lógicos?. ¿Cuándo más allá de las direcciones para hacer una clasificación de la base de censo de población, interesa jerarquizar sólo a las potenciales familias en estado de pobreza? ¿Cómo se distingue a las potenciales familias pobres del resto de la gente? ¿Qué características tienen en común? ¿Qué datos las distinguen?. Cuando el análisis de los datos que se busca excede los alcances de un modelo cuantitativo y está orientado hacia una descripción cualitativa de los datos, se debe utilizar los algoritmos inteligentes, como los que se describen en el marco teórico de esta investigación, siendo esta la solución al problema planteado.
Estos algoritmos del aprendizaje automático están orientados hacia el desarrollo de descripciones simbólicas de los datos que puedan caracterizar a uno o más conceptos, diferenciar entre clases de conceptos y describir porqué razón un objeto pertenece a una clase y no a otra. Con este tipo de algoritmos el problema del análisis de las potenciales familias en estado de pobreza estaría resuelto.
Existen muchos tipos de algoritmos de aprendizaje automático; no obstante, los más útiles para este caso son aquellos que no quedan encerrados en el "cerebro" de la computadora, sino que pueden adaptarse a una forma de pensar. Si una persona se encuentra ante un árbol de decisión o un conjunto de reglas de decisión que debe aplicar en orden como resultado de la minería, la clasificación del nuevo caso es tan fácil como la lectura del árbol desde la raíz hasta las hojas.
Este tipo de modelo de datos que representa los conceptos inherentes y ocultos en los datos, de forma tal que son fáciles de interpretar, utilizar e incorporar para la persona humana son los que más enriquecen el conocimiento y como tales, aquellos sobre los cuales se centrará el estudio.
Objetivos de la Investigación
Desarrollar un sistema que permita el estudio de minería de datos en la base de datos de censo de población aplicando árboles de decisión.
- Objetivos Específicos
- Objetivo General
- Diagnosticar la necesidad de un sistema que permita el análisis de los datos del censo de población del Estado Lara aplicando árboles de decisión.
- Determinar la factibilidad económica, técnica, social y operativa del sistema.
- Diseñar los módulos del sistema que permita el análisis de los datos del censo de población del estado Lara basado en técnicas de minería de datos, para clasificar los hogares en situación de pobreza.
Justificación e Importancia
Uno de los métodos más conocidos para describir los atributos de una entidad de una base de datos es utilizar un árbol de decisión o de clasificación, que puede transformarse sin inconveniente a un conjunto de reglas de decisión.
La importancia de esta investigación, radica en estudiar de que manera la familia de los métodos inductivos, que aborda el problema de inducir árboles de decisión, puede utilizarse para descubrir automáticamente reglas de negocio a partir de la información disponible en una base de datos. Se trabajará en particular con los métodos ID3 y C4.5, miembros de dicha familia.
Este estudio tiene relevancia en el área de ingeniería porque aborda un tema novedoso como la Minería de Datos, la cual permite apoyar la agilización de los procesos en el ámbito operativo, con ayuda de la tecnología aplicada en este tipo de sistema.
El sistema permitirá clasificar grandes cantidades de información que actualmente se realizan con herramientas de software muy costosas.
Dentro de los beneficios que se conseguirán con este sistema, es que permitirá la construcción de diversos indicadores estadísticos como por ejemplo los de pobreza, con un menor esfuerzo manual y evaluar cantidades enormes de datos. La razón fundamental de esta investigación es encontrar decisiones finales necesarias para cualquier área específica utilizando árboles de decisión.
Con el sistema propuesto no solo se podrán analizar base de datos de censo de población, también tiene otras aplicaciones prácticas como por ejemplo:
- Toma de decisiones médicas.
- Análisis de base de datos de registros electorales entre otras.
Así mismo, este trabajo servirá de marco referencial para futuras investigaciones referidas al tema estudiado, además, de ser útil para aquellas instituciones que posean bases de datos con volúmenes de registros muy altos que deseen analizarlas mediante técnicas de minería de datos.
Esta investigación está enmarcada en el siguiente modelo:
Polo: Hombre, ciudad y territorio.
Línea: Sistemas inteligentes para el beneficio del hombre y la comunidad.
Sublinea de investigación: Sistemas inteligentes basados en minería de datos.
- Alcances
- Alcances y Limitaciones
El alcance fundamental de esta investigación es el diseño, especificación e implementación de un ambiente de minería de datos que integra los algoritmos ID3 y C4.5, con la finalidad de analizar la base de datos de censo de población del estado Lara aplicando árboles de decisión, además, se desarrollará un método de evaluación de los resultados para determinar la calidad de las reglas obtenidas.
Con este sistema se podrá analizar dicha base de datos aplicando técnicas de minería de datos basado en árboles de decisión específicamente los algoritmos ID3 y C4.5 , lo cual permitirá construir el indicador estadístico que clasificará los hogares de acuerdo a su condición de pobreza.
Uno de los beneficios que aportará este sistema es que podrá se operado por personas que no posean grandes conocimientos de estadística y/o computación.
Limitaciones
- En esta investigación será analizada solo la base de datos del censo de población y vivienda del Estado Lara.
- El sistema no realiza el filtrado de los datos que han de ser procesados, previamente se debe realizar un análisis de correlación de los mismos, ya que la finalidad de este sistema es la de hacer clasificaciones mediante árboles de decisión.
- El sistema no está diseñado para ser operado bajo plataforma de red.
- El sistema, no podrá ser operado bajo ningún sistema operativo que no sea Microsoft Windows.
- El sistema solo genera reportes por pantalla, los cuales quedan grabados automáticamente en el directorio donde este instalado el mismo.
CAPÍTULO II
MARCO TEÓRICO
Antecedentes de la Investigación
En el procesamiento de la base de datos de censo de población y vivienda del Estado Lara, en la cual se desarrolla el presente trabajo de grado, no existe ningún antecedente de clasificación de los datos basado en técnicas de Minería de Datos; debido a esto y aunado a que este trabajo representa un desarrollo innovador se dividen los antecedentes basándose en sus tópicos más importantes, que son inteligencia artificial e indicadores sociales realizando para ello búsquedas tanto en el ámbito universitario como en la Internet.
Galvis, (2002) desarrolló un "Sistema Inteligente basado en Minería de Datos para la clasificación de neonatos según su crecimiento intrauterino, edad de gestación y peso al nacer para la Clínica Razzetti de Barquisimeto". Para optar al Título de Ingeniero en Computación en la Universidad "Fermín Toro", teniendo como objetivo contribuir a una mayor eficacia y rapidez en la clasificación de neonatos empleando técnicas de inteligencia artificial específicamente enfocado en minería de datos, este estudio fue enmarcado en la modalidad de investigación de campo en el ámbito de proyecto factible.
Luego del análisis respectivo de los datos se concluyó que el sistema proporcionaba una solución al problema estudiado, se obtuvo una investigación que cumplió con los principios básicos de una problemática planteada.
Este proyecto da como aporte a la investigación planteada, la aplicación de la minería de datos, la cual es capaz de detectar patrones y relaciones que permanecen ocultas ante el uso de herramientas tradicionales. La búsqueda minuciosa, la extracción, agrupación y clasificación de datos estadísticos lo cual permite entre otras cosas, visualizar tendencias y hacer pronósticos.
García, (2004) desarrolló un "Sistema basado en Minería de Datos para la segmentación de clientes y proveedores en el negocio de importación en la Distribuidora Jaime García, C.A". Para optar al título de Ingeniero en Computación en la Universidad "Fermín Toro", utilizando el algoritmo de agrupamiento no supervisado K medias. El sistema además de llevar un registro digitalizado de todas sus operaciones, permite que proveedores y clientes no conocidos por la empresa puedan registrarse para ser evaluados a través de un proceso de Minería de Datos que los agrupe de acuerdo a las características más relevantes de cada uno, permitiendo segmentar y clasificar a los clientes y proveedores de la empresa, para luego generar estrategias gerenciales. El sistema sirvió de aporte en cuanto a como se clasificaron los clientes y proveedores, cómo se normalizaron los datos y los pasos a seguir en el procesamiento de los datos.
Bases Teóricas
Por razones distintas y para fines muy diversos, el país necesita disponer de información confiable sobre los aspectos coyunturales y estructurales de la dinámica de la población y de la situación habitacional; ya sea para responder a los requerimientos del sector oficial, o para satisfacer las necesidades de información del sector privado de la economía, o para nutrir el mejor criterio de la sociedad civil, lo cierto es que satisfacer la demanda de indicadores sobre aspectos relacionados con población y vivienda, requiere la aplicación de métodos y técnicas modernas que permitan reducir la complejidad del proceso de obtención de la información y asegurar la mayor confiabilidad posible de los resultados.
Con el propósito de sustentar conceptualmente este estudio se presenta una serie de autores como Quinlan, Winston, Michalski, entre otros, que abordan aspectos significativos relacionados con el tema tratado.
Según Grossman (1999). La inteligencia artificial comenzó como el resultado de la investigación en sicología cognitiva y lógica matemática. Se ha enfocado sobre la explicación del trabajo mental y construcción de algoritmos de solución a problemas de propósito general, punto de vista que favorece la abstracción y la generalidad. La inteligencia artificial es una combinación de la ciencia del computador, fisiología y filosofía, tan general y amplio como eso, reúne varios campos (robótica, sistemas expertos, por ejemplo), todos los cuales tienen en común la creación de máquinas que pueden "pensar".
Como argumenta Winston (1994). La inteligencia artificial es el estudio de las computaciones que permiten percibir, razonar y actuar.
Para Knight, (1991). "El estudio de cómo lograr que las computadoras realicen tareas que, por el momento, los humanos lo hacen mejor".
Luger y Stubblefield. (1990). "La rama de la ciencia de la computación que se ocupa de la automatización de la conducta inteligente".
- Base de Datos
Según Byers, (1986). Es una colección de información organizada y presentada para servir a un propósito específico. En una tabla las filas se denominan registros y las columnas campos. La primera fila contiene los nombres de campo. Cada campo contiene determinado tipo de datos y tiene una longitud expresada en él número de caracteres máximo del campo.
Para crear una tabla será necesario definir su estructura. El nombre de la tabla, los nombres de campo, los tipos de datos de cada campo, las propiedades o características de cada campo y campo clave (clave principal).
- Inteligencia Artificial
Según Mitchell, (1997). La enorme cantidad de bases de datos en todas las áreas de aplicación humana, demanda nuevas y poderosas técnicas de transformación de los datos en conocimientos útiles. Entre dichas técnicas se puede nombrar a las pertenecientes al aprendizaje automático, el análisis estadístico de datos, la visualización de datos, y las redes neuronales. La minería de datos se refiere a la aplicación de técnicas de aprendizaje automático, entre otros métodos, para encontrar importantes patrones en los datos. El descubrimiento de conocimientos pone su énfasis en el ciclo de análisis de datos en sí, analiza su ciclo de vida.
El Aprendizaje Automático se enfrenta con el desafío de la construcción de programas computacionales que automáticamente mejoren con la experiencia al respecto Mitchell (1997) señala que:
Estos programas computacionales son sistemas de aprendizaje capaces de adquirir conocimientos de alto nivel y/o estrategias para la resolución de problemas mediante ejemplos, en forma análoga a la mente humana a partir de los ejemplos provistos por un tutor o instructor y de los conocimientos de base o conocimientos previos, el sistema de aprendizaje crea descripciones generales de conceptos (p.196).
La minería de datos busca generar información similar a la que podría producir un experto humano, que además satisfaga el Principio de Comprensibilidad, la minería de datos es el proceso de descubrir conocimientos interesantes, como patrones, asociaciones, cambios, anomalías y estructuras significativas a partir de grandes cantidades de datos almacenadas en bases de datos, data warehouses, o cualquier otro medio de almacenamiento de información.
La minería de datos es un campo en pleno desarrollo en el que se aplican métodos de varias disciplinas como los presentes en sistemas de bases de datos, data warehouses, estadística, el aprendizaje automático, visualización de datos, obtención de información y computación de alta performance. Además también se utilizan métodos de las áreas de redes neuronales, reconocimiento de patrones, análisis espacial de datos, bases de datos de imágenes, procesamiento de señales y programación lógica inductiva (ILP). Numerosos especialistas señalan que la minería de datos necesita de la integración de enfoques de múltiples disciplinas.
Una gran cantidad de métodos de análisis de datos han sido desarrollados en estadística. El Aprendizaje automático ha contribuido en el área de clasificación e inducción. Las redes neuronales, por su lado, son efectivas en la clasificación, predicción y clustering de datos. Sin embargo, con la gran cantidad de datos almacenados en las bases de datos sobre los cuales se debe hacer la minería de datos, todos estos métodos deben reanalizarse o escalarse para ser efectivos.
Además para procesar grandes volúmenes de datos de los cuales deben extraerse patrones automáticamente, es necesario contar con una gran capacidad computacional de procesamiento. Es necesario, entonces, desarrollar métodos de minería de datos distribuidos, paralelos e increméntales.
- Minería de Datos
- Descubrimiento de conocimientos
Anónimo (1999). La minería de datos no debe confundirse con el descubrimiento de conocimientos (knowledge discovery), aunque muchos investigadores consideran que la minería de datos no es más que un paso esencial en el descubrimiento de conocimientos. En general, un proceso de descubrimiento de conocimientos consiste de una repetición iterativa de los siguientes pasos:
- Limpieza de datos (Data cleaning) procesamiento de los datos ruidosos, erróneos, faltantes o irrelevantes.
- Integración de datos (Data integration) integración de múltiples fuentes heterogéneas de datos en una única fuente.
- Selección de datos (Data selection) extracción de los datos relevantes al área de análisis del almacenamiento de datos.
- Transformación de datos (Data transformation) transformación o consolidación de los datos en formas apropiadas para la minería mediante procedimientos de agregación.
- Minería de Datos: proceso esencial donde se aplican diversos métodos para extraer patrones de los datos.
- Evaluación de patrones (Pattern evaluation) identificación de patrones interesantes basándose en algún parámetro de comparación impuesto por el usuario.
- Presentación de los conocimientos (Knowledge presentation) técnicas de visualización y representación de los conocimientos adquiridos.
Con los sistemas de bases de datos relacionales existentes hoy en día, los cuatro procesos iniciales: limpieza, integración, selección y transformación de datos pueden realizarse mediante la construcción de data warehouses. Los procesos de minería de datos, evaluación de patrones y presentación de conocimientos generalmente se agrupan en el proceso que se conoce como minería de datos. De ahí la confusión que puede llegar a existir con el nombre.
- Fases de un Proyecto de Minería de Datos
Los pasos a seguir para la realización de un proyecto de minería de datos son
siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. La figura No 1 muestra los pasos de un proyecto de Minería de Datos.
Figura 1
Fases de un proyecto de minería de datos
El proceso de minería de datos pasa por las siguientes fases:
- Filtrado de datos: El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse…) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos… según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,…).
Aquellos basados en la elección de los mejores atributos del problema, y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
- Selección de Variables: Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad inmensa de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos:
- Extracción de Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
- Interpretación y Evaluación: Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
- Componentes de la Minería de Datos
Joshi (1997) considera que "La minería de datos cuenta con tres grandes componentes según Clustering o clasificación, reglas de asociación y análisis de secuencias" (p.82).
En el Clustering o Clasificación se analizan los datos y se generan conjuntos de reglas que agrupen y clasifiquen los datos futuros. Debe tenerse en cuenta que en la minería de datos se busca obtener reglas que particionen los datos en clases predefinidas, esto se torna complicado cuando hay una gran cantidad de atributos y millones de registros.
Una regla de asociación es una regla que implica o presenta ciertas relaciones entre un grupo de objetos en una base de datos. En el proceso de la minería de datos se obtienen varias reglas de este tipo con distintos niveles de abstracción.
Nuevamente, no olvidar que esto puede implicar el análisis iterativo de bases de datos transaccionales o relacionales, con millones de registros, lo cual presenta un elevado costo operativo. Por lo tanto, la obtención de reglas a partir de bases de datos relacionales o transaccionales es un importante tema de estudio.
Por último, el análisis de secuencias trata de encontrar patrones que ocurren con una secuencia determinada. Trabaja sobre datos que aparecen en distintas transacciones a diferencia de los datos que aparecen relacionados mediante reglas dentro de una misma transacción.
A continuación se presentan ejemplos de algoritmos de minería de datos existentes, de cada uno de los tipos presentados.
Algoritmos de Clasificación (Classification Algorithms)
Según Joshi, (1997). La clasificación de datos desarrolla una descripción o modelo para cada una de las clases presentes en la base de datos. Existen muchos métodos de clasificación como aquellos basados en los árboles de decisión TDIDT como el ID3 y el C4.5, los métodos estadísticos, las redes neuronales, y los conjuntos difusos, entre otros.
A continuación se describen brevemente aquellos métodos de aprendizaje automático que han sido aplicados a la minería de datos con cierto éxito:
- Algoritmos estadísticos: muchos algoritmos estadísticos han sido utilizados por los analistas para detectar patrones inusuales en los datos y explicar dichos patrones mediante la utilización de modelos estadísticos, como, por ejemplo, los modelos lineales. Estos métodos se han ganado su lugar y seguirán siendo utilizados en los años venideros.
- Redes Neuronales: las redes neuronales imitan la capacidad de la mente humana para encontrar patrones. Han sido aplicadas con éxito en aplicaciones que trabajan sobre la clasificación de los datos.
- Algoritmos genéticos: técnicas de optimización que utilizan procesos como el entrecruzamiento genético, la mutación y la selección natural en un diseño basado en los conceptos de la evolución natural.
- Método del vecino más cercano: es una técnica que clasifica cada registro de un conjunto de datos en base a la combinación de las clases de los k registros más similares. Generalmente se utiliza en bases de datos históricas.
- Reglas de inducción: la extracción de reglas si-entonces a partir de datos de importancia estadística.
- Visualización de los datos: la interpretación visual de las relaciones entre datos multidimensionales.
- Clasificadores basados en instancias o ejemplos: Una manera de clasificar un caso es a partir de un caso similar cuya clase es conocida, y predecir que el caso pertenecerá a esa misma clase. Esta filosofía es la base para los sistemas basados en instancias, que clasifican nuevos casos refiriéndose a casos similares recordados. Un clasificador basado en instancias necesita teorías simbólicas. Los problemas centrales de este tipo de sistemas se pueden resumir en tres preguntas: ¿cuáles casos de entrenamiento deben ser recordados?, ¿cómo puede medirse la similitud entre los casos?, y ¿cómo debe relacionarse el nuevo caso a los casos recordados?.
Los métodos de aprendizaje basados en reglas de clasificación buscan obtener reglas o árboles de decisión que particionen un grupo de datos en clases predefinidas.
Para cualquier dominio real, el espacio de datos es demasiado grande como para realizar una búsqueda exhaustiva en el mismo.
En cuanto a los métodos inductivos, la elección del atributo para cada uno de los nodos se basa en la ganancia de entropía generada por cada uno de los atributos. Una vez que se ha recopilado la información acerca de la distribución de todas las clases, la ganancia en la entropía se calcula utilizando la teoría de la información o bien el índice de Gini. En la solución propuesta se utilizaran métodos inductivos.
Aplicaciones
A continuación se describen los algoritmos de aprendizaje automático que han sido utilizados en el sistema propuesto de Minería de Datos.
Este sistema ha sido el que más impacto ha tenido en la minería de datos. Desarrollado en los años ochenta por Quinlan, ID3 significa Induction Decision Trees, y es un sistema de aprendizaje supervisado que construye árboles de decisión a partir de un conjunto de ejemplos. Estos ejemplos son tuplas compuestas por varios atributos y una única clase. El dominio de cada atributo de estas tuplas está limitado a un conjunto de valores. Las primeras versiones del ID3 generaban descripciones para dos clases: positiva y negativa. En las versiones posteriores, se eliminó esta restricción, pero se mantuvo la restricción de clases disjuntas. ID3 genera descripciones que clasifican cada uno de los ejemplos del conjunto de entrenamiento.
Este sistema tiene una buena performance en un amplio rango de aplicaciones, entre las cuales se pueden nombrar, aplicaciones de dominios médicos, artificiales y el análisis de juegos de ajedrez. El nivel de precisión en la clasificación es alto. Sin embargo, el sistema no hace uso del conocimiento del dominio. Además, muchas veces los árboles son demasiado frondosos, lo cual conlleva a una difícil interpretación. En estos casos pueden ser transformados en reglas de decisión para hacerlos más comprensibles.
- ID3
El C4.5 es una extensión del ID3 que permite trabajar con valores continuos para los atributos, separando los posibles resultados en dos ramas: una para aquellos Ai<=N y otra para Ai>N. Este algoritmo fué propuesto por Quinlan en 1993. El algoritmo C4.5 genera un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente. El árbol se construye mediante la estrategia de profundidad-primero (depth-first). El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos.
- La familia TDIDT
- C4.5
Según Korab, (1997). La familia de los Top Down Induction Trees (TDIDT) pertenece a los métodos inductivos del aprendizaje automático que aprenden a partir de ejemplos preclasificados. En Minería de Datos, se utiliza para modelar las clasificaciones en los datos mediante árboles de decisión.
- Construcción de los árboles de decisión
Los árboles TDIDT, a los cuales pertenecen los generados por el ID3 y por el C4.5, se construyen a partir del método de Hunt. El esqueleto de este método para construir un árbol de decisión a partir de un conjunto T de datos de entrenamiento es muy simple. Sean las clases {C1, C2,. . ., Ck}. Existen tres posibilidades:
El árbol de decisión para T es una hoja identificando la clase Cj .
- T contiene uno o más casos, todos pertenecientes a una única clase Cj :
- T no contiene ningún caso: el árbol de decisión es una hoja, pero la clase asociada debe ser determinada por información que no pertenece a T. Por ejemplo, una hoja puede escogerse de acuerdo a conocimientos de base del dominio, como ser la clase mayoritaria.
- T contiene casos pertenecientes a varias clases: en este caso, la idea es refinar T en subconjuntos de casos que tiendan, o parezcan tender hacia una colección de casos pertenecientes a una única clase. Se elige una prueba basada en un único atributo, que tiene uno o más resultados, mutuamente excluyentes {O1, O2,. . ., On}. T se particiona en los subconjuntos T1, T2,. . ., Tn donde Ti contiene todos los casos de T que tienen el resultado Oi para la prueba elegida. El árbol de decisión para T consiste en un nodo de decisión identificando la prueba, con una rama para cada resultado posible. El mecanismo de construcción del árbol se aplica recursivamente a cada subconjunto de datos de entrenamientos, para que la i-ésima rama lleve al árbol de decisión construido por el subconjunto Ti de datos de entrenamiento.
Según Korab, (1997). En los casos, en los que el conjunto T contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el "mejor" atributo. Para encontrar el "mejor" atributo, se utiliza la teoría de la información, que sostiene que la información se maximiza cuando la entropía se minimiza. La entropía determina la azarosidad o desestructuración de un conjunto.
Al suponer que se tienen ejemplos positivos y negativos. En este contexto la entropía del subconjunto 0, , puede calcularse como:
Donde es la probabilidad de que un ejemplo tomado al azar de sea positivo. Esta probabilidad puede calcularse como:
Siendo la cantidad de ejemplos positivos de , y la cantidad de ejemplos negativos.
La probabilidad pi- se calcula en forma análoga a pi+, reemplazando la cantidad de ejemplos positivos por la cantidad de ejemplos negativos, y viceversa.
Generalizando la expresión (1) para cualquier tipo de ejemplos, se obtiene la fórmula general de la entropía:
En todos los cálculos relacionados con la entropía, se define 0log0 igual a 0.
Si el atributo at divide el conjunto S en los subconjuntos Si, i = 1,2,….. , n, entonces, la entropía total del sistema de subconjuntos será:
Donde es la entropía del subconjunto S i y P ( Si ) es la probabilidad de que un ejemplo pertenezca a Si. Puede calcularse, utilizando los tamaños relativos de los subconjuntos, como:
La ganancia en información puede calcularse como la disminución en entropía. Es decir:
Donde H(S) es el valor de la entropía a priori, antes de realizar la subdivisión, y H(S, at)es el valor de la entropía del sistema de subconjuntos generados por la partición según at.
El uso de la entropía para evaluar el mejor atributo no es el único método existente utilizado en aprendizaje automático. Sin embargo, es el utilizado por Quinlan al desarrollar el ID3 y su sucesor el C4.5.
Los árboles de decisión pueden generarse tanto a partir de atributos discretos como de atributos numéricos. Cuando se trabaja con atributos discretos, la partición del conjunto según el valor de un atributo es simple. Por ejemplo, Se agrupan todos los animales que tengan pico, siendo tiene pico un atributo y sus posibles valores sí y no.
En el caso de los atributos numéricos esta división no es tan simple. Por ejemplo, al querer partir los días de un mes en función a la cantidad de lluvia caída, es casi imposible encontrar dos días con exactamente la misma cantidad de precipitaciones.
Para solucionar este problema, puede recurrirse a la binarización. Este método consiste en formar dos rangos de valores de acuerdo al valor de un atributo, que pueden tomarse como simbólicos. Por ejemplo, si en un día hubo 100ml de lluvia, pueden crearse los intervalos [0,100) y [100, +.) y el cálculo de la entropía se realiza como si los dos intervalos fueran los dos valores simbólicos que puede tomar el atributo.
- Datos Numéricos
Existen varias razones para la poda de los árboles generados por los métodos de TDIDT. Michalski, (1998). Entre ellas se pueden nombrar la sobre generalización, la evaluación de atributos poco importantes o significativos, y el gran tamaño del árbol obtenido. En el primer caso, un árbol puede haber sido construido a partir de ejemplos con ruido, con lo cual algunas ramas del árbol pueden ser engañosas. En cuanto a la evaluación de atributos no relevantes, éstos deben podarse ya que sólo agregan niveles en el árbol y no contribuyen a la ganancia de información. Por último, si el árbol obtenido es demasiado profundo o demasiado frondoso, se dificulta la interpretación por parte del usuario, con lo cual hubiera sido lo mismo utilizar un método de caja negra.
Existen dos enfoques para podar los árboles: la pre-poda (preprunning) y la post-poda (postprunning). En el primer caso se detiene el crecimiento del árbol cuando la ganancia de información producida al dividir un conjunto no supera un umbral determinado. En la post-poda se podan algunas ramas una vez que se ha terminado de construir el árbol.
El primer enfoque, tiene la atracción de que no se pierde tiempo en construir una estructura que luego será simplificada en el árbol final. El método típico en estos casos es buscar la mejor manera de partir el subconjunto y evaluar la partición desde el punto de vista estadístico mediante la teoría de la ganancia de información, reducción de errores, etc. Si esta evaluación es menor que un límite predeterminado, la división se descarta y el árbol para el subconjunto es simplemente la hoja más apropiada. Sin embargo, este tipo de método tiene la contra de que no es fácil detener un particionamiento en el momento adecuado, un límite muy alto puede terminar con la partición antes de que los beneficios de particiones subsiguientes parezcan evidentes, mientras que un límite demasiado bajo resulta en una simplificación demasiado leve.
El segundo enfoque es, entonces, el utilizado por el ID3 y el C4.5. Una vez construido el árbol se procede a su simplificación según los criterios propios de cada uno de los algoritmos.
- Poda de los árboles generados
- Transformación a reglas de decisión
Según Korab, (1997) Los árboles de decisión demasiado grandes son difíciles de entender porque cada nodo debe ser interpretado dentro del contexto fijado por las ramas anteriores. Cada prueba tiene sentido, solamente, si se analiza junto con los resultados de las pruebas previas. Cada prueba en el árbol tiene un contexto único que es crucial a la hora de entenderla y puede ser muy difícil comprender un árbol en el cual el contexto cambia demasiado seguido al recorrerlo. Además, la estructura de árbol puede hacer que un concepto en particular quede fragmentado, lo cual hace que el árbol sea aún más difícil de entender.
Existen dos maneras de solucionar estos problemas: definir nuevos atributos que estén relacionados con las tareas o cambiar de método de representación, por ejemplo, a reglas de decisión.
En cualquier árbol de decisión, las condiciones que deben satisfacerse cuando un caso se clasifica por una hoja pueden encontrarse analizando los resultados de las pruebas en el camino recorrido desde la raíz. Es más, si el camino fuese transformado directamente en una regla de producción, dicha regla podría ser expresada como una conjunción de todas las condiciones que deben ser satisfechas para llegar a la hoja.
Consecuentemente, todos los antecedentes de las reglas generadas de esta manera serían mutuamente excluyentes y exhaustivos.
Al hablar de reglas de decisión o de producción se refiere a una estructura de la forma:
Si atributo1 = valorX y atributo2 = valorY …. y atributo n = valorZ Entonces claseK.
Se dice que una regla cubre un caso si el caso satisface todas las condiciones en el antecedente de la misma.
- Cálculo de la ganancia de información
- Evaluación de los métodos de aprendizaje
La evaluación es la clave del progreso en la Minería de Datos. Existen varias maneras de inferir estructuras a partir de los datos; para determinar cuál es el mejor método para cada conjunto de datos, debe existir una manera de evaluar los métodos de aprendizaje y compararlos entre sí.
Si se cuenta con una gran cantidad de datos, la evaluación no es problema: se genera un modelo a partir de un conjunto grande de entrenamiento y, luego, se lo prueba con otro gran conjunto de datos. Sin embargo, aunque la Minería de Datos implica por su definición trabajar con grandes cantidades de datos, los conjuntos de datos de buena calidad son pocos. Los datos de entrenamiento deben ser cuidadosamente generados y analizados por expertos humanos, un recurso que escasea.
Existen varios indicadores de la performance de un algoritmo de aprendizaje, algunos de ellos se describen a continuación. Michalski, (1998):
- Precisión: cantidad de ejemplos positivos y negativos evaluados correctamente. Algunas veces, es importante distinguir entre dos tipos de errores: los ejemplos positivos clasificados como negativos (errores de omisión) y viceversa (errores de comisión). Estos dos tipos de errores nos ayudan a determinar si los conceptos aprendidos son demasiado generales o demasiado específicos. Para que un sistema sea preciso, es necesario que genere descripciones que sean consistentes (no cubran ningún ejemplo negativo) y que sean completas (cubran todos los ejemplos positivos).
- Eficiencia: un sistema debe ser capaz de generar descripciones correctas con un número mínimo de ejemplos. Un instructor no siempre puede dotar al sistema de una cantidad infinita de ejemplos, y la velocidad en el aprendizaje es un indicador de inteligencia. Dentro de la eficiencia, debemos evaluar también los requerimientos computacionales. Estos se miden en función a la cantidad de tiempo y recursos que un sistema necesita para llegar a una buena descripción.
- Comprensibilidad: es importante que los conceptos generados sean comprensibles al usuario, ya que el fin último de estos sistemas es que el usuario aprenda algo de ellos.
- Robustez: contra el ruido y contra los ejemplos incompletos. Cada sistema maneja estos dos problemas de forma diferente, con lo cual debe evaluarse en cada sistema en particular.
- Requerimientos especiales: en algunos dominios, se requiere que un sistema aprenda a medida que llegan los ejemplos. Esto se conoce como aprendizaje incremental y es, especialmente, importante en aquellas áreas en que los conceptos evolucionan, cambian su significado a través del tiempo.
Para los problemas de clasificación, como los de la familia TDIDT, es natural medir la performance del clasificador con una proporción de error. El clasificador predice la clase de cada instancia: si la predicción es correcta, es un éxito; si no lo es, un error. La proporción de error, entonces, es simplemente la cantidad de errores sobre la cantidad total de instancias clasificadas.
Por supuesto, lo que interesa es estimar la proporción de errores sobre los nuevos datos y no sobre los datos de entrenamiento, los cuales ya están clasificados. ¿Se puede decir que la proporción de error estimada a partir de los datos de entrenamiento es correcta para los datos futuros?. No, si los datos sobre los que se estimó el error fueron utilizados al generar el clasificador. La proporción de error sobre los datos de entrenamiento no es un buen indicador de los errores futuros; como el clasificador se generó a partir de estos datos, la proporción de error es subjetiva y totalmente optimista. La proporción de error generada a partir de los datos de entrenamiento se conoce como error de sustitución, ya que se calcula al sustituir las instancias en un clasificador que fue construido a partir de ellas. A pesar de que no es un buen estimador para la predicción de futuros errores, es muy útil conocerlo.
Para predecir la performance del clasificador en los datos futuros, se necesita evaluar la proporción de error sobre datos no utilizados durante la construcción del mismo. El conjunto independiente de datos utilizado con este propósito es el conjunto de prueba. Es esencial que el conjunto de prueba no haya sido utilizado para nada en la generación del clasificador. Entonces, aquellos esquemas en que la construcción se realiza en dos etapas o requieren probar el clasificador, trabajan con dos conjuntos de datos: el de entrenamiento y el de prueba.
Se Puede decir que a mayor cantidad de datos, mejor clasificador y mejor estimador de error. El problema está cuando hay una pequeña cantidad de datos de entrenamiento. En muchas situaciones, los datos de entrenamiento y prueba deben clasificarse manualmente. Se Debe encontrar la forma de conseguir un buen estimador de error, aún cuando los datos de prueba escasean. A continuación, se explican varios métodos para evaluar los algoritmos de clasificación.
- Estimación del costo
- Evaluación en la familia TDIDT
Hasta ahora no se ha considerado el costo de tomar malas decisiones y malas clasificaciones. La optimización de las proporciones de clasificación sin considerar el
costo de los errores, generalmente lleva a resultados extraños. Existe un ejemplo famoso de un sistema de inducción utilizado para predecir los períodos fértiles de las vacas. Las vacas se controlaron con un identificador electrónico en la oreja, y otros atributos como el volumen de leche y su composición química. En las primeras pruebas del sistema de aprendizaje automático, los resultados afirmaban que las vacas nunca estaban en el período fértil. El período menstrual de las vacas es similar al de los humanos, con lo cual la regla generada era correcta el 97% de las veces, un grado de precisión impresionante para el dominio de la agricultura. Sin embargo, lo que se buscaba eran reglas que predijeran cuando una vaca estaba fértil y no cuando no lo estaba, con lo cual, los costos de los dos casos de error son distintos. La evaluación por exactitud en la clasificación asume costos iguales por naturaleza. Si los costos son conocidos, pueden incluirse en el análisis de los métodos. Al restringir el análisis a los casos que tienen clases sí y no únicamente. Los cuatro resultados posibles de una predicción pueden listarse en una matriz de confusión como la que se muestra a continuación.
Cuadro 1
Matriz de confusión para los casos que tienen clases si y no únicamente.
Clase predicha | ||||
Sí | No | |||
Clase Verdadera | Sí | Verdadero positivo | Falso negativo | |
No | Falso positivo | Verdadero negativo | ||
Fuente: Un algoritmo de aprendizaje de conceptos para sistemas inteligentes. Buenos Aires 1987.
Elaborado: García (1987)
Los verdaderos positivos y verdaderos negativos son los casos sin error. Los falsos positivos corresponden a aquellas instancias negativas que fueron clasificadas como positivas, mientras que los falsos negativos son aquellas instancias clasificadas como negativas cuando en realidad son positivas.
Estos dos casos de errores generalmente tienen distintos costos, como los casos clasificados correctamente tienen distintos beneficios. El hecho de pensar en el costo genera mejores decisiones.
No obstante, la mayoría de los algoritmos de aprendizaje automático no tienen en cuenta el costo al aprender. Existen, sin embargo, dos maneras de transformarlo fácilmente. La primera idea para transformar un clasificador para que tome en cuenta el costo, es variar la cantidad de ejemplos positivos y negativos en los datos de entrenamiento de acuerdo a la importancia de cada uno de los errores. Otra idea es ponderar las instancias. Por ejemplo, al generar un árbol de decisión, una instancia puede dividirse en partes con un esquema de ponderación que indique la proporción con que debe tomarse cada rama.
Características de los árboles de decisión
Los árboles de decisión representan una estructura de datos que organiza eficazmente los descriptores. Se construye un árbol de forma tal que en cada nodo se realiza una prueba sobre el valor de los descriptores y de acuerdo con la respuesta se va descendiendo en las ramas, hasta llegar al final del camino donde se encuentra el valor del clasificador. Se puede analizar un árbol de decisión como una caja negra en función de cuyos parámetros (descriptores) se obtiene un cierto valor del clasificador.
Figura 2
Estructura de un árbol de decisión
Un árbol de decisión puede analizarse como una disyunción de conjunciones. Cada camino desde la raíz hasta las hojas representa una conjunción, y todos los caminos son alternativos, es decir, son disyunciones.
Las reglas de decisión o de producción son una alternativa a los árboles de decisión, y todo árbol de decisión puede llevarse a reglas de este tipo Witten y Frank , (2000).
Antecedente => Consecuente
Donde el antecedente es una conjunción entre distintas pruebas de valor sobre los valores de los atributos; y el consecuente es una clase para todos los casos que satisfagan el antecedente. Por ejemplo,
Si atributo1="valor a" y atributo2= "valor y", entonces Clase K
Las reglas de decisión se presentan en orden, y deben interpretarse de esa manera. El orden determina cuáles reglas deben ejecutarse primero. Al clasificar un nuevo caso se avanza en la lista hasta llegar a un antecedente que sea satisfecho por el caso, entonces la clase del caso es la correspondiente al consecuente de dicha regla. El C4.5 en particular, agregar una última regla a la lista, ésta no tiene antecedente, es la regla con la clase por defecto, es decir, si el caso no satisfizo ninguna de las reglas anteriores, entonces es de la clase indicada por la última regla que no tiene antecedente.
En el caso de las reglas de decisión, agregar una nueva regla implica simplemente añadirla a la lista de reglas sin necesidad de hacer cambios de estructura, mientras que agregar una nueva regla en un árbol implicaría rehacer la estructura del mismo.
- Características de las reglas de decisión
Tanto el ID3 como el C4.5 generan un clasificador de la forma de un árbol de decisión, cuya estructura es Quinlan, (1993):
Una hoja, indicando una clase.
Un nodo de decisión que especifica alguna prueba a ser realizada sobre un único atributo, con una rama y subárbol para cada valor posible de la prueba.
El árbol de decisión generado por el C4.5 cuenta con varias características particulares: cada hoja tiene asociados dos números, que indican el número de casos de entrenamientos cubiertos por cada hoja y la cantidad de ellos clasificados erróneamente por la hoja. Es en cierta manera, un estimador del éxito del árbol sobre los casos de entrenamiento. El ID3, en cambio, no clasifica erróneamente a los datos de entrenamiento, con lo cual no son necesarios este tipo de indicadores. Es por ello, que este algoritmo, a diferencia del C4.5, corre el riesgo de caer en sobre ajuste.
El propósito de construir modelos de clasificación no se limita al desarrollo de predictores precisos, también es esencial que el modelo construido sea comprensible para los seres humanos. Michie (1986), critica al ID3 al sostener que los resultados recientes demuestran que los programas construidos sobre la base de sistemas tales como el ID3 pueden ser considerados, de alguna manera, "super-programas" y al mismo tiempo ser incomprensibles para las personas. Se han estudiado varias maneras de simplificar los árboles de decisión. Por ejemplo, en el sistema integrado propuesto, los árboles generados por el C4.5 como por el ID3 se transforman en un conjunto de reglas de producción o decisión, un formato que parece más comprensible que los árboles, cuando estos últimos son demasiado extensos o frondosos.
Descripción general de los algoritmos
El algoritmo principal de los sistemas de la familia TDIDT, a la cual pertenecen el ID3 y su descendiente el C4.5, es el proceso de generación de un árbol de decisión inicial a partir de un conjunto de datos de entrenamiento. La idea original está basada en un trabajo de Hoveland y Hunt de los años 50, culminado en el libro Experiments in Induction Hunt, 1966 que describe varios experimentos con varias implementaciones de sistemas de aprendizaje de conceptos.
- Presentación de los resultados
Se debe recordar que el método "divide y reinarás" realiza en cada paso una partición de los datos del nodo según una prueba realizada sobre el "mejor" atributo.
Cualquier prueba que divida a T en una manera no trivial, tal que al menos dos subconjuntos distintos {Ti} no estén vacíos, eventualmente resultará en una partición de subconjuntos de una única clase, aún cuando la mayoría de los subconjuntos contengan un solo ejemplo. Sin embargo, el proceso de construcción del árbol no apunta meramente a encontrar cualquier partición de este tipo, sino a encontrar un árbol que revele una estructura del dominio y, por lo tanto, tenga poder predictivo. Para ello, se necesita un número importante de casos en cada hoja o, dicho de otra manera, la partición debe tener la menor cantidad de clases posibles. En el caso ideal, lo deseable es elegir en cada paso la prueba que genere el árbol más pequeño.
La mayoría de los métodos de construcción de árboles de decisión, incluyendo el C4.5 y el ID3, no permiten volver a estados anteriores, es decir, son algoritmos golosos sin vuelta atrás. Una vez que se ha escogido una prueba para particionar el conjunto actual, típicamente basándose en la maximización de alguna medida local de progreso, la partición se concreta y las consecuencias de una elección alternativa
no se exploran. Por este motivo, la elección debe ser bien realizada.
- División de los datos
Para realizar la división de los datos en cada paso, Quinlan propone la utilización de los métodos de la Teoría de la Información. En un principio, el ID3 utilizaba la ganancia como criterio de división. Sin embargo, a partir de numerosas pruebas se descubrió que este criterio no era efectivo en todos los casos y se obtenían mejores resultados si se normalizaba el criterio en cada paso. Por lo tanto, comenzó a utilizarse la ganancia de información, con mayor éxito. El C4.5 también utiliza este último criterio para realizar la división de los casos. Quinlan afirma que en su opinión el criterio de proporción de ganancia es robusto y generalmente da resultados más consistentes que el criterio de ganancia.
La solución propuesta permite la utilización de ambos criterios. Se estudiarán y compararán los resultados obtenidos con el ID3 y con el C4.5 utilizando la ganancia y la proporción de ganancia.
- Elección del criterio de división
La definición de ganancia presentada en la ecuación 6. Al Suponer que se tiene una prueba posible con n resultados que particionan al conjunto T de entrenamiento en los subconjuntos T1, T2,. . ., Tn. Si la prueba se realiza sin explorar las divisiones subsiguientes de los subconjuntos Ti , la única información disponible para evaluar la partición es la distribución de clases en T y sus subconjuntos.
Al considerar una medida similar luego de que T ha sido particionado de acuerdo a los n resultados de la prueba X. La información esperada (entropía) puede determinarse como la suma ponderada de los subconjuntos, de la siguiente manera
La cantidad
mide la información ganada al partir T de acuerdo a la prueba X. El criterio de ganancia, entonces, selecciona la prueba que maximice la ganancia de información. Es decir, antes de particionar los datos en cada nodo, se calcula la ganancia que resultaría de particionar el conjunto de datos según cada uno de los atributos posibles. Se realiza la partición que resulta en la mayor ganancia.
- Criterio de Ganancia
El criterio de ganancia tiene un defecto muy serio: presenta una tendencia muy fuerte a favorecer las pruebas con muchos resultados. Al analizar una prueba sobre un atributo que sea la clave primaria de un conjunto de datos, en la cual, se obtendrá un único subconjunto para cada caso, y para cada subconjunto se tendrá
I (T,X) = 0, entonces la ganancia de información será máxima. Desde el punto de vista de la predicción, este tipo de división no es útil.
Esta tendencia inherente al criterio de ganancia puede corregirse mediante una suerte de normalización, en la cual se ajusta la ganancia aparente, atribuible a pruebas con muchos resultados. Consideremos el contenido de información de un mensaje correspondiente a los resultados de las pruebas. Por analogía a la definición de la I(S) se tiene:
Esto representa la información potencial generada al dividir T en n subconjuntos, mientras que la ganancia de información mide la información relevante a una clasificación que nace de la misma división.
Entonces,
expresa la proporción útil de información generada en la partición. Si la partición es casi trivial, la información de la división será pequeña y esta proporción se volverá inestable. Para evitar este fenómeno, el criterio de proporción de ganancia selecciona una prueba que maximice la expresión anterior, sujeto a la restricción de que la información de la división sea grande, al menos tan grande como la ganancia promedio sobre todas las pruebas realizadas.
- Criterio de Proporción de Ganancia
- ID3
El algoritmo ID3 fue diseñado en 1993 por J. Ross Quinlan. El ID3 toma objetos de una clase conocida y los describe en términos de una colección fija de propiedades o de atributos, y produce un árbol de decisión sobre estos atributos que clasifica correctamente todos los objetos. Hay ciertas cualidades que diferencian a este algoritmo de otros sistemas generales de inferencia. La primera se basa en la forma en que el esfuerzo requerido para realizar una tarea de inducción crece con la dificultad de la tarea. El ID3 fue diseñado específicamente para trabajar con masas de objetos, y el tiempo requerido para procesar los datos crece sólo linealmente con la dificultad, como producto de:
- la cantidad de objetos presentados como ejemplos.
- la cantidad de atributos dados para describir estos objetos.
- la complejidad del concepto a ser desarrollado (medido por la cantidad de nodos en el árbol de decisión).
Esta linealidad se consigue a costo del poder descriptivo: los conceptos desarrollados por el ID3 sólo toman la forma de árboles de decisión basados en los atributos dados, y este "lenguaje" es mucho más restrictivo que la lógica de primer orden o la lógica multivaluada, en la cual otros sistemas expresan sus conceptos Quinlan, (1993).
Según Quinlan, (1993).Una regla de clasificación en la forma de un árbol de decisión puede construirse para cualquier conjunto C de atributos de esa forma. Si C está vacío, entonces se lo asocia arbitrariamente a cualquiera de las clases. Si no, C contiene los representantes de varias clases; se selecciona un atributo y se particiona C en conjuntos disjuntos C1, C2,…, Cn, donde Ci contiene aquellos miembros de C que tienen el valor i para el atributo seleccionado. Cada una de estos subconjuntos se maneja con la misma estrategia. El resultado es un árbol en el cual cada hoja contiene un nombre de clase y cada nodo interior especifica un atributo para ser testeado con una rama correspondiente al valor del atributo.
- Descripción del ID3
El objetivo del ID3 es crear una descripción eficiente de un conjunto de datos mediante la utilización de un árbol de decisión. Dados datos consistentes, es decir, sin contradicción entre ellos, el árbol resultante describirá el conjunto de entrada a la perfección. Además, el árbol puede ser utilizado para predecir los valores de nuevos datos, asumiendo siempre que el conjunto de datos sobre el cual se trabaja es representativo de la totalidad de los datos.
Dados:
- Un conjunto de datos
- Un conjunto de descriptores de cada dato
- Un clasificador/conjunto de clasificadores para cada objeto.
Se desea obtener:
Un árbol de decisión simple basándose en la entropía, donde los nodos pueden ser:
Nodos intermedios: en donde se encuentran los descriptores escogidos según el criterio de entropía, que determinan cuál rama es la que debe tomarse.
Hojas: estos nodos determinan el valor del clasificador.
Este procedimiento de formación de reglas funcionará siempre dado que no existen dos objetos pertenecientes a distintas clases pero con idéntico valor para cada uno de sus atributos; si este caso llegara a presentarse, los atributos son inadecuados para el proceso de clasificación.
Según Blurock, (1996). Hay dos conceptos importantes a tener en cuenta en el algoritmo ID3: la entropía y el árbol de decisión. La entropía se utiliza para encontrar el parámetro más significativo en la caracterización de un clasificador. El árbol de decisión es un medio eficiente e intuitivo para organizar los descriptores que pueden ser utilizados con funciones predictivas.
Página anterior | Volver al principio del trabajo | Página siguiente |