Explotación de Información
La explotación de Información es la sub-disciplina Informática que aporta a la Inteligencia de Negocio las herramientas (procesos y tecnologías) para la transformación de información en conocimiento, para lograr este objetivo se utiliza a la Minería de Datos. Se define la Minería de Datos (Data Mining) como el proceso mediante el cual se extrae conocimiento comprensible y útil que previamente era desconocido desde bases de datos, en diversos formatos, de manera automática.
Explotación de Información
La minería de datos es un elemento fundamental de un proceso más amplio que tiene como objetivo el descubrimiento de conocimiento en grandes bases de datos, este proceso, tiene una primer etapa de preparación de datos, luego el proceso de minería de datos, la obtención de patrones de comportamiento, y la evaluación e interpretación de los patrones descubiertos.
(Gp:) Siste-ma de Inf. (Gp:) Prepara-ción datos (Gp:) Evaluación Interpre-tac. Visualizac. (Gp:) Minería De Datos (Gp:) Conocimien-to (Gp:) Patrones
Explotación de Información Ante la necesidad existente de brindar al incipiente mercado una aproximación sistemática para la implementación de proyectos de Minería de Datos, diversas empresas han especificado un proceso de modelado diseñado para guiar al usuario a través de una sucesión formal de pasos: SAS propone la utilización de la metodología SEMMA [SEMMA 2008] (Sample, Explore, Modify, Model, Assess). En el año 1999 uno grupo de empresas europeas, NCR (Dinamarca), AG (Alemania), SPSS (Inglaterra) y OHRA (Holanda), desarrollaron una metodología de libre distribución CRISP-DM (Cross-Industry Standard Process for Data Mining) [CRISP, 2008]. La metodología P3TQ [Pyle, 2003] (Product, Place, Price, Time, Quantity), tiene dos modelos, el Modelo de Explotación de Información y el Modelo de Negocio.
Procesos de Explotación de Información
Se identificaron cinco procesos de minería de datos y el contexto en el cual deben ser aplicados:
Proceso de predicción, Proceso de construcción de modelos, Proceso de descubrimiento de grupos, Proceso de identificación de factores y Proceso de detección de perfiles
Procesos, tecnologías aplicaciones de DM
La familia TDIDT (Top Down Induction Trees) pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados. Dado un conjunto que contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre los distintos atributos y se realiza una partición según el “mejor” atributo. Para encontrar el “mejor” atributo, se utiliza la teoría de la información, determinando que atributo aporta mayor ganacia (o menor perdida de informacion) al tomar un determinado valor.
Dolor de pecho de angor Duración del angor No (Infarto de miocardio) Más de 30’ Menos de 30’ Típico Ausente Atípico No (Infarto de miocardio) Si (Infarto de miocardio) Respuesta vasodilatadora Negativo Positivo Si (Infarto de miocardio) Irradiación del angor Si No No (Infarto de miocardio) Si (Infarto de miocardio) Angor en relación Antigüedad del angor Irradiación del angor Duración del angor Respuesta vasodilatadora Dolor de pecho de angor Infarto agudo de miocardio Infarto agudo de miocardio Infarto agudo de miocardio Infarto agudo de miocardio Infarto agudo de miocardio Infarto agudo de miocardio ALGORITMOS TDIDT Presentación intuitiva del proceso de inducción
Si Cantidad de calorías = Alta Y estoy a dieta = Sí Entonces No comerlo Si Cantidad de calorías = Alta Y estoy a dieta = No Y estoy yendo al gimnasio = No Entonces Comerlo la mitad Si Cantidad de calorías = Alta Y estoy a dieta = No Y estoy yendo al gimnasio = Sí Entonces Comerlo Si Cantidad de calorías = Baja Entonces Comerlo Reglas ALGORITMOS TDIDT Construcción de reglas
Minería de datos en entornos WEB
La aplicación de técnicas de Data Mining sobre el conjunto de datos contenidos en la World Wide Web se conoce con el nombre de WebMining el objetivo es aprovechar todas las ventajas de los procesos de Minería de Datos para obtener conocimiento de la información disponible en Internet. Existen dos enfoques bien diferenciados de análisis, por un lado la Minería de datos desde el lado del servidor y por el otro desde el lado del cliente. Se utiliza la minería de datos en entornos Web para descubrir en forma automática documentos y servicios de la web y extraer información útil sobre ellos, información que implica distintos tipos de datos: imágenes, sonido, texto, semi-estructurado, imágenes, etc.,
Minería de datos en entornos WEB (2)
Se aplican técnicas de Minería de Datos para:
Descubrir conocimiento relacionado con el contenido de la Web donde se localizan los datos de las páginas HTML, los datos multimedia, datos XML y de textos.
Descubrir conocimientos relacionados con el uso y el acceso a la Web (Web User Mining).
Descubrir conocimientos relacionados con la estructura de la Web y se relaciona con encontrar patrones de comportamiento en los enlaces o links que se encuentran en los documentos hipertextuales en Internet.
Página siguiente |