- ¿Por qué surge la Minería de Datos?
- ¿Qué es la Minería de Datos (MD)?
- Fase de Preparación de los datos
- La entrada del proceso de MD
- La salida del proceso de MD
- Notación
- Clasificación
- Bibliografía
¿Por qué surge la Minería de Datos?
El análisis e interpretación manual de los datos se torna impráctico (lento, caro y subjetivo) en la medida que los volúmenes de datos crecen exponencialmente.
Distintos factores influyen en la acumulación de datos:
Dispositivos de almacenamiento más baratos.
Transacciones comerciales son almacenadas mayoritariamente en formato electrónico.
Captura automática de actividades realizadas en Internet.
Desarrollo de algoritmos eficientes y robustos para el procesamiento de estos datos.
Poder computacional más barato)métodos computacional/ intensivos para el análisis de datos.
Ventajas comerciales y científicas
¿Qué es la Minería de Datos (MD)?
"… proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos" [Witten y Frank, 2000]
"… uso de datos históricos para descubrir regularidades generales y mejorar las decisiones futuras" [Mitchell, 1999]
"… proceso que tiene como objetivo convertir datos en conocimiento" [Hernández Orallo, 2004]
"… es un paso particular en el proceso de KDD que consiste en la aplicación de algoritmos específicos para extraer patrones (o modelos) desde los datos" [Fayyad, 1996]
Algunas áreas de aplicación de la MD
Aplicaciones financieras y bancarias
Análisis de mercado, distribución y comercio en general
Seguros y salud privada
Educación
Procesos industriales
Medicina
Biología, bioingeniería y otras ciencias
Telecomunicaciones
Internet
Turismo, policiales, deportes, política, … y muchas más
Aprendizaje automático (AA)
"… cualquier sistema que se considere "inteligente" debería poseer la habilidad de aprender, es decir mejorar automáticamente con la experiencia." [Russell, 2002]
"… cualquier cambio en un sistema que le permite desempeñarse mejor la próxima vez, sobre la misma tarea u otra tomada de la misma población"" [Herbert Simon]
"Un programa de computadora se dice que aprende desde la experiencia E con respecto a alguna clase de tareas T y medida de performance P, si mejora su perfomance con las tareas en T, con respecto a la medida P, basado en la experiencia E" [Mitchell, 1997]
Aprendizaje automático
Algunos factores implícitos en las definiciones de AA:
cambios en el comportamiento para lograr una mejor performance futura.
Existencia de algún tipo de experiencia de entrenamiento.
la componente de aprendizaje está "embebida" en un sistema de toma de decisiones automático que la contiene.
La componente más variable es el origen de la experiencia de entrenamiento:
Interacción con el ambiente u otros agentes
Interacción usuario-sistema (agentes de interfaz)
Aprendizaje por observación o asistido por otros agentes (consejos)
Introspección de los propios procesos internos
Bases de datos
Aprendizaje automático versus Minería de Datos
Algunos autores consideran que AA _ MD pero ésto no es así.
MD toma la experiencia desde Bases de datos. AA incluye otras formas de entrenamiento.
En MD no sólo es importante la performance sino que se suele requerir una representación explícita del conocimiento adquirido de manera tal que las decisiones puedan ser explicadas. AA incluye métodos que no son adecuados para estos fines (Neural Networks).
En MD la elaboración de la entrada del proceso y el análisis de la salida suele requerir una participación humana considerable. En AA estas responsabilidades suelen ser asignadas a otras componentes del sistema.
MD incluye técnicas originadas en la modelización estadística que no son propias del AA.
Fase de Preparación de los datos
Sub-fase de recopilación e integración de los datos
Determinar fuentes de información útiles y donde conseguirlas.
Coleccionar múltiples bases de datos heterogéneas en un único repositorio con un esquema unificado (almacén de datos o data warehouse).
Sub-fase de selección, limpieza y transformación
Detección de valores anómalos (no siempre eliminados).
Tratamiento de datos faltantes (o perdidos).
Selección de atributos relevantes (columnas).
Selección de una muestra de datos (filas).
Construcción de nuevos atributos (agrupamiento, numerización, discretización).
Fase de Minería de datos
1. Determinar qué tipo de tarea de MD es el más apropiado (clasificación, agrupamiento, etc).
2. Elegir tipo de modelo (árboles de decisión, reglas de clasificación, Redes Neuronales).
Página siguiente |