Mineria de datos

Enviado por topicoss

Partes: 1, 2

¿Por qué surge la Minería de Datos?

El análisis e interpretación manual de los datos se torna impráctico (lento, caro y subjetivo) en la medida que los volúmenes de datos crecen exponencialmente.

Distintos factores influyen en la acumulación de datos:

Dispositivos de almacenamiento más baratos.

Transacciones comerciales son almacenadas mayoritariamente en formato electrónico.

Captura automática de actividades realizadas en Internet.

Desarrollo de algoritmos eficientes y robustos para el procesamiento de estos datos.

Poder computacional más barato)métodos computacional/ intensivos para el análisis de datos.

Ventajas comerciales y científicas

¿Qué es la Minería de Datos (MD)?

"… proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos" [Witten y Frank, 2000]

"… uso de datos históricos para descubrir regularidades generales y mejorar las decisiones futuras" [Mitchell, 1999]

"… proceso que tiene como objetivo convertir datos en conocimiento" [Hernández Orallo, 2004]

"… es un paso particular en el proceso de KDD que consiste en la aplicación de algoritmos específicos para extraer patrones (o modelos) desde los datos" [Fayyad, 1996]

Algunas áreas de aplicación de la MD

Aplicaciones financieras y bancarias

Análisis de mercado, distribución y comercio en general

Seguros y salud privada

Educación

Procesos industriales

Medicina

Biología, bioingeniería y otras ciencias

Telecomunicaciones

Internet

Turismo, policiales, deportes, política, … y muchas más

Aprendizaje automático (AA)

"… cualquier sistema que se considere "inteligente" debería poseer la habilidad de aprender, es decir mejorar automáticamente con la experiencia." [Russell, 2002]

"… cualquier cambio en un sistema que le permite desempeñarse mejor la próxima vez, sobre la misma tarea u otra tomada de la misma población"" [Herbert Simon]

"Un programa de computadora se dice que aprende desde la experiencia E con respecto a alguna clase de tareas T y medida de performance P, si mejora su perfomance con las tareas en T, con respecto a la medida P, basado en la experiencia E" [Mitchell, 1997]

Aprendizaje automático

Algunos factores implícitos en las definiciones de AA:

cambios en el comportamiento para lograr una mejor performance futura.

Existencia de algún tipo de experiencia de entrenamiento.

la componente de aprendizaje está "embebida" en un sistema de toma de decisiones automático que la contiene.

La componente más variable es el origen de la experiencia de entrenamiento:

Interacción con el ambiente u otros agentes

Interacción usuario-sistema (agentes de interfaz)

Aprendizaje por observación o asistido por otros agentes (consejos)

Introspección de los propios procesos internos

Bases de datos

Aprendizaje automático versus Minería de Datos

Algunos autores consideran que AA _ MD pero ésto no es así.

MD toma la experiencia desde Bases de datos. AA incluye otras formas de entrenamiento.

En MD no sólo es importante la performance sino que se suele requerir una representación explícita del conocimiento adquirido de manera tal que las decisiones puedan ser explicadas. AA incluye métodos que no son adecuados para estos fines (Neural Networks).

En MD la elaboración de la entrada del proceso y el análisis de la salida suele requerir una participación humana considerable. En AA estas responsabilidades suelen ser asignadas a otras componentes del sistema.

MD incluye técnicas originadas en la modelización estadística que no son propias del AA.

Fase de Preparación de los datos

Sub-fase de recopilación e integración de los datos

Determinar fuentes de información útiles y donde conseguirlas.

Coleccionar múltiples bases de datos heterogéneas en un único repositorio con un esquema unificado (almacén de datos o data warehouse).

Sub-fase de selección, limpieza y transformación

Detección de valores anómalos (no siempre eliminados).

Tratamiento de datos faltantes (o perdidos).

Selección de atributos relevantes (columnas).

Selección de una muestra de datos (filas).

Construcción de nuevos atributos (agrupamiento, numerización, discretización).

Fase de Minería de datos

1. Determinar qué tipo de tarea de MD es el más apropiado (clasificación, agrupamiento, etc).

2. Elegir tipo de modelo (árboles de decisión, reglas de clasificación, Redes Neuronales).

Partes: 1, 2

Página siguiente