Técnicas descriptivas para la Minería de Datos

Partes: 1, 2

1 Métodos Descriptivos Correlación y Asociaciones (análisis exploratorio o link analysis): Coeficiente de correlación:

donde

Asociaciones (cuando los atributos son discretos). Ejemplo: tabaquismo y alcoholismo están asociados.

Dependencias funcionales: asociación unidireccional. Ejemplo: el nivel de riesgo de enfermedades cardiovasculares depende del tabaquismo y alcoholismo (entre otras cosas).

edu.red

2 Correlaciones y Estudios Factoriales: Permiten establecer relevancia/irrelevancia de factores y si aquélla es positiva o negativa respecto a otro factor o variable a estudiar.

Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores: Health: salud del paciente (referida a la capacidad de ir a la consulta). (1-10) Need: convicción del paciente que la visita es importante. (1-10) Transportation: disponibilidad de transporte del paciente al centro. (1-10) Child Care: disponibilidad de dejar los niños a cuidado. (1-10) Sick Time: si el paciente está trabajando, puede darse de baja. (1-10) Satisfaction: satisfacción del cliente con su médico. (1-10) Ease: facilidad del centro para concertar cita y eficiencia de la misma. (1-10) No-Show: indica si el paciente no se ha pasado por el médico durante el último año (0-se ha pasado, 1 no se ha pasado)

Métodos Descriptivos

edu.red

3 Correlaciones y Estudios Factoriales. Ejemplo (cont.): Matriz de correlaciones:

Coeficientes de Regresión:

Métodos Descriptivos Indica que un incremento de 1 en el factor Health aumenta la probabilidad de que no aparezca el paciente en un 64.34%

edu.red

4 Reglas de Asociación y Dependencia: La terminología no es muy coherente en este campo (Fayyad, p.ej. suele llamar asociaciones a todo y regla de asociación a las dependencias): Asociaciones: Se buscan asociaciones de la siguiente forma: (X1 = a) ? (X4 = b) De los n casos de la tabla, que las dos comparaciones sean verdaderas o falsas será cierto en rc casos: Un parámetro Tc (confidence): Tc= certeza de la regla = rc/n si consideramos valores nulos, tenemos también un número de casos en los que se aplica satisfactoriamente (diferente de Tc) y denominado Ts. Métodos Descriptivos

edu.red

5 Reglas de Asociación y Dependencia de Valor: Dependencias de Valor: Se buscan dependencias de la siguiente forma (if Ante then Cons): P.ej. if (X1= a, X3=c, X5=d) then (X4=b, X2=a) De los n casos de la tabla, el antecendente se puede hacer cierto en ra casos y de estos en rc casos se hace también el consecuente, tenemos: Dos parámetros Tc (confidence/accuracy) y Ts (support): Tc= certeza de la regla =rc/ra, fuerza o confianza P(Cons|Ante) Ts = mínimo nº de casos o porcentaje en los que se aplica satisfactoriamente (rc o rc /n respectivamente). Llamado también prevalencia: P(Cons ? Ante) Métodos Descriptivos

edu.red

6 Reglas de Asociación y Dependencia de Valor. Ejemplo:

Asociaciones: Casado e (Hijos > 0) están asociados (80%, 4 casos). Obeso y casado están asociados (80%, 4 casos) Dependencias: (Hijos > 0) ? Casado (100%, 2 casos). Casado ? Obeso (100%, 3 casos) Métodos Descriptivos

edu.red

7 Reglas de Asociación y Dependencia de Valor: Condiciones que se suelen imponer: Tc > 95% Ts > 20 (absoluto) o 50% (relativo)

Complejidad de los algoritmos de asociaciones y dependencias: Temporal: bajo ciertas condiciones de dispersión y para atributos discretos se pueden encontrar en casi tiempo lineal (Agrawal et al. 1996). Métodos Descriptivos Nótese que la búsqueda de asociaciones con estas condiciones no es un problema inductivo, ya que se trata de un problema completamente determinado, sin criterios de evaluación y relativamente simple.

edu.red

8 Métodos Descriptivos Algoritmos de búsqueda de asociaciones y dependencias. La mayoría se basa en descomponer el problema en dos fases:

FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan conjuntos de atributos con ‘support’ >= al support deseado, llamados ‘large itemsets’ (conjuntos de atributos grandes). De momento no se busca separarlos en parte izquierda y parte derecha.

FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza >= a la confianza deseada.

Propiedad: cualquier subconjunto de un conjunto grande es también grande.

edu.red

9 Métodos Descriptivos Algoritmos de búsqueda de asociaciones. FASE A: Método genérico de búsqueda de “LARGE ITEMSETS” Dado un support mínimo smin: 1. i=1 (tamaño de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el support de todos los conjuntos en Si. Eliminar aquellos cuyo support < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamaño i+1 en Si+1. 5. Si Si no es vacío entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 ? S3 ? … ? Si

Hay refinamientos que permiten una mejor paralelización (dividen en subproblemas con menos tuplas y luego comprueban para todo el problema). El más famoso es el algoritmo “APRIORI” (Agrawal & Srikant 1994).

edu.red

10 Métodos Descriptivos Algoritmos de búsqueda de asociaciones. Ejemplo: FASE A:

S1= { {1}, {2}, {3}, {4}, {5} } S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S’3:support = { {2,3,5}:2 }

Sfinal = S’2 ? S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

FASE B: Se evalúa la confianza:

tabla: support = 2 confidence = 0.75 {1}?{3} : 1 {3}?{1} : 0.67 {2}?{3} : 0.67 {3}?{2} : 0.67 {2}?{5} : 1 {5}?{2} : 1 {3}?{5} : 0.67 {5}?{3} : 0.67 {2,3}?{5} : 1 {2,5}?{3} : 0.67 {3,5}?{2} : 1

Partes: 1, 2

Página siguiente