Descargar

Ejemplos de minería de datos (página 2)

Enviado por jessica valverde


Partes: 1, 2

  • Recorre el texto de toda la página en busca de palabras clave, que son las que los anunciantes han comprado para salir. Aquí hace análisis de cuantas veces ha salido el anunciante, si para la próxima vez saldrá otro, si ha llegado al cupo etc…

  •    Diferentes parámetros que el cliente de la página ha indicado, como por ejemplo, que los anuncios nunca pueden ser de este anunciante o de este otro, o que la temática no puede ser una determinada.

    • Las ventas cruzadas de Amazon. Amazon siempre ha sido un referente en Internet a la hora de vender productos. Desde hace mucho tiempo, contextualiza la experiencia del usuario con diferentes técnicas:

    • Venta cruzada. Siempre cuando estas viendo la ficha de un libro te recomienda otro haciendo un pack de precio, con el histórico de libros que otros usuarios se han llevado juntos en el pasado.

    • Oferta personalizada. Si tu has estado viendo un libro de una determinada temática o en el pasado has adquirido un tipo de libro, todos los anuncios que te ofrece la página están personalizados para tus gustos, siendo así inmensamente más efectivos.

    Ejemplo 4

    La Leucemia es una enfermedad que se caracteriza por alterar el proceso madurativo de las células que conforman a la sangre (glóbulos rojos, glóbulos blancos, plaquetas y plasma), provocando una proliferación descontrolada de células sanguíneas inmaduras. Esta proliferación se origina a nivel de la médula ósea [5].

    En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue la siguiente metodología. El estudio inicia con un análisis morfológico de las muestras por medio del experto, el cual identifica ciertas características que le hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las muestras son turnadas a un estudio de citometría de flujo, el cual sirve para definir el tipo de leucemia (leucemia linfoblástica –LLA- o mieloblástica -LMA) y el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a las características de la enfermedad. Lamentablemente este procedimiento sufre de varios inconvenientes: el análisis por observación es un proceso susceptible a errores, ya que la capacidad de la visión humana para detectar detalles pequeños es limitada. Aunado a esto, factores como el cansancio, condiciones de luz, problemas visuales en el experto, entre otros merman la precisión del diagnóstico inicial. Por otro lado, un estudio de citometría de flujo no es barato, lo que provoca que en países en desarrollo como México los estudios en ocasiones no se puedan llevar a cabo.

    Por lo anterior surge la necesidad de desarrollar herramientas de apoyo al diagnóstico médico que sean confiables y además, de bajo costo. Con respuesta a esta necesidad, se esta desarrollando una investigación en el cual participan investigadores del INAOE – IMSS – UPP para crear una herramienta para la detección de leucemia aguda a partir de un análisis morfológico de imágenes digitales. En este sistema, el objetivo es extraer características de las células que permitan construir modelos que sirvan para clasificar nuevas muestras. Para lograrlo, se propuso una metodología basada en el proceso KDD(proceso de descubrimiento de conocimiento en base de datos) . El proceso inicia capturando las imágenes a través de un microscopio óptico de alta calidad, el cual cuenta con una cámara digital. De este proceso se obtiene una base de imágenes, en donde se seleccionan las de mayor calidad (que contengan características representativas de la enfermedad). Ese proceso es realizado en conjunto con los expertos del dominio. Una vez seleccionadas las imágenes, se procede a limpiarlas, empleando una serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se procede a una etapa de segmentación, en la cual se extraen exclusivamente las regiones de interés de cada imagen. Cabe hacer mención que en este proceso intervienen los expertos, ya que una imagen puede contener diferentes tipos de células donde no todas son representativas de la leucemia.

    Al mismo tiempo, los expertos en el domino realizaron un proceso de clasificación, identificando el tipo y subtipo de la muestra. Esta información fue de gran utilidad para el proceso de minería de datos. Después de la segmentación, se transformaron las células a un formato de tabla (selección de características, Figura 5), donde se extrajeron características como el diámetro, media de los valores en tonos de gris, entropía, anisotropía, correlación, área, convexidad, entre otros parámetros.

    Esta transformación fue necesaria, ya que diversos algoritmos de clasificación, como redes neuronales, árboles de clasificación como C4.5 requieren este formato. A partir de las características extraídas, se probaron diferentes algoritmos.

    Es importante mencionar que se utilizaron tanto algoritmos descriptivos como no descriptivos, ya que los expertos en el dominio no solo estaban interesados en conocer las clases, sino además, en identificar las características de definen a cada clase. Este procedimiento se pudo llevar a cabo gracias a la clasificación de las muestras que realizaron los expertos en el proceso de selección.

    Actualmente, el proyecto se encuentra en la fase de evaluación de resultados, en donde se han alcanzado clasificaciones con una precisión promedio superior al 90% (para familias como subfamilias). De acerado a los expertos, estos resultados son muy alentadores, considerando que la precisión alcanzada por los expertos a través de un análisis morfológico ronda el 40%.

    Ejemplo 5

    En Venezuela se realizan diversas investigaciones estadísticas en las áreas científicas, sociales y económicas, pero ninguna abarca la totalidad del territorio, sus habitantes y viviendas, como el censo. La actividad pública del país y ahora en buena parte la privada depende de los aspectos cuantitativos de estos datos.

    Bolívar (1995), expone que la tradición censal en Venezuela comienza en 1873 con el levantamiento del Primer Censo Oficial de la República; decretado por el presidente Antonio Guzmán Blanco y ejecutado por la recién creada Dirección General de Estadísticas y Censos Nacionales, adscrita al Ministerio de Fomento.

    Este censo constituyó el primer inventario oficial de la población del país, considerando que los recuentos efectuados durante la Colonia solo fueron estimaciones aproximadas del tamaño poblacional de Venezuela. Sus resultados fueron publicados en la serie de "Apuntes Estadísticos" del Ministerio de Fomento, durante los años 1875-77.

    Posteriormente, se llevaron a cabo los censos de 1881 y 1891, finalizando así el siglo XIX con empadronamiento de periodicidad decenal.

    En la década de los años 20, después de 29 años sin censos, se levantan dos con un intervalo de seis años: 1920 y 1926, y en 1936 se levanta el siguiente censo. En 1938, mediante la Ley de Estadísticas y Censos Nacionales dictada en ese año se reduce la periodicidad de los censos a cinco años y se levanta en 1941 el séptimo censo. El 12 de julio de 1944 se promulga una nueva ley de Estadísticas y Censos Nacionales, actualmente vigente, en la cual se establece de nuevo el levantamiento del censo de población cada diez años a partir de 1950.

    Con el censo de 1950 Venezuela queda incorporada al programa Censal de las América, formulado por la Organización de las Naciones Unidas para promover y coordinar la realización de censos de población y vivienda en el continente. El fin primordial de este programa es propiciar la obtención de resultados uniformes que permitan la adecuada comparabilidad entre los diferentes países. Enmarcados dentro de este programa, se levantaron los censos de 1950, 1961, 1971, 1990 y 2001, que también se realizaron en Argentina, Brasil, Chile, Ecuador, Estados Unidos y México.

    Los primeros censos oficiales del país se realizaron con el fin de determinar las obligaciones tributarias y militares de los individuos, el potencial de fuerza de trabajo del país y los cambios ocurridos en la condición jurídica de las personas. En estos censos el objetivo primordial era el recuento de la población y sus características demográficas básicas.

    A partir de 1936 los censos del país evolucionaron en sus objetivos, debido a la consideración de fines más diversos propuestos por las organizaciones públicas y privadas, nacionales e internacionales, y la sociedad en general. En lo que respecta a la investigación de las características de las viviendas, esta se inicio en forma sistemática con el censo de 1941.

    La información recabada en los censos de 1981 y 1990, ha permitido el estudio de la situación habitacional del país, combinando la información de las viviendas y de los hogares.

    Para la obtención de esta información censal, se utilizan métodos tradicionales de análisis de datos que incluyen el trabajo con variables estadísticas, varianza, desviación estándar, covarianza, análisis de factores entre otros, que generan largas demoras en el logro de los resultados y la publicación de los hallazgos, con lo que se reduce seriamente el valor práctico de los mismos.

    Todos estos métodos están orientados numéricamente, es decir, son esencialmente cuantitativos.

     

     

     

    Autor:

    Jessica Janeth Valverde Reyes

    LIC. INFORMATICA

    OCTAVO SEMESTRE

    INSTITUTO TECNOLOGICO SUPERIOR DE LERDO

    TOPICOS AVANZADOS DE BASE DE DATOS

    ING. RICARDO DE JESUS BUSTAMANTE

    20 DE MAYO DEL 2010

    Partes: 1, 2
     Página anterior Volver al principio del trabajoPágina siguiente