Descargar

Data Mining (página 2)


Partes: 1, 2

  • Analizar la data e información que emana periódicamente de la base de datos, "first hand", cruzándola con aquella que generen los estudios de mercados, para conformar alertas e informes oportunos.

  • Elaborar los Informes o reportes que sean acordados por la gerencia de mercadeo, o aquellos que le sean solicitados, de acuerdo al calendario aprobado, con el propósito de informar a las gerencias oportunamente y documentar el plan operativo anual.

  • Distribuir los reportes a los usuarios de acuerdo a las necesidades, usos y fines de cada uno.

  • Glosario de Términos

    Para poder tener un entendimiento claro de la información contenida en este informe, a continuación se presentan una serie de definiciones relacionadas con el tema investigado.

    • Algoritmos genéticos: Técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural.

    • Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a intervalos específicos. El tiempo es usualmente la dimensión dominante de los datos.

    • Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos históricos.

    • Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como descriptivas para aprender acerca de la estructura de un conjunto de datos.

    • Análisis retrospectivo de datos: Análisis de datos que provee una visión de las tendencias, comportamientos o eventos basado en datos históricos.

    • Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Ver CART y CHAID.

    • Base de datos multidimensional: Base de datos diseñada para procesamiento analítico on-line (OLAP). Estructurada como un híper cubo con un eje por dimensión.

    • CART Árboles de clasificación y regresión: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que CHAID.

    • CHAID Detección de interacción automática de Chi cuadrado: Una técnica de árbol de decisión usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos utilizando tests de Chi cuadrado para crear múltiples divisiones. Antecede, y requiere más preparación de datos, que CART.

    • Clasificación: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a variable(s) específica(s) las cuales se están tratando de predecir. Por ejemplo, un problema típico de clasificación es el de dividir una base de datos de compañías en grupos que son lo más homogéneos posibles con respecto a variables como "posibilidades de crédito" con valores tales como "Bueno" y "Malo".

    • Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles.

    • Computadoras con multiprocesadores: Una computadora que incluye múltiples procesadores conectados por una red. Ver procesamiento paralelo.

    • Data Cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados.

    • Data Mining: La extracción de información predecible escondida en grandes bases de datos.

    • Data Warehouse: Sistema para el almacenamiento y distribución de cantidades masivas de datos

    • Datos anormales: Datos que resultan de errores (por ej.: errores en el tipiado durante la carga) o que representan eventos inusuales.

    • Dimensión: En una base de datos relacional o plana, cada campo en un registro representa una dimensión. En una base de datos multidimensional, una dimensión es un conjunto de entidades similares; por ejemplo: una base de datos multidimensional de ventas podría incluir las dimensiones Producto, Tiempo y Ciudad.

    • Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un árbol de decisión es un modelo para la clasificación de un conjunto de datos

    • Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus preeditores (variables independientes).

    • Modelo no lineal: Un modelo analítico que no asume una relación lineal en los coeficientes de las variables que son estudiadas.

    • Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos.

    • Navegación de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. Ver OLAP.

    • OLAP Procesamiento analítico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.

    • Outlier: Un item de datos cuyo valor cae fuera de los límites que encierran a la mayoría del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberían ser examinados detenidamente; pueden dar importante información.

    • Procesamiento paralelo: Uso coordinado de múltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con múltiples procesadores o en una red de estaciones de trabajo o PCs.

    • RAID: Formación redundante de discos baratos (Redundant Array of inexpensive disks). Tecnología para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento.

    • Regresión lineal: Técnica estadística utilizada para encontrar la mejor relación lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes).

    • Regresión logística: Una regresión lineal que predice las proporciones de una variable seleccionada categórica, tal como Tipo de Consumidor, en una población.

    • Vecino más cercano: Técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k 1). Algunas veces se llama la técnica del vecino( k-más cercano.

    • SMP Multiprocesador simétrico (Symmetric multiprocessor): Tipo de computadora con multiprocesadores en la cual la memoria es compartida entre los procesadores

     

    REPUBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD EXPERIEMENTAL POLITÉCNICA

    "ANTONIO JOSÉ DE SUCRE" VICE-RECTORADO PUERTO ORDAZ

    CÁTEDRA: SISTEMAS DE INFORMACIÓN CIUDAD GUAYANA, MARZO DE 2010

    Profesor:

    MSc. Ing. Iván Turmero

    Integrantes:

    Antut Gregorio Camacho, María Haranki, Jorge Lomelli Almarys Medina, Neyla Perez Maolys

     

     

    Autor:

    Iván José Turmero Astros

    Partes: 1, 2
     Página anterior Volver al principio del trabajoPágina siguiente