- Concepto de análisis cluster
- Concepto de análisis cluster jerárquico
- Concepto de análisis cluster K-medias
- Algunas puntualizaciones de interés acerca del análisis cluster
Concepto de análisis cluster
El análisis cluster (llámese también análisis de conglomerados) es una técnica multivariante que utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables, se mide la similitud entre ellos. Una vez medida la similitud, se agrupan en: grupos homogéneos internamente y diferentes entre sí.
La idea conceptual básica de este tipo de análisis, parte de suponer que en muchas ocasiones, un solo individuo u objeto, constituye una unidad de observación demasiado reducida. Se trata entonces de agrupar a los sujetos originales (u objetos) en grupos, centrando el análisis en esos grupos y no en cada uno de los individuos (u objetos).
Debe aclararse que los resultados logrados para una muestra, sólo sirven para ese diseño (su valor atañe sólo a los objetivos del investigador). Se habla de resultados en cuanto a: la elección de individuos (u objetos), variables relevantes utilizadas, criterio de similitud empleado, nivel de agrupación final elegido, etc. Existen dos tipos de análisis cluster:
análisis cluster jerárquico
análisis cluster K-medias
Por último, resulta útil destacar que el análisis cluster y el análisis discriminante aunque parecen muy similares, realmente no lo son. El análisis discriminante intenta explicar una estructura, y el análisis cluster pretende determinarla.
Concepto de análisis cluster jerárquico
El análisis cluster jerárquico, permite aglomerar tanto casos como variables, y elegir entre una gran variedad de métodos de aglomeración y medidas de distancia. En éste se procede de forma jerárquica. Es una técnica aglomerativa que comienza partiendo de los elementos muestrales individualmente considerados, y va creando grupos hasta llegar a la formación de un único grupo o conglomerado, constituido por todos los elementos de la muestra.
Concepto de análisis cluster K-medias
El análisis cluster K-medias, es un método de agrupación de casos que se basa en las distancias existentes entre ellos en un conjunto de variables. Permite procesar un número ilimitado de casos pero utilizando un único método de aglomeración. Requiere, además, que se proponga previamente el número de conglomerados que se desea obtener.
Para muestras grandes, este método resulta más aconsejable que el jerárquico.
Es importante señalar, que esta técnica de aglomeración no permite agrupar variables a diferencia del jerárquico.
Algunas puntualizaciones de interés acerca del análisis cluster
En la matriz de coeficientes de distancia euclídea al cuadrado (o cualquier otro tipo de medida de distancia seleccionada), los coeficientes más elevados responden a mayores distancias o mayor diferencia entre los casos analizados. Por el contrario, coeficientes con más bajo valor, corresponden a menores distancias o mayor parecido entre dichos casos.
La lectura del gráfico de carámbanos vertical, se realiza de abajo hacia arriba, de modo que la última fila, corresponde al primer nivel de agrupación de los casos, y la primera fila, al último nivel. Siempre en el último nivel, quedan agrupados todos los casos de la muestra en un solo cluster.
Un cluster puede formarse a partir de dos casos en uno solo, o añadiendo un caso a un multicluster ya existente, o uniendo dos multicluster ya existentes.
En la tabla de aglomeraciones previstas, el valor del coeficiente a cada nivel, ayuda a decidir cuántos clusters pueden constituir la mejor solución para representar los datos.
La lectura del dendograma se realiza de izquierda a derecha donde las líneas verticales representan la unión de dos clusters. La posición de la línea vertical sobre la escala de valores de 0 a 25, indica a qué distancia los clusters se han unido.
Véase un ejemplo de análisis cluster jerárquico.
Ejemplo 1:
En el polo turístico de Varadero, un grupo de analistas de la Delegación del MINTUR, está realizando un estudio que incluye diez instalaciones hoteleras. Basándose en los datos recopilados de ocho variables que han sido medidas en cada uno de los diez hoteles, el objetivo de los miembros del grupo, consiste en agrupar dichas entidades según su similitud o semejanza. Los datos se muestran a continuación:
Variables:
% de ocupación
nivel de ingresos
cantidad de trabajadores
nivel de utilidades
nivel de gastos
cantidad de puntos de consumo de A+B
cantidad de habitaciones
gasto energético
Hoteles | % ocupación | ingresos | trabajad | utilidad | gastos | punto a+b | habitaci | gastener | ||||||
Sirenis Abanico de Coral | 46 | 101564.00 | 560 | 2463.00 | 99101.00 | 7 | 566 | 24567.00 | ||||||
Meliá Estrella de Mar | 78 | 57890.00 | 315 | 1800.00 | 56090.00 | 6 | 870 | 10987.00 | ||||||
Iberostar Río Azul | 65 | 114362.00 | 643 | 3101.00 | 111261.00 | 7 | 698 | 45734.00 | ||||||
Riu Varadero | 59 | 87765.00 | 389 | 2746.00 | 85019.00 | 9 | 547 | 10999.00 | ||||||
Tryp Palma Real | 74 | 103890.00 | 472 | 2834.00 | 101056.00 | 8 | 612 | 35667.00 | ||||||
Iberostar Playa Azul | 49 | 92345.00 | 518 | 1964.00 | 90381.00 | 8 | 846 | 24345.00 | ||||||
Paradisus Mariposa Blanca | 52 | 110321.00 | 589 | 946.00 | 109375.00 | 7 | 900 | 42567.00 | ||||||
Oasis Laguna Azul | 66 | 74678.00 | 471 | 3123.00 | 71555.00 | 7 | 583 | 21900.00 | ||||||
Sol Cayo de Oro | 91 | 98876.00 | 331 | 2680.00 | 96196.00 | 5 | 617 | 36889.00 | ||||||
Sandals Arenas | 82 | 104564.00 | 470 | 1970.00 | 102594.00 | 6 | 712 | 41680.00 |
Solución:
Empleando el SPSS, sería:
En la imagen anterior, se observa la tabla "Proximity Matrix" donde se muestran los coeficientes de distancia euclídea al cuadrado, entre los distintos hoteles de la muestra. Por ejemplo, la distancia o diferencia mayor con un coeficiente igual a 44.317, es la existente entre los hoteles Iberostar Río Azul y Meliá Estrella de Mar. Por el contrario, los más próximos o parecidos, son los hoteles Sol Cayo de Oro y Sandals Arenas con un coeficiente igual a 4.745.
En la imagen anterior, se muestra el gráfico de carámbanos o tabla "Vertical Icicle" donde se puede ir determinando los diferentes clusters a cada nivel. Obsérvese que el:
primer cluster está formado por los hoteles Sandals Arenas y Sol Cayo de Oro
segundo cluster: Tryp Palma Real e Iberostar Río Azul
tercer cluster: Oasis Laguna Azul y Riu Varadero
cuarto cluster: Iberostar Playa Azul y Sirenis Abanico de Coral
quinto cluster (primer multicluster): Tryp Palma Real, Iberostar Río Azul, Iberostar Playa Azul y Sirenis Abanico de Coral
sexto cluster (segundo multicluster): Oasis Laguna Azul, Riu Varadero, Tryp Palma Real, Iberostar Río Azul, Iberostar Playa Azul y Sirenis Abanico de Coral
séptimo cluster (tercer multicluster): Sandals Arenas, Sol Cayo de Oro, Oasis Laguna Azul, Riu Varadero, Tryp Palma Real, Iberostar Río Azul, Iberostar Playa Azul y Sirenis Abanico de Coral
octavo cluster (cuarto multicluster): Paradisus Mariposa Blanca, Sandals Arenas, Sol Cayo de Oro, Oasis Laguna Azul, Riu Varadero, Tryp Palma Real, Iberostar Río Azul, Iberostar Playa Azul y Sirenis Abanico de Coral
noveno cluster: incluye todos los hoteles
En la imagen anterior, se muestra la tabla "Agglomeration Schedule" donde se observa que, por ejemplo, en el primer nivel se unen para formar un cluster, los hoteles 9 (Sol Cayo de Oro) y 10 (Sandals Arenas). Ambos casos se unen a otros hoteles por primera vez para formar un multicluster, en el nivel siete, cuando se les suma los hoteles Oasis Laguna Azul, Riu Varadero, Tryp Palma Real, Iberostar Río Azul, Iberostar Playa Azul y Sirenis Abanico de Coral.
En esta misma tabla se observa el valor del coeficiente para cada nivel, de modo que mientras menor sea el coeficiente, indicará la existencia de clusters más homogéneos. Cuanto mayor sea el valor del coeficiente, pues más heterogéneos serán éstos.
Supóngase que el grupo de analistas de la Delegación del MINTUR, desea obtener una cantidad de clusters específicos de la muestra de hoteles tomada, en este caso, 3 clusters.
Solución:
Empleando el SPSS, sería:
En la imagen anterior, se muestra la tabla "Cluster Membership" donde se observa que el:
primer cluster está formado por los hoteles: Sirenis Abanico de Coral, Iberostar Río Azul, Riu Varadero, Tryp Palma Real, Iberostar Playa Azul, Oasis Laguna Azul, Sol Cayo de Oro y Sandals Arenas
segundo cluster: Meliá Estrella de Mar
tercer cluster: Paradisus Mariposa Blanca
Obsérvese en la imagen anterior, que a la base de datos original, el programa ha añadido una nueva columna llamada "clu3_1". La misma refleja igual contenido que el de la tabla "Cluster Membership" analizada previamente, o sea, a qué cluster pertenece cada hotel dado que han sido seleccionados 3 clusters.
Ahora véase un ejemplo de análisis cluster K-medias.
Ejemplo 2:
El grupo de analistas de la Delegación del MINTUR, ha decidido ahora ampliar la muestra de hoteles a estudiar a treinta y tres. Continuando el análisis de las ocho variables en las entidades hoteleras, estas últimas se mencionan a continuación:
Hoteles | % ocupación | ingresos | trabajad | utilidad | gastos | punto a+b | habitaci | gastener | |||
Sirenis Abanico de Coral | 46 | 10156.00 | 560 | 2463.00 | 99101.00 | 7 | 566 | 24567.00 | |||
Meliá Estrella de Mar | 78 | 57890.00 | 315 | 1800.00 | 56090.00 | 6 | 870 | 10987.00 | |||
Iberostar Río Azul | 65 | 114362.00 | 643 | 3101.00 | 111261.00 | 7 | 698 | 45734.00 | |||
Riu Varadero | 59 | 87765.00 | 389 | 2746.00 | 85019.00 | 9 | 547 | 10999.00 | |||
Tryp Palma Real | 74 | 103890.00 | 472 | 2834.00 | 101056.00 | 8 | 612 | 35667.00 | |||
Iberostar Playa Azul | 49 | 92345.00 | 518 | 1964.00 | 90381.00 | 8 | 846 | 24345.00 | |||
Paradisus Mariposa Blanca | 52 | 110321.00 | 589 | 946.00 | 109375.00 | 7 | 900 | 42567.00 | |||
Oasis Laguna Azul | 66 | 74678.00 | 471 | 3123.00 | 71555.00 | 7 | 583 | 21900.00 | |||
Sol Cayo de Oro | 91 | 98876.00 | 331 | 2680.00 | 96196.00 | 5 | 617 | 36889.00 | |||
Sandals Arenas | 82 | 104564.00 | 470 | 1970.00 | 102594.00 | 6 | 712 | 41680.00 | |||
Iberostar Princesa Roja | 49 | 68014.00 | 396 | 1025.00 | 79653.00 | 6 | 612 | 10258.00 | |||
Meliá Fuertes Vientos | 58 | 102563.00 | 525 | 987.00 | 102589.00 | 7 | 745 | 26985.00 | |||
Riu Piedra Dorada | 46 | 95562.00 | 654 | 2589.00 | 98563.00 | 8 | 896 | 31489.00 | |||
Iberostar Orilla Azul | 61 | 79586.00 | 489 | 3125.00 | 84125.00 | 6 | 625 | 41288.00 | |||
Sirenis Coral de Fuego | 72 | 100589.00 | 369 | 985.00 | 98745.00 | 7 | 596 | 32589.00 | |||
Oasis Caleta Buena | 83 | 46892.00 | 489 | 3152.00 | 100258.00 | 8 | 910 | 21478.00 | |||
Meliá Aguas Claras | 69 | 95411.00 | 526 | 1489.00 | 78965.00 | 8 | 856 | 10256.00 | |||
Sol Lago Azul | 58 | 78589.00 | 621 | 2541.00 | 82336.00 | 7 | 678 | 25963.00 | |||
Tryp Luna Plateada | 61 | 74258.00 | 368 | 3214.00 | 97268.00 | 9 | 748 | 32589.00 | |||
Meliá Duna Alta | 84 | 96236.00 | 489 | 1025.00 | 100569.00 | 7 | 908 | 45632.00 | |||
Paradisus Tocororo | 91 | 85555.00 | 526 | 2365.00 | 98425.00 | 6 | 658 | 25825.00 | |||
Iberostar Las Morlas | 54 | 84259.00 | 514 | 1478.00 | 84856.00 | 8 | 547 | 14785.00 | |||
Tryp Cielo Azul | 51 | 79463.00 | 621 | 2589.00 | 71937.00 | 6 | 963 | 30156.00 | |||
Villa Real | 49 | 68954.00 | 358 | 3654.00 | 100485.00 | 8 | 852 | 21485.00 | |||
Riu Mar Profundo | 66 | 81258.00 | 369 | 1485.00 | 10632.00 | 8 | 741 | 10325.00 | |||
Paradisus Patriarca | 74 | 79589.00 | 321 | 965.00 | 89652.00 | 6 | 789 | 26985.00 | |||
Lago Verde | 89 | 102596.00 | 412 | 987.00 | 74589.00 | 9 | 654 | 45698.00 | |||
Sol Palacio | 91 | 105478.00 | 562 | 2589.00 | 96541.00 | 7 | 523 | 32156.00 | |||
Barceló Sol Brillante | 65 | 84563.00 | 458 | 954.00 | 100256.00 | 6 | 789 | 12589.00 | |||
Oasis Canal Grande | 48 | 100892.00 | 363 | 1236.00 | 96369.00 | 8 | 954 | 23589.00 | |||
Pino Alto | 58 | 98456.00 | 458 | 2563.00 | 89652.00 | 8 | 741 | 10258.00 | |||
Sirenis Esponja de Mar | 64 | 101548.00 | 589 | 3111.00 | 79658.00 | 7 | 852 | 12365.00 | |||
Playa Larga | 71 | 78963.00 | 612 | 1025.00 | 89654.00 | 6 | 693 | 14859.00 |
Basándose en los datos recopilados de ocho variables que han sido medidas en cada uno de los treinta y tres hoteles, el objetivo de los miembros del grupo, consiste en agrupar dichas entidades según su similitud o semejanza, pero predeterminando la cantidad de clusters a 4.
Solución:
Empleando el SPSS, sería:
En la imagen anterior, se observa que a la base de datos original, el programa ha añadido ocho nuevas columnas que hacen referencia a las ocho variables de análisis pero ya estandarizadas.
En las dos imágenes anteriores, se muestra la tabla "Cluster Membership" donde aparece cada hotel asignado a su cluster. Véase que el:
primer cluster está formado por los hoteles: Riu Varadero, Oasis Laguna Azul, Oasis Caleta Buena, Tryp Luna Plateada y Villa Real
segundo cluster: Iberostar Playa Azul, Iberostar Princesa Roja, Meliá Fuertes Vientos, Sirenis Coral de Fuego, Meliá Aguas Claras, Iberostar Las Morlas, Paradisus Patriarca, Lago Verde, Barceló Sol Brillante, Oasis Canal Grande, Pino Alto y Playa Larga
Página siguiente |