Muchas veces el investigador después de correr un cuestionario a una muestra de turistas para saber, por ejemplo, el dato de la estadía media para un segmento y la estadía media para otro segmento; con la estadística descriptiva el investigador obtiene esos resultado, pero lo que interesa es saber si ese valor promedio obtenido de la muestra es un dato real o ficticio, y si esa media se puede utilizar realmente para fijar una determinada política turística promocional. Si el dato obtenido es digamos 10 noches, ese número 10 puede ser la media de: 9+ 10+11, pero puede ser también un valor promedio de la serie : 2 + 8+ 20; entonces: ¿se puede considerar que ese valor medio de 10 es representativo de las dos series anotadas arriba ?; lo anterior sólo lo podemos saber al aplicar un test de significación.
EJEMPLOS PARA ILUSTRAR
Supongamos que un investigador entrevista a dos mercados de turistas para evaluar el gasto medio diario probable sólo de alimentación en de 5 estrellas de dos muestras segmentadas (turistas de USA entrevistados en el hotel y turistas de USA entrevistados en el Aeropuerto), y que estaría interesado, como condición exigida, que el gasto promedio día sea superior de 27 dólares para poder tomar alguna decisión promocional para ese mercado. Para comprobarlo en un número pequeño de turistas obtiene 6 datos en cada lugar de la entrevista en A y en B, como sigue:
Tabla 1. Gasto medio diario en alimentación según dos entrevistas (hotel y aereopuerto)
Número (datos) | A (USA) | B (USA) | A menos B = x |
1 | 31 | 29 | +2 |
2 | 27 | 27 | 0 |
3 | 29 | 25 | +4 |
4 | 30 | 29 | +1 |
5 | 26 | 28 | -2 |
6 | 28 | 24 | +4 |
Totales | 171 | 162 | +9 |
Promedio | 28,5 | 27 | +1,5 |
Se observa que el gasto medio día obtenido para el turista de USA (en A) es de 28,5, mientras que el turista de USA (en B) arroja un valor igual a 27. Resulta, que desde el punto de vista de la estadística descriptiva el dato de USA entrevistado en el hotel sería el mejor y el dato del turista turista entrevistado en el Aeropuerto no cumple la condición exigida. Pero la pregunta importante es: ¿Se debe admitir que los resultados obtenidos de A y de B son diferentes, como parece indican los hallazgos, o son idénticos, tomando en consideración el universo?
La única manera de dar una respuesta a esta importante pregunta es someter esos hallazgos a un test de significación adecuado. La hipótesis nula señalaría que: el gasto diario en A y en B son idénticos, o sea que la diferencia entre las entrevistas en A y en B no difiere de cero más que por razones accidentales debido al azar de muestreo.
Así la media del conjunto e igual a + 1,5, pero necesitamos dos datos más para hacer un test como son, la desviación estándar y el número de grados de libertad, en este caso : 6- 1 = 5
La desviación estándar o típica de todas las observaciones se calcula con la fórmula:
También la desviación estándar se puede estimar por el método simplificado; es decir, con la raíz cuadrada de la sumatoria al cuadrado de todas las diferencias encontradas en la última columna del cuadro anterior multiplicado por la sumatoria de todas las diferencias al cuadrado entre 6 datos, y todo entre los grados de libertad igual a 6-1 = 5, como sigue:
Ahora tenemos que hacer un test de significación con el test “t” de Student y con su fórmula, o sea:
t = 1,5 / 0,959 = 1,564
Recordemos que el número de grados de libertad es 6 menos 1 = 5. Ahora vamos a buscar en la tabla “t” el valor crítico con 5 grados de libertad y obtener el porcentaje de probabilidad para alcanzar o pasar la prueba con el valor encontrado en la tabla igual a :
t=1,564, el cual arroja la probabilidad de 10% a 20%, pero no la probabilidad del 5% que era nuestro criterios de aceptabilidad o admitido como nivel de significación.
Así pues el investigador no puede señalar que los resultados entre los dos segmentos de mercado entrevistados en los dos lugares sea diferente, o sea que el resultado de su entrevista en A es superior al resultado de su entrevista en B. El resultado real para la población en su conjunto es que es indiferente para una política promocional relativo al gasto turístico considerar el sitio donde se obtenga la información, pues la diferencias que aparecieron en las muestras pudieron ser accidentales.
Pero qué hubiese pasado si al realizar la encuesta a las dos muestras obtenemos los hallazgos siguientes:
Tabla 2. Gasto medio diario en alimentación según dos entrevistas (hotel y aereopuerto)
1 | 21 | 17 | +4 |
2 | 20 | 18 | +2 |
3 | 20 | 18 | +2 |
4 | 22 | 16 | +6 |
5 | 16 | 14 | +2 |
6 | 21 | 13 | +8 |
Totales | 120 | 96 | +24 |
Promedio | 20 | 16 | +4 |
Al hallar la desviación típica o estándar de los aumentos del gasto diario de los dos segmentos de turistas, obtenemos:
s = 2,530
t = 4/2,53/2,45
t = 4/ 1,033 = 3,872
El valor calculado de “t” es entonces 3,872, y este dato con el grado de libertad igual a 6 – 1 = 5, en la tabla “t” nos muestra que existe un 2% de probabilidad de que se logre la diferencia entre los gastos de los dos segmentos de turistas según el lugar de la entrevista.
El investigador puede entonces concluir que el gasto medio diario del turista que procede de USA y que es entrevistado en el hotel, es superior al que es entrevistado en el aeropuerto, y entonces la política promocional se debe basar en los hallazgos encontrados en los hoteles como criterio básico y prioritario.
Con esta introducción lo que queremos dejar bien sentado es la importancia de comprobar si los datos de la estadística descriptiva obtenidos de muestras son o no son significativos ( se pueden generalizar a la población) para poder tomar decisiones sin correr los riesgos innecesarios.
Pero también muchas veces tenemos que comparar datos de segmentos de turistas que difieren de su lugar de origen para saber que segmento es superior uno del otro en base al criterio del gasto diario medio. Tomemos el ejemplo que nos permita comparar las propiedades de ese gasto medio día, para dos tipos de turistas: el que proviene de USA (A) y el que proviene de Europa (B):
Tabla. Gasto media al día del turista norteamericano (A) y del turista europeo (B)
Para A = x | Para B = z | X al cuadrado | Z al cuadrado |
17 | 17 | 289 | 289 |
19 | 18 | 361 | 324 |
20 | 18 | 400 | 324 |
24 | 16 | 576 | 256 |
18 | 14 | 324 | 196 |
22 | 13 | 484 | 169 |
Totales 120 | 96 | 2434 | 1558 |
Promedio 20 | 16 | – | – |
Hemos visto que los totales son : 120, 96, 2434 y 1558 y los valores medios del gasto día es de 20 y 16.
Para determinar la estimación de la desviación típica de las dos muestras de datos, lo haremos de esta manera: 1) estimamos la varianza con el método simplificado, que nos arroja el valor de 5,6 y luego la desviación típica obteniendo la raíz de 5,6, como aparece en seguida:
s = 2,366
Ahora bien, el valor calculado de “t” es igual a:
t = 1.691 * 1.732
t = 2,929
En este caso el número de grado de libertad es igual a = 6 + 6 – 2 = 10
Entonces para 10 grados de libertad y un nivel de significación del 5% en la tabla “t”
obtenemos el valor crítico o teórico de 2,228. Como en nuestro calculo hemos obtenido el valor de “t” igual a 2,929, o sea mayor que el dato de la tabla, entonces se debe concluir que la diferencia entre los dos valores medios es significativo, pues sólo existe el 2% de probabilidad de que las dos muestras pertenezcan a la misma población; entonces el segmento de turistas A (USA) es superior al segmento del turista B (Europa) en cuanto a las propiedades del gasto medio día.
OTRAS PRUEBAS DE HIPOTESIS
La comparación de varianzas
En la investigación turística a veces se necesita comparar los parámetros de dispersión como por ejemplo la varianza, o sea la desviación típica elevada al cuadrado. Dos series de muestras pueden presentar dispersiones y entonces se necesita conocer si son idénticas o diferentes. La prueba adecuada para realizar esto es el test de Fischer y además con el conociendo del grado de libertad par cada muestra (número de datos menos la unidad). La tabla de Fischer establece los valores para diferentes niveles de significación y para diversos grados de libertad.
Supongamos que existen dos regiones turísticas con diferentes ventas de un mismo producto turístico de aventura y que según los datos recopilados para el primer semestre del año y sus variaciones son como se señala de inmediato. Lo que se desea saber es si la variabilidad de estas ventas es la misma en las dos regiones o si es más mayor en la Región A que en la Región B. Para simplificar el cálculo pongamos números reducidos para calcular con mayor facilidad las varianzas de cada región:
Tabla 4. Ventas de un producto turístico de aventura para dos regiones especificas
Mes | Región A | Región B | Valor al cuadrado para A | Valor al cuadrado para B |
Enero | 30 | 42 | 900 | 1764 |
Febrero | 1 | 8 | 1 | 64 |
Marzo | 34 | 40 | 1156 | 1600 |
Abril | 17 | 36 | 289 | 1296 |
Mayo | 45 | 51 | 2025 | 2601 |
Junio | 22 | 43 | 484 | 1849 |
Totales | 149 | 220 | 4855 | 9174 |
s al cuadrado para A = 4855 – 149 al cuadrado / 6 y entre 5 = 1155 / 5 = 231
s al cuadrado para B = 9174 – 220 al cuadrado / 6 y entre 5 = 1107 / 5 = 221
La relación de F se establece comparando los hallazgos del resultado mayor de “s” entre el menor, es decir : F = 231 / 221 = 1,045 y recordemos que el grado de libertad es 6-1=5 para las dos muestras. Si ahora vamos a la tabla “F” de Fischer para 5 grados de libertad, allí encontramos esos valores según sus porcentajes de probabilidad de 0,20; 0,10; 0,05; 0,01; 0,001 secuencialmente así : 2,2; 3,5; 5,1; 11,0; y 29,8.
El valor calculado de F fue de 1,045, el cual corresponde según la Tabla de Fischer a un nivel de significación superior al 20% porque es menor que 2,2; entonces se infiere que no hay diferencias significativas entre las dos varianzas y que las variaciones de ventas entre las dos regiones se pueden considerar como las mismas en el universo total.
La comparación global de frecuencias
Aquí el investigador lo que desea conocer es si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica prevista, o si por el contrario estas dos frecuencias presentan una diferencia significativa para un nivel de significación dado.
El test para estos cálculos se denomina Chi cuadrado y es muy utilizado en estudios de mercado en el campo del turismo y en especial al determinar preferencias de los turistas por algún lugar determinado. Los datos se presentan en tablas de 1 x 2 o en tablas de
2 x 2 o incluso en tablas de 2 x N veces. Veamos un ejemplo simple para ilustrar este test.
Una estadística de problemas acontecidos a los turistas en dos alojamientos hoteleros (A y B) muestran que de 102 problemas, 59 problemas han tenido lugar en el Hotel A y 43 en el Hotel B. La hipótesis nula del investigador es que no existe relación entre el número de problemas por el hecho de que ocurran en el hotel A o en hotel B.
Lo que sigue de inmediato es saber si esa hipótesis nula carece de fundamento y se puede rechazar. Este test se hace con la prueba Chi Cuadrado. Lo primero que parece lógico es que si no existe relación entre el número de problemas y los hoteles, deberían repartirse por igual los problemas entre los dos hoteles, digamos unas frecuencias esperadas o teórica igual a : 51 y 51 = 102 problemas. Veamos las frecuencias observadas (a y b) y las frecuencias esperadas (a prima y b prima) :
a = 59 b = 43
a prima = 51 b prima = 51
Con estos datos podemos estimar la prueba de Chi Cuadrado:
X2 = [ (a – a prima ) – 0,5 ] al cuadrado / a prima + [ (b – b prima) – 0,50] al cuadrado / b prima.
X2 = [ (59 – 51 ) – 0,5 ] al cuadrado / 51 + [ ( 43 – 51) – 0,5 ] al cuadrado / 51
X2 = 7,5 al cuadrado / 51 + 7,5 al cuadrado / 51 = 1,103 + 1,103 = 2,206
Los grados de libertad es igual a 2 lugares menos 1 = 1
La tabla teórica Chi cuadrado, para diferentes niveles de significación y diversos grados de libertad, nos permite interceptar para 1 grado de libertad y para un nivel de significación del 5% y entonces encontrar el valor crítico de 3,841. Dado que en nuestro estimado el valor encontrado fue de 2,206, o sea menor que el dato crítico, podemos admitir que la hipótesis nula es correcta, o sea: que no existe razón para suponer que se produzcan más problemas en el hotel A que en el hotel B, si se conocieran los parámetros de la población.
La comparación entre coeficientes de correlación lineal
La correlación lineal entre dos variables se puede estimar recurriendo a las sugerencias de Student y Fischer cuando afirmaron que : “si el número de pares de datos es pequeño (menos de 20 pares de datos), se puede determinar la significación de la correlación lineal calculando el valor del índice “t”, según la siguiente fórmula : t = r / Raíz de 1 menos r al cuadrado x Raíz del número de grados de libertad.” En este caso el grado de libertad es igual al número de pares de datos que se comparan menos dos.
Para ilustrar este estimado supongamos lo siguiente: el gerente de marketing de un hotel desea conocer si existe una relación directa entre los gastos anuales de publicidad y las pernoctaciones vendidas anualmente. Estos datos son como siguen en unidades reducidas para facilitar el cálculo:
Pernoctaciones vendidas al año : 32; 54; 95 ; 15; 164 ; 180
Gastos de publicidad: 8; 22; 17; 27; 36 ; 33
Para determinar si el aumento de los gastos de publicidad provoca un aumento proporcional de las ventas, vamos a calcular el coeficiente de correlación lineal “r” como aparece en siguiente cuadro:
Tabla 5. Pernoctaciones vendidas anuales y gastos anuales publicitarios
Ventas (x) | Publicidad (y) | x menos x promedio | y menos y promedio | x menos x promedio al cuadrado | y menos y promedio al cuadrado | X menos x promedio por y menos y promedio |
32 | 8 | -81.7 | -15.8 | 6674.9 | 9.6 | +1290.9 |
54 | 22 | -59.7 | -1.8 | 3564.1 | 3.2 | +107.5 |
95 | 17 | -18.7 | -6.8 | 349.7 | 46.2 | +127.2 |
157 | 27 | +43.3 | +3.2 | 1874.9 | 10.2 | +138.6 |
164 | 36 | +50.3 | +12.2 | 2530.1 | 14.8 | +613.7 |
180 | 33 | +66.3 | +9.2 | 4395.7 | 84.6 | +610.0 |
Total 682 | Total 143 | – | 19389.4 | 542.6 | +2887.9 | |
Media 113,7 | Media 23,8 | – |
Los valores promedio fueron : 682 / 6 = 113,7 y 143 / 6 = 23,8
Ahora con los valores de la tabla podemos calcular el coeficiente de correlación lineal “r” :
r = Sumatoria de los valores elevados al cuadrado / Raíz de la multiplicación de los dos valores elevados
r = 2.887,9 / Raíz de 19389,4 x 542,6
r = 2887,9 / 3244 = 0,890
Según la estadística descriptiva el coeficiente de correlación lineal es elevado (89%), e incluso el coeficiente de determinación es aceptable o sea: igual a : 0,890 x 0,890 = 0,79 (79%). Pero no basta con este conocimiento, es necesario determinar la significación estadística de estos parámetros a nivel poblacional y según el número de grados de libertad que en este caso es igual a: 6 – 2 = 4.
Si observamos en la tabla el test crítico del coeficiente de correlación para 4 grados de libertad, veremos qué corresponde a: 0,890, y comprobaremos que se ubica entre el 1% y el 2% de probabilidad, es decir mucho más bajo que el nivel de significado aceptable del 5% y por ello podemos inferir que la correlación positiva entre los gastos de publicidad y las ventas es estadísticamente significativa, o sea que las ventas crecen proporcionalmente a los gastos de publicidad en la población como un todo.
CONSIDERACIONES FINALES
Decía Sierra Bravo que : […] los resultados de las investigaciones sociales se refieren normalmente a muestras de la población investigada y no a la población misma. Si bien se suele hacer la generalización de que dichos resultados también son válidos para el universo o población de que se trate, siempre se plantea la duda fundamental de si es admisible esta generalización ( 1983, p. 531).
Dijimos que la duda surge porque es posible que los resultados obtenidos en la muestra se puedan deber a un hecho fortuito o al azar y no al hecho de que los parámetros encontrados en la muestra se puedan trasladar al universo. Por eso mismo es necesario buscar la validez de los hallazgos, con el fin de saber si los parámetros de una muestra se pueden generalizar hacia la población de donde la muestra se tomó. Esta búsqueda de la validez se denomina significación estadística y es un cálculo necesario y fundamental para no correr riesgos de hacer aseveraciones infundadas.
Esto también la corroboró Guillermo Briones (1982, p. 187) al señalar que las pruebas de significación se deben emplear cuando se trabaja con datos que provienen de muestras probabilísticas, siempre que el marco muestral sea perfecto y el universo sea relevante o sea con las características apropiadas para someterlo a verificación de hipótesis.
Es bueno señalar que los especialistas en la metodología cualitativa etnográfica señalan que en este campo se trabaja con miniparadigmas y con sus propios presupuestos lógicos internos apoyados en valores, tradiciones, roles que se van regularizando para explicar la conducta individual y grupal de una manera adecuada (Martínez, 2000, p. 1).
En este campo los eventos tienen el significado para quienes están en ese medio social o en ese contexto y la relación que consiguen es holística para ser interpretada de acuerdo a criterios vivénciales. Es decir, la pregunta básica es : ¿cuál es la cultura del grupo?, como lo hacen los antropólogos; o bien , ¿cuál es la filosofía o esencia del fenómeno?, como lo hacen los filósofos; o en todo caso, ¿cuál es el significado de la acción humana, según el contexto?, como lo hacen los analistas de contenidos con su hermenéutica; o también, ¿cuál es el procedimiento para superar la situación?, como lo hacen los psicólogos sociales e incluso la perspectiva etnometodológica, cuando el sociólogo trata de conocer de qué manera la gente le da sentido a sus actividades diarias, para comportarse de una manera socialmente aceptable.
En esto estudios cualitativos se acepta una muestra intencional y el investigador tiene que ser muy agudo para poder lograr su evidencia racional o validez empírica, basándose en la coherencia interna y externa, en la comprensión, en la capacidad predictiva, en la precisión conceptual, originalidad, simplicidad, y en aplicación práctica cuando existen contrastes y potencia heurística. La validez aparece al tener una imagen clara y representativa de una realidad y si se pueden aplicar a grupos similares. Incluso, si el estudio se puede repetir con el mismo método sin alterar los resultados entonces surge la confiabilidad de lo investigado.
Como hemos visto la manera de conocer con propiedad lo que se investiga es muy diferente si se trata de un abordaje cuantitativo o bien cualitativo. Cada investigador, según el planteamiento del problema y el marco teórico tendrá que tomar una decisión del método para realizar su trabajo.
Referencias bibliográficas
Briones, Guillermo. (1982). Métodos y técnicas de investigación para las ciencias sociales, México : Editorial Trillas.
Martínez , Miguel. (2000). Metodología cualitativa, Caracas: INESCO-USB.
Mentha, Gerald. (1964). Los tests estadísticos aplicados a la empresa, Bilbao: Deusto.
Runyon, Richard y Haber Autrey. (1992). Estadística para las ciencias sociales. USA: Addison-Wesley Iberoamericana.
Sierra Bravo, R. (1983). Técnicas de investigación social: teoría y ejercicios, Madrid: Paraninfo.
Autor:
Alfredo Ascanio, Ph.D
Universidad Simón Bolívar
Caracas-Venezuela
Página anterior | Volver al principio del trabajo | Página siguiente |