Teoría del consumidor, de la preferencia a la estimación (página 2)

Enviado por IVÁN JOSÉ TURMERO ASTROS

Partes: 1, 2

Los bienes pueden ser particionados en grupos donde las cantidades en un grupo son independientes de las cantidades en otros grupos. Si los alimentos pertenecen a un grupo, el consumidor puede ordenar diferentes canastas dealimentos en un orden bien definido, el cual es independiente del consumo en gasolina, entretenimiento, arrendamientos, y cualquier bien por fuera del grupo. Esto significa que nosotros tendríamos funciones de sus utilidades para cada grupo y que los valores de cada subgrupo de utilidades se combinan de tal forma que se puede obtener una utilidad total.

Separabilidad y sustitución intergrupal.

La separabilidad débil implica restricción sobre el grado de sustituibilidad entre los bienes, en grupos diferentes. Suponga que las preferencias separables son representadas por una función de utilidad de la forma:

edu.red

Pruebas de separabilidad.

La mayoría de las pruebas de separabilidad son desarrolladas por Byron (1969), Jorgenson-Lau (1975) y Pudney (1981), quienes han usado esta técnica para encontrar patrones de separabilidad entre bienes con cierto grado de separabilidad en un período determinado.

Barten ha comprobado la hipótesis de la restricción de separabilidad entre bienes y ocio usando series de tiempo para datos en U.S.A y ha rechazado la separabilidad. Los resultados en últimas podrán sugerir una considerable especificación errónea de los estudios tradicionales.

Deaton (1981) sugiere que existe poco conflicto con la separabilidad. Blundell y Walker (1982) usando una variación de (4.20) rechazan la hipótesis de que el ocio de las esposas sea separable de los bienes. Deberemos observar que probar la separabilidad entre diferentes períodos de tiempo es muy difícil, ya que es imposible obtener estimadores no restringidos de los efectos sustitución entre los bienes individuales a través de los diferentes períodos.

La función de producción de hogares

Entre 1965 y 1966 los artículos de Gary Becker y Kevin Lancaster, introducen el concepto de Función de Producción de Hogares (household production function). De esta forma, los consumidores en lugar de obtener la utilidad directamente de los bienes comprados en el mercado, derivan ésta de los atributos que poseen los bienes; por ejemplo, aunque el consumidor compre alimentos sin cocinar en el mercado, la utilidad se deriva de consumir una comida que ha sido producida a través de combinar alimentos crudos con trabajo, tiempo, electricidad y otros insumos.

Muchos bienes parecen ser producidos de la forma anterior. Al igual que los alimentos, la ropa y gran parte de los bienes parecen exhibir una gama de variedades y cualidades. Los consumidores parecen seleccionar una o pocas de estas cualidades y privarse completamente del consumo de otras. Becker (1965) propone que "ver una opera" depende de una serie de insumos como el tiempo, los actores, etc. Y por ejemplo, "dormir" depende del insumo cama, del hogar y tiempo. De igual forma, "el jugo de naranja" se produce con un vector de características tales como calorías, vitamina C y tiempo.

Lancaster (1966) postula que el vector de bienes X, comprado en el mercado al vector de precios P se transforma por alguna función Z=g(X), en la cual los atributos Z producen alguna utilidad. En forma general, el problema se puede plantear como:

edu.red

Siendo Y el Ingreso total del consumidor. Combinando la función de transformación y la función de utilidad, se puede plantear el problema de la siguiente forma:

edu.red

Si los cambios en los costes de la tecnología, son menores que el costo de producir: algún atributo Zi, el cambio en algún bien podría seguirse realizando al menor costo de producción y al mismo tiempo maximizar los atributos Zi de la utilidad.

Por ejemplo, si para producir un artículo usted usa una computadora y dado que los productores de computadores van mejorando la calidad de los procesadores pasando desde el 286 hasta el 486 y del Pentium I hasta el Pentium IV, aun cuando un individuo cambie de computadora para producir el artículo, la utilidad derivada de éste no ha cambiado. La idea de una computadora que usa Pentium como un nuevo bien es lo que el análisis tradicional nos indica. Sin embargo, esta idea puede replantearse ya que la invención de una nueva "computadora" no debe generar una reorganización en el conjunto de preferencias sino una nueva solución al problema de la minimización de los costes que involucra el atributo "computadora".

Los consumidores maximizarán la utilidad de los atributos consumidos sujetos a las restricciones de presupuesto y a las restricciones de tiempo.

Estática comparativa.

Como cualquier modelo de maximización de la utilidad, todos los parámetros del modelo de Becker entran en la restricción, y las implicaciones usuales pueden ser derivadas de la maximización solamente. Considerando los efectos de sustitución puros las demandas Hicksianas se obtienen de la siguiente forma:

edu.red

El análisis sobre los cambios en salarios es todavía más problemático. El parámetro w entra en el precio total de cada uno de los Zi para el cual el tiempo es consumido.

Un cambio en w deberá cambiar muchos precios simultáneamente (recreación, ocio, etc.) complicando el análisis de la demanda. Dado que w aparece en todas las ecuaciones de primer orden (primeras derivadas) es imposible establecer ecuaciones de demanda compensadas. Por esta razón, Becker arguye que si el salario se incrementa, el consumo podría cambiar de bienes que son más intensivos en tiempo a aquellos menos intensivos en tiempo. Esto parece plausible, pero debe hacerse supuestos adicionales sobre los valores de varios de los parámetros en el modelo para obtener un resultado riguroso.

Las teorías económicas de la familia, de las tasas de nacimiento, del número de hijos óptimos, de la participación en el mercado de trabajo, de la diferenciación entre grupos de hombres y mujeres e incluso el reciente auge en los modelos medioambientales del coste de viaje, se derivan de aquí. Mayores salarios en el mercado para las mujeres, por ejemplo, aumentan el coste de oportunidad de los niños y de otras tareas que deberán realizar las mujeres en el hogar. De esta forma, el incremento en el consumo de "bienesconvenientes" por familias con dos trabajadores puede ser atribuido a salarios de mercado más altos y mayores salarios compraran ítems con "mayores cualidades" donde la cualidad del atributo reduce la cantidad de tiempo dedicado a las tareas en el hogar (reparaciones, atención de los niños, etc.).

La teoría de la función producción de hogares nos da para pensar más rigurosamente sobre la importancia de las elecciones y provee un marco para reemplazar las explicaciones basadas en los gustos, por aquella basada en el cambio en las oportunidades.

Análisis de la riqueza en el mercado de bienes.

Los trabajos de Willig (1976) y Hausman (1981) emplean el teorema de la dualidad para demostrar que dada la unión entre el gasto y las funciones de utilidad, la demanda compensada no observada (debido a los atributos Zi) puede ser encontrada a partir de la función de demanda Marshalliana que sí es observada. Bockstael y MacConell (1983) por su parte tienen serios reparos en los trabajos anteriores. Como ellos mencionan, es imposible derivar la curva de demanda Marshalliana de la compensada dada la ausencia de precios exógenos, esto es, la utilidad y la función de gasto existen, pero la ausencia de precios para los atributos impide directamente usar la identidad de Roy para recuperar la Marshalliana de la función de utilidad indirecta. Deberá observarse también que es imposible moverse de una función de demanda compensada a una única función de gasto debido a las no linealidades en la función de gasto cuando existen diferentes tecnologías en la producción de los Zi'S. Las medidas de riqueza pueden ser derivadas en un espacio de bienes pero de una forma diferente.

Bienes Públicos.

Supongamos que a sea un bien medioambiental, tal como la calidad del aire, un lago o un paisaje. Entonces a entra en la función de utilidad directamente y es complementario con algún bien denotado como Z1 , por ejemplo:

edu.red

Variables dependientes discretas y limitadas

Especificación del modelo.

edu.red

Formas comunes de las funciones de probabilidad.

Como menciona Green (1999), restringir B'xi al intervalo (0, 1) produciría probabilidades y varianzas negativas. Dadas las desventajas del modelo de Probabilidad Lineal, su interés ha ido decayendo, lo cual ha originado que modelos como el Logit o Probit se usen más frecuentemente. Veamos en qué consisten estos modelos.

En modelos univariados dicotómicos no es posible distinguir cuándo usar Logit o Probit, a menos que exista una concentración en la cola dadas las características del problema estudiado.

edu.red

Estimación.

La elección de una F (•) en particular lleva a un modelo empírico. Entre las formas disponibles para calcular, se encuentra el método de algoritmos de Newton, Newton-Rampson, Máxima verosimilitud. Hoy día, calcular un Logit o un Probit es bastante sencillo, pues estos métodos se encuentran en paquetes estadísticos como el RATS, SAS, SPSS, GAUSS, LIMDEP, E-Views, EasyReg (de Libre Uso) y el STATA debiendo solamente especificarse qué algoritmo se desea.

Domencich y McFadden.

Domencich y McFadden sustentan que el término aleatorio de error está determinado por el tipo de transporte, que a su vez vendrá determinado por una serie de características socioeconómicas que no son observadas por el investigador.

edu.red

Pencavel.

Estudia cómo inciden en las decisiones de trabajar de la esposa y el esposo la ayuda económica brindada por el gobierno de los Estados Unidos en Seattle y Denver. De esta forma, estima la probabilidad de trabajar de la esposa usando 1657 familias durante 2 años. Las variables que el autor usa son: F igual a uno si la familia pertenece al experimento y cero lo contrario; L igual a uno si el esposo trabaja durante el año anterior al experimento y cero lo contrario; Y igual a uno si la observación es extraída del segundo año de experimento y cero si es extraída del primer año; U igual a uno si el esposo estuvo desempleado durante el año.

Modelo de efectos fijos y aleatorios en datos de panel.

edu.red

El modelo Logit condicionado.

Schmidt y Strauss (1975), estiman un modelo de ocupación basado en una muestra de 1000 observaciones cuya variable dependiente es la Ocupación, que es igual a 1 si es empleado doméstico, 2 si es obrero no especializado, 3 si es artesano (trabajador manual), 4 si es oficinista y 5 si es trabajador profesional. En el conjunto de variables independientes se incluyeron la constante, la educación, la experiencia, la raza y el sexo. El modelo, incluyendo los estratos sociales. Debe observarse que las probabilidades estimadas dependen de los estratos 1, 2, 3, 4 y 5. De esta forma, el modelo condicional Logit computa las probabilidades relativas a cada estrato, el estrato podrá contener pocos casos o muchos casos.

Modelos multinomiales.

edu.red

Modelos ordenados.

En los modelos ordenados, los valores que y toma, corresponden a una partición sobre la línea real. A diferencia de un modelo no ordenado, donde la partición correspondería a particiones no sucesivas sobre la línea real o a particiones de dimensiones mayores sobre el espacio euclideano. En la mayoría de las aplicaciones, el modelo ordenado toma la forma:

edu.red

Para alguna distribución F, se puede definir un modelo Probit ordenado o un modelo Logit ordenado.

Modelo Logit multinomial.

McFadden (1974) considera el siguiente modelo multinomial derivado del problema del consumidor. Considere a un individuo (i) cuyas utilidades están asociadas con tres alternativas, de la forma siguiente:

edu.red

Variables dependientes limitadas.

Existe un gran número de datos cuya observación nos muestra que están limitados o acotados de alguna forma. Este fenómeno lleva a dos tipos de efectos: el truncamiento y la censura.

El efecto de truncamiento ocurre cuando la muestra de datos es extraída aleatoriamente de una población de interés, por ejemplo, cuando se estudia el ingreso y la pobreza se establece un valor sobre el cual el ingreso se encuentra por encima o por debajo del mismo. De esta forma, algunos individuos podrán no ser tenidos en cuenta.

Por otro lado, censurar es un procedimiento en el cual los rangos de una variable son limitados a priori por el investigador; este procedimiento produce una distorsión estadística similar al proceso de truncamiento.

Truncamiento.

Una distribución truncada es la parte de una distribución no-truncada antes o después de un valor específico; imagínese por ejemplo que nosotros deseamos conocer la distribución de los ingresos anteriores a 100.000 o el número de viajes a una zona mayores de 2, ésta será tan sólo una parte de la distribución total.

Censuramiento.

Un procedimiento normal con datos microeconómicos, consiste en censurar la variable dependiente. Cuando la variable dependiente es censurada, los valores en un determinado rango son todos transformados a un valor singular. De esta forma, si definimos una variable aleatoria y transformada de la variable original como:

edu.red

Modelo Tobit tipo 2:

edu.red

Donde C es el tiempo gastado en el hogar para cuidar los niños, X es un vector de dos bienes, T es tiempo total disponible y V otros ingresos.

Modelo Tobit tipo 3:

edu.red

Heckman (1974) propone un modelo diferente al de Gronau en el sentido de que Heckman incluye la determinación del número de horas trabajadas [H] en el modelo. Al igual que Gronau, Heckman asume que el salario ofrecido W0 es independiente de las horas trabajadas, además la ecuación de W0 es la misma de la ecuación de Gronau:

edu.red

Modelo Tobit tipo 4:

edu.red

Modelo Tobit tipo 5:

edu.red

El modelo Tobit tipo 5 se deriva del tipo 4, y se omite la ecuación para y1i. Dado que solamente observamos el signo de y*1i.

Contrastes de especificación:

El origen de estos contrastes se remonta a los trabajos de Rao (1947) en lo que se conoce como "contraste Score" o "contraste de puntuación". Posteriormente Silvey (1959) propone el contraste de multiplicadores de Lagrange que no es otra cosa que el mismo contraste de Rao. El contraste de multiplicadores de Lagrange no es el único que se pueda usar, pues están el de Hausman (1978) y el contraste de momentos condicionales [Newey ICESI (1985) y Tauchen (1985)]. Para Pagan y Vella (1989) el uso del contraste de especificación en variables dependientes limitadas no es muy común debido a la dificultad computacional de los mismos.

Los contrastes de especificación que se desarrollarán serán: El contraste de Rao ó contraste de puntuación; el contraste de especificación de Hausman, el cual parte de los trabajos de Durbin (1954) y por lo tanto se conoce también como Durbin-Hausman o Durbin-Wu-Hausman debido a los trabajos de Wu (1973); el contraste de la matriz de información de White (1982) y el contraste de momentos condicionales sugerido por Newey (1985) y Tauchen (1985).

Contraste de Rao ó contraste de puntuación:

Suponga que existen n observaciones independientes y1, y2, y3,……, y n con funciones de densidad idénticas f( y, q ) donde q es un vector p ´ 1 de p parámetros. Entonces la función de verosimilitud L ( q ), el vector de puntuación (Score vector) d( q ), y la matriz de información I( q ) vienen definidas como:

edu.red

Breusch y Pagan (1980) sugieren usar este estadístico como un contraste de especificación. La ventaja del contraste de puntuación consiste en que depende solamente de los estimadores máximos verosímiles del modelo restringido, ya que tanto el vector de puntuación como la matriz de información se basan en el modelo total. Una extensión del contraste de puntuación consiste en un estimador general más que en la restricción máxima verosímil, a esta extensión se le denomina el contraste Neyman-Rao [Hall y Mathiason (1990)].

El contraste Durbin-Hausman:

edu.red

El contraste de la matriz de información de White:

La matriz de información de White (1982) se basa en el hecho de que en un modelo especificado correctamente, tendremos:

edu.red

Cox (1983) y Chesher (1984) demuestran que el contraste de la matriz de información puede ser interpretado como un contraste de puntuación para rechazar heterogeneidad o una variación de los parámetros en q.

El contraste de momentos condicionados (CM):

edu.red

Contrastes de Heterocedasticidad:

Entre los primeros trabajos sobre Heterocedasticidad realizados por Maddala y Nelson (1975) se argumentan que una regresión con Heterocedasticidad en los errores, los estimadores son consistentes pero ineficientes. En el caso del Tobit, el estimador máximo verosímil (ML) es inconsistente en la presencia de Heterocedasticidad

En un modelo de regresión, la comprobación de Heterocedasticidad se realiza conbase en los residuos del modelo de mínimos cuadrados. Pagan y Park (1993) sugieren que los contrastes existentes para probar Heterocedasticidad pueden ser considerados como un contraste de momentos condicionados (CM). La condición de momentos para un contraste CM, será:

edu.red

De esta forma, el logaritmo máximo verosímil L será:

edu.red

Davidson y Mackinnon (1984) denotan este contraste como LM1. Considere ahora el estadístico basado en la matriz de información.

edu.red

Contrastes de normalidad:

Cuando no existe normalidad, existen sesgos en los estimadores sugieren un contraste CM para normalidad con base en el tercer y cuarto momento de los residuos.

edu.red

Una forma de corregir este problema consiste en obtener los residuos generalizados:

edu.red

Bera, Jarque y Lee (1984) construyen el siguiente contraste: Suponga una función de densidad g(m) que satisface la ecuación diferencial:

edu.red

Contraste de sesgos de selección:

El contraste para sesgos de selección fue el primer contraste de especificación en modelos con variables dependientes limitadas. Este contraste fue desarrollado por Gronau (1974) y Heckman (1979). En términos generales se le conoce como el contraste de Heckman. El problema planteado parte del modelo de autoselección tipo Heckman, de la forma:

edu.red

Melino (1982) muestra que el contraste de significancia de li es un contraste de puntuación sobre r = 0. El modelo puede ser estimado en dos etapas, sin embargo, existen restricciones: Si x2i contiene solamente una constante entonces li es una constante y el coeficiente rs no es estimable; si li es una función lineal de los componentes de x1i entonces se producirá multicolinealidad, esto ocurre cuando x2i contiene solamente variables dummy (falsas) y x1i incluye las mismas variables dummy y sus combinaciones.

Contraste de estabilidad:

No es muy común contrastar estabilidad en modelos de variables dependientes limitadas, sin embargo, Anderson abre el camino en este tipo de contrastes.

Anderson propone comparar el logaritmo de la verosimilitud cuando el modelo es regresado sobre un período, con respecto a un período posterior. El trabajo se inspira en el contraste de estabilidad de Chow, extendiéndose el uso de las variables dummy a los modelos Tobit y Probit. Hoffman y Pagan (1989) sugieren, siguiendo a Anderson, definir primero un período de 1 hasta s y un período de s+1 hasta s+S, y elaborar el estadístico:

edu.red

El cual sigue una distribución chi-cuadrada con s grados de libertad. Este contraste puede ser aplicado a cualquier modelo de variables dependientes limitadas y se estima por máxima verosimilitud.

Variables latentes:

Las variables latentes representan conceptos unidimensionales en su más pura forma, puede decirse que se trata de variables abstractas como inteligencia, paisaje, etc. Así como todas las variables latentes corresponden a conceptos, ellas son variables hipotéticas que varían en su grado de abstracción: inteligencia, clase social, poder y expectativas son variables latentes abstractas creadas en la teoría. Variables menos abstractas son la educación y el tamaño de la población.

Un modelo latente se acompaña de un conjunto de ecuaciones estructurales que resumen las relaciones entre las variables latentes. Bollen (1989) usa las relaciones entre la democracia política y la industrialización en países desarrollados, para introducir la noción de modelos de variables latentes. Dado que algunas sociedades han alternado entre dictaduras y regímenes electorales, es difícil discernir si la asociación realmente existe. La democracia política se refiere a la extensión de los derechos políticos (imparcialidad de las elecciones) y libertades políticas (libertad de prensa) en un país. La industrialización es el grado en el cual la economía de una sociedad se caracteriza por el proceso de manufactura mecanizado, esto implica riqueza social, población educada, avances en el estándar de vida, y éstas son las oportunidades de una democracia.

Presumaque se tienen tres variables latentes aleatorias: democracia política en 1965 y 1960 e industrialización en 1960. Uno podría asumir que la democracia política en1965 es una función de la democracia política e industrialización de 1960. No existe nada que nos diga que el nivel de industrialización es una variable latente exógena (independiente) y se simboliza como x1, esta es exógena, en tanto sus causas están por fuera del modelo. La variable democracia política es una variable latente endógena, ella está determinada por variables en el modelo, cada variable latente es representada por hi. De esta forma, la democracia política en 1960 es representada por h1 y la democracia política en 1965 por h2, las variables latentes endógenas son parcialmente explicadas en el modelo y el componente no explicado gi es un término aleatorio; de esta forma, el modelo de variables latentes para el ejemplo será:

edu.red

Ecuaciones estructurales con variables observadas:

La ecuación anterior es una representación general de ecuaciones estructurales con variables observadas de la forma:

edu.red

La Matriz de covarianzas:

edu.red

Donde F es la matriz de covarianzas de x, Y es la matriz de covarianzas de y.

edu.red

Identificación:

La identificación del modelo anterior con una o más ecuaciones, requiere una investigación de cuáles parámetros son conocidos y desconocidos. Por parámetros conocidos entiéndase aquellos que pueden ser identificados, estos parámetros generalmente son características de la población y de la distribución de las variables observadas como las varianzas y covarianzas para los cuales los estimadores de la muestra son consistentes. Los parámetros desconocidos son aquellos parámetros cuyo estatus de identificación no es conocido, estableciendo entonces el investigador cuándo existen valores únicos para estos.

La identificación deberá establecer cuando se alcanzan valores únicos de q1 y q2 en esta ecuación. Claramente con dos parámetros desconocidos q1, q2 en una sola ecuación, la identificación no es posible. Para algún valor dado de Var(y) un conjunto infinito de valores de q1 y q2 satisfacen dicha ecuación. Sin embargo, adicionando una segunda ecuación q1 = q2 se puede asegurar la identificación por la cual cada parámetro será igual a. Este principio general deberá mantenerse para ecuaciones estructurales más complicadas.

Regla t:

Esta es la condición más sencilla, pero no es una condición suficiente. La regla t, parte de que el número de elementos no-redundantes en la matriz de covarianzas de las variables observadas deberá ser mayor o igual al número de parámetros desconocidos

en q, esto es:

edu.red

Donde, p+q es el número de variables observadas y t es el número de parámetros libres en q.

Regla del B nulo:

En un modelo multiecuacional donde las variables que no son endógenas afectan a alguna variable endógena, la matriz B es cero. Tenemos:

edu.red

La matriz B es cero dado que y1 no afecta a y2, ni y2 afecta y1. De esta forma se establece que la identificación de algún modelo donde B es cero, los parámetros desconocidos en G, F y Y son funciones de los parámetros identificados de S.

edu.red

Si Y no es diagonal y los errores de las últimas dos ecuaciones están correlacionadas, entonces tal modelo será llamado "Seemingly unrelated regresions". La regla B nula es una condición suficiente para identificar un modelo.

Regla recursiva:

A diferencia de la regla anterior, la regla recursiva no requiere que B=0; para aplicar la regla recursiva B deberá ser una matriz triangular, y Y diagonal. Una condición más exacta para B, consiste en que ésta sea una matriz triangular inferior. Si ambas condiciones se mantienen, el modelo está identificado:

edu.red

Condiciones de rango y orden:

Si una condición de restricción en una ecuación se determina a partir de las variables excluidas, entonces "una condición necesaria para que una ecuación sea dada consiste en que el número de variables excluidas de la ecuación sea al menos p-1 ". Considere el modelo:

edu.red

Multiplicando ambos lados por N y tomando el valor esperado:

edu.red

Multiplicando ambos lados por las variables exógenas y tomando valores esperados:

edu.red

Estimación:

El procedimiento de estimación se deriva de la relación de la matriz de covarianzas de las variables observadas a los parámetros estructurales. De esta forma:

edu.red

Donde S es la matriz de covarianzas para yi y xi. A través de este procedimiento se obtendrán estimaciones máximo verosímiles. Mora (1997), supone el siguiente modelo:

Supóngase que el paisaje rural es una variable latente. Debido a que existen diferentes características que determinan un paisaje supondremos que este tiene cuatro indicadores principales, como se observa en la siguiente gráfica:

edu.red

Donde el paisaje P*i es la variable latente y es el verdadero paisaje. El P indicador del paisaje en P*i sirve como indicador de la variable latente, el verdadero paisaje. Sin pérdida de generalidad, si el indicador es centrado alrededor de cero, de tal forma que P*i tiene un valor extremo, con los parámetros consistentes de los elementos de l, la varianza de P*i , F , y la varianza del error.

edu.red

Modelos de Utilidad Discreta

Habitualmentelas elecciones de los consumidores involucran elecciones discretas como usar gas o no, usar energía eléctrica o no, comprar un automóvil o no, etc.

En los capítulos anteriores hemos considerado a un individuo que elige una alternativa de un conjunto de elecciones finitas A.

edu.red

La anterior aproximación ha sido criticada por sicólogos como Thurstone (1927), Luce y Supes (1955), Tversky (1969) y por economistas como Georgescu-Roegen (1958), Quandt (1956) y Macfadden (1981, 1986), ya que implica fuertes postulados sobre el poder discriminatorio de los agentes, así como una capacidad ilimitada de procesar información. Para Tversky, cuando se realiza una elección entre varias alternativas, las personas parten de experiencias inciertas e inconsistentes. Esto es, las personas no están seguras sobre cuál alternativa deberían seleccionar, así como tampoco toman siempre la misma elección bajo condiciones parecidas. Este comportamiento, aparentemente irracional, lleva al autor a concluir que "el proceso de elección debe ser visto como un proceso probabilístico" (Tversky, 1972, p. 281).

Naturalmente, deberemos preguntarnos qué factores determinan dicha probabilidad. Es decir, el comportamiento de los agentes es intrínsecamente probabilístico o el modelador no puede representar el comportamiento del consumidor, o ambos. Con respecto a lo primero, Quandt (1956) arguye que una alternativa puede ser vista como un conjunto finito de características, donde las preferencias son definidas directamente sobre las características e indirectamente sobre las alternativas.

Reglas de decisión

Modelos con regla de decisión estocástica:

La interpretación proviene de Tversky (1972a), para quien la utilidad de diferentes alternativas es determinística, pero el proceso de elección en sí mismo es probabilístico.

En este tipo de modelos el individuo no necesariamente elige la alternativa que da la mayor utilidad; en lugar de esto, existe una probabilidad de elegir cada una de las posibles alternativas,incorporando la idea de "racionalidad limitada" dado que los individuosno necesariamente seleccionan lo que es mejor para ellos [Macfadden (1981, pp.198)].

El primer modelo desarrollado bajo esta perspectiva es el de Luce (1959). Luce muestra que cuando las probabilidades de elección satisfacen los axiomas de elección, una escala puede ser definida sobre las alternativas, de tal forma que las probabilidades de elección pueden ser derivadas de escalas de alternativas.

El modelo de Luce tiene como inconveniente que una nueva alternativa, que sea más que proporcional a las otras, reducirá las probabilidades de elección de alternativas existentes que son similares y causará reducciones menos que proporcionales en las probabilidades de elección en alternativas diferentes (Anderson, et. al, pp. 23-25).

Tversky (1972), propone que la elección de una alternativa puede verse como un proceso estocástico, en el cual las alternativas son sucesivamente eliminadas hasta que quede solamente una; para esto supone que cada alternativa está compuesta por una lista de características, las cuales son binarias en términos de que las alternativas poseen o no dichas características (por ejemplo, un automóvil puede o no tener aire acondicionado, sonido, etc.).

A cada característica se le asigna una escala positiva o valor de "utilidad" expresando la importancia de la característica para el individuo. El proceso de selección de una alternativa es el siguiente: Primero, una característica se selecciona y todas las alternativas que no posean esta característica son eliminadas del conjunto de elección.

Segundo, se selecciona como el criterio para eliminar aquellas alternativas que quedan y así sucesivamente. Si una alternativa queda, ésta es la alternativa elegida por el individuo. Si varias alternativas quedan, ellas son elegidas con igual probabilidad.

La probabilidad de seleccionar una característica como el criterio de elección de las alternativas que quedan depende de la escala de valores. Como podrán existir secuencias de eliminación diferentes, la probabilidad de elegir una alternativa particular es la suma de las probabilidades de todas las secuencias que finalizan con esta alternativa. Para ilustrar el proceso de eliminación de Tversky considere el siguiente ejemplo:

edu.red

Este evento se debe asumir que ocurre con probabilidad. Si la característica cuarta o quinta es una de las seleccionadas, entonces la alternativa a podrá ser seleccionada como la probabilidad de seleccionar la cuarta característica que tiene una probabilidad, entonces c es eliminado pues no posee esta característica, la alternativa a se elegirá por lo tanto con una probabilidad P( a , b ). La quinta característica es seleccionada con probabilidad y si este evento ocurre b es eliminado y a es elegido con probabilidad P( a , c ).

Ya que el proceso de selección de la primera característica es un evento mutuamente excluyente, tendremos:

edu.red

Observe que en P(a, b) la característica cuatro es común en a y b, por lo cual se elimina. De igual forma en P(a, c) la característica cinco es común en b y c. El procedimiento mostrado por Tversky se resume en los siguientes pasos:

Paso 1: Elimine las características comunes a todas las alternativas.
Paso 2: Seleccione una de las características que permanecen.
Paso 3: Elimine las alternativas que no poseen esta característica.
Paso 4: Deténgase si las alternativas que quedan tienen la misma característica, de otra forma regrese al paso 2.

Formalmente, suponga que existe una función U no negativa que especifica la utilidad para cada característica y denótese S como el número de características que están presentes después de haber eliminado las características comunes a las alternativas en el conjunto de elección S Í A.

Finalmente, sea Si el conjunto de las alternativas contenidas en S que contienen las características i, i = 1, 2,…, S. En el modelo de Eliminación por Aspectos (EBA) propuesto por Tversky, la probabilidadde que la alternativa a Î S sea elegida vendrá dada por:

edu.red

Cuando todas las características son comunes a todas las alternativas en S y PS ( a ) = donde es el número de elementos en S. Como sepuede observar, es recursivo, esto es, PS(a) es el peso de la suma de las probabilidades Psi(a) donde a ha sido elegido del conjunto de Si alternativas teniendo las características i en común,

i = 1, 2,…, S.

Modelos con utilidad estocástica:

Existen dos versiones tradicionales de los modelos de utilidad estocástica.

El modelo de Thurstone tiene su origen en una serie de experimentos donde se les preguntaba a los individuos acerca de comparar intensidades de estímulos físicos, por ejemplo, el rango de tonos en términos del ruido. Dada la variabilidad en las respuestas, Thurstone propone que un estímulo provoca una "sensación" o un estado sicológico que es la realización de una variable aleatoria. Es así como, "las utilidades se asumen que varían de un momento a otro, y el proceso de decisión consiste en una regla fija de escoger la alternativa con la mayor utilidad momentánea"

Ahora bien, considere un individuo compuesto por varios homo-económicos. Cada tipo obedece a la teoría neoclásica, y dependiendo del estado de la mente del individuo un homo-económico en particular es seleccionado, por lo cual el individuo se comporta racionalmente según una utilidad determinística. De acuerdo con esta aproximación, los valores de las alternativas en A deberán ser considerados como variables aleatorias, U1 + e1,…, Un + en, las variables U1,…, Un son escalas de valores asociados a alternativas constantes mientras que e1,…, en son variablesaleatorias. Suponga que la función de distribución acumulativa de e = (e1,.., en) es continua con respecto a la medida de Lebesque [Pr(ei – ej = a = 0) " a constante e i ¹ j ]. Si ei tiene media cero (de lo contrario la media de ei puede ser adicionada al escalar mi), las probabilidades del conjunto de elección vienen determinadas por:

edu.red

La versión de Macfadden es conceptualmente diferente: considere una población de individuos haciendo la misma elección sobre el conjunto A y determine la fracción de la población que elige una alternativa determinada. La población total puede ser dividida en subpoblaciones tales que cada subpoblación sea homogénea con respecto a ciertos factores socioeconómicos observables (ingreso, edad, profesión, etc.). Cada individuo se supone que tiene una función de utilidad determinista U definida sobre A. Sin embargo, el modelador podrá observarimperfectamente las características que influencian las decisiones individuales y entonces tendrá un conocimiento imperfecto de lafunción de utilidad U. La función U se descompone en dospartes, unaparte:m que representa la parte conocida de la utilidad y definida sobre lascaracterísticas observables, y la otra parte, e, que representa la diferencia entre U y m . Para cada i = 1, 2,…, n la utilidad deseada de la alternativa i puede escribirse como:

edu.red

Pensando que el comportamiento es determinístico, para el modelador es imposible predecir exactamente la elección del individuo dado que él no puede ser observado. Esto es posible, ya que cada miembro difiere de los otros en la subpoblación considerada con respecto a las características no observables y los factores que influencian al individuo en su elección. De esta forma, Ui puede ser modelado como una variable aleatoria:

edu.red

Funciones de densidad para elecciones discretas:

edu.red

Se observa el valor de la función de densidad acumulativa de e sobre U1 – U2.

Supongamos que e esté distribuido uniformemente en el intervalo [-L, L] , entonces:

edu.red

El cual es un Probit.

edu.red

La curva tiene un punto de inflexión en m' – m' ' dondePA (1) = ½. PA (1) es decreciente o creciente en m cuando U1 esmayor o menorque U2. Un modelo de elección determinístico inicialmente se puede definir entre los siguientes tres modelos:

edu.red

Funciones de utilidad y funciones indirectas de utilidad:

Un individuo consume de acuerdo con una función de utilidad definida sobre los bienes X1,……Xn y Z, siendo Z el numerario. La utilidad del consumidor podría también depender de una serie de atributos de los bienes X's denotadas por b1,…..bn, los cuales son tomados exógenamente; adicionalmente las preferencias podrían depender de características propias como la educación, la raza, la cultura, la edad…, etc., representadas por el vector S18.

edu.red

Y la función indirecta de utilidad vendrá dada por:

edu.red

Dado que V (.) es cuasi convexa, la solución de esquina puede representarse como:

edu.red

En el punto A, la utilidad indirecta al precio j es máxima.

edu.red

Por ejemplo, si N fuese igual a dos se puede establecer que:

edu.red

En principio la ecuación anterior puede ser obtenido por máxima verosimilitud, sin embargo Haneman(1984) sostiene que en la práctica las ecuaciones normales podrían tener múltiples raíces, y a menos que se comience con un estimador inicial consistente, no existe garantía de convergencia a un máximo global. Usualmente se sugiere el procedimiento de dos etapas de Heckman, esto es, encontrar por máxima verosimilitud, usando un Logit, el conjunto de parámetros que serán consistentes pero no eficientes dado que ellos ignoran la información contenida en datos continuos;

edu.red

Finalmente, se puede usar la subrutina Maxlik del programa gauss y obtener estimadores eficientes, o usar el programa LIMDEP.

Elecciones discretas con productos diferenciados:

El consumidor representativo es un agente cuya utilidad nos muestra un conjunto de preferencias diversas. Ya que en la práctica los consumidores tienden a comprar, solamente una, o en todo caso muy pocas de las variantes de un producto que se les ofrece, el consumidor representativo ha sido bastante criticado.

En este sentido, el interés principal de esta sección, consistirá en mostrar cómo encontrar un consumidor representativo para unapoblación de consumidores que realizan elecciones discretas, dados unos supuestos sobre el proceso de elección o la elección de probabilidades y cuáles serían las propiedades de la función de utilidad correspondiente. Suponga que existen m+1 bienes y N consumidores estadísticamente idénticos e independientes.El bien 0 es perfectamente divisible y se toma como numerario. Los bienes i= 1, 2,….., m son los variantes de un productodiferenciado a los precios p1,…, pm.

Sea A un conjunto de variantes donde la variante i se asocia a un índice de calidad ai. Cada consumidor tiene un ingreso real Y con el que puede comprar unaunidad de una variante singular.

edu.red

La función anterior deberá satisfacer las siguientes propiedades:

edu.red

Por la segunda propiedad se garantiza la igualdad de las derivadas cruzadas de los precios.La tercera propiedad significa que la probabilidad depende solamente de las diferencias en precios.

edu.red

La función de demanda para un continuo de consumidores:

Considere un continuo de consumidores igual a N cada uno con gustos determinísticos. Un consumidor tiene un ingreso Y y compra una unidad de una variante de un producto diferenciado. La función de utilidad indirecta condicionada viene dada por:

edu.red

Donde e1… em describe las valoraciones de un consumidor para un conjunto de variantes. Cada conjunto de valoraciones define un tipo de consumidor.

edu.red

La cual es igual al total de consumidores en el segmento de mercado para la variante i. Es importante observar que la función de densidad del consumidor cumple el mismo papel que la función de densidad de probabilidades. Sin embargo, la diferencia entre esta y aquella es sustancial, pues la función derivada de la integración de las utilidades máximas sobre la densidad de probabilidades puede ser interpretada como la utilidad esperada del consumidor, mientras que la integral de las utilidades máximas de los individuos sobre la densidad de tipos producirá la función de riqueza a partir de la utilidad. Esta última idea se desarrollará a continuación.

Suponga que la función de riqueza derivada de la utilidad se define como:

edu.red

Donde W = NY es el ingreso agregado. Note primero que V satisface las características propias de la función indirecta de utilidad.

Primera propiedad: V es continua en pi y W.

Segunda propiedad: V no es creciente en pi y es creciente en W.

Tercera propiedad: V es convexa en pi.

Cuarta propiedad: V es homogénea de grado cero en todos los precios ingreso.

La propiedad tercera se sigue del hecho de que la integral de funciones convexas es convexa,21 la cuarta propiedad se mantiene en tanto p1,..,pm y W se encuentran en términos reales al dividir por el precio del bien 0, el cual es el bien numerario. Dado que las utilidades individuales son lineales en el ingreso, la utilidad marginal del ingreso es igual a uno para todos los individuos. Lo cual significa que un cambio en cualidades o precios que aumentan a V aumentará las transferencias de ingreso en todos los consumidores situándoles mejor que antes del cambio en precios o ingreso. El segundo término de (7.35) puede usarse para cuantificar los cambios en el excedente del consumidor atribuible a cambios en precios y cualidades, lo cual se puede ver también como una medida del beneficio del consumidor de introducir una nueva variante..

El consumidor representativo multinomial:

Suponga un consumidor con una función de utilidad aleatoria = Y – pi + ai + ei . Las demandas esperadas vendrán dadas por:

edu.red

A través de la función de utilidad indirecta para un consumidor representativo, se puede definir como:

edu.red

Con el fin de ilustrar estas funciones, suponga el caso de que m=2 las demandas serán:

edu.red

Dado que las demandas para las variantes son independientes del ingreso y dependen multiplicativamente de N, debe esperarse una función de utilidad directa de la forma:

edu.red