Teoría de juegos (página 2)

Enviado por Hermides Martinez Abuabara

Partes: 1, 2

Para qué la teoría de juegos:

Y como no hay nada mejor en matemáticas que los ejemplos, espero que estos sean de bastante utilidad para entender la magnitud de estas ideas:

* El análisis de las negociaciones. Las negociaciones entre sindicato y empresa, por ejemplo, se pueden analizar como juegos en que las partes tratan de dividir el excedente de la empresa antes de pagar los salarios.

* Análisis de licitaciones. Las empresas y el Estado utilizan procesos de licitación para comprar o vender bienes y servicios. Es importante saber cuáles son los mecanismos de licitación adecuados ante cada tipo de licitación y sus debilidades.

* Análisis empresarial. La teoría de juegos permite evaluar la eficiencia que puede tener un determinado equipo de trabajo en una empresa.

* El comportamiento de las firmas ante la entrada de competencia. Las firmas pueden ser agresivas frente a la nueva competencia, reduciendo precios y aumentando el gasto publicitario o pueden acomodar la entrada, tratando de llegar a un entendimiento con la firma entrante.

* Los juegos de atrición. En este tipo de juegos lo que se evalúa es la capacidad para resistir y, por lo tanto, permiten evaluar la situación de defensa de un país.

* Estrategias en comercio internacional. En el comercio internacional, los gobiernos protegen la producción nacional a costa de la extranjera, evaluando el costo que podría tener una posible reacción de los gobiernos extranjeros.

* Análisis político. Las reglas electorales alteran las plataformas electorales de los candidatos y se pueden estudiar las consecuencias de distintos tipos de reglas. Incluso se puede evaluar la influencia en la población de un gobierno conservador o uno progresista.

* Evolución en las especies biológicas. Las especies que conocemos son el producto de un largo proceso de interacciones con otras especies. Los genes y la influencia de éstos sobre su comportamiento y características físicas hacen que individuos de una especie tengan distinta capacidad reproductora, con lo que los genes más exitosos en el "juego de la reproducción" son los que sobreviven.

Origen:

Dentro del marco histórico de la teoría de juegos no hay que olvidar a esos "anónimos" personajes que contribuyeron de manera notable ya no sólo al uso, sino también a la axiomatización de esta rama que no hace más de un siglo se tenía por desconocida.

No obstante, cabe reseñar que estos grandes científicos, ya no sólo matemáticos, sino también economistas, han desarrollado todo su trabajo en el siglo XX consiguiendo grandes aplicaciones de esta teoría al mundo actual ya no sólo en el tema económico sino en otros muchos aspectos mencionados con anterioridad.

He aquí un modesto esquema cronológico que tratará de organizar la historia de la teoría de juegos a través de sus grandes "jugadores" entre los que destacaremos con posterioridad a dos de ellos como John Von Neumann y John Nash. Tampoco hay que pasar por alto que de los mencionados también se encuentran varios científicos que por su aportación al mundo actual y a la teoría de juegos se hicieron meritorios del Premio Nobel de Economía.

La teoría de juegos podemos decir que nace hacia 1913 con los trabajos de Ernst Zermelo, un matemático y filósofo alemán, en diversos tipos de juegos, como el ajedrez, demostrando que son resolubles. Hacia los años 20, los matemáticos Emile Borel y Von Neumann estudian los equilibrios de tipo minimax (del que comentaremos algo posteriormente) en los juegos de suma cero, es decir, aquellos juegos en los que lo que gana uno lo pierde el otro.

Sin embargo, el primer gran avance en la teoría de juegos ocurre allá por los años 40 con la publicación de un libro denominado The Theory of Games and Economic Behavior escrito por Von Neumann y Oskar Morgensten en el año 1944. En este libro se divulgaba una formalización general de los juegos en su forma extendida y normal, se introdujo el concepto de estrategias en los juegos extensivos y propuso aplicaciones. Sin lugar a dudas era un libro en el cual se trató de manera rigurosa de axiomatizar la teoría de juegos. Su importancia fue tal que se llegó a decir que diez libros como el escrito por Neumann y Morgensten podrían garantizar el futuro de la economía.

En los años 50 hubo un desarrollo importantísimo de estas ideas en la Universidad de Princeton. Sin duda alguna, de los más importantes destacamos a Duncan Luce que junto a Howard Raiffa en 1957 difundieron resultados de estas ideas en su libro introductorio denominado Games and Decisions. Harold Kuhn en 1953 trabajó en definir el concepto de la información en los juegos y Lloyd Shapley, también ese mismo año, permitió establecer una forma de atacar a los juegos cooperativos, esos en los que los jugadores pueden establecer contratos.

Pero sin lugar a dudas el máximo representante de todos ellos es John Nash quien en 1950 definió el concepto de equilibrio nash consiguiendo extender la teoría a los juegos no-cooperativos mucho más generales que los de suma cero en los que había trabajado Von Neumann. La demostración de que todo juego no-cooperativo tenía al menos un punto de equilibrio fue la tesis de John Nash de aproximadamente 27 hojas.

Señalemos un hecho que llama mucho la atención para darse cuenta de la importancia de la teoría de juegos, y es que durante esa época, el Departamento de Defensa de los EE.UU. fue el que financió las investigaciones en el tema debido a que la mayor parte de las aplicaciones de los juegos de tipo suma cero se concentraban en estrategias militares.

En los años 60, más concretamente en 1967, destacamos al húngaro John Harsanyi quien extendió la teoría de juegos a juegos de información incompleta, es decir, aquellos en que los jugadores no conocen todas las características del juego como, por ejemplo, lo que obtienen el resto de jugadores de recompensa.

En los años 70 nos encontramos con un problema: la multiplicidad de equilibrios de Nash, muchos de los cuales no eran soluciones razonables a juegos. En este campo,el alemán Reinhard Selten definió en 1975 el concepto de equilibrio perfecto en el subjuego para juegos de información completa. Además dio una generalización para el caso de juegos de información imperfecta.

Avanzando unos 30 años nos hallamos en la época actual y en este tiempo también existe gente interesada en la teoría de juegos. Así nos encontramos con dos economistas estadounidenses llamados Thomas Schelling y Robert Aumann quienes estudiando ejemplos tan fáciles como el dilema del prisionero, el modelo halcón-paloma o la guerra de sexos, han llegado a la conclusión que estos ejemplos pueden ayudar a tomar una decisión política o económica adecuada, prevenir guerras comerciales, de precios o hasta incluso conflictos bélicos, así como averiguar por qué va a ser más o menos eficiente un determinado trabajo en equipo.

Equilibrio Nash

Formulado por John Forbes Nash, como un modo de obtener una estrategia óptima para juegos que involucren a dos o más jugadores. Si hay un conjunto de estrategias tal que ningún jugador se beneficia cambiando su estrategia mientras los otros no cambien la suya, entonces ese conjunto de estrategias y las ganancias correspondientes constituyen un equilibrio Nash.

El concepto de equilibrio de Nash apareció por primera vez en su disertación Non-cooperative games (1950). John Forbes Nash demostró que las distintas soluciones que habían sido propuestas anteriormente para juegos tienen la propiedad de producir un equilibrio de Nash.

Teorema:

Todo juego no cooperativo, tiene como mínimo un punto de equilibrio en estrategias combinadas denominadas equilibrio Nash.

Estrategia

Cuando un jugador tiene en cuenta las reacciones de otros jugadores para realizar su elección, se dice que el jugador tiene una estrategia. Una estrategia es un plan de acciones completo que se lleva a cabo cuando se juega el juego. Se explicita antes de que comience el juego, y prescribe cada decisión que los agentes deben tomar durante el transcurso del juego, dada la información disponible para el agente. La estrategia puede incluir movimientos aleatorios.

A cada conjunto de estrategias denominado con frecuencia combinación de estrategias, que es una por jugador, se le asocia una salida del juego, caracterizada por las ganancias expresadas en forma de números que le toca a cada uno.

Entre estas salidas puede haber unas más "interesantes" que otras, por ejemplo las que "reportan más". Sin embargo, cono regla general, la mayoría de las salidas, si no la totalidad, no son comparables entre ellas en el sentido que el paso de una a otra se traduce en un aumento de ganancias para unos y una baja para otros. No se puede pues aplicar el criterio de Pareto y, con mayor razón, no se puede decir que una de ellas es "superior" a todas las otras, según este criterio, salvo un caso muy particular.

Frente a la ausencia de una clasificación de las salidas que logre la unanimidad de los participantes, los teóricos de juegos adoptan un punto de vista mas limitado, que se puede calificar de "local" en el sentido de estudiar separadamente cada una de las salidas y las combinaciones de estrategias de las cuales ellas son el resultado; se le acuerda un estatuto privilegiado a las que son de "equilibrio", esto es a las que los individuos, tomados uno a uno no tienen interés en desechar -es típico de una situación en la cual "nada se mueve"-. Porque el matemático John Nash estableció un importante resultado en 1950 sobre la existencia de situaciones de este tipo, se habla entonces de la existencia de equilibrios de Nash.

Así, por definición, se dice de una combinación de estrategias (una por jugador) que está en equilibrio de Nash si ningún jugador puede aumentar sus ganancias por un cambio unilateral de estrategia. Con frecuencia se identifica, por abuso del lenguaje y sin que ello tenga consecuencias, un equilibrio de Nash con la salida que le corresponde.

En la definición del equilibrio Nash el adjetivo "unilateral" ocupa un lugar esencial, en tanto ello traduce el carácter no cooperativo de las elecciones individuales (el "cada cual para sí mismo"). Así es bastante posible que en un equilibrio de Nash la situación se puede mejorar para todos por medio de un cambio simultáneo de estrategia por parte de varios jugadores. Volveremos sobre este importante punto cuando nos referimos a la eficiencia del equilibrio de Nash.

Dejando a un lado todo lo teórico de los juegos, nos vamos a centrar en un ejemplo clásico.

La guerra de sexos. Tomemos dos personas: un chico y una chica. Cada uno de ellos puede elegir entre dos opciones; o bien van al fútbol o bien a la discoteca. Supongamos que el orden de preferencias del chico es:

1. Que los dos vayan al fútbol.

2. Que los dos vayan a la discoteca.

3. Que él vaya al fútbol y ella a la discoteca.

4. Que ella vaya al fútbol y él a la discoteca.

Por otra parte, las preferencias de la chica son un poco distintas:

1. Que los dos vayan a la discoteca.

2. Que los dos vayan al fútbol.

3. Que él vaya al fútbol y ella a la discoteca.

4. Que ella vaya al fútbol y él a la discoteca.

Como podemos observar, se trata de una situación de conflicto o juego en el que intervienen 2 jugadores y en el que cada jugador tiene dos estrategias: ir al fútbol o ir a la discoteca. Representamos los datos del problema en un cuadro:

ELLA

Fútbol Discoteca

ÉL Fútbol 1 2 3 3

Discoteca 4 4 2 1

Importancia y límites del equilibrio Nash.

El equilibrio de Nash ocupa un lugar central en la teoría de juegos; constituye de alguna manera una condición mínima de racionalidad individual ya que, si una combinación de estrategias no es un equilibrio de Nash, existe al menos un jugador que puede aumentar sus ganancias cambiando de estrategia, y en consecuencia, ésta se puede considerar difícilmente como una "solución" del modelo en la medida en que el jugador interesado en cambiar descarta su elección, después de conocer la de los otros.

Ahora, el recíproco de esta proposición no es generalmente verdad: si un juego admite un equilibrio de Nash no existe una razón a priori para que éste aparezca como la "solución" evidente, que se impone a los ojos de todos los jugadores. Ello al menos por una razón: con frecuencia los juegos admiten varios equilibrios de Nash, como se constata en el ejemplo de dos que han diseñado normas diferentes de emisión para la televisión. En efecto, la pareja de estrategias:

(A adopta la norma A, B adopta la norma A)

Es un equilibrio de Nash del modelo en tanto A evidentemente no tiene interés de cambiar de estrategia habida cuenta la elección de B; este tampoco ya que la coexistencia de dos normas diferentes es el caso más desfavorable para las dos empresas.

Ahora, la pareja de estrategias:

(A adopta la norma B, B adopta la norma B)

Es de igual manera un equilibrio de Nash, como se puede verificar de manera inmediata. Ninguno de estos dos equilibrios aparece como una solución evidente porque A prefiere la primera ya que impone su norma y B la segunda, por iguala motivo. Se deduce la posibilidad de que cada uno escoja producir según su propia norma, pensando que el otro lo seguirá, con el resultado de una salida que no es de equilibrio, pues es mala para todos. Se encuentra la cuestión central para el microeconomista, la coordinación, propuesta en el marco de juegos, pero igualmente no resuelta por éste mismo marco.

Equilibrio Nash ante condiciones restrictivas.

El problema de la multiplicidad de equilibrios de Nash, en un juego dado, es indudablemente la principal fuente de preocupación para los teóricos de los juegos, que han buscado su solución considerando, por ejemplo, que ciertas elecciones no son completamente "razonables" o "creíbles". De tal manera, si retomamos nuestro ejemplo, pero con un orden preestablecido en los golpes (digamos, A "juega" primero y B después), entonces nos encontramos en presencia de los dos mismos equilibrios, pero ahora uno de ellos es poco "creíble", el que A y B adopten la norma de B. En efecto, no se ve por que A tomaría tal decisión ya que tomó la delantera; es cierto que B puede esgrimir una amenaza: "pase lo que pase, produciré con mi propia norma" y que, si tal es el caso A tendría interés en producir según la norma B por ello hay un equilibrio. Pero, será que A tomará en serio la amenaza de B?

Se puede dudar porque, si A decide producir según su propia norma sería suicida por parte de B poner en ejecución su amenaza, lo que provocaría la ruina de A, pero también la suya. Sabiendo eso, A actuará de distinta manera. En consecuencia, existen un de los equilibrios de Nash que se impone como solución:

(A produce según la norma A, B según la norma A).

Se dice de tal solución, en donde el orden de los golpes estipulado con antelación juega un papel importante, que es un equilibrio perfecto; esta solución comporta elementos de los equilibrios de Nash, haciendo intervenir elementos suplementarios.

Notemos, además, que la hipótesis de información completa juega un papel esencial; A debe estar "seguro" que B actuará como se previó ya que, si existe el más mínimo riesgo de que no fuera así y que B cumple con su amenaza, entonces la decisión no es tan evidente. Por ello el interés de B de forjarse una reputación del tipo que "no cede jamás"; no obstante, hay que entrever por ello opciones sucesivas y, en consecuencia, juegos repetidos, como lo veremos mas adelante.

En el caso donde se presenten varios equilibrios con decisiones simultáneas, donde ninguna de ellas sea superior a la otra según el criterio de Pareto, ciertos teóricos de los juegos han propuesto la siguiente solución: los participantes se ponen de acuerdo para la selección a la suerte de uno de los equilibrios, lo cual se evita la indeterminación y se elude también la realización de salidas "peores", como aquella de cada uno producir según su propia norma.

Esta solución, que es todavía un equilibrio de Nash, se denomina un equilibrio correlacionado. Notemos que esta solución supone una cierta forma de colaboración, que es el acuerdo previo sobre el principio de tirar a la suerte los equilibrios y sobre el procedimiento de azar empleado hay que darle la misma probabilidad a todos los equilibrios o hay que atribuirles probabilidades diferentes?.

A pesar de existir un cierto acuerdo sobre el procedimiento a emplear, de todas maneras se está en presencia de una solución no cooperativa, en el sentido en que nadie tiene interés en apartarse unilateralmente, porque la salida retenida es un equilibrio de Nash.

Equilibrio Nash y óptimo.

Otro de los límites esenciales del equilibrio de Nash en tanto "solución" de un juego, reside en el hecho que tal equilibrio es con frecuencia subóptimo, en el sentido de Pareto. Ya hemos constatado con el equilibrio de Cournot -denominado de Cournot-Nash por los microeconomistas-, donde la filosofía del "cada uno para sí mismo" conduce a una salida en la cual los beneficios son menores que si hubiera acuerdo entre los duopolistas. Sin embargo, tal acuerdo no es de equilibrio en la medida en que cada cual tiene interés de no respetarlo si el otro lo respeta.

Este tipo de situación es muy corriente: pensemos en el agricultor que enfrenta cuotas de producción que le son impuestas a él y a todos los agricultores con el fin de evitar el desplome de precios y que, además, busca sobrepasarlas para beneficiarse de los precios favorables originados en la existencia misma de estas cuotas; pensemos también en los bienes colectivos infraestructuras, ambiente y condiciones de vida que todo el mundo desea aprovechar, pero escapando a su financiación, en el caso de existir una cotización voluntaria. Es el mismo caso de las barreras proteccionistas con las cuales cada país desea rodearse, pero buscando exportar el máximo. Existen tantos ejemplos de este tipo, que se podría decir que ocultarían la mayoría de las relaciones sociales si estas se redujeran a la filosofía de "cada uno para sí mismo".

Se ha tomado la costumbre por parte de los teóricos de juegos, lo mismo que por parte de sociólogos, economistas etc. de ilustrar este tipo de situación empleando una "pequeña historia" propuesta por A.W. Tucker y que llamó el dilema del prisionero que se puede resumir de la siguiente manera.

Dos individuos sospechosos de haber cometido un robo son detenidos por al policía que los lleva ante el juez, el cual los interroga separadamente. Cada uno puede callar o denunciar a su cómplice; los dos se encuentran ante las siguientes posibilidades:

Callar y salir libre si el otro hace lo mismo;

Callar y ser condenado si el otro escoge denunciarlo;

Denunciar al otro y salir libre, ganándose una recompensa si el otro se calla;

Denunciar al otro y quedarse en prisión por un tiempo si el otro decide de la misma manera la delación.

Se constata fácilmente que el único equilibrio de Nash consiste en una denuncia mutua, lo que evidentemente es sub óptimo ya que los dos sufren una condena, en tanto que si se hubieran callado habrían sido liberados. No obstante este equilibrio es "robusto" en el sentido en que la estrategia de acusar al otro es dominante cualquiera que sea la elección del otro, la denuncia le procura una ganancia superior.

Notemos que acá hay un dilema porque cada cual toma su decisión sólo considerando sus propios intereses y sabiendo que el otro actúa de la misma manera. Incluso, aceptando que los dos individuos se puedan comunicar previamente, no cambia nada la cosa, ya que al momento de escoger la estrategia dominante, "denunciar al otro" se impone. El problema no está pues en la posibilidad de comunicarse o no antes de tomar una decisión, sino más bien en la existencia de acuerdos obligatorios cuyo incumplimiento implica sanciones y de instituciones que velen por su aplicación, las cuales son difíciles de introducir en el ejemplo que nos ocupa.

El dilema del prisionero, o más exactamente las situaciones que representa, crean un problema fundamental al microeconomista, porque queda claro el hecho de las decisiones racionales por parte de individuos puede conducir a una "solución" -equilibrio- poco satisfactorio, es decir, sub óptima por tanto "colectivamente irracional". De ahí las numerosas tentativas de los teóricos de los juegos para salir de este "dilema", pero siempre preservando el principio según el cual cada cual sólo busca su propio beneficio, es decir, maximizar sus ganancias. Entre estas tentativas, el recurso a los juegos repetidos, ocupa un lugar importante.

Un juego puede no tener equilibrio de Nash, o tener más de uno. Nash fue capaz de demostrar que si permitimos estrategias mixtas (en las que los jugadores pueden escoger estrategias al azar con una probabilidad predefinida), entonces todos los juegos de n jugadores en los que cada jugador puede escoger entre un número finito de estrategias tienen al menos un equilibrio de Nash con estrategias mixtas.

Si un juego tiene un único equilibrio de Nash y los jugadores son completamente racionales, los jugadores escogerán las estrategias que forman el equilibrio.

Juego competitivo

Consideramos el siguiente juego de dos jugadores:

"Ambos jugadores escogen simultáneamente un número entero entre cero (0) y diez (10). Los dos jugadores ganan el valor menor en dólares, pero además, si los números son distintos, el que ha escogido el mayor le debe pagar $2 al otro."

Este juego tiene un único equilibrio de Nash: ambos jugadores deben escoger cero (0). Cualquier otra estrategia puede mejorarse si uno de los jugadores escoge un número menor.

Si se modifica el juego de modo que los dos jugadores ganen el número escogido si ambos son iguales, y de otro modo no ganen nada, hay 11 equilibrios de Nash distintos.

Juego de coordinación

Este juego es un juego de coordinación al conducir. Las opciones son: o conducir por la derecha o conducir por la izquierda, con 100 significando que no se produce un choque y 0 significando que sí se produce. El primer número en cada celda indica la ganancia del primer jugador (cuyas opciones se muestran a la izquierda) y el segundo la ganancia del segundo jugador (cuyas opciones se muestran encima).

	Conducir por la izquierda:	Conducir por la derecha:
Conducir por la izquierda:	100,100	0,0
Conducir por la derecha:	0,0	100,100

En este caso hay dos equilibrios de Nash con estrategias puras, cuando ambos conducen por la derecha o ambos conducen por la izquierda. También hay un equilibrio de Nash con estrategias mixtas, cuando cada jugador escoge aleatoriamente con una probabilidad del 50% cuál de las dos estrategias aplica.

Dilema del prisionero

El dilema del prisionero tiene un equilibrio Nash: se produce cuando ambos jugadores desertan. A pesar de ello, "ambos desertan" es peor que "ambos cooperan", en el sentido de que el tiempo total de cárcel que deben cumplir es mayor. Sin embargo, la estrategia "ambos cooperan" es inestable, ya que un jugador puede mejorar su resultado desertando si su oponente mantiene la estrategia de cooperación. Así, "ambos cooperan" no es un equilibrio

Es un ejemplo claro pero atípico de un problema de suma no nula. En este problema de teoría de juegos, como en otros muchos, se supone que cada jugador, de modo independiente, trata de maximizar su propia ventaja sin importarle el resultado del otro jugador. Las técnicas de análisis de la teoría de juegos estándar, por ejemplo determinar el equilibrio de Nash, pueden llevar a cada jugador a escoger traicionar al otro, pero curiosamente ambos jugadores obtendrían un resultado mejor si colaborasen. Desafortunadamente (para los prisioneros), cada jugador está incentivado individualmente para defraudar al otro, incluso tras prometerle colaborar. Éste es el punto clave del dilema.

En el dilema del prisionero iterado, la cooperación puede obtenerse como un resultado de equilibrio. Aquí se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada jugador la oportunidad de castigar al otro jugador por la no cooperación en juegos anteriores. Así, el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un resultado mejor, cooperativo.

La enunciación clásica del dilema del prisionero.

La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos, y tras haberlos separado, los visita a cada uno y les ofrece el mismo trato: "Si confiesas y tu cómplice continúa sin hablar, él será condenado a la pena total, 10 años, y tú serás liberado. Si él confiesa y tú callas, tú recibirás esa pena y será él el que salga libre. Si ambos permanecen callados, todo lo que podremos hacer será encerrarlos 6 meses por un cargo menor. Si ambos confiesan, ambos serán condenados a 6 años."

Lo que puede resumirse como:

	Tú lo niegas	Tú confiesas
Él lo niega	Ambos son condenados a 6 meses	Él es condenado a 10 años; tú sales libre
Él confiesa	Él sale libre; tú eres condenado a 10 años	Ambos son condenados a 6 años.

Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es minimizar su propia estancia en la cárcel. Como prisionero tienes dos opciones: cooperar con tu cómplice y permanecer callado, o traicionar a tu cómplice y confesar. El resultado de cada elección depende de la elección de tu cómplice. Desafortunadamente, no conoces qué ha elegido hacer. Incluso si fueses capaz de hablar con tu compañero, no puedes estar seguro de que puedas confiar en él.

Si esperas que tu cómplice escoja cooperar contigo y permanecer en silencio, la opción óptima para ti sería confesar, lo que significaría que serías liberado inmediatamente, mientras tu cómplice tendrá que cumplir una condena de 10 años. Si esperas que tu cómplice decida confesar, tu mejor opción es confesar también, ya que al menos no recibirás la condena completa de 10 años, y sólo tendrás que esperar 6 años, al igual que tu cómplice. Si, sin embargo, ambos decidieseis cooperar y permanecer en silencio, ambos seríais liberados en sólo 6 meses.

Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, puedes reducir siempre tu sentencia confesando.

Desafortunadamente para los prisioneros, esto conduce a un resultado sub óptimo, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo en el sentido de Pareto; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de los dos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina paretianamente al resultado en el cual los dos eligen confesar.

Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos prisioneros cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos prisioneros si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.

Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada más abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si tu cómplice te traiciona y confiesa una vez, puedes castigarle traicionándole tú la próxima. Así, el juego iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.

El científico cognitivo Douglas Hofstadter (ver las referencias más abajo) sugirió una vez que la gente encuentra muchas veces problemas como el dilema del prisionero más fáciles de entender cuando están presentados como un simple juego o intercambio. Uno de los ejemplos que usó fue el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que una de ellas contiene dinero y la otra contiene un objeto que está siendo comprado. Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo que acordó, o puede engañar ofreciendo una bolsa vacía. En este juego de intercambio, al contrario que en el dilema del prisionero, el engaño es siempre la mejor opción.

Matriz de pagos del dilema del prisionero

En el mismo artículo, Hofstadter también observó que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de múltiples formas, siempre que se adhiera al siguiente principio:

T > R > C > P

donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).

(Suele también cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.)

Las fórmulas anteriores aseguran que, independientemente de los números exactos en cada parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro.

Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas anterior (o a un juego de dos jugadores tipo Axelrod — ver más abajo), obtendremos la siguiente matriz de pagos canónica para el dilema del prisionero, esto es, la que se suele mostrar en la literatura sobre este tema:

	Cooperar	Desertar
Cooperar	3, 3	-5, 5
Desertar	5, -5	-1, -1

En terminología "ganancia-ganancia" la tabla sería similar a esta:

	Cooperar	Desertar
Cooperar	ganancia – ganancia	pérdida sustancial – ganancia sustancial
Desertar	ganancia sustancial – pérdida sustancial	pérdida – pérdida

Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de interés para ciencias sociales como economía, política y sociología, además de ciencias biológicas como etología y biología evolutiva.

En ciencia política, por ejemplo, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentística. Ambos razonarán que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatará el acuerdo; de este modo, ambos se inclinarán hacia la expansión militar. La ironía está en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.

Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperación mutua) compartiendo la pesada carga de la posición delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fácil en la estela del primer corredor.

Por último, la conclusión teórica del dilema del prisionero es una razón por la cual, en muchos países, se prohíben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: está en el interés de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando sólo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tenderá a confesar y testificar contra el inocente.

Gallina

Otro importante juego de suma no nula se llama "gallina". En este caso, si tu oponente deserta, te beneficias más si cooperas, y éste es tu mejor resultado. La deserción mutua es el peor resultado posible (y por ello un equilibrio inestable), mientras que en el dilema del prisionero el peor resultado posible es la cooperación mientras el otro jugador deserta (así la deserción mutua es un equilibrio estable). En ambos juegos, la "cooperación mutua" es un equilibrio inestable.

Una matriz de pagos típica sería:

Si ambos jugadores cooperan, cada uno obtiene +5.

Si uno coopera y el otro deserta, el primero obtiene +1 y el otro +10.

Si ambos desertan, cada uno obtiene -20.

Se llama "gallina" por el juego de carreras de coches. Dos jugadores corren el uno hacia el otro hacia una aparente colisión frontal: el primero en desviarse de la trayectoria es el gallina. Ambos jugadores evitan el choque (cooperan) o continúan con la trayectoria (desertan). Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de irrigación en sus campos. El sistema puede ser mantenido adecuadamente por una persona, pero ambos granjeros se benefician de ello. Si un granjero no contribuye a su mantenimiento, sigue estando dentro del interés del otro granjero hacerlo, porque se beneficiará haga lo que haga el otro. Así, si un granjero puede establecerse como el desertor dominante esto es, si su hábito se vuelve tan enraizado que el otro hace todo el trabajo de mantenimiento seguramente continuará con ese comportamiento

Juego de confianza

Un juego de confianza tiene una estructura similar al dilema del prisionero, excepto que la recompensa por la cooperación mutua es mayor que la otorgada por la deserción mutua. Una matriz de pagos típica sería:

Si ambos jugadores cooperan, cada uno obtiene +10.

Si tú cooperas y el otro jugador deserta, tú obtienes +1 y él +5.

Si ambos desertáis, cada uno obtiene +3.

El juego de confianza es potencialmente muy estable, ya que da la máxima recompensa a jugadores que establecen un hábito de cooperación mutua. A pesar de ello, existe el problema de que los jugadores no sean conscientes de que está en su interés cooperar. Pueden, por ejemplo, creer incorrectamente que están jugando un juego de dilema del prisionero o gallina, y elegir su estrategia de acuerdo a ello.

Amigo o enemigo

"Amigo o enemigo" (Friend or Foe) es un juego que se está emitiendo actualmente en el canal de cable y satélite estadounidense Game Show Network. Es un ejemplo del juego del dilema del prisionero probado en personas reales, pero en un entorno artificial. En el concurso, compiten tres pares de personas. Cuando cada pareja es eliminada, juegan a un juego del dilema del prisionero para determinar cómo se reparten sus ganancias. Si ambos cooperan ("amigo"), comparten sus beneficios al 50%. Si uno coopera y el otro deserta ("enemigo"), el desertor se lleva todas las ganancias y el cooperador ninguna. Si ambos desertan, ninguno se lleva nada. Advierta que la matriz de pagos es ligeramente diferente de la estándar dada anteriormente, ya que los pagos de "ambos desertan" y el de "yo coopero y el otro deserta" son idénticos. Esto hace que "ambos desertan" sea un equilibrio neutral, comparado con el dilema del prisionero estándar. Si sabes que tu oponente va a votar "enemigo", entonces tu elección no afecta a tus ganancias. En cierto modo, "amigo o enemigo" se encuentra entre el dilema del prisionero y gallina.

La matriz de pagos es:

Si ambos jugadores cooperan, cada uno obtiene +1.
Si ambos desertan, cada uno obtiene 0.
Si tú cooperas y el otro deserta, tú te llevas +0 y él +2.

"Amigo o enemigo" es útil para alguien que quiera hacer un análisis del dilema del prisionero aplicado a la vida real. Fíjese en que sólo se puede jugar una vez, así que todos los conceptos que implican juegos repetidos no se presentan, y no se puede desarrollar la estrategia Tit for tat.

En "amigo o enemigo", cada jugador puede hacer un comentario para convencer al otro de su amistad antes de hacer la decisión en secreto de cooperar o desertar. Un posible modo de "ganar al sistema" sería decir al rival: "Voy a escoger 'enemigo'. Si confías en que te dé la mitad de los beneficios después, escoge 'amigo'. De otro modo, nos iremos ambos sin nada." Una versión más egoísta de esto sería: "Voy a escoger 'enemigo'. Voy a darte X% y me quedaré con (100-X)% del premio total. Así que tómalo o déjalo, ambos nos llevamos algo o ninguno nos llevamos nada." Ahora el truco se encuentra en minimizar X de modo que el otro concursante siga escogiendo 'amigo'. Básicamente, debes conocer el umbral en el que los beneficios que obtiene viéndote no llevarte nada superan a los que obtiene simplemente llevándose el dinero que has ofrecido.

Este acercamiento no ha sido intentado en el juego: es posible que los jueces no lo permitiesen.

Resultados de los juegos

El resultado de un juego es una cierta asignación de utilidades finales. Se denomina resultado de equilibrio si ningún jugador puede mejorar su utilidad unilateralmente dado que los otros jugadores se mantienen en sus estrategias. Un equilibrio estratégico es aquel que se obtiene cuando, dado que cada jugador se mantiene en su estrategia, ningún jugador puede mejorar su utilidad cambiando de estrategia. Alternativamente, un perfil de estrategias conforma un equilibrio si las estrategias conforman la mejor respuesta a las otras.

Forma normal versus forma extensiva de los juegos

En juegos de forma normal, los jugadores mueven simultáneamente. Si el conjunto de estrategias es discreto y finito, el juego puede ser representado por una matriz NxM (ver abajo). Un juego en forma extensiva especifica el orden completo de movimientos a través de la dirección del juego, generalmente en un árbol de juego.

Juegos NxM

Una forma de juegos de dos jugadores, en la cual un jugador tiene N acciones posibles y el otro tiene M acciones posibles. En un juego así, los pares de utilidades o pagos pueden ser representados en una matriz y el juego es fácilmente analizable. Los juegos NxM dan una idea de cómo puede verse la estructura de un juego mas complejo.

Matriz de resultados de un juego

La matriz de resultados de un juego representa el resultado del juego en una matriz. Supongamos que dos personas, A y B, están jugando un sencillo juego. El juego consiste en lo siguiente: la persona A tiene la posibilidad de elegir "arriba" o "abajo", mientras que B puede elegir "izquierda" o "derecha". Los resultados del juego se representan en la matriz de resultados:

Conclusión:

Equilibrio de Nash

El equilibrio de Nash fue formulado por John Nash, que es un matemático norteamericano, en 1951. Un par de estrategias es un equilibrio de Nash si la elección de A es óptima dada la de B y la de B es óptima, dada la de A. El equilibrio de Nash se diferencia del equilibrio de las estrategias dominantes en que, en el equilibrio de las estrategias dominantes, se exige que la estrategia de A sea óptima en el caso de todas las elecciones óptimas de B, y viceversa. El equilibrio de Nash es menos restrictivo que el equilibrio de estrategias óptimas.

Un juego puede tener más de un equilibrio de Nash. Existen juegos en los no existe un equilibrio de Nash.

Para que una matriz de pagos represente un "dilema del prisionero" deben concurrir las siguientes circunstancias:

Confesar uno sólo debe ser mejor para él que no confesar mutuamente. No confesar mutuamente debe ser a su vez mejor confesar ambos. Confesar ambos debe ser a su vez mejor que no confesar uno sólo. Cuando cada uno elige una estrategia diferente, confesar y no confesar, la ganancia media entre estas dos estrategias (3 meses y 10 años) no puede ser mejor que las estrategias de confesar ambos (1 año).

John Forbes Nash encontró que la estrategia "estable" a la que conduce el "dilema del prisionero" es terminar en la mutua deserción. Dice que es "estable" porque elegida por uno de ellos, el otro no puede mejorar su situación y viceversa. Técnicamente se llama equilibrio de Nash.