ESTIMACION DE PROPORCIONES ¿Un problema aún no resuelto?
JAIRO ALFONSO CLAVIJO MENDEZ Universidad del Tolima
Este documento tiene como fin hacer una síntesis tal vez incompleta del trabajo que se ha realizado a lo largo de casi 100 años para lograr una manera práctica de estimar una proporción.
Presentación del problema
Supóngase que estamos en una población finita de tamaño N conformada por elementos de dos clases: A de ellos del tipo E (éxitos) y N ??A del tipo F(fracasos).
A N elementos A ” o simplemente proporción cuando es claro a cuáles elementos estamos haciendo referencia. Nuestro objetivo inmediato es estimar ????mediante una muestra ? de n elementos seleccionados de la población bajo muestreo aleatorio simple (M.A.S).
El problema, aparentemente sencillo, ha sido objeto de estudio durante casi 100 años sin que se pueda afirmar que en este momento haya una solución completa y definitiva para el mismo.
Comencemos diciendo que al aplicar M.A.S para seleccionar la muestra, la primera unidad muestral tiene probabilidad A N de ser seleccionada. Las subsecuentes unidades tienen probabilidades que dependen del método de selección: si el muestreo se hace con reemplazamiento, todas tienen la misma probabilidad A
N , de ser seleccionadas, pero si el muestreo se hace sin reemplazamiento, esta probabilidad va cambiando. En el primer caso, la variable X que cuenta el número de éxitos en la muestra, se ajusta a un modelo binomial de parámetros ?? n . En
V(X) ???? ? ?? n??(1????) n??(1????) el segundo caso, a un modelo hipergeométrico de parámetros N, A,n. Es decir, la probabilidad de que haya x éxitos en la muestra está dadapor:
???n? ? ?? ??
?? ???x???n ??x ? SIN reemplazamiento ? ? ? ? ??n ?? ? E(X) ??n?? En ambos casos se tiene diferentes, dadas por: pero las varianzas tienen expresiones N ??n CON reemplazamiento SIN reemplazamiento ?? N ?1 Nótese que la diferencia entre ambas varianzas está determinada por el factor N ??n que tiende a 1 cuando poblaciones infinitas o muy grandes, podría decirse que V( X ) ??n??(1???) a menos que la muestra se tome CON reemplazamiento. En la práctica se utiliza más el muestreo SIN reposición pero se usan las fórmulas del muestreo CON ) reposición, lo que ya trae consecuencias indeseables especialmente si la población
Por lo anterior, si tomamos una muestra grande, podemos asumir que X ~ B(n,?? y -siguiendo a A. Wald- usar una aproximación normal para calcular Pr(X ??x) . Esto es:
??? X ??E( X ) X ??n? n V(X) ??????n?(1??) ??????(1??? ~ N(0,1) E(p) ?? E(X) ?? (n??) ????, razón por la cual Al hacer se cumple p ?? n ?? p ?? n p??? ? ?? ? n n ??? Z ??
X ? ? X ?
n
1 1
n n podemos utilizar X como estimador insesgado de
Se cumple entonces que Z ? ~ N(0,1) lo que nos lleva a considerar ?(1??) el intervalo ? ? ?z?? , z?? 2 2 n ? (ver figura) que cubre una probabilidad 1??? para Z bajo la normal estándar. Este intervalo, mediante transformaciones algebráicas simples, puede ser reescrito como: ??p ??z ?? 2 ??(1????) , p ??z ?? 2 ??(1????) ??
?? Que es la fórmula conocida y más popular para construir el intervalo de confianza para una proporción.
La fórmula anterior, además de la fuerte exigencia de una muestra y una población grandes, tiene el inconveniente de que depende de??, el parámetro desconocido que se pretende estimar. En la práctica ???se reemplaza por la estimación puntual ??
?? p(1? p) ? ?? n0 ??????2 1??? 0 p lograda con la muestra, lo que no está del todo mal, ya que como lo muestra Cochran, este cambio debería llevar a una expresión del tipo: t t n?1, ?? 2 p(1? p) , p ?? n?1 n?1, ?? 2 ??p ?? ? n?1 ?? ?? ? ? ? Pero, al ser n grande, el cuantil tn?1, ?? 2 puede considerarse bastante bien aproximado por el cuantil normal dividir entre n. z? y dividir entre 2 n?1 es casi igual que El uso de la aproximación normal exige entonces, además de una población muy grande, un tamaño mínimo de muestra que debe ser conocido previamente para garantizar la validez de dicha aproximación. Infortunadamente dicho tamaño de
establece que para ????0.5 es necesario cuando menos n ??30 . Para ????0.2 se necesita n ??200 y para ????0.05 es necesario n ??1400. Sin embargo Newcombe pone en duda la validez de estos valores señalando que con frecuencia ellos son insuficientes.
En la práctica, como es sabido, los tamaños de muestra mínimos para poder usar aproximación normal con un nivel de confianza y un error máximo de estimación dados, se suelen calcular con las fórmulas: 2 y z?? p(1??p) e2 n ? n0 n N
cuya aplicación no se discute en este documento, señalando únicamente que con frecuencia, son mal utilizadas. Baste con decir, por ejemplo, que si el valor de ??estuviese alrededor de 0.2, la estimación con un 95% de confianza y un error no mayor a 0.01 (que representa el 5% del valor de ??), exigiría una muestra no menor a 6147 unidades en una población infinita o muy grande. Si el tamaño de la población fuese, por ejemplo, N ??6000, la muestra se reduciría a 3037 elementos como mínimo.
Existe un consenso generalizado de que el método de aproximación normal visto anteriormente tiene muy pobre desempeño, llegando incluso a proporcionar
Sup??? ???? Inf ??? ???? ??x(1????)n??x ?? ??? ? ? ? ??x(1????)n??x ?? ??? ? ? ? estimaciones erróneas, sobre todo cuando la muestra es insuficiente, razón por la cual nos gustaría contar con otros métodos que en lo posible no dependieran del tamaño muestral. Varios de tales métodos han sido propuestos desde 1934 cuando Clopper y Pearson en un famoso artículo hicieron una propuesta basada en la distribución Beta. La idea de tales métodos es usar la verdadera y exacta probabilidad binomial y no la probabilidad aproximada con la normal. Por esta razón son conocidos como métodos exactos. Son exactos no porque proporciones intervalos exactos –que también son aproximados- sino porque usan la probabilidad exacta. Estos métodos en principio no dependen del tamaño de n para la construcción del Intervalo de confianza (IC) que siempre estará bien construido aunque, como parece natural, valores muy pequeños de n producirán estimaciones poco precisas, es decir, intervalos muy amplios, con las L 2 n consecuencias desagradables que se derivan de este hecho.
Supóngase pues que se tiene una muestra de tamaño n (el valor de n no ha sido calculado por un método especial y, en principio, podría ser cualquiera definido razonablemente, por ejemplo, por los costos del muestreo). Se busca un intervalo ??? , ?U??dentro del cual se encuentre ???con probabilidad 1??? donde ? es un valor pequeño arbitrario (usualmente ????0.05). Es claro que X toma valores enteros entre 0 y n , lo que nos dice que para x éxitos en la muestra, p tomará , , , , ? n n n n ?? discreta no será posible construir un intervalo con valores exactos. Sin embargo sí es posible construir un intervalo con un cubrimiento de probabilidad de 1??? si se resuelve simultáneamente las dos ecuaciones siguientes: , ? , ? ? L
? ? U ??? ? ?
??? ? ? n ?? j ??x
x ?? j ??0 ? ?
2??
?
2 ?? ?
? Tanto ?? L como ?U son funciones de N, n, x lo que hace particularmente engorroso el cálculo de las expresiones anteriores.
??? ?n j ?? ?? ??j(1????)n??j =??fB(t)dt con ??????Sup???/ Pr( X ??x) ?????? ? ??Inf ???/ Pr( X ??x) ???????bajo el supuesto ??n?? P( X ??x) ?????????i(1????)n?i i????????n? ??n?? (n??i)??i(1????)n?i?1 ??n?? i?1 n?1 ??n?1?? i?1 ??n?1?? i n?1 ? ?? (1????)n?i ??? ??? (1????) ???n ? ? ? f (x; a, b) ?? 1?? x (1??x) ? ?(a ??b) a?1 ? ?(a)?(b) X Clopper y Pearson (1934) dieron una primera solución utilizando la distribución Beta y la igualdad n ?? fB(t) ??Probabilidad j??x?? ? 0 acumulada bajo dicha distribución.
Más exactamente se trata de lo siguiente:
Se busca un intervalo (??L,?U) para el cual se cumpla: y U ? ?? ? 2 ? ? 2 ?? L ? ?
de que X ~ B(n,?? ) Es claro que y x
I ?0??i?? P(X ??x) ?1??P(X ??x?1) . Usando las identidades ??n? ??n?1? ?? y podemos ??i ? ????i ? ??n? ??n?1?? (n??i)????????n? ?? ??i ? ????i ?? ? ? calcular ? ?? n?i?1 ? n P( X ??x) ??????? ?i?? (1????)n?i ?????? ? i??x??i?? i??x??i?? n
i?x ??i?1?? i??x? i ?? (1) ??n?? = x???????x?1(1????)n??x ??0 ??x?? ? Recordando la distribución Beta dada por: X ~ B(a,b) ssi a?1 b?1
ua?1(1?u)b?1du 0 b?1 ? x (1??x) Concluímos que la probabilidad acumulada bajo esta distribución, hasta un punto ??
?(a)?(b) 0
Nótese que, según el teorema fundamental del cálculo, la derivada de
??n? ?(x)?(n? x??1)?? tx?1(1??t)n?xdt ??x? ?? ? ? x?1(1????)n?x B??(x, n- x?1)= ? es ?? ?(n ?1) 0 ?x?? ??n?? ? x???????x?1(1????)n??x que no es otra cosa que la expresión (1). ??x?? En consecuencia, Expresión que nos proporciona una relación entre la sumatoria en la coladerecha de la binomial y la probabilidad acumulada bajo una Beta de parámetros a ??x, b ??n??x?1
Consideraciones similares, haciendo los cambios pertinentes, permiten establecer la siguiente identidad para el lado izquierdo de la sumatoria en labinomial: Las expresiones (2) y (3) nos permiten afirmar que el intervalo de confianza para ??L , ?U ??= B??/2(x, n??x?1) , B1???/2(x?1, n??x) Expresión que más frecuentemente se presenta como y que corresponde a la fórmula propuesta por Clopper y Pearson para construir el intervalo de confianza.
Históricamente esta fórmula ha sido de gran importancia porque marcó el inicio de una carrera investigativa alrededor del tema de la estimación de proporciones y además porque ofreció una solución al problema en dos casos extremos: cuando x ??0 y cuando x ??1 , para los que se tienen los correspondientes intervalos: ? 1 ? ? 1 ? ? ? situación insoluble bajo el método asintótico de Wald ? ? ? ?? ? El intervalo CP nunca será menor que la cobertura nominal pudiendo, por ende, resultar más grande que lo deseado. A pesar de ser muy interesante y promocionado por sus inventores como insuperable, puede haber otros métodos aproximados que dan mejor cobertura. Así lo anuncia Agresti en un conocido artículo, cuyo título es muy sugestivo (ver referencia 13).
A manera de ejemplo, mostraremos cómo usar un paquete muy versátil y gratuito que puede ser descargado de Internet para construir intervalos de confianza usando la fórmula de Clopper y Pearson. Se trata de PQRS (http://members.home.nl/sytse.knypstra/PQRS/ )
Vamos a construir el intervalo de confianza del 95% para la proporción sabiendo que en una muestra de tamaño 40 hubo en total 8 éxitos. En este ejemplo ??/2 ???0.025 y 1???/ 2 ?? 0.975, por tanto: B(x, n ??x?1, ????) ??B(8, 33, 0.025) ??0.0905 2 De la figura anterior se deduce
Análogamente:
B(x?1, n ??x, 1??? ) ??B(9, 32, 0.975) ??0.3565 De donde: 2 En conclusión, el intervalo de confianza correspondiente es: (0.0905 , 0.3565)
La página http://statpages.info/confint.html contiene una calculadora on line que igualmente permite el cálculo del intervalo, como se ve en la siguientefigura: Durante algún tiempo el método CP, propuesto por Clopper y Pearson fue considerado como la regla de oro para estimar proporciones, sin embargo con el paso de los años tal prestigio fue decayendo debido principalmente a que el método CP es muy conservativo en el sentido de que 1??? no es el inf para la probabilidad de cobertura. Esto es, los intervalos obtenidos resultan en general más grandes que el verdadero.
En 1960 Blyth y Hutchinson publicaron un método que mejoraba la construcción de los intervalos a partir de un artículo de profundización escrito por J. Neyman en
? 2(n??x?1), 2x, ?? ?? n ??xF2( x?1), 2(n?x), ?? ?? x ?1 ? 10 JACMEN Estimación de proporciones 1935. Este mismo autor junto con H.A. Still publica en 1983 otro artículo en el que utiliza la distribución F para hacer una revisión de la construcción dada por Clopper y Pearson.La razón? Tal vez era más fácil lidiar con la F que con la Beta
En 1986, usando una relación existente entre las distribuciones Beta y F transformó la fórmula de Clopper y Pearson en otra de más fácil cálculo puesto que solo depende de F, la cual está dada por: , 1
F ? ?
??1?? ? n??x?1
x 2 x ?1 ?? 2
1?? F ? n ??x 2( x?1), 2(n?x), ??2 ?? ? Esta fórmula ha tenido amplia difusión y ha sido usada bajo una presentación equivalente un poco más compacta, como se muestra a continuación: Han sido numerosos los investigadores que han trabajado sobre el tema, tantos que los portugueses Pires y Amado han realizado un trabajo de comparación mediante simulación de nada menos que 20 propuestas para determinar su desempeño.
En estas notas mencionaremos solamente algunos autores, los que son más reconocidos, sin profundizar en sus propuestas. Solamente nos interesa darlos a
???z n??2 p(1??p) ??? z z?? x ??x ?? z2 ? ?? ?1?? Lj (x) ???B ?x ?? , n ??x ?? , ? ? en otrocaso ?? 1 si x ?? n 1 ? ??? U j(x) ??? ?1?? 1 , n ??x ?? , ? ? en otro caso ?? ?? 11 JACMEN Estimación de proporciones conocer y mencionar sus fórmulas para que el lector interesado profundice en la teoría buscando el material correspondiente.
Cabe mencionar de manera especial a Goodman, Fitzpatrick , Scott, Sison y Glaz. Pero también son ampliamente reconocidos:
1. Wilson, quien propuso la fórmula siguiente: p? 2 z??2 2n 2 1 1 2
2 4n 2 1? 2 n 2. Agresti y Coull (AC) quienes proponen agregar cuatro observaciones (dos éxitos y dos fracasos) y tomar 1
2 ?? 2 , n ??n ??z? y 2 p = x n con lo cual el IC quedará de la forma: p ?? z?? 2 p(1 – p) n 3. Una propuesta muy interesante, hecha por Jeffrey, puede ser vista como una estimación de carácter bayesiano con distribución a priori
informativa. Según esta propuesta el IC tiene laforma ??1 1 ?? B? , ?? que es no ? 2 2?? ?Lj(x) , U j(x) ?? donde ?
? ?? 0 si x ?? 0 1 1 ? ??? 2 2 2 ? ? ? ??
?? B x ??2 2 2 ? ? ? ??
4. Es conocido también el método no paramétrico que surge a través de la propuesta bootstrap de Efron (1979) pero que requiere el uso de computador y la programación de un algoritmo que tome muchas submuestras de la muestra
? ? ? ? ?1 ?1 ? ? ????p ? ??1??p?? ? ? ? ? ? ? ? ? 1 ?1 ? ????p ? ? ??1??Exp?log? ???? np(1??p) 2 g z? 2 ?? ? ??1??p?? ? ? ? ?????p ?? ? ? 1 ?1 ? ?? ?? ? ? ??? ? ?? ?????p ?? ? ? 1 ?1 ? ?? 1??Exp?log? ???? np(1??p) 2 g ???? ??1??p?? ?? ? z ? ???? 1????? ? ? ?1?? ?? 6 ? ?1??????n??2T ??1 n?1????? ?1? ? g (T) ?? n ??? ? ?? ? ??? 2?? ? ?? ? ?? ?? z ?? 1 ?? 12 JACMEN Estimación de proporciones dada, construya la distribución empírica de las proporciones obtenidas con esas muestras y finalmente calcule los percentiles P? y 2 P ?? 1???? 2 que corresponden a los límites del intervalo de confianza.
5. Haremos una breve referencia a un método de reciente aparición propuesto por Zhou, Li y Yang (2008), denominado método ZL, según el cual el CI puede construirse de acuerdo con la siguiente expresión: ? ?
Exp?log? ???? np(1??p) 2 g z ? ?????? 2 , 2 ?? ??1??p?? 1????? ? ? ?
??? Exp?log? ???? np(1??p) 2 g z? ?? ? 2 ??
??
? ? 1 ?? ? 1 ??3 ? Siendo ?1 ?? con ???? 1 2p p(1? p) . 6 ? ? ? ?
? Para un nivel de confianza del 95% se tiene ??1.96 2 y z??????????1.96 2 Si x ??0 o x ??n se toma x ??0.5 en vez de x y n?1 en vez de n. Este método se encuentra implementado en un programa Matlab que se presenta al final del documento (ver Apéndice, Programa No 1 ).
Los autores del método ZL hacen las siguientes recomendaciones:
a. Proscribir el método de Wald. b. Usar el método de Wilson cuando no se conozca el posible valor de ??. c. Si se tiene alguna idea del posible valor de ???y éste es cercano a 0.5 usar el método AC de Agresti Coull, pero si el valor de ??es cercano a los extremos 0 o 1 usar el método ZL.
6. Finalmente: de muy reciente aparición (diciembre de 2014) en el Journal of Statistical Theory and Applications (Vol 13, No 4) un artículo de D. Habtzghi, C.K. Midha y A. Das, propone un método radicalmente diferente para construir los intervalos de confianza. Este método calcula los valores esperados de los intervalos mediante la búsqueda de sus límites que son modelados a través de
13 JACMEN Estimación de proporciones la variación de los niveles 1??? y la aplicación de dos modelos logísticos especiales.
En este artículo los autores comparan los métodos de Wald, Clopper y Pearson, Wilson, Agresti-Coull y Jeffrey con el que ellos proponen, denominado Mnew. Los resultados muestran que el método de Wald fue el de peor cobertura, el Mnew fue el mejor y los otros cuatro fluctúan entre los dos anteriores. El método ZL no fue incluído en las comparaciones.
La tabla siguiente proporciona los IC del 95% de confianza para muestras de tamaños comprendidos entre 5 y 16, según el número x de éxitos presentes se encuentra en el en la muestra. Una tabla más completa (hasta n ??40)
artículo original. A manera de ejemplo presentaremos el IC calculado según algunos de los métodos mencionados a lo largo de este documento.
14 JACMEN Estimación de proporciones Como puede apreciarse en esta tabla el IC más desfasado es el correspondiente al método tradicional de Wald
Existe también un paquete implementado en R que permite, entre otras varias cosas, estimar proporciones mediante 8 métodos, entre ellos, cuatro de los que hemos mencionado en este documento. Es el paquete BINOM.
Los métodos y la sintaxis para el uso de BINOM son los siguientes: El nombre que se encuentra entre comillas se utiliza para invocar cada procedimiento como se muestra en el ejemplo siguiente:
15 JACMEN Estimación de proporciones La opción “all” se encuentra por defecto.
CASO DE PROPORCIONES MULTINOMIALES
Terminaremos estas notas con una muy breve referencia al caso de proporciones multinomiales, es decir, a aquel tipo de proporciones que hace referencia a poblaciones cuyos elementos están clasificados en k categorías disjuntas.
?ni 16 JACMEN Estimación de proporciones
Este caso presenta aún mayores dificultades teóricas y hay muchas menos referencias bibliográficas. Su estudio merece un capítulo aparte por lo que en estas notas solamente se hará un resumen muy sucinto de algunos trabajos y una rápida referencia a uno de los métodos de estimación más versátiles que fue propuesto por Quesenberry y Hurst (1964), el cual es aplicable siempre que se tengan muestras de gran tamaño. Supóngase que se tiene una población de N elementos partida en k categorías A1,A2, Ak con N1,N2, ,Nk elementos respectivamente. Se extrae una muestra de n elementos y, en general, se desea saber cuál es la probabilidad de que haya xi elementos de la categoría Ai, para i ??1,2, ,k . Obviamente se ha de cumplir k ?? N i ??N y i?1 ? n. k
i?1 de que Igual que en el caso binomial, puede suceder que la probabilidad ????? i Ni
N el elemento seleccionado pertenezca a la categoría Ai no cambie en las sucesivas extracciones, lo que ocurre si dichas extracciones son independientes. Esto sucede únicamente cuando se hace muestreo CON reemplazamiento ya que obviamente las categorías no son infinitas. En tal caso se tiene un modelo multinomial de k categorías. Por el contrario, si la probabilidad de que el elemento extraído pertenezca a Ai cambia con cada extracción, lo que ocurre, como es usual, si se hace muestreo SIN reemplazamiento, se tiene un modelo hipergeométrico k-variado. Si Xi es la variable aleatoria que cuenta el número de elementos de la categoría principales Ai que aparecen en la muestra, el cuadro siguiente resume las propiedades de los modelos multinomial e hipergeométrico k-variado:
Página siguiente |