Estadistica – Metodo empirico (página 2)

Partes: 1, 2

Rangos este tipo de gráficos la extensión máxima y mínima de las barras indica los rangos superior e inferior de validez de los datos considerados.

Hictograma de frecuencia

Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Utilización

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos.
son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Tipos

Diagramas de barras simples representa la frecuencia simple mediante la

Altura de la barra

Diagramas de barras compuesta representa la información de una tabla de doble entrada o sea a partir de dos variables las cuales se representan la altura de la barra representa la frecuencia simple de las categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.

Diagramas de barras agrupadas representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

Polígono de frecuencia

Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos.

También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos.

Ejercicio; las temperaturas en un día de otoño de una ciudad han sufrido las siguientes variaciones:

Características de los polígonos de frecuencias

No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto con mayor altura representa la mayor frecuencia.
Suelen utilizarse para representar tablas tipo B.
El área bajo la curva representa el 100% de los datos. El polígono de frecuencia esta diseñado para mantener la misma área de las columnas.

Tipos

Polígonos agrupados para el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma.

Ejercicio: Peso de 65 personas adultas viene dado por la siguiente tabla:

Polígono acumuladas se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas o su correspondiente polígono.

Gráfico de sector

Se consideran una figura geométrica en que la distribución de frecuencias se reparte dentro de la figura como puede ser una dona, pastel, círculo o anillo, en el que cada porción dentro de la figura representa la información porcentual del total de datos.

Para comprender mejor estos conceptos, presentamos algunos ejercicios que incluyan las diferentes propiedades del cuadro. En el primer gráfico vamos a describir las categorías de la variable Clase social; para lograrlo debemos ubicar la variable en la lista e ingresarla en la casilla Sectores Por y a su vez elegimos la opción de color; sucesivamente en la pestaña Gráfico de sectores seleccionamos las opciones de etiqueta Recuento y Porcentaje, así como la ubicación Todo dentro. Después de ingresar la variable y seleccionar las opciones de etiqueta, hacemos clic en Aceptar con lo cual el gráfico es creado en el visor de resultados.

Si nos fijamos en los resultados del gráfico notaremos que cada uno de los sectores (categorías) cuenta con un color distinto y a su vez se anexa un cuadro con las respectivas leyendas representativas. La verdadera utilidad de un gráfico de sectores radica en la facilidad de interpretar el comportamiento de los datos de cada categoría y la contribución de cada una de ellas a la composición de la variable.

En los gráficos de sectores al igual que en los de barras y áreas, entre menor sea el número de categorías de la variable más sencillo es el gráfico y mayor cantidad de etiquetas se pueden incluir; si el número de categorías o estados es elevado, lo es más apropiado es incluir sólo aquellas etiquetas que son bastante representativas, como el recuento o el porcentaje.

Para el segundo ejercicio, vamos a generar un gráfico que describa la relación existente entre la condición de salud y el estado civil. Para crear el gráfico debemos volver al cuadro de diálogo Crear gráfico de sectores, empleando alguno de los métodos anteriormente mencionados.

Una vez en él, ubicamos la variable Condición de salud y la ingresamos en la casilla sectores y a continuación ingresamos la variable Estado civil en la casilla de panel. Después de ingresar las variables seleccionamos la pestaña Grafico de sectores y desactivamos la opción Recuento; para finalizar hacemos clic en Aceptar con lo cual el gráfico se crea en el visor de resultados.

Cuando se ingresa una variable en la casilla del panel, el programa crea un gráfico para cada una de las categorías de dicha variable. Encontramos cinco diferentes gráficos cada uno de ellos nos enseña el estado de salud de los diferentes estados civiles. Si nos fijamos en el primero de los gráficos (Soltero), notaremos que el 59.64% de los encuestados cuentan con una Excelente o Buena salud.

Desde luego la suma de las frecuencias de todos los gráficos debe ser igual a la frecuencia de la variable Condición de salud; dado que para este caso las variables cuentan con un elevado número de categorías, fue necesario suprimir la leyenda del recuento o de lo contrario sobre cargaríamos de información el gráfico dificultando su interpretación.

Características de los gráficos de sectores

No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cualitativos o casi cualitativos.
La mayor área (o porción de la figura) representa la mayor frecuencia.
Son muy fáciles de elaborar.
Suelen utilizarse para representar tablas tipo A.
La figura completa equivale al 100% de los datos (360º)

Curva de frecuencia o normal

El conjunto de datos puede considerarse normalmente como perteneciente a una muestra extraída de una población grande. A causa de las muchas observaciones que podemos realizar en la población es posible teóricamente (para datos continuos) elegir los intervalos de clase muy pequeños y todavía tener un número adecuado de observaciones dentro de cada clase.

Tipos

Las curvas de frecuencias simétricas o sesgadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal.
En las curvas de frecuencia moderadamente asimétricas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo.
En las curvas en forma de J o de J invertida el máximo se presenta en un extremo.
Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos.
Una curva de frecuencias bimodal tiene dos máximos
Una curva de frecuencias multimodal tiene más de dos máximos.

Método de Esturge

Es una comparación de los resultados obtenidos a través de las fórmulas propuestas para determinar el número de clases en datos agrupados.

m=1+3.332 Log n en donde M es numero de intervalos, la incógnita y n es el numero de datos.Ejercicio

Tenemos 30 datos, necesitamos determinar el número de intervalo, necesario para agruparlos y hacer análisis estadísticos.m=1+3.332 Log 30m=1+3.332 (1.477)m=1+4.9213m=5.9213Puede este valor aproximarse por exceso a 6Este valor, representa el numero de datos agrupados que se tendrá para el análisis estadístico.

Medida de dispersión

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Las medidas de dispersión son:

Rango o recorrido diferencia entre el mayor y el menor de los datos de una distribución estadística.
La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética. Di = x – x
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Ejercicio; calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es

Varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Las propiedades de la varianza son:

– La varianza es siempre positiva o cero.

– La varianza de una constante es cero.

– La varianza de la suma o diferencia de una variable y una constante es igual a la varianza de la variable.

– La varianza de un producto de una constante por una variable es igual al cuadrado de la constante por la varianza de la variable.

Desviación típica es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.

Las propiedades de la desviación típica son:

La desviación típica es siempre positiva o cero.
La desviación típica de una constante es cero.
La desviación típica de una constante por una variable es igual a la constante por la desviación típica de la variable.
La desviación típica de la suma o diferencia de una variable y una constante es igual a la desviación típica de la variable

Distribución simétrica y asimétrica

Distribución Simétrica Se caracteriza porque cada una de las observaciones equidistantes al máximo central, tienen aproximadamente la misma frecuencia. Es típico de la mayoría de los procesos industriales.

Distribución Asimétrica s típica de datos económicos, y de forma general en distribuciones de renta, consumo de electricidad, población, tamaño de empresas.

Coeficiente Pearson

El coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

El coeficiente de correlación entre dos variables aleatorias X e Y es el cociente

Probabilidad concepto

La probabilidad constituye un importante parámetro en la determinación de las diversas casualidades obtenidas tras una serie de eventos esperados dentro de un rango estadístico.

Existen diversas formas como método abstracto, como la teoría Dempster-Shafer y la numérica, esta última con un alto grado de aceptación si se toma en cuenta que disminuye considerablemente las posibilidades hasta un nivel mínimo ya que somete a todas las antiguas reglas a una simple ley de relatividad

La probabilidad de un evento se denota con la letra p y se expresa en términos de una fracción y no en porcentajes, por lo que el valor de p cae entre 0 y 1. Por otra parte, la probabilidad de que un evento "no ocurra" equivale a 1 menos el valor de p y se denota con la letra q:

Los tres métodos para calcular las probabilidades son la regla de la adición, la regla de la multiplicación y la distribución binomial.

Regla de la adición

La regla de la adición o regla de la suma establece que la provalidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo.

Regla de la multiplicación

La regla de la multiplicación establece que la probabilidad de ocurrencia de dos o más eventos estadísticamente independientes ocurran todas es igual al producto de sus probabilidades individuales.

Distribución binomial

La probabilidad de ocurrencia de una combinación específica de eventos independientes y mutuamente excluyentes se determina con la distribución binomial, que es aquella donde hay solo dos posibilidades, tales como masculino/femenino o si/no.

VARIABLE ALEATORIA

En gran número de experimentos aleatorios es necesario, para su tratamiento matemático, cuantificar los resultados de modo que se asigne un número real a cada uno de los resultados posibles del experimento. De este modo se establece una relación funcional entre elementos del espacio muestral asociado al experimento y números reales.

Podemos asignar entonces a cada suceso elemental del experimento el número de caras obtenidas. De este modo se definiría la variable aleatoria X como la función

Tipos de variables aleatorias

Para comprender de una manera más amplia y rigurosa los tipos de variables, es necesario conocer la definición de conjunto discreto. Un conjunto es discreto si está formado por un número finito de elementos, o si sus elementos se pueden enumerar en secuencia de modo que haya un primer elemento, un segundo elemento, un tercer elemento, y así sucesivamente.

Variable aleatoria discreta: una v.a. es discreta si su recorrido es un conjunto discreto. La variable del ejemplo anterior es discreta. Sus probabilidades se recogen en la función de cuantía (véanse las distribuciones de variable discreta).
Variable aleatoria continua: una v.a. es continua si su recorrido no es un conjunto numerable. Intuitivamente esto significa que el conjunto de posibles valores de la variable abarca todo un intervalo de números reales. Por ejemplo, la variable que asigna la estatura a una persona extraída de una determinada población es una variable continua ya que, teóricamente, todo valor entre, pongamos por caso, 0 y 2,50 m, es posible. (véanse las distribuciones de variable continua)
Variable aleatoria independiente: Supongamos que "X" y "Y" son variables aleatorias discretas. Si los eventos X = x / Y = y son variables aleatorias independientes. En tal caso: P(X = x, Y = y) = P(X = x) P (Y = y).

De manera equivalente: f(x,y) = f1(x).f2(y).

Inversamente, si para todo "x" e "y" la función de probabilidad conjunta f(x,y) no puede expresarse sólo como el producto de una función de "x" por una función de "y" (denominadas funciones de probabilidad marginal de "X" e "Y" ), entonces "X" e "Y" son dependientes.

Si "X" e "Y" son variables aleatorias continuas, decimos que son variables aleatorias independientes si los eventos "X = x", e "Y = y" y son eventos independientes para todo "x" e "y" .

De manera equivalente: F(x,y) = F1(x).F2(y), donde F1(x) y F2(y) son las funciones de distribución (marginal) de "X" e "Y" respectivamente.

Inversamente, "X" e "Y" son variables aleatorias dependientes si para todo "x" e "y" su función de distribución conjunta F(x, y) no puede expresarse como el producto de las funciones de distribución marginales de "X" e "Y".

Para variables aleatorias independientes continuas, también es cierto que la función de densidad conjunta f(x,y)es el producto de las funciones densidad de probabilidad marginales de "X", f1(x), y de "Y", f2(y).

Distribución de probabilidad de una v.a.

La distribución de probabilidad de una v.a. describe teóricamente la forma en que varían los resultados de un experimento aleatorio. Intuitivamente se trataría de una lista de los resultados posibles de un experimento con las probabilidades que se esperarían ver asociadas con cada resultado.

Función de densidad de una v.a. continua

La función de densidad de probabilidad (FDP) o, simplemente, función de densidad, representada comúnmente como f(x), se utiliza con el propósito de conocer cómo se distribuyen las probabilidades de un suceso o evento, en relación al resultado del suceso.

La FDP es la derivada (ordinaria o en el sentido de las distribuciones) de la función de distribución de probabilidad F(x), o de manera inversa, la función de distribución es la integral de la función de densidad:

La función de densidad de una v.a. determina la concentración de probabilidad alrededor de los valores de una variable aleatoria continua.

Parámetros de una v.a.

La función de densidad o la distribución de probabilidad de una v.a. contienen exhaustivamente toda la información sobre la variable. Sin embargo resulta conveniente resumir sus características principales con unos cuantos valores numéricos. Estos son, fundamentalmente la esperanza y la varianza.

Varianza

Espacio muestral

En la teoría de probabilidades se llama espacio muestral o espacio de muestreo al conjunto de todos los posibles resultados individuales de un experimento aleatorio.

Por ejemplo, si el experimento consiste en lanzar dos monedas, el espacio de muestreo es el conjunto {(cara, cara), (cara, cruz), (cruz, cara) y (cruz, cruz)}. Un evento o suceso es cualquier subconjunto del espacio muestral, llamándose a los sucesos que contengan un único elemento sucesos elementales. En el ejemplo, el suceso "sacar cara en el primer lanzamiento", o {(cara, cara), (cara, cruz)}, estaría formado por los sucesos elementales {(cara, cara)} y {(cara, cruz)}.

Para algunos tipos de experimento puede haber dos o más espacios de muestreo posibles. Por ejemplo, cuando se toma una carta de un mazo normal de 52 cartas, una posibilidad del espacio de muestreo podría ser el número (del as al rey), mientras que otra posibilidad sería el palo (diamantes, tréboles, corazones y picas). Una descripción completa de los resultados, sin embargo, especificaría ambos valores, número y palo, y se podría construir un espacio de muestreo que describiese cada carta individual como el producto cartesiano de los dos espacios de muestreo descritos.

Los espacios de muestreo aparecen de forma natural en una aproximación elemental a la probabilidad, pero son también importantes en espacios de probabilidad. Un espacio de probabilidad (O, F, P) incorpora un espacio de muestreo de resultados, O, pero define un conjunto de sucesos de interés, la s-álgebra F, por la cuál se define la medida de probabilidad P.

Tipos de espacio muestral

Podemos diferenciar entre dos tipos de espacios muéstrales: discretos y continuos.

Discretos

Son aquellos espacios donde el número de sucesos elementales es finito o infinito numerable.

Espacio Probabilística discreto

Es aquel cuyo espacio muestral es discreto. Podemos diferenciar varios tipos de espacio probabilística discreto:

Espacio Probabilística Discreto Equiprobable

Espacio Probabilística Finito

Su espacio muestral es discreto finito.
Hay al menos 2 sucesos elementales que cumplen.

Procesos Estocásticos Finitos Y Diagramas de Árbol

Un proceso estocástico es una sucesión finita de experimentos aleatorios, cada uno de ellos con un nº finito de resultados posibles. Se representan con diagrama de árbol.

Ejercicio; Imaginemos que se lanzan una moneda y un dado

Espacio Probabilística Infinito Contable

Aquel cuyo espacio muestral es discreto infinito contable. Por ejemplo

Continuos

Son aquellos espacios donde el número de sucesos elementales es infinito incontable.

Espacio probabilística continuo

-Habitualmente cuando trabajamos con magnitudes físicas.

Particiones

Es posible definir particiones sobre el espacio muestral. Formalmente hablando, una partición sobre O se define como un conjunto numerable:

Ejercicio; en el caso del experimento aleatorio "lanzar un dado", el espacio muestral del experimento sería:

La elección del espacio muestral es un factor determinante para realizar el cálculo de la probabilidad de un suceso.

Distribución de probabilidad

La distribución Normal suele conocerse como la "campana de gauss".

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definición de función de distribución

Propiedades

Como consecuencia casi inmediata de la definición, la función de distribución:

Es una función continua por la derecha.
Es una función monótona no decreciente.

Además, cumple

Por lo tanto una vez conocida la función de distribución F(x) para todos los valores de la variable aleatoria x conoceremos completamente la distribución de probabilidad de la variable.

Para realizar cálculos es más cómodo conocer la distribución de probabilidad, y sin embargo para ver una representación gráfica de la probabilidad es más práctico el uso de la función de densidad.

DISTRIBUCIONES DE VARIABLE DISCRETA

Distribución binomial.

Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es el sumatorio de la función de masa, por lo que tenemos entonces que:

Distribuciones de variable discreta más importantes

Las distribuciones de variable discreta más importantes son las siguientes:

• Distribución binomial

• Distribución binomial negativa

• Distribución Poisson

• Distribución geométrica

• Distribución hipergeométrica

• Distribución de Bernoulli

• Distribución Rademacher, que toma el valor 1 con probabilidad 1 / 2 y el valor -1 con probabilidad 1 / 2.

• Distribución uniforme discreta, donde todos los elementos de un conjunto finito son equiprobables.

DISTRIBUCIONES DE VARIABLE CONTINUA

Distribución normal.

Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:

Distribuciones de variable continua más importantes

Las distribuciones de variable continua más importantes son las siguientes:

• Distribución ji cuadrado

• Distribución exponencial

• Distribución t de Student

• Distribución normal

• Distribución Gamma

• Distribución Beta

• Distribución F

• Distribución uniforme (continua)

Esperanza matemática

Cuando la variable aleatoria es discreta, la esperanza es igual a la suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso. Por lo tanto, representa la cantidad media que se "espera" como resultado de un experimento aleatorio cuando la probabilidad de cada suceso se mantiene constante y el experimento se repite un elevado número de veces. Cabe decir que el valor que toma la esperanza matemática en algunos casos puede no ser "esperado" en el sentido más general de la palabra – el valor de la esperanza puede ser improbable o incluso imposible.

Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de 6 caras es 3,5. Podemos hacer el cálculo

Y cabe destacar que 3,5 no es un valor posible al rodar el dado. En este caso, en el que todos los sucesos son de igual probabilidad, la esperanza es igual a la media aritmética.

Una aplicación común de la esperanza matemática es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un solo número paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos apostado y recuperamos la apuesta, así que recibimos 36 veces lo que hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza matemática del beneficio para apostar a un solo número es:

Que es -0,0526 aproximadamente. Por lo tanto uno esperaría, en media, perder unos 5 céntimos por cada euro que apuesta, y el valor esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas, un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama un "juego justo".

Nota: El primer paréntesis es la "esperanza" de perder tu apuesta de $1, por eso es negativo el valor. El segundo paréntesis es la esperanza matemática de ganar los $35. La esperanza matemática del beneficio es el valor esperado a ganar menos el valor esperado a perder.

Definición

Distribucion normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar, denotadas generalmente por y Con esta notación, la densidad de la normal viene dada por la ecuación:

Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste.

Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1, resultando:

Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?

Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una distribución Si su distribución fuese la de una normal estándar podríamos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como éste no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y obtener la variable:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (iii) de la distribución normal.

No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen.

Aunque la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población.

Contraste de normalidad

La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos de los procedimientos estadísticos que habitualmente se manejan. Tal y como ya se apuntaba antes, la simple exploración visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas, podrá ayudarnos a decidir si es razonable o no el considerar que proceden de una característica de distribución normal. Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a, correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso del peso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramente asimétrica y diferente de la gaussiana.

Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión meramente subjetiva acerca de la posible distribución de nuestros datos, y que es necesario disponer de otros métodos más rigurosos para contrastar este tipo de hipótesis. En primer lugar, deberemos plantearnos el saber si los datos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría, pues es ésta una de las características fundamentales de la distribución de Gauss. Aunque la simetría de la distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable en cuestión8 (comparando, por ejemplo, los valores de media, mediana y moda), resultará útil disponer de algún índice que nos permita cuantificar cualquier desviación.

Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica para comprobar si un conjunto de datos puede considerarse o no procedente de una distribución normal. La idea básica consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos que se obtendrían de una distribución gaussiana. Si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En los gráficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles de la distribución normal. Además de permitir valorar la desviación de la normalidad, los gráficos de probabilidad permiten conocer la causa de esa desviación. Una curva en forma de "U" o con alguna curvatura, como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica con respecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la distribución tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de la distribución.

Parece lógico que cada uno de estos métodos se complemente con procedimientos de análisis que cuantifiquen de un modo más exacto las desviaciones de la distribución normal. Existen distintos tests estadísticos que podemos utilizar para este propósito. El test de Kolmogorov-Smirnov es el más extendido en la práctica. Se basa en la idea de comparar la función de distribución acumulada de los datos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas. Como en cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico supera un cierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la mayoría de los paquetes estadísticos, como el SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor del test como el p-valor correspondiente, no nos detendremos más en explicar su cálculo. Existen modificaciones de este test, como el de Anderson-Darling que también pueden ser utilizados. Otro procedimiento muy extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipo de procedimientos deben ser utilizados con precaución. Cuando se dispone de un número suficiente de datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando estas no sean relevantes para la mayor parte de los propósitos. El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor a las observaciones extremas y por la tanto es menos sensible a las desviaciones que normalmente se producen en estos tramos.

Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los datos de la Figura 4. Para el caso del peso, el valor del estadístico proporcionado por dicho test fue de 0.705, con un p-valor correspondiente de p=0.702 que, al no ser significativo, indica que podemos asumir una distribución normal. Por otra parte, para el caso de la edad, en el que la distribución muestral era mucho más asimétrica, el mismo test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este caso la hipótesis de una distribución gaussiana.

Figura 2. Gráfica de una distribución normal y significado del área bajo la curva.

TIPOS DE VARIABLES

VARIABLE INDEPENDIENTE

Una variable independiente es aquella cuyo valor no depende del de otra variable.

La variable independiente en una función se suele representar por x.

La variable independiente se representa en el eje de abscisas.

VARIABLE DEPENDIENTE

Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable.

La variable dependiente en una función se suele representar por y.

La variable dependiente se representa en el eje ordenadas.

La variable y está en función de la variable x.

VARIABLE INDEPENDIENTE

En investigación, se denomina variable independiente a aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente. A la variable independiente también se la conoce como variable explicativa, y mientras que a la variable dependiente se la conoce como variable explicada. Esto significa que las variaciones en la variable independiente repercutirán en variaciones en la variable dependiente.

Por ejemplo, un investigador desea conocer la efectividad de un nuevo dentífrico contra la caries. Para realizar el experimento se seleccionarán dos grupos, un grupo principal al que se le aplicará un tratamiento (el uso de un dentífrico) y otro al que no se le aplicará nada en absoluto. Para que el experimento tenga validez ambos grupos deben ser sometidos al mismo régimen de comidas de forma que controlemos que no aparezcan otras variables intervinientes (por ejemplo, que un grupo se alimente sólo de dulces y el otro no partiendo del supuesto de que comer más dulces provoca más caries, elemento que no tenemos controlado). En este caso la variable independiente corresponde a la aplicación o no del dentífrico y la dependiente a si aparecen o no caries. Así, tenemos que la presencia de caries (variable dependiente) es explicada por el uso o no de dentífrico (variable independiente).

Como se ha señalado, la validez de todo experimento depende en gran medida de que se controlen esas variables intervinientes. Ésa es la razón principal por la que los experimentos en Ciencias se hagan en la medida de lo posible en condiciones de vacío, para poder eliminar todas las explicaciones alternativas derivadas de las condiciones materiales del experimento.

VARIABLE DEPENDIENTE

Una variable dependiente es aquella cuyos valores dependen de los que tome otra variable.

Otros tipos de variables

Variables control: Variable de referencia en una investigación

Por último, existen varias clasificaciones de variables según sus características:

Variable continua: es cuando la variable continúa Variables discretas: Son aquellas que establecen categorías en términos no cuantitativos entre distintos individuos o elementos. Por ejemplo cuando quiero clasificar a las personas en clases sociales: alta, media, baja. O cuando quiero calificar un servicio de un hospital: excelente, bueno, regular, malo.
Variables individuales: Presentan la característica que distingue a ciertos individuos.
Variables colectivas: Presentan la característica que distingue a un grupo determinado.
Variables antecedentes: Es una variable que es antecedente de otra variable.

La recta de regresión es la que mejor se ajusta a la nube de puntos.

La recta de regresión pasa por el punto

llamado centro de gravedad.

RECTA DE REGRESIÓN DE Y SOBRE X

La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X.

La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.

RECTA DE REGRESIÓN DE X SOBRE Y

La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y.

La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.

Si la correlación es nula, r = 0, las rectas de regresión son perpendiculares entre sí, y sus ecuaciones son:

y =

x =

EJERCICIO

Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas							2	3	4	4	5	6	6	7	7	8	10		10
Física							1	3	2	4	4	4	6	4	6	7	9		10

Hallar las rectas de regresión y representarlas.

Error estándar de estimación

Error estándar en la estimación

El error estándar de la estimación designado por sYX mide la disparidad "promedio" entre los valores observados y los valores estimados de. Se utiliza la siguiente formula.

Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuación los valores de los porcentajes de graduados de cada ciudad estudiada.

Y X

4.2 7.2 4.6 -0.4 0.16

4.9 6.7 4.5 0.4 0.16

7.0 17.0 6.6 0.4 0.16

6.2 12.5 5.7 0.5 0.25

3.8 6.3 4.4 -0.6 0.36

7.6 23.9 8.0 -0.4 0.16

4.4 6.0 4.4 0.0 0.00

5.4 10.2 5.2 0.2 0.04

1.29

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir

La disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado ó esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 serán decenas de miles de pesos, razón por la cual no es posible comparar con las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relación entre las variables.

INTERPOLACIÓN LINEAL

La interpolación lineal es un caso particular de la Interpolación general de Newton.

Con el polinomio de interpolación de Newton se logra aproximar un valor de la función f(x) en un valor desconocido de x. El caso particular, para que una interpolación sea lineal es en el que se utiliza un polinomio de interpolación de grado 1, y se denota de la siguiente manera:

Interpolación lineal de una variable independiente.

Es igual que hacer integrales cerradas.

En una tabla se representan algunos valores de la función, pero no todos, en ocasiones nos interesa el valor de la función para un valor de la variable independiente distinto de los que figuran en la tabla, en este caso podemos tomar el más próximo al buscado, o aproximarnos un poco más por interpolación, la interpolación casi siempre nos dará un pequeño error respecto al valor de la función verdadero, pero siempre será menor que tomar el valor más próximo de los que figuran en la tabla, veamos como se calcula al valor de la función para un valor de la variable independiente que se encuentre entre dos valores de la tabla por interpolación lineal.

Por la tabla sabemos que:

Queremos, pues, saber:

Siendo:

La interpolación lineal consiste en trazar una recta que pasa por (x1, y1) y (x2, y2), y = r(x) y calcular los valores intermedios según esta recta en lugar de la función y = f(x)

COEFICIENTE DE DETERMINACIÓN. COEFICIENTE DE CORRELACIÓN.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue

(6.15)

o bien

Como scE < scG, se verifica que 0 < R2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.

Por otra parte, teniendo en cuenta que i – = 1se se obtiene

(6.16)

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:

Figura 6.7.