Descargar

Estadistica computarizada

Enviado por oros


    1. CONCEPTOS BÁSICOS
    2. ESTADÍSTICA.
    3. POBLACIÓN
    4. MUESTRA.
    5. MUESTREO
    6. DATO
    7. VARIABLE
    8. CONSTANTE
    9. PROBLEMA
    10. HIPÓTESIS
    11. ESCALAS DE MEDICIÓN
    12. ORGANIZAR DATOS EN INTERVALOS DE CLASE
    13. MEDIDAS DE TENDENCIA CENTRAL
    14. MEDIDAS DE DISPERSIÓN
    15. DISTRIBUCION PROBABILISTICA
    16. COEFICIENTES DE CORRELACIÓN
    17. ANALISIS DE REGRESION LINEAL SIMPLE
    18. EJERCICIOS

     

     

    1. INTRODUCCIÓN

    El objetivo del presente trabajo es desarrollar algunos instrumentos estadísticos que permitan valorar, evaluar cuando dos factores, propiedades o características (variables) de un proceso u objeto de estudio, se encuentran significativamente asociados. Hay veces en que la expresión "todo está relacionado con todo", o "nada se relaciona con nada", es una buena expresión del desconocimiento de la realidad y la desesperación que se tiene al no tener claridad a qué y por dónde comenzar a aplicar una medida. ¿Qué va con qué ? es la pregunta a responder.

    Probar que dos variables no son independientes una de otra, es decir, que exite una determinada relación de asociación entre ellas, constituye el paso previo a dar antes de entrar a tomar algunas decisiones que implicaran con seguridad invertir expectativas, energía, tiempo y recursos en alguna solución al problema que investigamos.

    Por ejemplo, en la escuela básica "La Rochela" los rendimientos de alumnos en matemática no han sido satisfactorios segun lo determinado por el Comité Académico al término de un periodo escolar.

    El director del establecimiento pregunta, ¿Qué factores explican el resultado ?. Algunas respuestas pueden ser:

    No hay motivación en alumnos.

    Falta de perfeccionamiento y actualización docente.

    El bajo nivel socioeconómico de los alumnos.

    Como puede constatar son varias las rutas posibles para que la dirección de la escuela pueda tomar la decisión mas adecuada. La estadística es una de las herramientas que nos permite evitar tomar decisiones sujetivas o de simplemente "creencias" sin fundamentación científica razonable.

    Por lo tanto para comprender bien la estadística debemos saber algo acerca de las diversas escalas que se usan para medir, notaciones estadísticas básicas, medidas de tendencia central, dispersión y correlaciones.

    Adicionalmente en este trabajo se pretende:

    Proporcionar herramientas útiles en el proceso de investigación, consideranndo que hay conceptos básicos que resultan de vital importancia para la toma de decisiones con respecto a los datos obtenidos en el proceso.

    Resaltar y dar énfasis que en todo proceso investigativo, mas aun cuando de recopilar muchos datos se trata, es necesario recurrir a herramientas necesarias de procesamiento electrónico, que nos permitan agilizar la ordenación sistematica y poder además tener seguridad y confiabilidad en el momento de realizar el respectivo proceso con los mismos.

    Considerando lo anteriormente expuesto, se podrá notar que los ejemplos dados son bastante sencillos desde el punto de vista de los cálculos matemáticos, los cuales pueden desarrollarse con pequeñas calculadoras o sin ellas. Sin embargo, cuando los cálculos se vuelven complejos o los datos a procesar son cientos de ellos, la parte manual se complica, y es alli donde es necesario, casi que indispensable, hacer uso de los aparatos de cálculo electrónico, en otras palabras, debemos recurrir al uso de los modernos computadores y su respectivo software (programa) para comodidad, seguridad y rapidez en el proceso. Ideal que para el seguimiento de los respectivos ejemplos se haga uso de una hoja electrónica, tal como Excel.

    2. CONCEPTOS BÁSICOS

    Antes de entrar a describir y ejemplarizar algunas de las herramientas bases del presente trabajo, recordemos algunos conceptos básicos requeridos en el proceso de investigación y la estadística.

    2.1 ESTADÍSTICA.

    Estadística viene de la palabara italiana "Statista" que significa "expresión" y fue introducida por primera vez a Inglaterra en el siglo XVIII.

    Estadística es la técnica utilizada en una investigación para la recolección de datos, ordenación, presentación y análisis.

    El término "Estadística" es usado en casos como por ejemplo: la estadística de los estudiantes que ingresaron el año pasado en los colegios de la ciudad de Cali.

    La estadística de los estudiantes universitarios que trabajan. La estadística de los analfabetas en Colombia. etc.

    Su campo de aplicación es bastante amplio, asi por ejemplo, en la mayoría de los campos de investigación donde se tenga que realizar pruebas, recolectar datos, se hace presente el uso de la estadística, para citar algunos:

    El análisis de los resultados académicos de los estudiantes.

    Resultados de las pruebas del ICFES.

    Un investigador requiere demostrar la hipótesis: "Los niños bien alimentados desarrollan mayor habilidad en el aprendizaje que los mal alimentados".

    Se desea verificar el experimento: "a las personas les tomará menos tiempo entender un texto con ilustraciones, que entender el mismo texto sin ilustraciones".

    En el proceso de la planeación, es indispensable tener información cuantitativa y cualitativa del pasado para tomar decisiones en el presente que tendrán implicaciones en el futuro.

    2.2 POBLACIÓN.

    Grupo entero de datos, objetos tales como alturas y pesos de los estudiantes de una universidad o número de cerrojos defectuosos y no defectuosos producidos por una fábrica en un día determinado.

    2.3 MUESTRA.

    Es una parte tomada de la población, seleccionada de acuerdo con una regla o plan.

    2.4 MUESTREO.

    Es la selección de una muestra representativa entre toda una población. El análisis de la muestra ofrece información acerca de toda la población.

    2.5 DATO.

    Es el registro de una información, o agrupación de cualquier número de observaciones relacionados. Para que los datos sean útiles, las observaciones necesitan estar organizadas en tal forma que se puedan identificar tendencias y llegar a conclusiones lógicas.

    Antes de confiar en cualquier interpretación de datos, es necesario probar los datos, haciéndose estas preguntas:

    ¿De dónde vienen los datos ? ¿Es probable que haya algún interés en suministrar datos que lleven a una conclusión en lugar de otra ? (las controvertidas polémicas por las estadísticas que arrojan en las encuestas de gaseosas y otros productos. Caso de las tendencias políticas, etc). ¿Cuántas observaciones tenemos ?¿Ellos representan todos los elementos del grupo que deseamos estudiar ?

    Por ello un dato es confiable o seguro cuando aplicado repetidamente a un mismo individuo o grupo, o al mismo tiempo por investigadores diferentes proporciona resultados iguales o parecidos.

    2.6 VARIABLE.

    Es un símbolo tal como X, Y, H que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. Variable se define tambien como los elementos o propiedades que se estudian: Sexo, ingresos, educación, clase social, etc. Las variables pueden clasificarse en dos tipos, Cualitativas o Cuantitativas.

    2.6.1 Variable cualitativa.

    Es una variable que no puede expresarse numéricamente sino que tiene naturaleza de categoría, es decir, que genera datos expresados con palabras denotando cualidades o atributos. Si la información de la variable que vamos a organizar corresponde a una variable cualitativa y si los datos generados no implican orden al enunciarlos, dicha información se reagrupa en categorías.

    2.6.1.1 Variable cualitativa no ordenable.

    Cuando los sucesos elementales se reagrupan en categorías, pero no requieren un orden determinado, pero si tiene un límite definido excluyentes unas de otras. Ejemplo:

    Variable Categoría

    Estado civil Soltero, casado, viudo, unión libre

    Religiosidad Católico, protestante, budista, etc

    Sexo Femenino, masculino

    Nacionalidad Colombiano, peruano, etc

    Rendimiento académico Excelente, Bueno, Regular, Deficiente

    Nivel Socio-económico Alto, Medio, Bajo

     

    Ejemplo.

    En una encuesta realizada sobre el uso de los medios de comunicación, se dieron los siguientes datos: Variable: Medios de comunicación

    Categorías Resultado encuesta

    Periódico 40

    Revistas 20

    Televisión 52

    Radio 35

    Correo 10

    Otros 5

    El orden de las categorías no implica para su ubicación.

    2.6.1.2 Variable cualitativa ordinal.

    Cuando los datos se reagrupan en rangos y estan definidos por cualidades o atributos. Ejemplo. En una evaluación de lectura (variable) sus rangos son: Eficiente, bueno, aceptable, deficiente (orden decreciente)

    2.6.2 Variable cuantitativa ordinal.

    Cuando los datos se reagrupan en rangos y estan definidos por números, se pueden jerarquizar pero no se conoce la intensidad de los rangos, es decir, quien es mayor o menor. Ejemplo

    Chiqui, Pianola y Cortizona pertenecen al estrato socio-economico 5, pero esto no indica que los tres tengan la misma "intensidad" socio-económica.

    2.6.3. Variable cuantitativa continua.

    Cuando la variable puede tomar cualquier valor entre dos valores dados consecutivos.

    Ejemplo: la altura en centímetros de un grupo de chicas, es posible encontrar chicas que midan entre 165 cms y 169.5 cms o entre 166 y 170 cms.

    2.6.4 Variable cuantitativa discreta.

    Cuando los sucesos o datos son números enteros. Ejemplo,

    Cortizona tiene 3 hijos, Lastenia tiene 2 hijos. Pero no se puede determinar que Lastenia por ejemplo, tiene entre 2 y 3 hijos.

    2.7 CONSTANTE.

    Cuando la variable solamente puede tomar un valor o permanece fijo durante un proceso o cálculo.

    2.8 PROBLEMA.

    Es una oración o aseveración interrogativa en la cual se pregunta: Qué relación existe entre dos o mas variables ?. La respuesta se busca a traves de la investigación.

    2.9 HIPÓTESIS.

    Es una afirmación en forma de conjetura de las relaciones entre dos o mas variables. Las hipótesis son siempre planteadas en forma de oraciones declarativas y relacionan variables con variables sea en forma general o específica.

    3. ESCALAS DE MEDICIÓN.

    Existen varios métodos para ordenar datos. En la mayoría de los casos, las técnicas de medición se pueden reducir a cuatro tipos de escalas: nominal, ordinal, de intervalos y de razón. Una escala es un sistema para asignar valores numéricos a ciertas características o rasgos mensurables.

    3.1 ESCALAS DE MEDICIÓN NOMINAL.

    En una escala nominal, acada cosa que se está midiendo se le asigna un número o nombre distinto, por ejemplo, un número, letra o número romano. Ejemplo, la asignación de números a un grupo de jugadores de beisbol. Estos no tienen nungún significado ni utilidad, excepto la de identificar a cada jugador. Otro ejemplo, Sexo: hombre, mujer

    Una variable corresponde a una escala nominal cuando los sucesos elementales se usan para clasificar personas, características u objetos en categorías que no admiten jerarquización ni cuantificación de los datos.

    3.2 ESCALAS DE MEDICIÓN ORDINALES.

    En éstas, la variable bajo medición se ordena o jerarquiza, sea cual fuere la diferencia de magnitud entre puntajes. Ejemplo, la jerarquización de personas o puntajes segun alguna medida particular, como el lugar que ocupan en la clase, del primero al último o del más alto al más bajo. Una escala ordinal dirá, por ejmplo, quien fue primero, segundo o tercero. Otro ejemplo: nivel socioeconómico: alto, medio, bajo.

    3.3 ESCALAS DE MEDICIÓN DE INTERVALO.

    En una escala de intervalos se obtiene una unidad especifíca de medición, que es de tal naturaleza, que la distancia o diferencia entre cualesquier dos números adyacentes es idéntica a la de cualesquier otros dos números. Las mediciones ocupan un lugar en una escala de puntajes de intervalo constante. Ejemplo, el logro académico se mide usualmente en escalas porcentuales o calificaciones de 1 a 10.

    3.4 ESCALA DE MEDICIÓN DE RAZÓN.

    Son variables cuyos sucesos elementales, además de ordenarlos jerárquicamente, permiten hacer comparaciones entre un par de valores, pero esta vez afirmando cuantas veces es mayor o menor un valor que otro, es decir existe un cero absoluto.

    Ejemplo: Juan tiene en ahorros 15000, su hermana Rosa posee 30000, en cambio su amigo Pedro 0 ahorros. Lo que indica que Rosa tiene el doble de ahorros que Juan.

    Ejercicios

    1) Determine en cada caso qué tipo de escala (nominal, ordinal de intervalo o de razón) usaría para clasificar las siguientes variables:

    a) Filiación política

    b) Edad en años cumplidos de un grupo de personas

    c) Grados de escolaridad de un grupo de personas

    d) Posición de estudios en un curso de acuerdo a su rendimiento académico

    2) Para las siguientes variables determine cuáles podrían ser las categorías que nos permitirán medir la variable.

    a) Nivel académico

    b) Ocupación de un padre de familia

    c) Puntaje del ICFES de estudiantes del colegio X

    d) Motivación hacia la matemática

    e) Nivel de religiosidad

    4. ORGANIZAR DATOS EN INTERVALOS DE CLASE.

    Considere que tiene los siguientes datos, ordenados, obtenidos de una muestra al azar sobre la estatura en centímetros, de niños en una escuela:

    107 111 111 112 112 113 113 113 114 114 115 115 116 116 116 117 117 117 117 118 118 118 118 119 119 119 119 120 120 120 120 121 121 121 121 121 122 122 122 122 123 123 123 123 124 124 124 124 125 125 125 126 126 126 127 127 128 128 129 129 130 130 133 135

    Otra forma de organizar los datos.

    Tabla 1

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    1. Rango = 135 – 107 = 28

    2. Rango: Es la diferencia entre el valor mayor de los datos y el menor.

      Se establecen de 5 a 15 o 5 a 20 clases (esto depende de la cantidad de datos). Tenga en cuenta que entre menos clases se definan se pierde detalle o si se establecen muchas se puede hacer dificil extraer informacion util.

      Por lo general siempre se definin clases de igual amplitud, los intervalos desiguales tienden a distorsionar las comparaciones. Se forman siempre clases que no se superpongan para eliminar toda posible ambigüedad en cuanto a que clase pertenece una observacion. Los intervalos de clase se eligen tambien de forma que las marcas de clase o puntos medios coincidan con datos realmente observados. Esto tiende a aminorar el llamado error de agrupamiento.

      Otra forma de encontrar el intervalo de clase ( K ), es haciendo uso de fórmula de sturges.

      K = 1 + 3.3 x log N N = Número de datos N=64

      K = 1 + 3.3 (log 64) = 6.96

      K = 7 (se redondea por defecto o por exceso)

    3. Intervalo de clase (K), se puede proceder teniengo en cuenta algunas reglas.

      El ancho de clase debe estar en un rango no menor de 5 y no mayor de 15 o 20.

      C = 28/7 C= 5 (se ajusta)

      Límites extremos inferior y superior de los intervalos

      Nuevo rango = (número de intervalos) x (ancho de clase)

      Nuevo rango = 7 x 5 = 35

      Ahora se tiene: rango nuevo – rango original : 35 – 28 = 7 (diferencia)

      Cuando los datos son enteros, a la diferencia se le resta 1

      Diferencia -1 = 6 se resta 1, para justificar en el paso 3.

      Este numero 6 se reparte entre el rango inferior (restando) y el superior (sumando), teniendo en cuenta si es par o impar, asi:

      Rango inicial: superior = 135 inferior = 107

      Diferencia -1 Rango inferior Rango superior

      0 107 135

      1 106 (resta 1) 135

      2 106 (resta 1) 136 (suma 1)

      3 105 (resta 2) 136 (suma 1)

      4 105 (resta 2) 137 (suma 2)

      5 104 (resta 3) 137 (suma 2)

      6 104 (resta 3) 138 (suma 3)

      y así sucesivamente.

    4. Ancho de clase ( C ). Este se define como : C = Rango/K.
    5. Marca de clase. Es el punto medio del intervalo de clase y se obtiene sumando los limites inferior y superior de la clase y dividiendo por 2.
    6. Limites reales de clase. Se obtienen sumando al limite superior de un intervalo de clase el limite inferior del intervalo de clase contiguo superior y dividiendo por 2.

    Ejemplo. De acuerdo al ejemplo citado, encontremos cada uno de estos conceptos.

    1. Rango: 135 – 107 = 28
    2. Intervalo de clase: Si utilizamos (al azar) 5 intervalos de clase, el tamaño de cada uno será: 28/5 = 6 aproximadamente. Si utilizamos 15 intervalos de clase, el tamaño de cada uno será: 28/15 = 2 aproximadamente.
    3. Ancho de clase: Considerando tomar como intervalo de clase 6. entonces el ancho sera: 28/6 = 5 aproximadamente

    Tomando 6 intervalos de clase y ancho 5, los datos estarán distribuidos:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    1. Para ver el gráfico seleccione la opción "Descargar" del menú superior

    2. Marca de clase: (107+111)/2 = 109. Si consideramos, por ejemplo, tomar como marca de clase 108, 113, 118, … los datos se pueden agrupar:
    3. Límite reales de clase: (105+106)/2 = 105.5 , (110+111)/2 = 110.5, y asi sucesivamente. Los limetes reales de clase estaran dados como:

    Intervalo Frecuencia

    105.5 – 110.5

    110.5 – 115.5

    ..

    Estos rangos no seran lo mas representativos, dado a que no coinciden exactamente con los datos observados.

    5. MEDIDAS DE TENDENCIA CENTRAL.

    Las medidas de tendencia central son valores que generalmente tienden a ubicarse hacia el centro de una distribución. Las tres medidas más frecuentes de tendencia central son media, mediana y moda.

    5.1 MEDIA o PROMEDIO.

    Es un valor que tiende a situarse en el centro del conjunto de datos ordenados segun su magnitud. Es equivalente a dividir la suma de todos los puntajes, entre el número total de éstos, en la distribución.

    Para el ejemplo: X = å (107+111+111+….) = 7724/64 = 120.69

    Realizar estas operaciones, haciendo uso de papel y lápiz o de una calculadora normal, sería bastante dispendioso. Haga uso de la hoja electronica Excel, digite estos mismos datos en una columna cualquiera, por ejemplo a partir de la celda A1.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    En la celda A65 haga uso de la funcion PROMEDIO. Obtendrá el resultado esperado.

    Para datos agrupados: (haga uso de la hoja electronica)

    m o X = å mifi/ N en donde

    mi = marca de clase de la i-esima clase

    fi = frecuencia de la i-esima clase

    Tabla 2

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Metodo abreviado. m o X = A + å difi/ N

    Otra forma de obtener la media, cuando los intervalos de clase son iguales. Se toma una media supuesta (A) aquella marca de clase que tenga mayor numero de frecuencias (aunque se puede tomar cualquiera), luego se toman las diferencias de cada marca con respecto a esta (A).

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    m o X = å mifi/ N = 119 + 1.72 = 120.72

     

    5.2 MEDIANA.

    Es el valor medio o la media artimética de los valores ordenados en orden de magnitud. Un 50% de los puntajes quedan encima de la mediana, y 50% por debajo. Si los puntajes suman un número par, la mediana es el promedio de los dos puntajes centrales, y por lo tanto ninguno puede atribuirsela. Si embargo si la suma de los puntajes es impar, la mediana sólo es el puntaje central.

    Ejemplo:

    3,4,4,5,6,8,8,8,10 la mediana es 6 ( Número de datos impares)

    5,5,7,9,11,12,15,18 la mediana es igual a 1/2(9+11) = 10 (Número de datos pares)

    Para nuestro ejemplo modelo: 107,111,111,112,…….. 135 (hay 64 datos) (121 +121)/2 = 121

    Para datos agrupados la fórmula viene dada por:

    Mediana =

    L1 = Límite real inferior de la clase mediana (clase que contiene la mediana)

    N = Número de datos (frecuencia total)

    (å f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana

    f = Frecuencia de la clase mediana

    C = Tamaño del intervalo de la clase mediana

    Ejemplo:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    L1 = (116+117)/2 = 116.5

    N = 64

    (å f)1 = (3 +12) = 15

    f = 21

    C = 5

    Mediana = 116.5 + [(64/2 – 15)/21](5) = 120.5

    5.3 MODA.

    Es el valor que se presenta con la mayor frecuencia en una distribución.

    2,2,5,9,9,9,10,10,12,18 la moda es 9 (equivalente al 30%)

    3,5,8,10,12,15,16 no tiene moda

    2,3,4,4,4,5,5,7,7,7 la moda es 4 y 7 (bimodal) (30% cada uno)

    Para datos agrupados la fórmula viene dada por:

    Lmo = Límite real inferior de la clase modal

    d1 = Diferencia (sin considerar signo) entre la frecuencia de la clase modal y la frecuencia de la clase precedente

    d2 =Diferencia (sin considerar signo) entre la frecuencia de la clase modal y la frecuencia de la clase siguiente.

    W = Amplitud de la clase modal (intervalo de la clase)

    Existen otras fórmulas para la variable continua, cuando la amplitud es constante.

    Para nuestro ejemplo:

    Lmo = 116.5 (21 es la frecuencia mayor)

    d1 = [21 – 12] = 9

    d2 = [21 – 18] = 3

    W = 5

    Moda = 116.5 + 9/(9+3)* 5 = 120.25

     

    5.4 CUARTILES, DECILES, PERCENTILES.

    Cuando la distribución contiene un numero alto de intervalos o de marcas de clase y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, diez o en cien partes. En el primer caso se habla de Cuartiles, en el segundo Deciles y en el último Centiles o Percentiles.

    Asi por ejemplo, si una serie de datos se colocan en orden de magnitud, el valor medio que divide al conjunto de datos en dos partes iguales es la mediana. Aquellos valores que dividen a los datos en cuat ro partes iguales representados por Q1, Q2 y Q3 se llaman primero, segundo y tercer cuartil. En igual forma, los valores que dividen los datos en diez partes iguales se llaman deciles (D1, D2, ….D9) y los que dividen en cien partes iguales se llaman percentiles (P1, P2,…P99)

    El primer cuartil (Q1) se define como el valor de la variable que supera al 25% de las observaciones y es superado por el 75% de las observaciones.

    Ejemplo: tomando los datos ejemplo de la Tabla 1

    Primer Cuartil (Q1) = N/4 64/4 = 16 es tomado para los casos comenzando desde el más bajo, en este caso no aparece, el más cercano por defecto es 15 (Nj-1), por lo tanto Nj sera 19. Por lo tanto Q1 = 117

    Tercer Cuartil (Q3) = 3N/4 = 3(64)/4 = 48, en este caso si existe, o sea Nj-1= 48 y Nj = 51, por lo tanto Q3 = (Yj-1 + Yj)/2 = (124+125)/2 = 124.5

    Percentil 80 P80 = 80N/100 = 80(64)/100 = 51.20 en este caso no aparece, el mas cercano por defecto es 51 (Nj-1), por lo tanto Nj sera 54. Por lo tanto P80 = 126

    Para datos agrupados. Ver Tabla 2

    Primer Cuartil

    Q1 = Yj-1 + C [(f/4 – Nj-1)/ fj] para Nj-1 < f/4

    64/4 = 16, por lo tnato Nj-1 = 15 y Nj = 36

    Q1 = 116 + 5 [(16-15)/21] = 116.2

    Sexto Decil. D6

    6(64)/10 = 38.4, por lo tnato Nj-1 = 36 y Nj = 54

    D6 = 121 + 5 [(38.4 – 36)/18] = 121.6

    Ejercicios

    La casa Rutherford acaba de instalar una nueva máquina para la fabricacion de rodamientos. Con el fin de establecer una norma de funcionamiento y determinar la precision de esta nueva máquina, todos los rodamientos producidos en un día determinado se miden cuidadosamente. Las características que interesa es el diámetro interno, que es una variable cuantitativa continua.

    4.94 5.06 4.96 4.96 5.01 5.04 4.95 4.99 4.98 5.01 5.00 4.96 5.01

    5.02 4.97 5.00 5.01 5.00 5.02 4.98 5.04 5.95 4.97 4.99 5.00 5.00

    4.98 5.03 5.00 5.02 4.99 4.97 5.01 5.04 5.02 4.98 5.01 5.03 4.98

    5.00 5.03 5.01 5.02 5.01 4.99

    Ordendando los datos de menor a mayor:

    4.94 4.95 4.95 4.96 4.96 4.96 4.97 4.97 4.97 4.98 4.98 4.98

    4.98 4.98 4.99 4.99 4.99 4.99 5.00 5.00 5.00 5.00 5.00 5.00

    5.00 5.01 5.01 5.01 5.01 5.01 5.01 5.01 5.01 5.02 5.02 5.02

    5.02 5.02 5.03 5.03 5.03 5.04 5.04 5.04 5.06

    Los valores cuantitativos van de 4.94 (rango inferior) a 5.06 (rango superior). Los intervalos de clase son de igual amplitud y no se superponen.

    Datos no agrupados:

    Media o Promedio m = å xi/ N = 224.94/45 = 4.9986

    Mediana= 5.0 (Observacion central)

    Moda= 5.01 (Mayor frecuencia)

    Datos agrupados:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Promedio m = å mifi/ N = 224.95/45 = 4.9992

    Mediana =

    L1 = (4.99 + 5.00)/2 = 4.995

    N = 45

    (å f)1= (3 + 6 + 9) = 18

    f = 15

    C = 2

    Mediana = 4.995 + [( 22.5 – 18)/15 ] 2 = 5.595

    Moda = Lmo + W [ d1 /(d1 + d2)]

    Lmo = 4.995

    d1 = (15 – 9) = 6

    d2 =(15 – 8) = 7

    W = 2

    Moda = 4.995 + [6/(6+7)](2) = 5.918

    1) Las calificaciones de un estudiante en seis pruebas fueron: 5.4, 4.0, 3.6, 4.5, 3.5, 4.0. Cuál es la calificación media ?.

    2) Cuatro grupos de estudiantes, formados por 15, 20, 10 y 18 individuos registran una media de peso de 162, 148, 153 y 140 libras, respectivamente. Hallar el peso medio de todos los estudiantes.

    3) Hallar la mediana de las calificaciones del punto 1.

    4) Teniendo en cuenta la tabla anterior (de los pesos en Kgs).

    a) Hallar el deciles D2, D5

    b) Hallar el percentil P3, P35, P60

    5) Si clasificamos 220 municipios en grandes, medianos y pequeños de acuerdo con el número de habitantes de forma que tenemos 49 grandes, 63 medianos y 108 pequeños, cómo los representaría en un histograma de frecuencias ?

    6. MEDIDAS DE DISPERSIÓN.

    Las medidas de dispersión son utilizadas para indicar el grado de uniformidad (homogeneidad) entre los datos de la variable en estudio. Permiten determinar el grado de desviación (dispersión) que tienen los datos con respecto a la media o a la mediana. Las dos más comunes son varianza y desviación estándar.

    6.1 VARIANZA.

    Es una medida de variabilidad o dispersión de un grupo de puntajes. Es una forma estadística de expresar la cantidad de dispersión en un grupo de puntajes; la magnitud de la dispersión está en relación directa con la varianza. Las siguientes fórmulas para datos no agrupados llegan a los mismos resultados.

    x = Media aritmética n= muestra total. Puede obtenerse tambien

    Para datos agrupados.

    S2 = å (Xi – x )2 ni /n

    S2 = å f(Xi – x )2 /n

     

    6.2 DESVIACIÓN TIPICA (S). o (DT)

    Es otra medida del grado en que los puntajes se apartan de la media. Se define como la raiz cuadrada de la varianza.

    La interpretación de la S es especialmente clara cuando se aplica a una curva de distribución normal o que se aproxima a la normal. En una distribución de este tipo existe una relación exacta entre la S y la proporción de casos (ver figura de la curva normal).

    Ejemplo: Tomando como modelo nuestro ejercicio base:

    107 111 111 112 112 113 113 113 114 114 115 115 116 116 116 117 117 117 117 …..

    Haga uso de la hoja electronica Excel, tal que le permita facilmente realizar los calculos y pueda aplicar la fórmula siguiente:

    S2 = å (Xi – x )2/n

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    La celda B67, por ejemplo, obtendría el promedio el cual será: =PROMEDIO(B2:B65)

    La celda C2, tendría el siguiente cálculo: =B2-$B$67

    La celda D2 sería: =C2*C2, finalmente D67 tendría el promedio: =PROMEDIO(D2:D65), el cual corresponde a la varianza. Según la fórmula arriba indicada.

    Luego obtener la raiz cuadrada de este valor, proporciona la Desviación Estándar. =RAIZ(D67)

    Para datos Agrupados.

    Teniendo en cuenta la fórmula S2 = å f(Xi – x )2 /n, y haciendo uso de la hoja electronica Excel.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Ejercicio.

    La siguiente tabla muestra las puntuaciones obtenidas por 10 estudiantes en un test de aprendizaje. En la misma tabla se presenta la diferencia de cada valor con respecto a la media. Determine si el procedimiento realizado para calcular la varianza y desviacion tipica es correcta para este tipo de datos.

    Tabla-3

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    å X = 400 å x2 = 244 N = 10

    M = å X/N = 400/10 = 40

    Varianza (s 2) = å x2 /N = 244/10 = 24.4

    Desviacion estándar (DS)= å x2 /N = 24.4 = 4.9

    La segunda columna indica cuánto se aleja cada puntuación, por encima o por debajo, de la media que es 40.

    7. DISTRIBUCION PROBABILISTICA.

    7.1 CONCEPTOS BASICOS

    Para el buen manejo y entenidimiento de este parte, se debe tener los conceptos básicos de probabilidades, pues juega un papel importante cuando se trata de elección de un modelo que permita la descripción del comportamiento de los datos. El término modelo, corresponde a una expresión empleada para estudiar los resultados de un experimento, como a su vez, ver el comportamiento en futuras repeticiones. Algunos conceptos a tener en cuenta:

    7.1.1 Distribución de probabilidad.

    Son todos los posibles valores que resultan de un experimento aleatorio, junto con la probabilidad asociada a cada valor.

    7.1.2 Variable aleatoria.

    Corresponde a una caracterización cualitativa de los resultados que constituyen un espacio muestral. Cada cantidad o valor es el resultado de un experimento aleatorio y, como tal, puede tomar distintos valores. Las variables aleatorias se clasifican en discreta y continua.

    Variable aleatoria discreta, cuando los valores que asume se pueden contar y si estos pueden organizarse en una secuencia al igual que los numeros enteros positivos. Solo puede asumir un numero finito de valores.

    Variable aleatoria continua. Cuando puede asumir cualquier valor dentro de un intervalo o en una union de intervalos. Admiten fracciones.

    Dentro de los modelos de probabilidad, correspondiente a variables aleatorias discretas, con mayor aplicación se tienen: Bernoulli, Binomial, Poisson, Exponencial, Multinomial e Hipergeométrico y en cuanto a la variable aleatoria continua se considera el modelo normal estandarizado. En este apartado tratare la Normal.

    7.1 CURVA NORMAL.

    Corresponde a un adistribución de variable aleatoria continua, que se extiende sobre un campo de variabilidad infinito y está determinada:

    n= Numero de datos. = Desviación estandar de la distribucion binomial . e =Base de los logaritmos naturales = 2.71828 = 3.141592… () = media de la distribución binomial = np.

    Se le denomina tambien, Gaussiana, Laplaciana, Distribución de Laplace-Gauss o de Gauss-Laplace o bien la segunda ley de Laplace. Aparentemente fue descubierta por De Moivre(1756) como forma límite de la Distribución Binomial.

    La curva normal es el tipo de distribución más comun. Una característica importante de la curva normal es que dice con exactitud la cantidad de casos que caen entre dos puntos cualesquiera de la misma.

    La simetría de la curva indica que la mitad del área está a la izquierda del vértice y la otra mitad a la derecha, así que la mitad de las probabilidades están asociadas con los valores a la izquierda del vértice y la otra mitad a los valores de la derecha del mismo. Debido a esta simetría, las desviaciones positivas y negativas respecto del valor x, donde está situado el vértice, tienen igual peso y por lo tanto se compensan entre sí, lo cual permite apreciar que el vértice ocurre para x = u. Adviértase tambien que la figura muestra el procentaje de casos que caen dentro de una, dos, y tres desviaciones estándar por encima y debajo de la media. Un 34% de los casos cae dentro de +1 DS (o -1 DS). Al alejarse de la media, el número disminuye. Asi las áreas cubiertas desde +1 DS hasta +2 DS, desde -1 DS hasta -2 DS representan cada una casi 14% de los casos. Entre 2 y 3 DS de la media existen menos casos aún, alrededor de 2% de la distribución.

    En el eje horizontal de esta curva se han marcado las distancias que representan una, dos y tres desviaciones típicas, por encima y por debajo de la media. Así, en el ejemplo que se da, la media corresponde a una puntuación de 40 y un DS de 4.9. Por lo tanto, + 1 DS estará a 44.9 (40+4.9); +2 DS, a 49.8 (40+2×4.9) y asi sucesivamente. El porcentaje de casos que en una curva normal figuran entre la media y +1 DS es 34.13%. Como la curva es simétrica, tambien se encuentra el 34.13% de los casos entre la media y -1 DS

    7.2 PUNTUACIÓN TÍPICA LINEAL.

    Las puntuaciones típicas expresan la distancia del individuo a la media en función de la desviación típica de la distribución.

    Las puntuaciones típicas lineales pueden obtenerse por transformaciones, lineales o no de las puntuaciones directas originales. Todos los cálculos que se puedan realizar con las puntuaciones directas originales pueden tambien efectuarse con las puntuaciones típicas lineales, sin ninguna distorsión de los resultados.

    Las puntuaciones típicas deducidas linealmente se designan a menudo simplemente como puntuaciones típicas o puntuaciones z. Se dice tambien que es variable normalizada ya que mide la desviación de la media en unidades de desviación típica.

    z =

    Ejemplo,

    Calcular la probabilidad de obtener 4, 5, 6 caras en 9 lanzamientos de una moneda.

    Mediante la aproximación binomial se tiene:

    n = 9, p= ½ , q = ½ u= np = 9(1/2) = 4.5

    p(3.5<x<6.5) = ? ( Se tiene que x=3.5 corresponde al límite inferior de 4 y x=6.5 es el límite superior de 6.

    Se quiere buscar el área a partir de la media hasta el límite inferior, dado que el área de cada lado vale 50%; la suma total será igual a uno. Se tiene que

    z = Ahora, haciendo uso de la tabla para valores z (distribución normal que viene como anexo en los libros de estadística). Tenemos que el area es igual a 0.2486 (este valor se encuentra de la siguiente manera: en dicha tabla se va hacia abajo por la columna encabezada por z, hasta alcanzar el valor 0.6. Sobre esta misma fila hacia la derecha hasta la columna encabezada por 0.07, la intercepción da el valor).

    z =

    Ahora se desea obtener el área comprendida entre z=-0.67 y z=1.33. Para ello sumamos los valores 0.2486 + 0.4082 = 0.6568. Por lo tanto la probabilidad de que aparezcan 4, 5 y 6 caras es de 65.68%

    Ejemplo:

    1. Determinar el área bajo la curva normal a la izquierda de z = -1.78

    P(z<-1.78) = ? P= 0.5000 – 0.4625 = 0.0375

    P = 3.75%

    (La suma de las partes es igual a 1. Por ello a 0.5000 se le resta el valor dado). Como z es menor a este valor, quiere decir que el area está al lado izquierdo de la curva.

    2. Encontrar el valor de z si el area a la derecha de z es igual a 0.2266.

    0.5000 – 0.2266 = 02734

    A(0.2734) por lo tanto z = 0.75 (debe buscarse en la tabla)

    3. Hallar z si el area bajo la curva normal entre 0 y z es 0.4515

    A(0.4515), por lo tanto z= 1.66

     

    Ejercicios.

    Determinar el área bajo la curva normal.

    1. A la derecha de z = 0.56
    2. A la dercha de z= -1.45
    3. Correspondiente a z < 2.16
    4. Correspondiente a -0.80 < z < 1.53

    Encontrar el valor de z:

    1. El area a la izquierda de z es 0.0314
    2. El area entre –0.23 y z es igual a 0.5722
    3. El area entre 1.15 y z es 0.0730
    4. A la derecha de z es 0.8023
    5. Entre –z y z es 0.7436

     

    7.3 EL TEST CHI-CUADRADO (X2).

    Test estadístico para evaluar la asociación o independencia entre dos variables. Trabaja con variables categóricas o discretas.

    Algunos interrogantes que se pueden resolver con chi-cuadrado. Está el rendimiento académico asociado al sexo del alumno?. Está el talento deportivo asociado a la nacionalidad de las personas?

    Para realizar el cálculo del Chi-cuadrado es preciso construir una tabla de contingencia. La tabla de Contingencia es una estructura de filas y columnas que sirven para mostrar el resultado(cifra, número) de clasificar el total de casos(datos). Se pueden construir tablas de contingencia de 2×2, 2×3, 3×3, etc. No está limitado por el número de categorías. El Chi-cuadrado si está limitado fuertemente el que exista una o mas celdas con una frecuencia menor de 5 casos(datos), ya que la distorsión de los resultados es muy grande generando una falsa interpretación.

    Para aplicar la prueba se deben definir frecuencias observadas y esperadas. Supongamos que se ha medido a 180 alumnos de la escuela "La Rochela", que cursan el 6° año de bachillerato. Previamente se ha definido una escala de rendimiento con un rango de 1 a 7, donde el puntaje 4 significa aprobación mínima de la asignatura y 7 es sobresaliente y menos de 4 es reprobación. De los 180 estudiantes encontramos 75 con una calificación de alto rendimiento. El grupo restante (105) se encuentra de bajo rendimiento.

    En cuanto a la motivación, recurriendo a un test específico, se ha medido a los mismos 180 alumnos y encontramos que hay 60 estudiantes con alta motivación y otro grupo de 120 con baja motivación. Estos puntajes corresponden a los obtenidos en la realidad, es decir son el producto de la evaluación mediante la aplicación de los intrumentos respectivos. Estas cifras se encuentran en los extremos del cuadro por lo tanto corresponde a las frencuencias observadas. Ademas se observaron los siguientes resultados:

    a) Rendimiento alto y alta motivación: 50 estudiantes

    b) Rendimiento alto y baja motivación: 25 estudiantes

    c) Rendimiento bajo y alta motiviación: 10 estudiantes

    d) Rendimiento bajo y baja motivación: 95 estudiantes

    Con estos datos se construye la tabla de Frecuencias observadas. (Haga uso de la hoja electrónica)

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    7.3.1 Frecuencias esperadas.

    Para determinar las frecuencias esperadas a partir de los datos observados, resulta de multiplicar los respectivos marginales y dividir por el gran total.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Porqué se presenta este resultado? Si estamos preguntándonos si existe relación entre dos sucesos o eventos, hemos de considerar que lo esperado es que los dos sucesos sean independientes. Por ejemplo, en el caso que nos ocupa, la celda superior izquierda relaciona los individuos de Alta Motivación y de Alto Rendimiento. Los alumnos de alta motivación son 60 de 180, es decir 60/180. Los alumnos de alto rendimiento son 75 de 180, es decir, 75/180

    Cuántos individuos (X) de los 180 se espera que sean al mismo tiempo de alta motivación y de alto rendimiento?. Segun las leyes probabílisticas, se espera que la probabilidad de que dos eventos independientes se den en el mismo estudiante, es igual al producto de las probabilidades individuales, es decir, 60(75)/180 = X X= 25

    A través de Chi-cuadrado se probará de forma afirmativa o negativa que la distribución de las frecuencias observadas difiere significativamente en relación a la distribución de la frecuencias que deberiamos esperar.

    O= Frecuencia Observada

    E= Frecuencia Esperada

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    X2 = 64.2

    Qué nos dice este valor ?

    a) Se requiere para ello constatar el valor obtenido (64.2) con el Chi-cuadrado crítico de la tabla de valores criticos que viene como anexo en los libros de estadistica.

    Nota: Normalmente todos los libros de estadística traen como anexo, tablas con sus respectivos valores críticos.

    b) Si X2 observado es mayor que el X2 crítico entonces, podemos afirmar que existe una asociación, estadísticamente significativa entre las variables estudiadas.

    c) Para encontrar X2 crítico se requiere comprender dos conceptos:

    Grados de libertad y Nivel de significación

    Grados de libertad(GL): Se define como (Número de columnas -1)(Número de filas -1). Para el ejemplo sería: Tabla de 2×2 , entonces, GL = (2-1)(2-1) = 1

    Nivel de significación (P): Denominado nivel de confianza, se refiere a la probabilidad de que los resultados observados se deban al azar. Este valor es fijado por el investigador, usualmente es el 5% o 10%. Lo que indica que si se toma P=0.05, se está significando que solo en un 5% de las veces en que se realice la medición, el resultado obtenido podría deberse al azar. De lo contrario sería decir que existe un nivel de confianza del 95% que el resultado es real y no debido a la casualidad. Considerando P=0.05 y GL=1, se tiene que X2 crítico es igual a 3.84. Se observa que X2 calculado (64.2) es mayor a X2 critico (3.84).

    Luego podemos afirmar que el rendimiento en la matemática está asociado a la motivación de los alumnos por dicha asignatura.

    Finalmente, mediante una tabla de 2×2 se muestran los resultados principales obtenidos al cruzar las dos variables: rendimiento y motivación.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    Como se puede observar, los estudiantes de más alto logro(rendimiento), en matemáticas, son aquellos que tienen una mas alta motivación, del mismo modo, los que evidencian un menor logro muestran tambien una mas baja motivación.

    Aplicando la prueba de asociación estadística Chi-cuadrado y los procedimientos de cálculo apropiados, se demuestra que ambas variables se encuentran estadísticamente asociadas con un nivel de confiabilidad del 95% (X2=64.2, GL=1 y P=0.05)

    La principal consecuencia que se deriva del estudio, es la necesidad de implementar un conjunto de acciones y actividades pedagógicas y recreativas con el fin de evaluar la motivación de los alumnos por la matemática, lo cual se espera demuestre efectos positivos en sus rendimientos en dicha asignatura.

    Ejercicios:

    1) Determine si puede o no realizar la prueba Chi-cuadrado, y porque.

    1. Se desea determinar la relación que existe entre la ubicación del estudiante en el aula de clase y su nivel de atención. Se han escogido las categorías por la ubicación en el aula de: alumno adelante y alumno atrás. Por el nivel de atención de: bajo, medio-bajo y bajo-bajo.
    2. Se desea determinar la relación que existe entre consumo de cigarrillos y rendimiento en el trabajo en una oficina de 10 empleados. Se categoriza a los fumadores en altamente fumadores, poco fumadores y no fumadores y el rendimiento en alto y bajo.

    2) Qué margen de error se puede permitir el programa espacial para el acoplamiento de naves que circundan la tierra ?

    3) Tres grupos de alumnos de una Universidad respondieron a la Escala E de Dogmatismo de Milton Rokcach. Los resultados fueron:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    Son iguales los tres grupos en la variable de personalidad medida?. Explique la respuesta.

    8. COEFICIENTES DE CORRELACIÓN.

    Un coeficiente de correlación expresa el grado de relación entre variables. Su valor o magnitud fluctua de +1 (perfecta correlación positiva) a -1 (Perfecta correlación negativa). Si X e Y denotan las dos variables que se consideran, un diagrama de dispersión muestra la localización de los puntos (X,Y) en un sistema de coordenadas rectangulares. Si todos los puntos en este diagrama de dispersión parecen encontrarse cerca de una recta, como en (a) y (b) la correlación se dice lineal. Si Y tiende a incrementarse cuando se incrementa X, como en (a) la correlación se dice positiva o correlación directa. Si Y tiende a disminuir cuando se incrementa X, como en (b) la correlación se dice negativa o correlación inversa.

    Si todos los puntos parecen estar cerca de una curva, la correlación se dice no lineal y una ecuación no lineal es la apropiada para la regresión o estimación, una correlación no lineal puede ser a veces positiva o negativa. Si no hay ninguna relación entre las variables (c) se dice que no hay correlación entre ellas, es decir no estan correlacionadas.

    Asi por ejemplo, la correlación que existe entre inteligencia y rendimiento es positiva, dado a que los alumnos más inteligentes tienden a obtener altos rendimientos académicos.

    Es importante recordar que mientras mas fuerte sea la correlación entre dos variables mayor el poder predictivo existente entre ellas. El término "correlación", se utiliza cuando las variables involucradas en la relación son de tipo interval(proporcional), es decir cuantitativas en sentido estricto, pero además la "correlación", busca mediante la medida de co-variación de variables, predecir a prtir del conocimiento de una de ellas el comportamiento de la otra variable. Ver Anexo, Tabla de Interpretación de Coeficientes.

    El que una correlación sea estadísticamente significativa quiere decir que conocemos la probabilidad de error cuando sabemos que X e Y correlacionan. Es decir, conocemos el márgen de error en el sentido de que la relación entre X e Y se deba simplemente a una casualidad o al azar y no a factores causales estructurales que asocian a las variables.

    Cuando decimos que hay una correlación estadísticamente significativa entre las expectativas que el maestro se hace sobre el rendimiento del estudiante y el rendimiento que este efectivamente logra(por ejemplo r=0.68) las implicaciones educativas que se derivan son importantes. El significado o valor pedagógico relevante de este dato comienza por reconocer que: si el profesor tiene un nivel de expectativas mas bien bajo sobre lo que su grupo escolar puede lograr en su aprendizaje, los resultados del proceso de enseñanza-aprendizaje tenderan a mostrar resultados bajos.

    Para seleccionar adecuadamente el coeficiente de correlación a calcular, es preciso considerar la escala en la que se ha medido cada variable.

    La siguiente tabla es una guía para seleccionar el coeficiente apropiado, segun las variables que intervienen.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    La selección del coeficiente se puede hacer formulando las siguientes preguntas:

    1. Son las dos variables de tipo categórico?. Si la respuesta es afirmativa pero hay mas de dos categorías en la expresión de cada variable, no se puede calcular coeficiente de correlación. Se aplica Chi-cuadrado. Si las variables son ambas categóricas y dicotómicas, se aplica el coeficiente O (Phi). Si una es dicotómica y la otra es ordinal se aplica correlación biserial por rangos. Si una es dicotómica y la otra está medida en una escala de intervalo se aplica la correlación punto biserial

    2. Son las variables ordinales? si la respuesta es afirmativa, corresponde aplicar la correlación por rangos de Spearman. Si una variable es ordinal y la otra dicotómica, se aplica correlación biserial por rangos. Si una es ordinal y la otra intervalar, se aplica correlación por rangos de Spearman.

    3. Se encuentran las dos variables medidas en una escala de intervalo?. Si tal es el caso se aplica el coeficiente de correlación de Pearson. Si una variable es de intervalo y la otra ordinal se aplica correlación por rangos de Spearman

    Ejercicios.

    Para los siguientes pares de variables escoja el tipo de coeficiente de correlación que usaría:

    a) El sexo de las personas vs si son religiosas o no lo son

    b) El estado civil soltero o casado vs su estrato socio-económico

    c) El coeficiente intelectual vs rendimiento académico calificado en notas de 1 a 10

    d) El coeficiente intelectual vs interes por el conocimiento evaluado con B,A,R,D

    8.1 COEFICIENTE O (PHI).

    Un colegio desde hace dos años mantiene un programa piloto de apoyo al aprendizaje de los alumnos de 7 grado, que significa contar con padres que les colaboran con sus tareas escolares. La participación es voluntaria y el programa se implementó pensando en aquellos alumnos que presentaban algunos problemas, tales como bajo nivel de logro, escasa motivación, desinteres y depresión, dificultad para la comprensión lectora, rechazo a la matemática. Cumplido los dos años de funcionamiento, se decide hacer una evaluación para decidir si el programa debe institucionalizarse y ofrecerse como talleres.

    A través de una tabla de contingencia se confeccionó el número de casos correspondiente a cada una de las siguientes combinaciones:

    a) Participó en el programa y no tiene problemas

    b) Partició en el programa y si tiene problemas

    c) No participó en el programa y no tiene problemas

    d) No participó en el programa y si tiene problemas

    De acuerdos a los resultados se obtuvo el siguiente cuadro resumen:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    De acuerdo a la tabla de intervalos del coeficiente, se oberva que un valor de 0.26 es una débil correlación positiva. Lo cual concluye que existe una débil correlación positiva entre presentar hoy problemas en 8 grado y el haber parcipado en el programa de apoyo al aprendizaje el año anterior. El programa sería efectivo si la participación en él condujese a no tener problemas de rendimiento.

    8.2 CORRELACIÓN PUNTO BISERIAL (RPB).

    Esta correlación es la prueba estadística que se aplica cuando se quiere medir la relación que existe entre una variable dicotómica y otra expresada en una escala de intervalo.

    Xa = Promedio aritmético del grupo A

    Xb = Promedio artimético del grupo B

    DS = Desviación estandar de todos los puntajes (DS= å X2-(å X)2/N )

    Na = Número de datos en el grupo A

    Nb = Número de datos en el grupo B

    N = Número total de datos (Na + Nb)

    Ejemplo:

    El Director del Instituo Nacional desea saber si el estilo del docente está relacionado con el rendimiento de los alumnos. Para el efecto se tomaron al azar cinco cursos en los cuales el profesor fue caracterizado como participativo y otros cinco cursos con profesores autoritarios (variable dicotómica). Para el rendimiento como variable intervalar se determinó el promedio aritmético de las calificaciones alcanzadas por los alumnos en cada curso.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    =

    Xa = (6.3+5.4+6.1+6.0+5.8)/5 = 5.92

    Xb = (6.0+5.2+5.1+5.4+5.9)/5 = 5.34

    DS= å X2-(å X)2/N = 1.941

    Na = 5

    Nb = 5

    Reemplazando estos valores en la fórmula anterior, encontramos Rpb = 0.02

    Existe una relación entre estilo del profesor y las calificaciones que obtienen los alumnos?

    Qué puede sugerir del resultado encontrado?

    8.3 CORRELACIÓN BISERIAL POR RANGOS (RBR).

    Se calcula cuando tenemos una variable dicotómica y otra ordinal

    N = Número total de casos ordenados por rangos

    R1= Rango (medio aritmético) de los rangos de aquellos individuos en la categoría 1

    R0 = Media aritmética de los rangos de aquellos individuos en la categoría 0

    Es posible aplicar la correlación biserial por rangos siempre que no haya empates entre un mismo rango en la escala. O sea cuando existen dos o mas individuos con un mismo valor o puntaje.

    Ejemplo:

    La Secretaría de Educación Departamental está considerando la posibilidad de recomendar una inversion significativa para mejorar la enseñanza de las ciencias en las escuelas municipales de la región. De hecho, en algunas escuelas han funcionado talleres de ciencia, además, por tercer año consecutivo las escuelas han participado en la expoferia juvenil de Proyectos Científicos. El jurado de la Expoferia Juvenil, con el objeto de premiar aquellos trabajos más destacados por su originalidad y espiritu investigativo ordena todos los proyectos en un "ranking". Segun la tabla.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    R1 = (71/10) = 7.1

    R0 = (139/10)= 13.9

    N= 10 + 10 = 20

    Rbr = (2/20)|7.1-13.9| = 0.1(6.8) = 0.68

    Hay una correlación fuerte, significativa, que permite tomar la decisión de recomendar la inversión, por parte de la Secretaría de Educación, en el mejoramiento de la enseñanza de las ciencias, a través de los talleres y academias científicas escolares.

    8.4 CORRELACIÓN POR RANGOS DE SPEARMAN (RS).

    Se utiliza para medir el grado de correlación entre las variables ordinales, cuyos valores indican rangos (puestos) en cada una de ellas.

    d = La diferencia de rangos en las dos variables

    n = Número de casos

    Ejemplo:

    En un instituto pedagógico admitieron el año pasado 20 niños de Jardin Infantil. Promediados y debidamente ponderados los test que cada niño debió responder, se asignó a cada uno un puntaje final. Estos puntajes fueron ordenados de mayor a menor. Los veinte puntajes mas altos determinaron que niños fueron admitidos.

    Para efectos de evaluar la validez predictiva de los test de admisión se decide el siguiente criterio: los test tendrán valor predictivo si existe una correlación mayor que 0.80 entre la posición que ocuparon los niños en la lista de postulantes admitidos y la posición que ocuparon al finalizar el año escolar.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    = 0.79

    Si observamos este valor en la Tabla Anexa de interpretacion de Coeficientes, existe perfecta correlación. Lo que significa que los test de admisión que emplea el Instituto tiene muy buena validez predictiva.

    Ahora, para comprender la consistencia y confiabilidad de esta conclusión puede buscarse el valor crítico de Rs en la Tabla Anexa de Valores Críticos de la Correlación de Spearman. En este caso trabajando con un nivel de confianza(o significación estadística) de 0.01 (1%), para 20 casos, el valor crítico es de 0.53, que al ser muy inferior por el valor calculado (Rs = 0.90), no cabe duda sobre la significación de la correlación.

    8. 5 COEFICIENTE DE CORRELACIÓN DE PEARSON (RP).

    Es el coeficiente de mayor utilización en análisis de la información cuantitativa. Se aplica cuando se trata de averiguar la correlación de dos variables en escala de intervalo, es decir, variables cuantitativas.

    = Desviaciones de los puntajes de las variables con relación a sus respectivos medios aritméticos.

    Sx . Sy = Las desviaciones standard delas respectivas variables

    N = Número de casos

    Otra forma de obtener el cálculo sería haciendo uso de la siguiente fórmula

    En caso de probar una hipótesis, los grados de libertad se definen como N-2 con un nivel de confianza que puede ser de 5% o 10%.

    Ejemplo:

    El comité académico del Colegio Departamental pudo constatar, con no poca desazon, que los puntajes obtenidos por los alumnos era mas bajos de los esperados, considerando que las pruebas formativas habían demostrado que tenían un buen dominio conceptual y de la operatoria matemática. Plantearon la pregunta: Será que el nivel de comprensión de lectura está interfiriendo? Si no se comprende el problema al leerlo, mal se podrá plantear una estrategia apropiada para su resolución.

    Consideremos una muestra aleatoria de 10 alumnos cuyos puntajes se presentan.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    0.69

    Rp= 0.69

    Fijando P=0.05 y N-2 (10-2) grados de libertad, tenemos un valor crítico de 0.63 (Ver tabla anexa de valores críticos de la correlación de Pearson). Como el coeficiente calculado es de 0.68 excede al valor crítico. Lo que permite concluir que el desempeño que los alumnos alcanzan en matemática, está correlacionado significativamente con su nivel de lectura; lo que permite predecir (con un 95% de confianza) que si se posee un nivel aceptable de lectura comprensiva, se tendrá un buen resultado en matemática.

    Un elemento adicional que se calcula con el coeficiente de correlación de Pearson es el denominado coeficiente de determinación, el cual expresa la variación de la variable dependiente.

    El coeficiente de determinación es igual al cuadrado del coeficiente de Pearson (r2). En el ejemplo anterior si consideramos que la variable independiente es la comprensión lectora, y la dependiente el rendimiento en matematica, el r2 =(0.69)2 = 0.46, lo que quiere decir que el 46% de la variacion en el rendimiento en matemática es explicado por la variación de la comprensión lectora.

    8.6 TEST – T.

    El test -t conocido tambien como "t de student" es una prueba estadística que se aplica para establecer la significación de una diferencia al comparar dos grupos. Establecer diferencias entre grupos es relevante pero no es suficiente. Es preciso, ademas, determinar si la diferencia es significativa y en consecuencia debe tomarse en cuenta, o por el contrario es insignificante y no tiene mayor trascendencia para comparar grupos y por tanto es descartable. Algunos casos:

    La innovación curricular introducida en una escuela produce, significativamente mejores resultados de aprendizaje con la metodología tradicional?

    Son los resultados de un grupo experimental expuesto a un programa de desarrollo del pensamiento reflexivo y creador, mayores que los del grupo de control?

    Cual es la efectividad alcanzada por una compañía de prevención del SIDA en la ciudad de Cali?

    Responder estos interrogantes implica en cada una de ellas establecer y juzgar una diferencia.

    El test es una herramienta que ayuda al investigador establecer las significatividad estadística de una diferencia observada entre dos grupos. El cálculo del valor de t de student requiere en términos de la medición de los grupos, conocer la media aritmética, la desviación standard y el número de casos considerados. Obtenido este valor debe calcularse los grados de libertad el cual viene dado como: GL = (Na + Nb) – 2.

    Encontrar el valor crítico de t (para ello se recurre a la tabla de valores críticos) teniendo en cuenta el nivel de significación, por ejemplo 5%, 10%. El valor critico se confronta con el valor calculado.

    Para la interpretación se acostumbra sostener que existen dos hipótesis posibles.

    La hipótesis nula (Po) que señala la igualdad de los dos grupos. Es decir la no existencia de diferencia estadística significativa

    La hipótesis alternativa (P1) que señala la existencia de una diferencia estadísticamente significativa al comparar los grupos.

    La la teoría estadística, se establece que si el valor observado es mayor que el valor critico, entonces se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

    Xa = Media aritmética del grupo A

    Xb = Media aritmética del grupo B

    Dst= Desviación estándar total con respecto al grupo A y B

    Ejemplo:

    En una escuela de educación básica, que atiende niños en condiciones de pobreza. Los profesores han enfrentado para la enseñanza de la lecto-escritura serias limitaciones de disponibilidad de texto o la inadecuación de los materiales de lectura que han podido disponer alguna vez. Preocupados por tal situación, decidieron la elaboración del texto de lectura por los propios alumnos, lo que garantizaría que cada niño disponga de su propio texto y que las temáticas abordadas tengan mayor significado para ellos.

    Después de un año de aplicar el proceso en algunos cursos a través de un programa piloto, se escoge el primer año básico A, grupo escolar que ha experimentado el aprendizaje de lecto-escritura, elaborando sus propios materiales y el primer año básico B que ha trabajado del modo tradicional. Se aplica un test de lectura a ambos cursos, notándose que los resultados del curso A, son mejores. Luego se trata de comprobar si la diferencia es atribuible al azar o se trata de una diferencia significativa.

    La siguiente tabla muestra los resultados obtenidos despues de obtener la media, y desviación standar para ambos grupos.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Xa = 36 Na = 15 Xb = 30 Nb = 12 DSa= 4 DSb = 6

    Aplicando las respectivas fórmulas, encontramos que:

    t = 3.11 (ignore el signo si el valor es negativo)

    Para encontrar el valor crítico:

    GL = Na + Nb – 2 = 27-2 = 25

    Nivel de significación: P= 0.05

    Al buscar en la tabla de valores críticos, se encuentra que t, para P=0.05 y 25 GL es igual a 2.06.

    Teniendo en cuenta la teoría de la hipótesis nula (Po) y la hipótesis alternativa (P1), en la teoría estadística, se establece que si el valor observado es mayor que el valor crítico, se rechaza la hipótesis nula y se acepta la alternativa.

    Para el ejemplo, valor t calculado (3.11) es mayor que el t crítico (2.06). Por lo tanto es posible concluir que existe una diferencia estadísticamente significativa entre los resultados exhibidos por el grupo experimental y el de control, con nivel de confianza del 95%. Luego el método innovador de lectura ha probado ser más efectivo que el método tradicional. Los 6 puntos de diferencia son bastante significativo.

    9. ANALISIS DE REGRESION LINEAL SIMPLE

    El gerente de un Banco desea tomar la decisión de crear una nueva sucursal en un sector de la ciudad. Para ello sabe que el Banco tiene por política el que todas las sucursales deben tener igual número de funcionarios y que los edificios deben ser del mismo costo aproximadamente. Que la rentabilidad de las sucursales depende de los depósitos totales. Se ha averiguado que si el total de los depósitos de una sucursal es igual o superior a los $2.5 millones ésta podrá dar utilidades. Considera que los depósitos están relacionados con la riqueza del vecindario, por lo tanto determina tomar como medida valida el avalúo catastral como relación directa para los depósitos. Por consiguiente se necesita saber ahora cual es la relación entre estas dos variables (Depósitos vs avalúo catastral). Para saber dicha medida toma como base la información de las sucursales ya existentes. La tabla siguiente muestra la información obtenida.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    La representación de los datos en un gráfico de dispersión, estaría dando la relación o no de los datos, en la cual fácilmente se observa que puede existir una relación lineal.

    9.1 AJUSTE DE UNA RECTA.

    La ecuación de una recta esta dada como: y = a + bx

    Donde a= la intersección con el eje y

    b = la pendiente

    Para lo que se propone hacer, la fórmula de la recta ajustada a los datos muestrales será denotada así:

    ŷ (estimada) = b0 + b1x donde

    b0 = la intersección con el eje y

    b1 = la pendiente

    ŷ = el punto sobre la recta ajustada que corresponde a un valor x dado

    La distancia vertical(desviación) entre la i-ésima observación de y y la recta ajustada sería entonces yi – ŷi. Una buena recta sería la que minimizara la suma de las distancias verticales de los datos muestrales, que es å (yi – ŷi)

    Pero toda recta que pase por el punto de coordenadas (x media, y media)) dará una suma de desviaciones igual a cero. Pero puede eludirse este problema elevando al cuadrado las desviaciones antes de hacer la suma. Es decir, habría que hallar la ecuación de la recta que haga mínima å (yi – ŷi)2

    Esto es precisamente lo que se logra con el método de mínimos cuadrados.

    9.2 METODO DE MINIMOS CUADRADOS

    Recuérdese que (yi – ŷi) es el error o desviación del valor observado yi, respecto de su valor predicho ŷi. Luego se buscan los valores de b0 y b1 que minimizan la SCE(Suma de cuadrados de errores) para un conjunto dado de observaciones.

    Ahora se puede utilizar la ecuación de regresión(la recta ajustada) para predecir los depósitos totales de la sucursal propuesta. Para efectuar esto se necesita el valor de x, es decir, el avalúo catastral total de las unidades residenciales en el área propuesta. Supóngase que sea de $28 millones. La siguiente tabla muestra los cálculos necesarios.

    = 730,7/15 = 48,71

    48,70/15 = 3,25

    = 0,03

    b0 = 3,25 – (0,03)(48,71) = 1,79

    Por lo tanto la ecuación de la recta es:

    ŷ (estimada) = b0 + b1 x

    ŷ (estimada) = 1,79 +0,03 x

    La estimación calculada es que al crecer x en 1 unidad, y aumenta en 0,03 unidades. O para un aumento de $1 millón en el avalúo catastral total de las unidades residenciales de un área dada, los depósitos totales aumentan en promedio (0,03)($1.000.000) = $30.000.

    Ahora bien, sabiendo que el avalúo catastral total de las unidades residenciales del área propuesta es x = $28 millones, la predicción calculada del total de depósitos y es: ŷ (estimada) = 1,79 + (0,03)(28) = $2,63 millones.

    Finalmente: Si los depósitos totales en la sucursal propuesta, fueran iguales o mayores que $2,5 millones, el banco seguiría adelante con la sucursal. La estimación o predicción calculada es que la sucursal atraerá depósitos totales por $2,63 millones. Pero que tan seguros puede estarse de que los depósitos totales igualaran o pasaran de los $2,5 millones? Lo que se tiene es una estimación puntual basada en una relación lineal estimada, que a su vez se basa en observaciones muestrales. La "bondad" de la estimación puntual depende: 1) de si x y y están o no relacionadas linealmente, 2) si están relacionadas, dependen de la intensidad de la relación lineal, y 3) del tamaño de la muestra.

    10. EJERCICIOS.

    Para algunos de los siguientes ejercicios, dada la magnitud de los datos, es recomendable hacer uso de una hoja electrónica o programas de computador especiales para tal efecto.

    1. Accion A Accion B Accion C

      90 94 94 97 98 96

      100 102 97 106 93 105

      110 101 112 94 115 94

      105 106 96 97 112 101

      98 98 106 99 82 102

      97 99 113 110 103 105

      98 97 92 96 101 98

      103 102 95 96 100 105

      Calcular la media, varianza y desviación típica para cada acción

      Que seria recomendable hacer?

    2. Se pide a una persona recientemente formada en administracion financiera que analice la variabilidad de los precios de tres acciones diferentes para ayudar al gerente de un banco a hacer una inversion para un fondo fiduciario. Las tres compañias estan en la misma industria y se han visto afectadas por una reciente modificacion de las reglamentaciones oficiales. Por tal razon, solo las 16 semanas anteriores son indicativas de la marcha futura. Las acciones han pagado dividendos parecidos hasta ahora, y ese es le criterio principal del gerente. Para evitar la especulacion, el gerente prefiere tambien acciones que no fluctuen mucho de precio. La siguiente es la informacion de precios semanales al cierre de las tres acciones en las 16 semanas anteriores.

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

      Calcule el coeficiente por rangos de Spearman. Saque sus propias conclusiones.

    3. A un grupo de 10 niños se le asignan rangos segun la rapidez en lectura y el tiempo que utilizan para resolver un cierto número de ejercicios de artimética. Se desea saber si existe correlación entre las dos variables.

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

      Hallar la correlación de Pearson y determinar si se trata de un valor significativo para P=0.05 y

      N-2 grados de libertad.

      Calcular el coeficiente de determinación y que indica este resultado.

    4. En un estudio preparado para investigar la relación que existe entre la creatividad y otras variables, un equipo de psicólogos administró a una muestra de 20 estudiantes de 10° grado, una prueba para medir el nivel de creatividad. Al mismo tiempo los investigadores solicitaron a cada estudiante que memorizara un poema corto.

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

       

      Determinar la eficacia del metodo A con respecto al método B. Obtenga sus propias conclusiones.

    5. Supongamos que un investigador está interesado en las eficacias relativas de dos métodos de enseñanza, A1 y A2. Selecciona 10 estudiantes como muestra, los divide en dos grupos al azar y asigna los tratamientos experimentales a ambos. Despues de un plazo conveniente mide el aprendizaje de los estudiantes de ambos grupos sobre una medida de rendimiento. Los resultados, junto con cierto cálculo, se dan en el siguiente cuadro.

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

    6. Una universidad aplicó un test de aptitudes a sus aspirantes a medicina y los clasificó en tres grupos: aptos, dudosos y no aptos. Un año despues clasificó el éxito o el fracaso del alumno. La universidad desea saber si es útil la prueba de selección para determinar el éxito o el fracaso posterior.
    7. Los siguientes son los valores de dos variables (Estatura y Peso), en un grupo de 19 estudiantes. Saque las conclusiones que permitan los datos, despues de emplear la prueba estadística apropiada.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    ANEXOS

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    BIBLIOGRAFIA

    BRAVO Salinas, Nestor y Ramirez Gonzalez, Alberto. Experiencias de Investigación Educativa y Modelos Estadísticos Computarizados. FAMDI, 1986

    SPIEGUEL, Murray. Estadística. Edit. McGraw-Hill. México, 1980

    MARTINEZ Bencardino, Ciro. Estadística y Muestreo. Edit.Impreandes. Bogotá, 1998

    RICHARDS, Larry E. y LaCaba Jerry. Estadística en los Negocios. Edit. McGraw-Hill. Mexico, 1978

     

    Trabajo realizado por

    Orlando Ospina López

     

    Ingeniero de Sistemas, Postgrado en Desarrollo Intelectual. Docente actual de la Universidad Santiago de Cali, Colombia.

    Este trabajo fue realizado durante la especialización. El objetivo, más que todo, era de llevarlo como material de consulta para los estudiantes de la universidad. Sin embargo por factores no mencionables acá, ha sido puesto a disposición únicamente de mis alumnos que han mostrado algún interés por esta área.