Predictores e indicadores de la fortuna en familias rurales (Perquilauquén, Chile)
Enviado por Cristhian Alvarez
- Introducción
- Objetivos
- Diseño y Metodología
- Análisis y procesamiento de datos
- Resultados e interpretación
- Conclusiones y Resumen
Introducción
Este artículo pretende ser un aporte pues no existe material publicado en el contexto nacional de las ciencias sociales en especial en el campo de la economía colonial en Chile que aborde directamente la relación entre las fortunas de padrones o matrículas de estratificación socioeconómica de familias y estadística multivariada.
El presente estudio[1]se basa en el padrón de 638 familias rurales de Perquilauquén de 1754 de la región del Bío-Bío de Chile que se encuentra en el Archivo Nacional de la Capitanía General de Chile (volumen 938, fs.145-176). Además, se emplea información esencial de los Archivos Judiciales y Notariales de Talca, Cauquenes, San Fernando, por la proximidad a Perquilauquén o San Carlos, Chillan. Los archivos de Chillán, San Carlos, Quirihue, que deberían ser los más adecuados por la zona, no se ocupan pues no existen cercanos al año 1754. El problema básico es: ¿Cuáles son los predictores o variables más significativas estadísticamente hablando que influyen en el logro de la fortuna de cada familia?. La solución es aplicar un Análisis factorial y de un Análisis de regresión múltiple de predictores e indicadores de la fortuna de 579 familias rurales –depuradas estadísticamente, pues se eliminan los indigentes y marginales. Aquí, se habla de familias nucleares rurales, entendida esta como la constitución del supuesto esposo, esposa e hijos si los hay. Son ocho listas o "poblaciones" de familias detalladas más adelante. En la recogida de los datos nos encontramos con algunas imprecisiones, errores, todos intencionados o no. De hecho, se confiesa poseer menos bienes por temor a exacciones por parte del estado. Por lo tanto, los datos descriptivos finales en los anexos tienen aproximaciones a veces –por ejemplo, 2 fanegas por 1 fanega más 8 almudes-, pues se trató de aprovechar todo, aunque una vez subsanados en general se esmeró en la estricta precisión en el análisis factorial y regresión múltiple. El padrón señala por familia: la cantidad de animales –ganado mayor: caballos, vacas, mulas y ganado menor: cabras, ovejas-, yuntas, y se agrega la cantidad de hijos, y la variable construida artificialmente por nosotros del tamaño de la familia, todas las cuales son las variables independientes o predictores que son sumadas al ser convertidas en pesos y reales de la época, y por último, también se construye artificialmente y agrega la variable dependiente o indicador que es la fortuna de la familia, también expresada y convertida en pesos. En todo caso, se aprecia claramente que son familias rurales de modesta condición socioeconómica. Se realiza un ensayo estadístico a una muestra intencional de 579 familias con seis variables independientes: tierra (1), ganado mayor (2), ganado menor (3), yunta (4), hijos (5), tamaño familiar (6), y la variable dependiente fortuna (7). A la luz de los resultados, en esta etapa, el modelo del Análisis de Regresión Múltiple de las 579 familias se valida aplicado a una muestra de Chillán[2]de 1737 con 189 familias rurales semejantes –el total de familias son 430 no depuradas. El resultado final son los datos cuantitativos expresados en sus promedios, desviaciones estándares y los resultados del Análisis Factorial y del Análisis de Regresión Múltiple. Aquí no interesa cuáles son las familias más acaudaladas o las más pobres, quién tiene más tierras, sino qué variables –la tierra, los caballos, las vacas, las mulas, las cabras, etc.- aportan significativamente desde el punto de vista estadístico para que tiendan a ser más ricas o prosperas, por lo menos consideradas estáticamente en el año de 1754. ¿En este contexto, se puede predecir una fortuna familiar?. Creemos que si. La solución es aplicar técnicas estadísticas multivariadas -ya probadas en diversos campos- cuales son el Análisis Factorial y del Análisis de Regresión Múltiple.
De Perquilauquén se ha escrito poco o casi nada. El único texto encontrado que señala específicamente a Perquilauquén en su ubicación geográfica, mapa, auto de visita, es el de Pinto[3]donde se señala el curato y doctrina de Perquilauquén. Descripción: Tiene de longitud el distrito de este curato de Perquilauquén, cuyo titular es el glorioso San Antonio de Padua, norte sur, desde el río de Longaví hasta el de Ñuble, diez y seis a veinte leguas; y de latitud este a oeste, otras tantas. Hállanse dos capillas; la principal arruinada, a orillas de Perquilauquén, y la otra en el paraje nombrado Curipemu, que es vice parroquia, y a orillas de Ñuble otra más al cuidado del indio cacique de Cocharcas. La feligresía de este curato entre el río de Perquilauquén y Ñuble, gente española son dos mil seiscientas treinta y una persona y de indios trescientos cincuenta y dos, entre Perquilauquén y Longaví, se hallan dos mil seiscientas noventa y cuatro, y doscientas setenta y seis indios que en el todo componen el número 5.953 almas, según la matricula exhibida en la presente Visita " Se indica que Perquilauquén era un antiguo curato del obispado de Concepción. Pertenecía al corregimiento de Chillán, que tenía dos curatos: el de Chillán y el de Perquilauquén. En la cabecera del curato fundó el gobernador Ortiz de Rozas en 1754 la villa de Nuestra Señora de la Candelaria. Nuevamente erigida en 1800 por el gobernador interino Joaquín del Pino, tornó el nombre de San Carlos.
El objetivo general es estudiar la influencia estadística de las variables independientes de la posesión de las cuadras de tierra, ganado mayor –caballos, vacas, mulas-, ganado menor –ovejas, cabras-, las yuntas de animal, la cantidad de hijos, el tamaño del grupo familiar, que determinan el logro de la variable dependiente fortuna de 579 familias de Perquilauquén de 1754 de la región del Bío-Bío de Chile.
El objetivo específico n°1 es determinar las características descriptivas de las variables de las cuadras de tierra, ganado mayor, ganado menor, las yuntas de bueyes u otro animal, la cantidad de hijos, el tamaño del grupo familiar, y la fortuna de cada familia de una muestra intencional de 579 familias de Perquilauquén de 1754 de la región del Bío-Bío de Chile a través de un análisis estadístico de la planilla Excel, caso a caso, de la media aritmética y la desviación estándar expresada en pesos y en cantidad real. El objetivo específico n°2 es determinar el número y la contribución de los factores que justifican la intercorrelación significativa entre las cuadras de tierra, el ganado mayor, el ganado menor, las yuntas, la cantidad de hijos, el tamaño del grupo familiar, y la fortuna en un ensayo a la muestra indicada de 579 familias de Perquilauquén de 1754 de la región del Bío-Bío de Chile a través de la matriz de correlación, de un Análisis Factorial, expresada en pesos y en cantidad real. El objetivo específico n°3 es determinar el aporte predictivo de las variables independientes de las cuadras de tierra, ganado mayor, ganado menor, las yuntas, la cantidad de hijos, el tamaño del grupo familiar sobre la fortuna en un ensayo a la muestra señalada de 579 familias de Perquilauquén de 1754 de la región del Bío-Bío de Chile a través de un Análisis de Regresión Múltiple, y una validación en Excel, expresada en pesos y en cantidad real.
Diseño y Metodología
El estudio corresponde a un diseño multivariado[4]no experimental[5]de tipo transversal correlacional/causal[6]ex post facto[7]
Metodología
Se obtiene la información esencial del padrón de 638 familias rurales de Perquilauquén de 1754 de la región del Bío-Bío de Chile ya señalado. Además, se recaba información importante y complementaria de los Archivos Judiciales y Notariales de Talca, Cauquenes, San Fernando. Se aplica un Análisis Factorial y de Análisis de Regresión Múltiple de predictores e indicadores de la fortuna de 579 familias rurales –depuradas estadísticamente, pues se eliminan los indigentes y marginales. Se aplica a dicha muestra con seis variables independientes: tierra, ganado mayor, ganado menor, yunta, hijos, tamaño familiar, y la variable dependiente fortuna. A la luz de los resultados, en esta etapa, se valida[8]el modelo del Análisis de Regresión Múltiple de las 579 familias aplicado a una muestra de Chillán de 1737 con 189 familias rurales similares. Se escoge intencionalmente una muestra mayor de 100 sujetos.
Criterios de especificación de las variables
Las muestras históricas casi siempre tienen errores, imprecisiones, ambigüedades. La nuestra posee datos faltantes inevitables a veces, pues no todas las familias tienen hijos. El tamaño y la fortuna están completas. Es decir, como supuesta distribución estadística normal no todas las 579 familias definitivas poseen todas las variables completas con los datos respectivos. Para el proceso estadístico asignamos un valor numérico determinado a la categoría definida de una variable y un cero (0) a las demás que señalan la inexistencia del bien. Ahora bien, de la muestra de 579 familias los datos faltantes o error de las seis variables independientes son: la tierra, hay 330 (57%) familias sin tierras y 249 (43%) con tierras; el ganado mayor, sólo 30 (5.2%) familias sin ellos y 549 (94.8%) con ellos; el ganado menor, hay 160 (27.6%) familias sin ellos y 419 (72.4%) familias con ellos; las yuntas, hay 275 (47.5%) familias sin yuntas y 304 (52.5%) con ellas; hijos, solo 85 (14.7%) familias sin ellos y hay 494 (85.3%) con hijos; tamaño está completa. La fortuna como resultado obviamente está completa.
Nunnally y Bernstein[9]indican respecto de los datos faltantes que si un sujeto en una encuesta no responde a la pregunta 1 pero responde a las preguntas 2 y 3, la correlación entre las variables 1 y 2 y 1 y 3 se basa en la menor observación que hubiera podido obtenerse si el sujeto hubiera respondido la pregunta 1, pero la correlación entre las variables 2 y 3 no es afectada. O sea, se compensan de alguna manera los datos completos con los datos faltantes. Es evidente que se pueden haber omitido otras variables más importantes que influyan en la fortuna. Esto se llama el sesgo de variables omitidas. Una pregunta fundamental es: ¿Por qué estas variables? Simplemente porque son las que se presentan en las listas de poblaciones de familias. Ahora bien, ¿Por qué estas variables se convierten en la moneda de pesos de 1754 y no se toman como tal –o sea, por ejemplo, 20 cuadras de tierra- para hacer el análisis estadístico?. Por una decisión personal de procesar todos los datos en la misma moneda de pesos nivelando todas las variables comprometidas. Así, los cálculos son más viables y parejos al estar medidos y evaluados en las mismas unidades. Por lo tanto, se crea artificialmente una nueva variable: la fortuna económica (más hijos y tamaño) de cada familia que es la sumatoria de todos los bienes o recursos económicos y no económicos de todas las otras variables. Para simplificar el análisis las variables fueron agrupadas: los animales mayores en el ganado mayor y los animales menores o pequeños en el ganado menor para simplificar el número de variables. Las variables independientes –excepto los hijos y tamaño que son expresión simple de la cantidad bruta- representan una expresión numérica de la conversión a dinero de esa época (año 1754) en pesos finalmente de su valor económico. La moneda del real o moneda de plata se transforma a pesos, la moneda principal. El criterio de conversión es que el real vale 0.25 pesos, o la cuarta parte del peso[10]Todos los cálculos de los bienes o recursos económicos o variables independientes –en los asientos originales hay errores- se basan en los datos de los archivos notariales y judiciales señalados.
Las variables independientes, todas expresadas en pesos, excepto hijos y tamaño que son expresadas numéricamente, son:
X = 1 Las cuadras de tierra (TIERRA).
X = 2 El ganado mayor (GMAYOR): las vacas, los caballos, las mulas.
X = 3 El ganado menor (GMENOR): las ovejas, las cabras.
X = 4 Las yuntas (YUNTA) de animales u otro animal.
X = 5 La cantidad de los hijos (HIJOS).
X = 6 El tamaño de la familia (TAMAÑO).
Variable Dependiente o Indicador
Se refiere a la fortuna de cada familia expresada en pesos como la sumatoria de todos sus bienes económicos (tierra, yunta, animales) y/o no económicos (cantidad de hijos y tamaño familiar) de Perquilauquén de la región de Bío-Bío de Chile.
Y =1 La fortuna (FORTUNA) de cada familia.
Fundamentos de elección del criterio de los bienes/recursos:
En base a la revisión de los Archivos Judiciales y Notariales ya señalados se captura la mayor cantidad de datos representativa pero cercana al año de 1754. Así, nuestros datos oscilan entre 7 y 26 precios por cada bien. Luego, se dividen obteniendo la media aritmética precisa, aunque no necesariamente aproximé, pues traté de cuidar la exacta cifra original. El problema estadístico es cómo decidir que promedio elegir por cada bien de manera que sea representativo de la muestra (muestra es toda parte representativa de un conjunto, población o universo, cuyas características debe reproducir en pequeño lo más exactamente posible -Sierra[11]pues además tenemos como otros indicadores las medidas de tendencia central y de dispersión: la moda y la mediana. Entonces, debemos considerar si la muestra de 579 familias es una distribución simétrica o no. Nuestros resultados estadísticos señalan que efectivamente no es simétrica. Nuestra variable fortuna concuerda con lo que señala Sierra[12]citando a Mueller (1970, p. 142: Statiscal reasoning in Socioloy. Boston), que muchos datos sociológicos –salarios, tamaños de ciudades, de familias, etc- son fuertemente asimétricos. Sin embargo, conforme a Ary, Cheser y Razavieh[13]la media como estadística de intervalo o de razón da una medición más exacta que la mediana o el modo y es la más estable. Por supuesto, se agrega la desviación estándar en la descriptiva para consolidar científicamente el proceso. Así, se toman los años más cercanos a la base de 1754 de la matrícula de nuestro padrón investigado por sus representatividad en el tiempo. Ahora, dependiendo del bien y la representatividad de este, si hay pocos datos para tomar más variedad (y no caer estadísticamente en la homogeneidad) se toman datos relativamente antes y/o después de 1750, aunque si hay más y variados datos dentro del lapso de 1750 se prefieren estos. Se promedian y se dividen por el número de casos. En resumen, el criterio promedio final de cada bien o recurso económico y el precio respectivo es: Ovejas: $0.6 pesos[14]Cabras: $0.8 pesos[15]Vacas:$3 pesos[16]Yuntas: $14.5 pesos[17]Yeguas: $2.7 pesos[18]Caballos:$4 pesos[19]Tierra: $3.4 pesos por cuadra[20]Mulas: $3.5 pesos[21]
A veces, los criterios no son seguidos -1a, 1b, etc-, porque no existen tales fuentes. Las fuentes y siglas son AJCT=Archivo Judicial Civil de Talca; ANSF=Archivo Notarial de San Fernando; AJCC=Archivo Judicial Civil Cauquenes; AJCSF=Archivo Judicial civil de San Fernando; l.=legajo; s.=sin; p=pieza.
La población y la muestra
La población o el universo la constituyen todos -declarados u omitidos- los vecinos de Perquilauquén que constituyan familias en la zona. La muestra intencional[22]es de 638 familias, fs. 145-175v, pero se trabaja en definitiva con 579 familias depuradas estadísticamente de Perquilauquén de la región del Bío-Bío. En efecto, se afirma[23]del tamaño de la muestra que cuanto mayor el tamaño muestra, mayor será la probabilidad de encontrar un coeficiente de correlación similar en otras muestras, y en la población general como un todo. Sierra[24]indica citando a Blalock[25]que éste afirma que es grande siempre o casi siempre una muestra de N >100.y también de N>50 si se tiene evidencia empírica de que la desviación de la población en relación a la normalidad no es importante. La ventaja de la muestra intencional como afirma Hernández et. al[26]es su utilidad, su controlada elección de sujetos con ciertas características. Una crítica a toda muestra intencional, o no aleatoria, es que es sesgada, pero para suavizar tal crítica se puede defender asimismo que toda muestra contiene inevitablemente sesgos. La muestra de vecinos seleccionados depende de dos condiciones: por un lado, que los lugares o pueblos presenten un número suficiente de familias radicadas y por otro lado, estadístico, esto es, que las variables independientes medidas presenten un mínimo de 10 sujetos o datos[27]por variable, donde unos dicen 5 datos o sujetos por 1 variable;10 por 1 y 20 por 1, o familias por variable independiente o predictor. En nuestro caso, se cumple la condición o no hay problema, pues tenemos 579 sujetos. Aquí, la muestra comprende ocho "listas de poblaciones" de familias: Lista 1: (fs. 145v-149v), de 96 familias de don José Ayala; Lista 2: (fs. 149v-151) de 19 familias con sitio en la ciudad de Chillán y en la de Concepción; Lista 3: (fs.151-154v.) de 72 familias de don Miguel Candia; Lista 4: (fs154v.-158) de 74 familias de don Felipe Caro; Lista 5: (fs.158-162) de 76 familias de don Juan Antonio Arias; Lista 6: (fs.162-166) de 71 familias de don Juan Contreras; lista 7: (fs.166-171) de 107 familias del capitán don Marcelo Ortega; Lista 8: (fs.171-175v.) de 122 familias del capitán don Manuel morales.
Análisis y procesamiento de datos
El análisis y procesamiento de los datos se lleva a cabo esencialmente mediante el software estadístico denominado Systat, versión 5.0, 1990-1994 por S. P. S. S., para analizar los datos con las técnicas del Análisis de Regresión Múltiple, modalidad Step-wise[28]o paso a paso, y el Análisis Factorial, modalidad Varimax. También, alternativamente se emplea el software denominado Minitab, versión 16, obteniendo resultados similares sino idénticos, y el Excel de Microsoft. El análisis de los datos se realiza conforme a los tres objetivos específicos: 1. Análisis Descriptivo, mediante el uso de la planilla Excel, caso a caso. 2. Análisis de Regresión Múltiple, modalidad Step-wise. 3. Análisis Factorial, modalidad Varimax.
En lo esencial, en el Análisis de Regresión Múltiple, conforme a Kazmier[29]se asume que se cumple unos supuestos que se deben verificar en el ajuste de un modelo de regresión: la homocedasticidad –varianza semejante entre las variables-; la ausencia de autocorrelación y de multicolinealidad –entre las variables-, como condiciones básicas para que los estimadores o predictores sean eficientes, lineales, consistentes, insesgados para hacer confiable la estimación de (Y) o fortuna. Kazmier señala que las únicas limitaciones asociadas con el Análisis de Regresión Múltiple son los temas de la multicolinealidad y la autocorrelación, la cual no interesa aquí. La colinealidad se refiere cuando las variables independientes de un análisis múltiple regresión están correlacionadas entre si –lo cual se percibe al ser relativamente altas, positivas o negativas, las correlaciones-, entonces los coeficientes de regresión parcial son poco confiables en términos de significado. Asimismo, se cuestiona los coeficientes de correlación parcial. Según Kazmier, un coeficiente de correlación significativo no necesariamente indica causalidad, sino que puede simplemente indicar una asociación común con otros eventos. Una correlación "significativa" (comillas del autor) no es necesariamente una correlación importante. En una muestra grande, una correlación de r= +0.10 puede ser significativamente diferente de 0 al nivel de alfa=0.005 o nivel de significancia del 5% de error. Y la interpretación de los coeficientes de correlación y de determinación se basa en el supuesto de una distribución normal bivariada para la población y, para cada variable, de igualdad de varianzas condicionales. Sierra[30]indica de los coeficientes de correlación que:"en cuanto a la significación de los coeficientes de asociación, aunque no existe una norma valida para todos los casos, pues tal significación, no depende solo de su tamaño, se admite que su significación es la siguiente: + 0.70 muy fuerte;+ 0.50 a 0.69 sustancial;+ 0.30 a 0.49 moderada;+ 0.10 a 0.29 baja;+ 0.01 a 0.09 despreciable".
Según Morales M.[31], los pasos a seguir, que nosotros cumplimos, en un Análisis de Regresión Múltiple son seis:
1. Ajustar el modelo de regresión con algún software estadístico. O sea, usar alguno.
2. Analizar la significancia estadística de los parámetros a través de un Anova, análisis de varianza, para la regresión. O sea, analizar si los coeficientes son positivos o no.
3. Diagnóstico del modelo. Hay que probar la normalidad -los errores siguen una distribución normal-, homocedasticidad -varianza de los errores es constante- e independencia –las observaciones son independientes. En la práctica se asumen simplemente que se dan.
4. Calcular los criterios de bondad de ajuste. O sea, el coeficiente de Determinación R², y el coeficiente de Determinación R² ajustado y el Error Estándar de Estimación –éste indica el error probable que se comete al estimar la variable dependiente mediante un modelo en particular. O sea, analizar si los coeficientes son significativos o no.
5. Calcular los criterios de bondad de predicción. Todos estos indicadores generados en el reporte final de los análisis: 1. El Error Cuadrático Medio –un modelo es bueno cuando el ECM es cercano a cero; 2. Diferencia agregada –como medida de sesgo, un valor positivo indica que el modelo subestima el verdadero valor y un valor de DIFA negativo indica una sobrestima del verdadero valor; 3. El Error Medio Absoluto –como medida de error, un modelo es bueno si este es cercano a cero. Analizar su significancia.
6. Chequear el nuevo modelo con una muestra independiente –realizado en una muestra de Chillán de 1737, en nuestro estudio.
Por último, respecto del alcance de la predicción. Walpole[32]señala que en la ecuación de regresión múltiple un objetivo relevante es llegar a la ecuación de predicción más efectiva. En efecto, Walpole, indica que la calidad de la respuesta estimada de Y, en nuestro caso fortuna, es importante. Por otro lado, se indica que necesariamente la predicción de la fortuna de las familias implica su análisis como un concepto a corto plazo[33]–ciertamente sugerimos nunca más de un año probable-, o sea, aquí por lo menos tomemos el año temporal de plantación y mantención de los bienes/productos agrícolas. El tema y/o problema es qué variables son mejores parcialmente para optimizar en mejor grado probabilístico la producción de la empresa o sistema agrícola del campo chileno, qué contexto es el más adecuado para tales siembras, etc. Ahora bien, la fortuna o indicador tiene como propósito proporcionar un índice de la capacidad económica que poseen las familias. A partir de este índice se puede inferir, en términos de probabilidad estadística, el comportamiento futuro. Sin embargo, ello no implica que cada uno de los factores –tierra, animales, yunta- que componen la capacidad económica sea tan constante que no experimente ningún cambio en ese lapso. Significa más bien que los cambios observados no son repentinos sino que ocurren dentro de ciertos límites que pueden ser determinados previamente. Aquí, se puede tomar en sentido general que la estabilidad de los factores de producción se entiende como la presencia relativamente invariante en el tiempo de un rasgo o más en un sujeto o entidad. Este argumento de la estabilidad señalada es el que permite hacer juicios predictivos.
Análisis Factorial Exploratorio, modalidad Varimax.
En lo esencial, se recomienda el análisis factorial tipo exploratorio como un método complementario para la solución del problema de multicolinealidad del modelo de regresión, pues explica cuáles de las variables predictoras están correlacionadas. Para validar preliminarmente el modelo es necesario realizar una matriz de correlaciones entre las variables de la relación entre las variables, que indicarán el grado y la forma de relación existente entre ellas, la cual podría ser positiva (o negativa) lineal (o no lineal); mientras más se acerca su valor a –1 y +1 mayor será su relación y cuando se acerque a cero, ello indica; su escasa vinculación. Morales V.,[34] señala respecto del número de sujetos en el análisis factorial que no existe un criterio o norma definitiva sobre el número de sujetos necesario. En principio, son preferibles muestras grandes porque el error típico de los coeficientes de correlación será menor. Hay que tener en cuenta dos criterios: 1) La proporción de sujetos con respecto al número de variables (o ítems). 2) El número mínimo recomendable de sujetos en términos absolutos. Un criterio que puede considerarse como mínimo es: 2. a) Que el número de sujetos sea el doble que el número de variables. 2. b) Que la muestra no baje de unos 100 sujetos, (Kline 1986, 1994) aunque el número de variables sean muy pocas. Otros autores recomiendan utilizar una muestra 10 veces mayor que el número de variables o ítems (N = 10k;Nunnally, 1978; Thorndike, 1982). Una orientación más segura es que el número de sujetos no baje de 200 y que al menos haya 5 sujetos por ítem. Independientemente del número de sujetos por variable, la recomendación de Beavers y otros (2013) es que la muestra inicial sea al menos de 150 sujetos después de eliminar los outliers (residuos) o sujetos con puntuaciones muy extremas. A su vez, agregan, Frías-Navarro y Soler,[35] respecto de otra cuestión importante cual es decidir el tamaño de la muestra con el objetivo de facilitar un adecuado funcionamiento de la técnica estadística del análisis factorial exploratorio. Señalan que hay diversidad de opiniones. Citando a Hair, Anderson, Tatham y Black (2004) indican que nunca se debe realizar el análisis con una muestra inferior a 50 observaciones, siendo preferible trabajar con 100 o más unidades. Otros opinan que la muestra nunca debería ser inferior a 100 (Gorsuch, 1983; Kline, 1994). Guilford (1954) recomienda un tamaño de muestra mínimo de 200 casos y Cattell (1978) opinaba que un N o muestra entre 200-250 casos sería aceptable aunque proponía 500 como un buen tamaño muestral. De Winter, Dodou y Wieringa (2009) señalan que un N=50 es un valor mínimo razonable. De la proporción de número de casos por variable medida no existe acuerdo entre los investigadores, antes ya señalado. Gorsuch (1983) sugiere una proporción de cinco sujetos por variable medida, pero Nunnally (1978) y Everitt (1975) proponen una relación de 10 sujetos:1 mientras que Hair, Anderson, Tatham y Grablowsky (1979) opinan que debería ser de 20 sujetos:1.
Morales V.[36], señala respecto del criterio de raíz latente, que se escoge utilizar un porcentaje de varianza explicado que esté en torno al 60%, valor admitido habitualmente en ciencias sociales (Hair, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C. 1999. Análisis de datos multivariante, editorial Prentice Hall). Según Salvia[37]existen diversos criterios para determinar el número de factores a conservar. Uno de los más usados es la regla de Kaiser: "conservar aquellos factores cuyos valores propios (eigenvalues) son mayores a la unidad". Nunnally y Bernstein[38]confirman este criterio de aceptar mayor o igual a la unidad o 1. Salvia[39]extrema al señalar que hay que eliminar las variables con cargas factoriales bajas: aquellas por debajo de 0, 25. Morales V.[40], indica de los criterios para valorar la magnitud de las correlaciones variable-factor que los pesos de las variables que definen un factor se interpretan como los coeficientes de correlación de cada variable con cada factor. Podemos valorar estos coeficientes como cualquier otro coeficiente de correlación (con N =100 una correlación de 0.20, más o menos, ya es estadísticamente significativa). Morales V., indica que aunque no hay un valor óptimo de referencia, desde el punto de vista de la relevancia se considera un valor en torno a 0.30 como mínimo (explica aproximadamente el 10% de la varianza); en torno a 0.40 ya es más relevante, y valores en torno a 0.50 son de relevancia práctica; estas orientaciones pueden encontrarse en muchos autores como Hair et. al., 1999). El tamaño de la muestra y el número de variables (o ítems) también son datos que hay que tener en cuenta para valorar estos coeficientes. En general, a mayor número de sujetos los coeficientes pueden ser menores, aunque no deben ser inferiores a 0.30, para tenerlos en cuenta como representativos de un factor (Kline, 1994) o entre 0.30 y 0.35 (Spector, 1992, Costello y Osborne, 2005). Un criterio puede ser éste: con N= 100, podemos considerar valores relevantes los que están en torno a 0.50, con N= 200 nos bastan valores de 0.40 y con 300 sujetos 0.30 es suficiente; éstos valores son orientaciones. También tiene que ver el número de variables: a mayor número de variables y factores, se aceptan valores menores. Cuando hay muchos factores, los ítems o variables que definen los últimos factores deben tener pesos mayores para considerarse. Morales V., respecto de la proporción de varianza explicada por los diversos factores señala que frecuentemente nos encontraremos con una aceptable proporción total de varianza explicada por los factores que oscila entre el 50 y 60%, aunque algunos autores[41]proponen una varianza explicada en torno al 75%, 80% como resultado satisfactorio. Por último, Kerlinger[42]indica que las cargas factoriales iguales o mayores que 0.40 (algunas veces 0.30, otras veces otro criterio) se consideran lo bastante grandes como para ameritar su interpretación.
Muestra de 579 familias de Perquilauquén
Objetivo n°1: Análisis Descriptivo en cantidad real y pesos
Tabla n°1
Descriptiva y Desviación Estándar de predictores e indicadores
PREDICTORES E INDICADORES | DESCRIPTIVA PESOS Total, promedio, desviación estándar |
DESCRIPTIVA CANTIDAD Total, promedio, desviación estándar |
1.Tierra (cuadras) * | $382.533=. total; $661 ap. prom.; $3.253= ap. d.s. | 112.943 total, (177.320 ap. Hectáreas); 195 ap. prom.; 979 d.s. |
2. Ganado mayor * (Vacas, caballos, mulas, yeguas) | $76.897= total; d.s.: $799; $133 ap. prom. | 30.718 total; 53 ap. prom.; 334 d.s. |
3. Ganado menor * (Ovejas, cabras) | $117.257= total; $757 d.s.; $203 ap. prom. | 185.452 total; 320 ap. prom.; 1.186 d.s. |
4.Hijos * | 0 | 2107 total; 3.6 ap. prom.; 5.6 ap. d.s |
5.Tamaño * | 0 | 3183 total ; 5.5 ap. prom.; 5.6 d.s. |
6.Yunta * | $8.660= total; $15 ap. prom.; $:47.8 d.s. | 622 total; 1 ap. prom.; 3.7 ap. d.s. |
7.Fortuna ** | $554.363= total; $957 ap. prom. $3576= d.s. | 0 |
Notas
* : Variable Independiente o predictor.
** : Variable Dependiente o indicador.
ap. : Aproximado
prom. : promedio
d.s. : desviación estándar
Interpretación
Se puede apreciar que la sumatoria de predictores e indicadores no presentan en general variaciones significativas, pues corresponden a una muestra de familias rurales con escasos capitales, tierras, animales. Del cuadro, solo los hijos y el tamaño podemos comparar parcialmente con Pinto. Los hijos suman en total 2.107 (un 66.19%) y el promedio es de 3.6 que también son similares con Pinto[43]que presentan entre 42 mínimo –Guamalata, 1764- y 2.116 máximo –Puchacay, 1777- hijos entre 1761 y 1789. Incluso diría que en un pueblecito muy pequeño como Perquilauquén son relativamente numerosos los hijos y lo mismo del tamaño familiar. En efecto, del tamaño, 3.183 personas (aquí, de la resta entre tamaño e hijos quedan 1076 adultos o presuntos padres un 33.80% aproximado) y el promedio es de 5.5 que también son similares con Pinto, que presentan entre 21 mínimo –Melipilla, 1761- y 624 máximo –Valparaíso, 1788-. Pinto señala el total de hijos -11.602- y total de personas -3.628-. El ganado menor que suma en total 185.452 tiene un aumento porcentual de 604% aproximado respecto del ganado mayor –que tiene en total 30.718-, tomado como base. La fortuna total suma $554.363=. Mellafe[44]señala respecto del tamaño de la familia destaca que existiría una relación directa y mensurable entre los tipos de familia y las condiciones económicas y demográficas subyacentes. Asimismo, Mellafe, indica que respecto del análisis del tamaño de la familia:"que el tamaño promedio de la familia no muestra ninguna tendencia secular a través del tiempo; ni tampoco, como es tradicional, distinción diferencial alguna entre patrones familiares rurales[45]y urbanos. El tamaño de la familia en la historia de América Latina, parece ser entonces independiente de condiciones de tiempo y espacio. En nuestro estudio, de 579 familias el promedio[46]del tamaño es de 5.5 personas aproximadamente. En efecto, Mellafe[47]asegura que "otras localidades del Chile central con condiciones económicas demográficas muy similares, dan promedios equivalentes de habitantes por casa; por ejemplo, Los Ángeles, 10 en 1749 y La Ligua 9,3 en 1754, (Salinas Meza, sin fecha)", y en Chile rural del siglo XVIII, donde tenemos para Cauquenes la cifra de 12, 3 en 1749.
Muestra de 579 familias de Perquilauquén
Objetivo n°2: Análisis factorial
Tabla n°2
Matriz de Correlación Pearson
Tierra | Gmayor | Gmenor | Yunta | Hijos | Tamaño | Fortuna | |
Tierra | 1 | ||||||
Gmayor | 0.538 | 1 | |||||
Gmenor | 0.455 | 0.296 | 1 | ||||
Yunta | 0.126 | 0.493 | 0.258 | 1 | |||
Hijos | -0.014 | 0.033 | 0.076 | 0.065 | 1 | ||
Tamaño | -0.026 | 0.033 | 0.064 | 0.070 | 0.994 | 1 | |
Fortuna | 0.929 | 0.691 | 0.601 | 0.247 | 0.014 | 0.004 | 1 |
BARTLETT Chi² STATISTIC: 4827.930 D.F.= 21 PROB= 0.000
NUMBER OF OBSERVATIONS: 579
Notas:
D.F. : grados de libertad (D. F. degree free)
PROB : probabilidad o valor p
Interpretación
Los resultados muestran que la variable fortuna presenta la más alta correlación R -en adelante R- con 0.929 con la tierra, sigue ganado mayor R con 0.691, sigue ganado menor R con 0.601. Tamaño presenta la mayor R 0.994 con hijos. Ganado menor y Yunta presentan muy bajas correlaciones menores a 0.4. Ganado mayor presenta su más alta R (0.538 con tierra. En resumen, en su mayoría presenta altas correlaciones, arriba de 0.6, por lo cual corresponde realizar el Análisis Factorial. Además, la correlación Pearson produce el test Chi² Barlett que examina si la matriz de la correlación de la población tiene una identidad. Aquí, el test es significativo, pues indica que puede existir alguna correlación entre las variables. Mientras más alto el valor del Chi², nuestro caso 4827.930, mayor es la probabilidad de que exista una diferencia estadísticamente significativa entre los dos grupos o variables que estás comparando. Sin embargo, para ser exactamente, hay que mirar el valor p en una tabla de Chi²;en nuestro caso, el chi² tabulado para 21 g.l. es 38.932 con el 1% de confianza. Entonces, el valor calculado Chi² 4827.930 es mayor que el Chi² tabulado. Por tanto, hay diferencia significativa. En nuestro caso, el valor p o probabilidad es positivo para nosotros, o sea, cero:Prob= 0.000. En resumen, presenta en general aceptables valores.
Muestra de 579 familias de Perquilauquén
Objetivo n°2: Análisis Factorial
Tabla n°3
Contribución de factores comunes significativos a la explicación de la varianza de la fortuna
MUESTRA 579 FAMILIAS | FACTOR 1 | FACTOR 2 |
Patrón Factores Rotados | Tierra 0. 835 Gmayor 0. 687 Gmenor 0. 553 Yunta 0. 334 Fortuna 1.000 | Hijos 0. 994 Tamaño 0.997 |
Raíz latente | 2.638 * | 1.990 * |
Varianza explicada Factores Rotados | 2.589 | 1.994 |
Porcentaje Varianza explicada total | 36. 991%** | 28.489%** |
Total Varianza explicada 65.480% |
NOTAS:
* : Criterio de aceptación mayor o igual a 1.
** : Criterio de aceptación mayor o igual al 50%.
Gmayor : Ganado mayor
Gmenor : Ganado menor
Interpretación
Página siguiente |