Búsqueda de correlaciones: “La salida de pesca” Límite de detección de la densidad de flujo radio del catálogo 3CR Recomendaciones (Wall, 1996, QJRaS, 37, 719): ¿Puede estar causada por efectos de selección?
Si 1. 2. 3. resultan negativos, calcúlese la significancia de la correlación con alguno de los métodos que se detallan a continuación.
Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 5. ¿Tiene la línea de regresión algún significado? ¿Tiene sentido ajustar por mínimos cuadrados alguna curva? (d) ¿Cuales son los errores en los parámetros del ajuste? (c) ¿Por qué el ajuste tiene que ser lineal? (b) Si no sabemos qué variable actua como causa de la correlación, ¿cuál de las dos variables debemos utilizar como independiente en el ajuste? (a)
(véase lección sobre ajustes)
Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): ¿Existe alguna relación causal? ¿Por qué? La relación puede simplemente indicar la dependencia de las dos variable, de una tercera, y eso crea una correlación espuria. Ejemplo: diagramas L-L. Sin embargo, el Statistical Consulting Center for Astrophysics, recomienda utilizarlos siempre que se utilice análisis de supervivencia. Grafíquense las variables de forma que la correlación se vea de forma evidente en el diagrama, si hace falta, recurriendo a encasillar las variables y a realizar promedios.
Ejemplo: la mediana del índice de variabilidad (?v) de QSOs ópticamente seleccionados para cada intervalo MB muestra gráficamente la correlación medida por métodos estadísticos. De otra forma, los puntos del diagrama de dispersión muestran una correlación cuanto menos cuestionable para el lector novel. (Hook et al. 1994) mediana
Correlaciones entre variables de tipo nominal Definiciones: Variable nominal es aquella que conlleva información sobre un conjunto de valores no ordenado. Ejemplo: sistema de clasificación morfológica de galaxias (E, S0, Sa, Sb, …). Tabla de contingencia, recoge las incidencias Nij entre dos variables nominales xi, yj.
Correlaciones entre variables de tipo nominal Ejemplo: comparación de la determinación del tipo espectral de estrellas, por métodos espectroscópicos y fotométricos (Selman et al. 1999, A&A).
Correlaciones entre variables de tipo nominal: test ?2 ? Método: probar que es erronea la suposición que las variables no están asociadas. Si es así, el número de incidencias esperado en el casillero (i,j) será . Se define la función
La significancia de que ambas distribuciones estén asociadas viene dada por función de probabilidad ?2 con ? grados de libertad
? Comparación de la intensidad de dos correlaciones: ? V de Cramer, tal que (no corr.) 0 = V = 1 (corr. perfecta)
? Coeficiente C, a utilizarse sólo cuando las tablas de contingencia . . . . . tienen la misma dimensión, tal que 0 = C = 1. (Press et al., “Numerical Recipes”)
Correlaciones entre variables de tipo ordinal o continuo: coeficiente de Pearson ? Definiciones: se denomina variable ordinal aquella cuyos valores discretos se pueden ordenar, y variable continua, aquella cuyos valores continuos se pueden ordenar. Ejemplos: orden de las galaxias más luminosas en un cúmulo (1,2,3…), temperatura efectiva de una nebulosa, … ? Coeficiente de correlación lineal de Pearson ? Suposición: las variables están distribuidas de forma gaussiana. Es un . test paramétrico. ? Método: mide la desviación de las variables respecto a una línea recta. Dados los puntos {xi, yi }i=1,..,N se define el coeficiente de correlación
tal que -1 = r = 1, donde ±1 indica correlación perfecta, y 0 indica no correlación. La significancia de que no exista una correlación viene dada por la distribución t-Student con N-2 grados de libertad, donde r está relacionado con la matriz de covariancia, que ofrece también un test paramétrico si se utiliza para buscar correlaciones
Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Spearman ? Suposiciones: ninguna, es un test no-paramétrico, y por lo tanto, muy utilizado en Astrofísica. ? Método: dados los puntos { xi, yi }i=1,..,N se definen las variables Ri , rango cuando las xi están ordenadas ascendentemente, y Si , rango cuando las yi están ordenadas ascendentemente. Si no se producen repeticiones (ligas) en los valores de xi, yi , se define el coeficiente de Spearman Si se producen fk repeticiones entre las xi , y gm repeticiones entre las yi
que tiene la propiedad ? 0 cuando no existe correlación. La significancia de no asociación viene dada aproximadamente por la distribución t-Student con N-2 grados de libertad siempre que se tengan más de 50 puntos, si no, hay que recurrir a tablas de significancias. (Press et al. , Numerical Recipes)
Correlaciones entre variables de tipo ordinal o continuo: coeficiente de Spearman Tablas de significancias para N=50
Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Kendall ? Suposiciones: ninguna, es un test no-paramétrico. De hecho, los resultados de los tests de Spearman y Kendall están fuertemente correlacionados. ? Método: se crean todas las combinaciones de puntos posibles [(xi, yi), (xj, yj)] tal que i ? j y se definen c = número de parejas concordantes (xi>xj y yi>yj) o (xixj y yixj y yi