Marco europeo para el aprendizaje, la enseñanza y la evaluación de lenguas (página 10)

Enviado por Ing.Licdo. Yunior Andrés Castillo S.

Partes: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11

Métodos cualitativos: Todos estos métodos suponen la participación de pequeños talleres de trabajo y grupos de informadores, y una interpretación cualitativa más que estadística de la información obtenida.

N.º 4 Conceptos clave: formulación. Una vez que existe un borrador de escalas, una técnica sencilla consiste en fragmentar la escala y pedir a los informadores representativos de las personas que van a usar la escala que a) coloquen las definiciones en el orden que crean correcto, b) expliquen por qué creen que es así, y después de esclarecer la diferencia existente entre esa ordenación y la que se pretendía originalmente, y c) que identifiquen qué elementos clave les ayudaron o les confundieron. Otra mejora consiste a veces en eliminar un nivel y establecer la tarea secundaria de determinar dónde existe un vacío entre dos niveles que indique la falta de un nivel entre ambos. Las escalas de certificación de Eurocentres se desarrollaron de esta forma.

N.º 5 Conceptos clave: actuaciones. Se comparan los descriptores con actuaciones típicas de los niveles de esas bandas para asegurar la coherencia entre lo que se describe y lo que ocurrió. Algunas guías de los exámenes de Cambridge introducen a los profesores en este proceso, comparando la redacción de las escalas con calificaciones otorgadas a ejercicios escritos concretos. Los descriptores del IELTS (International English Language Testing System) se elaboraron pidiendo a grupos de examinadores experimentados que identificaran muestras clave de ejercicios escritos de cada nivel y después acordaran cuáles eran las características clave de cada ejercicio. Luego, mediante debates, se determinaron las características que se consideraron representativas de distintos niveles y se incorporaron a los descriptores (Alderson, 1991; Shohamy et al., 1992).

N.º 6 Rasgo primario: Los informadores realizan una ordenación de las actuaciones (generalmente escritas). Después se negocia una ordenación común; para a continuación determinar y describir en cada nivel el principio según el que se han ordenado los exámenes escritos, procurando subrayar las características dominantes en un nivel concreto. Lo que se ha descrito es el rasgo (característica, constructo) que determina la ordenación (Mullis 1980). Una variante habitual es la organización en un número determinado de conjuntos, y no en un orden de valoración. Existe también una interesante variante multidimensional del enfoque clásico; en esta versión, primero se determinan cuáles son los rasgos más importantes mediante la identificación de características clave (n.º 5 anterior) y después se clasifican las muestras de cada rasgo de forma separada. Así, al final se tiene una escala analítica y múltiple de rasgos y no una escala holística del rasgo primario.

N.º 7 Decisiones binarias: Otra variante del método del rasgo primario consiste en organizar primero muestras representativas en conjuntos por niveles. A continuación, en un debate que se centra en los límites entre niveles, se determinan las características clave (como en el n.º 5 anterior). Sin embargo, la característica en cuestión se formula después como una pregunta breve de criterio con una respuesta de sí o no. De esta forma se elabora un árbol de elecciones binarias. Esto proporciona al examinador un algoritmo de las decisiones que se deben seguir (Upshur y Turner, 1995).

N.º 8 Valoraciones comparativas: Los grupos debaten pares de actuaciones declarando cuál es el mejor y por qué. De esta forma, se determinan las categorías del metalenguaje utilizado por los examinadores, así como las características principales que operan en cada nivel. Estas características se pueden introducir entonces en la formulación de los descriptores (Pollitt y Murray, 1996).

N.º 9 Clasificación de tareas: Una vez que existen descriptores en forma de esbozos, se puede pedir a los informadores que los organicen en conjuntos según las categorías que se supone que describen y, en su caso, según los niveles. También se puede pedir a los informadores que realicen comentarios sobre los descriptores, los corrijan o enmienden y, en su caso, los rechacen, y que determinen cuáles son especialmente claros, útiles, adecuados, etc. El banco de descriptores en que se basó el conjunto de escalas ilustrativas se desarrolló y se corrigió de esta manera (Smith y Kendall, 1963; North, 1996/2000).

Métodos cuantitativos: Estos métodos suponen una gran cantidad de análisis estadístico y una interpretación cuidadosa de los resultados.

N.º 10 Análisis discriminante: Primero, un conjunto de muestras de actuaciones que ya han sido valoradas (preferiblemente por un equipo) se somete a un análisis detallado del discurso. Este análisis cualitativo determina y contabiliza la incidencia de distintas características cualitativas. A continuación, se utiliza la regresión múltiple para establecer cuáles de las características identificadas son importantes para determinar aparentemente la clasificación que dieron los examinadores, y esas características clave se incorporan a la hora de formular los descriptores de cada nivel (Fulcher, 1996).

N.º 11 Escalonamiento multidimensional: A pesar del nombre, ésta es una técnica descriptiva que determina características clave y la relación que existe entre ellas. Las actuaciones son valoradas mediante una escala analítica de varias categorías. El producto de la técnica de análisis demuestra qué categorías fueron realmente decisivas a la hora de determinar el nivel, y ofrece un diagrama que traza la proximidad o la distancia de las distintas categorías entre sí. Es ésta, por tanto, ésta es una técnica de investigación que determina y ratifica criterios destacados (Chaloub-Deville, 1995).

N.º 12 Teoría de la respuesta al ítem (TRI) o análisis del rasgo latente: La TRI ofrece una familia de medidas o de modelos de elaboración de escalas de medición. El más directo y potente es el modelo de Rasch, que toma su nombre de George Rasch, matemático danés. La TRI es un desarrollo de la teoría de la probabilidad y se utiliza principalmente para determinar la dificultad de los ítems individuales de pruebas que hay en un banco de ítems. Para un alumno avanzado, las posibilidades de contestar una pregunta de nivel elemental son muy altas, mientras que para un alumno de nivel elemental, las posibilidades de responder a un ítem de nivel avanzado son muy bajas. Este hecho elemental se convierte en una metodología de elaboración de escalas de medición con el modelo de Rasch, que se puede utilizar para graduar ítems de la misma escala. Un desarrollo del enfoque permite que se use para escalonar descriptores de dominio comunicativo de la lengua, así como ítems de pruebas.

En el análisis de Rasch, se puede plantear un encadenamiento de diferentes pruebas o exámenes mediante el empleo de ítems de anclaje, que son comunes a las partes adyacentes. En el siguiente diagrama, los ítems de anclaje aparecen de color gris. De esta manera, partes de la prueba se pueden diseñar para grupos concretos de alumnos, pero pueden enlazarse en una escala común. Sin embargo, hay que tener cuidado con este proceso, pues el modelo distorsiona los resultados de las puntuaciones más altas y de las puntuaciones más bajas de cada parte de la prueba.

edu.red

La ventaja de un análisis de Rasch es que puede proporcionar una medición independiente de muestras y de escalas, es decir, un escalonamiento al margen de las muestras o de las pruebas y exámenes utilizados en el análisis. Se ofrecen los valores de las escalas que permanecen constantes para futuros grupos, siempre que esas futuras materias se puedan considerar grupos nuevos dentro de la misma población estadística. Los cambios sistemáticos de valores a lo largo del tiempo (por ejemplo, debido a un cambio del currículo o a la formación del examinador) se pueden cuantificar y adaptar. También se pueden cuantificar y adaptar las variaciones sistemáticas entre tipos de alumnos o examinadores (Wright y Masters, 1982; Lincare, 1989).

El análisis de Rasch se puede emplear de varias formas para valorar descriptores por escalas:

Los datos de las técnicas cualitativas números 6, 7 u 8 se pueden disponer en escalas aritméticas con el análisis de Rasch.
Se pueden elaborar pruebas cuidadosamente para hacer operativos descriptores de dominio de la lengua en ítems concretos de pruebas. Luego esos ítems de pruebas se pueden escalonar con el análisis de Rasch y se pueden tomar sus valores en la escala para indicar la relativa dificultad de los descriptores (Brown et al., 1992; Carroll, 1993; Masters, 1994; Kirsch, 1995; Kirsch y Mosenthal, 1995).
Se pueden utilizar los descriptores como ítems de pruebas para la evaluación que el profesor realiza a sus alumnos ("¿Sabe hacer X?"). Así se pueden graduar los descriptores directamente en una escala aritmética, de la misma forma en que se escalonan los ítems de pruebas de los bancos de ítems.

d) Las escalas de descriptores incluidas en los capítulos 3, 4 y 5 se desarrollaron de esta forma. En los tres proyectos descritos en los anejos B, C y D, se ha utilizado la metodología de Rasch para escalonar los descriptores y para equiparar entre sí las escalas de descriptores resultantes.

Además de su utilidad en el desarrollo de una escala, el método de Rasch también se puede usar para analizar las formas en que se utilizan realmente las bandas de una escala de evaluación. Esto puede contribuir a resaltar la redacción deficiente, la utilización errónea o el exceso de uso de una banda, así como a perfeccionar la revisión (Davidson, 1992; Milanovic et al., 1996; Stansfield y Kenyon, 1996; Tyndall y Kenyon, 1996).

Los usuarios del Marco de referencia pueden tener presente y, en su caso, determinar: – En qué medida se da a las calificaciones otorgadas en su sistema un sentido compartido mediante definiciones comunes. – Cuál de los métodos presentados anteriormente, o qué otros métodos, se utilizan para desarrollar dichas definiciones.

Bibliografía seleccionada y comentada: elaboración de escalas de medición del dominio de la lengua ALDERSON, J. C. (1991), «Bands and scores», en ALDERSON, J. C. y NORTH, B. (eds.), Language testing in the 1990s. Developments in ELT, London, British Council/Macmillan, págs. 71-86. Analiza los problemas causados por la confusión de finalidad y orientación, y el desarrollo de las escalas de expresión oral de IELTS. BRINDLEY, G. (1991), «Defining language ability: the criteria for criteria» en ANIVAN, S. (ed.), Current Developments in language testing, Singapur, Regional Language Centre. Crítica fundamentada de la reivindicación de las escalas de dominio de la lengua como representación de la evaluación referida al criterio. BRINDLEY, G. (1998), «Outcomes-based assessment and reporting in language learning programmes, a review of the issues», en Language Testing, 15 (1), págs. 45-85. Critica el énfasis en los resultados en función de lo que los alumnos saben hacer y no centrándose en aspectos de la competencia emergente. BROWN, ANNIE, ELDER, CATHIE, LUMLEY, TOM, MCNAMARA, TIM y MCQUEEN, J. (1992), «Mapping abilities and skill levels using Rasch techniques», artículo presentado en el decimocuarto Language Testing Research Colloquium, Vancouver; reimpreso en Melbourne, Papers in Applied Linguistics, 1/1, págs. 37-69. El uso clásico del escalonamiento de ítems de pruebas con el modelo de Rasch para producir una escala de dominio de la lengua, partiendo de tareas de comprensión escrita probadas en los distintos ítems. CARROLL, J. B. (1993), «Test theory and behavioural scaling of test performance», en FREDERIKSEN, N., MISLEVY, R. J. y BEJAR, I. I. (eds.), Test theory for a new generation of tests, Hillsdale, Nueva Jersey. Lawrence Erlbaum Associates, págs. 297–323. Artículo innovador que recomienda el uso del modelo de Rasch para escalonar los ítems de pruebas y elaborar así una escala de dominio de la lengua. CHALOUB-DEVILLE, M. (1995), «Deriving oral assessment scales across different tests and rater groups», en Language Testing, 12 (1), págs. 16-33. Estudio que revela los criterios que utilizan los hablantes nativos de árabe cuando valoran a los alumnos. Es prácticamente la única aplicación de un escalonamiento multidimensional de la evaluación en lenguas. DAVIDSON, F. (1992), «Statistical support for training in ESL composition rating», en HAMP-LYONS (ed.), Assessing second language writing in academic contexts, Norwood, N. J. Ablex, págs. 155-166. Una explicación muy clara de la forma de ratificar una escala de evaluación en un proceso cíclico con el análisis de Rasch. Argumenta a favor de un enfoque semántico del escalonamiento, más que por un enfoque concreto adoptado, por ejemplo, en los descriptores ilustrativos. FULCHER (1996), «Does thick description lead to smart tests? A data-based approach to rating scale construction», en Language Testing, 13 (2), págs. 208-38. Enfoque sistemático de los descriptores y del desarrollo de escalas de medición, partiendo de un análisis apropiado de lo que ocurre realmente en la actuación. Es un método que requiere mucho tiempo. GIPPS, C. (1994), Beyond testing, Londres, Falmer Press. A favor de la evaluación centrada en un nivel de exigencia realizada por el profesor, con relación a puntos comunes de referencia establecidos por medio de trabajo en grupo. Análisis de problemas ocasionados por descriptores imprecisos en el Currículo Nacional Inglés. KIRSCH, I. S. (1995), «Literacy perfomance on three scales: definitions and results», en Literacy, economy and society: Results of the first internacional literacy survey, París, Organisation for Economic Cooperation and Development (OECD), págs. 27-53. Informe sencillo y asequible sobre un uso sofisticado del modelo de Rasch para elaborar una escala de niveles partiendo de datos de pruebas. Método desarrollado para predecir y explicar la dificultad de nuevos ítems de pruebas partiendo de las tareas y de las competencias implicadas, es decir, con relación a un marco. KIRSCH, I. S. y MOSENTHAL, P. B. (1995), «Interpreting the IEA reading literacy scales», en BINKLEY, M., RUST, K y WINGLEE, M. (eds.), Methodological issues in comparative educational studies: The case of the IEA reading literacy study, Washington D. C., US Department of Education. National Center for Education Statistics, págs. 135-192. Versión más detallada y técnica que la anterior y que traza el desarrollo del método a través de tres proyectos relacionados. LINACRE, J. M. (1989), Multi-faceted Measurement, Chicago, MESA Press. Avance innovador en estadística que permite tener en cuenta el rigor de los examinadores a la hora de informar de los resultados de una evaluación. Aplicado al proyecto para desarrollar los descriptores ilustrativos con el fin de comprobar la relación de los niveles con los cursos escolares. LISKIN-GASPARRO, J. E. (1984), «The ACTFL proficiency guidelines: Gateway to testing and curriculum», en Foreign Language Annals, 17/5, págs. 475-489. Explicación de los fines y desarrollos de la escala americana ACTFL, partiendo de su escala originaria del Foreign Service Institute (FSI). LOWE, P. (1985), «The ILR proficiency scale as a synthesising research principle: the view from the mountain», en JAMES, C. J. (ed), Foreign Language Proficiency in the Classroom and Beyond, Lincolnwood, National Textbook Company (III). Descripción detallada del desarrollo de la escala de la Interagency Language Roundtable (ILR) de Estados Unidos, que procede del FSI. Funciones de la escala. LOWE, P. (1986), «Proficiency: panacea, framework, process? A Reply to Kramsch, Schulz, and particularly, to Bachman and Savignon», en Modern Language Journal, 70/4, págs. 391-397. Defensa de un sistema que funcionó bien —en un contexto específico— a pesar de la crítica académica que suscitó la difusión de esta escala y su metodología basada en entrevistas para la educación (con ACTFL). MASTERS G. (1994), «Profiles and assessment», en Curriculum Perspectives, 14,1, págs. 48-52. Breve informe de la forma en que se ha utilizado el modelo de Rasch para clasificar por escalas los resultados de pruebas y las evaluaciones que realiza el profesor, con el fin de crear un sistema curricular descriptivo en Australia. MILANOVIC, M., SAVILLE, N., POLLITT, A. y COOK. A. (1996), «Developing rating scales for CASE: T'heoretical concerns and analyses», en CUMMING, A. y BERWICK, R. Validation in language testing, Clevedon, Avon, Multimedia Matters, págs. 15-38. Explicación clásica del uso del modelo de Rasch para perfeccionar una escala de medición utilizada con una prueba de expresión oral, reduciendo los niveles de la escala a un número que los examinadores puedan utilizar con eficacia. MULLIS, I. V. S. (1981), Using the primary trait system for evaluating writing, Manuscrito n.º 10-W-51, Princeton Nueva Jersey, Educational Testing Service. Explicación clásica de la metodología del rasgo primario en la escritura en lengua materna para desarrollar una escala de valoración. NORTH, B. (1993), «The development of descriptors on scales of proficiency: perspectives, problems, and a possible methodology», artículo en NFLC: National Foreign Language Center, Washington D. C., abril de 1993. Crítica del contenido y del desarrollo metodológico de las escalas tradicionales de dominio de la lengua. Propuesta de un proyecto para desarrollar los descriptores ilustrativos con profesores y escalonarlos con el modelo de Rasch, partiendo de la evaluación que realiza el profesor. NORTH, B. (1994), «Scales of language proficiency: a survey of some existing systems». en CC-LANG (94) 24, Estrasburgo, Consejo de Europa. Estudio integrador de escalas curriculares y de escalas de valoración, analizadas y estudiadas posteriormente como punto de partida del proyecto para desarrollar descriptores ilustrativos. NORTH, B. (1996/2000), The development of a common framework scale of language proficiency, Tesis doctoral, Thames Valley University. Reimpresa en 2000, Nueva York, Peter Lang. Análisis de las escalas de dominio de la lengua, de cómo se relacionan los modelos de competencia y el uso de la lengua con las escalas. Explicación detallada de las fases de desarrollo del proyecto de elaboración de los descriptores ilustrativos, de los problemas abordados y de las soluciones adoptadas. NORTH, B. (en prensa), Scales for rating language performance in language tests: descriptive models, formulation styles and presentation formats, artículo de investigación de TOEFL, Educational Testing Service, Nueva Jersey, Princeton. Análisis detallado y estudio histórico de los tipos de escalas de valoración, utilizadas con pruebas de expresión oral y de expresión escrita: ventajas, inconvenientes, escollos, etc. NORTH, B. y SCHNEIDER, G. (1998), «Scaling descriptors for language proficiency scales», en Language Testing, 15/2, págs. 217- 262. Visión general del proyecto de elaboración de los descriptores ilustrativos. Estudia los resultados y la estabilidad de la escala. En un anejo se muestran ejemplos de instrumentos y de productos. POLLITT, A. y MURRAY, N. L. (1996), «What raters really pay attention to», en MILANOVIC, M. y SAVILLE, N. (eds.) (1996), Performance testing, cognition and assessment, Estudios sobre evaluación lingüística 3, artículos seleccionados del decimoquinto Coloquio del Language Testing Research, celebrado en Cambridge y Atenas el 4 de agosto de 1993, Cambridge, University of Cambridge Local Examinations Syndicate, págs. 74-91. Interesante artículo metodológico que vincula el análisis de cuadros de repertorio con una técnica sencilla de escalonamiento, para determinar en qué se centran los evaluadores en los distintos niveles de dominio de la lengua. SCARINO, A. (1996), «Issues in planning, describing and monitoring long-term progress in language learning», en las actas del X Congreso de Lenguas Nacionales de AFMLTA, págs. 67-75. Critica el uso de la redacción imprecisa y la falta de información sobre la calidad de la actuación de los alumnos en las especificaciones descriptivas características del currículo en el Reino Unido y en Australia. SCARINO, A. (1997), «Analysing the language of frameworks of outcomes for foreign language learning», en las actas del XI Congreso de Lenguas Nacionales de AFMLTA, págs. 141-258. De contenido y orientación semejante al anterior. SCHNEIDER, G. y NORTH, B. (1999), «"In anderen Sprachen kann ich" … Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit», en NFP 33/SKBF (Umetzungsbericht), Berna / Aarau. Breve informe sobre el proyecto de elaboración de las escalas ilustrativas. También presenta la versión suiza del Portfolio (cuarenta páginas A5). SCHNEIDER, G, y NORTH, B. (2000), «"Dans d"autres langues, je suis capable de …", Echelles pour la description, l"évaluation et l"auto-évaluation des competences en langues étrangères», en PNR 33/CSRE (rapport de valorisation), Berna/Aarau. Semejante al anterior. SCHNEIDER, G. y NORTH, B. (2000), «Fremdsprachen können -was heisst das? Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit», en Chur/Zürich, Verlag Rüegger AG. Informe completo del proyecto de elaboración de las escalas ilustrativas. Capítulo sencillo sobre el escalonamiento en inglés. También introduce la versión suiza del Portfolio. SKEHAN, P. (1984), «Issues in the testing of English for specific purposes», en Language Testing, 1/2, págs. 202-220. Critica las referencias a la norma y la redacción relacionada con ello de las escalas de ELTS. SHOHAMY, E., GORDON, C. M. y KRAEMER, R. (1992), «The effect of raters" background and training on the reliability of direct writing tests», en Modern Language Journal, 76, págs. 27-33. Explicación sencilla del método básico y cualitativo para el desarrollo de una escala analítica de la expresión escrita. Proporcionó una asombrosa fiabilidad entre evaluadores que no estaban entrenados y que no eran profesionales. SMITH, P. C. y KENDALL, J. M. (1963), «Retranslation of expectations: an approach to The construction of unambiguous anchors for rating scales», en Journal of Applied Psychology, 47/2. El primer enfoque de los descriptores de valoración y no sólo de las escalas de la expresión escrita. Innovador. Su lectura es compleja. STANSFIELD, C. W. y KENYON, D. M. (1996), «Comparing the scaling of speaking tasks by language teachers and the ACTFL guidelines», en CUMMING, A. y BERWICK, R., Validation in language testing, Clevedon, Avon, Multimedia Matters, págs. 124-153. Utilización del modelo de escalonamiento de Rasch, para confirmar la ordenación de tareas que aparecen en las directrices de ACTFL. Interesante estudio metodológico que perfeccionó el enfoque adoptado en el proyecto de elaboración de los descriptores ilustrativos. TAKALA, S. y KAFTANDJIEVA, F. (de próxima publicación), «Council of Europe scales of language proficiency: A validation study», en ALDERSON, J. C. (ed.), Case studies of the use of the Common European Framework, Consejo de Europa. Informe sobre la utilización de un desarrollo más profundo del modelo de Rasch para escalonar las autoevaluaciones de tipo lingüístico en relación con adaptaciones de los descriptores ilustrativos. Contexto: proyecto DIALANG: pruebas para el finlandés. TYNDALL, B. y KENYON, D. (1996), «Validation of a new holistic rating scale using Rasch multifaceted analysis», en CUMMING, A. y BERWICK, R., Validation in language testing, Clevedon, Avon, Multimedia Matters, págs. 9-57. Explicación sencilla de la validación de una escala para la valoración de entrevistas en inglés como segunda lengua para el examen de ingreso en la universidad. Uso clásico del modelo multidimensional de Rasch para determinar las necesidades de entrenamiento. UPSHUR, J. y TURNER, C. (1995), «Constructing rating scales for second language tests», en English Language Teaching Journal, 49 (1), págs. 3-12. Desarrollo sofisticado de la técnica del rasgo primario para elaborar cuadros de decisiones binarias. Muy adecuado para el sector de educación escolar. WILDS, C.P. (1975), «The oral interview test», en SPOLSKY, B. y JONES, R. (eds.), Testing language proficiency, Center for Applied linguistics, Washington D. C., págs. 29-44. La primera aparición de la escala original de valoración del dominio de la lengua. Vale la pena leerlo atentamente para ver matices que se han perdido en la mayoría de los enfoques de entrevista desde entonces.

Anejo B: Las escalas ilustrativas de descriptores

Este anejo describe el proyecto suizo para el desarrollo de los descriptores ilustrativos del Marco de referencia. Ofrece también una lista de las categorías que fueron escalonadas, con referencias a las páginas del documento principal donde se pueden encontrar. Los descriptores de este proyecto se escalonaron y utilizaron para crear los niveles del Marco, según el método n.º 12c (modelo de Rasch), explicado al final del anejo A.

El proyecto suizo de investigación

Origen y contexto

Las escalas de descriptores incluidas en los capítulos 3, 4 y 5 se han elaborado partiendo de los resultados de un proyecto del Consejo Nacional Suizo de Investigación Científica que se llevó a cabo entre 1993 y 1996. Este proyecto se realizó como una continuación del Simposio de Rüschlikon de 1991. El objetivo era elaborar especificaciones transparentes de dominio de la lengua, relativas a distintos aspectos del esquema descriptivo del Marco, que también podría contribuir al desarrollo del Portfolio europeo de las lenguas (European Language Portfolio).

Un primer estudio de 1994 se centró en la interacción y en la expresión, y se limitó al inglés como lengua extranjera y a la evaluación que realiza el profesor. En 1995 se repitió parcialmente el estudio de 1994, con la incorporación de la comprensión y se analizaron el dominio de francés y de alemán además del de inglés. También se añadió la autoevaluación y la información sobre exámenes (Cambridge; Goethe; DELF/DALF) a la evaluación que realiza el profesor.

En total, casi trescientos profesores y dos mil ochocientos alumnos -que representaban aproximadamente quinientas clases- participaron en los dos estudios. Los alumnos, procedentes del primero y del segundo ciclo de secundaria, de la enseñanza profesional y de la enseñanza de adultos, estaban representados en las siguientes proporciones:

edu.red

Participaron profesores pertenecientes a las regiones suizas donde se habla alemán, francés, italiano y retorromano, aunque el número de los pertenecientes a las regiones donde se habla italiano y retorromano fue muy reducido. Cada año, aproximadamente un cuarto de los profesores enseñaron en su lengua materna y completaron cuestionarios en la lengua meta. De esta forma, en 1994, los descriptores se utilizaron sólo en inglés, mientras que en 1995 fueron completados en inglés, francés y alemán.

Metodología

En pocas palabras, la metodología del proyecto ha sido tal y como a continuación se detalla:

Fase intuitiva:

Análisis detallado de las escalas de dominio de la lengua que se encuentran en el ámbito público o que se consiguieron por medio de contactos realizados por el Consejo de Europa en 1993; al final de este resumen se ofrece una lista.
Deconstrucción de esas escalas para convertirlas en categorías descriptivas relacionadas con las presentadas en los capítulos 4 y 5 y crear así un fondo inicial de descriptores redactados y modificados.

Fase cualitativa:

Análisis de categorías de grabaciones de profesores debatiendo y comparando el dominio de la lengua manifestado en actuaciones de vídeo, con el fin de comprobar que el metalenguaje utilizado por los profesionales estaba suficientemente representado.
Treinta y dos talleres de trabajo en los que los profesores: a) clasificaban los descriptores en categorías que ellos pretendían describir; b) realizaban valoraciones cualitativas respecto a la claridad, la corrección y la adecuación de la descripción; y c) clasificaban los descriptores en grados de dominio de la lengua.

Fase cuantitativa:

Evaluación realizada por profesores a alumnos representativos al final del curso escolar, utilizando una serie superpuesta de cuestionarios compuestos por descriptores considerados los más claros, los más centrados y los más adecuados por los profesores de los talleres de trabajo. Durante el primer año, se utilizó una serie de siete cuestionarios, cada uno de ellos compuesto por cincuenta descriptores, para cubrir una franja de dominio de la lengua que abarcaba desde alumnos que tenían ochenta horas de inglés hasta los hablantes avanzados.
En el segundo año, se utilizó una serie de cinco cuestionarios. Los dos estudios quedaron vinculados por el uso de los descriptores de interacción oral también en el segundo año. Los alumnos fueron evaluados según cada uno de los descriptores, mediante una escala de 0 a 4 que describía la relación con las condiciones de la actuación en las que se suponía que ellos podrían realizar la actuación descrita. La forma en que los profesores interpretaron los descriptores se analizó utilizando el modelo de escalas de valoración de Rasch. Este análisis tuvo dos objetivos:
Atribuir matemáticamente un «valor de dificultad» a cada descriptor.
Identificar estadísticamente la variedad significativa de la interpretación de los descriptores con relación a distintos sectores educativos, regiones lingüísticas y lenguas meta, con el fin de identificar descriptores que tuvieran una estabilidad muy alta de valores en distintos contextos para utilizarlos en la creación de escalas holísticas que resumieran los niveles comunes de referencia.
Evaluación de la actuación realizada por todos los profesores participantes respecto a vídeos de algunos alumnos. El objetivo de esta evaluación era cuantificar las diferencias existentes en el rigor de los profesores participantes, para tener en cuenta esa variedad de rigor a la hora de determinar el grado de aprovechamiento en los sectores educativos suizos.

Fase de interpretación:

Determinación de «puntos de corte» en la escala de descriptores para elaborar el conjunto de niveles comunes de referencia presentados en el capítulo 3. Resumen de esos niveles en una escala holística (cuadro 1), un cuadro de evaluación que describe actividades de lengua (cuadro 2) y un cuadro de evaluación de la actuación que describe distintos aspectos de la competencia lingüística comunicativa (cuadro 3).
Presentación de escalas ilustrativas en los capítulos 4 y 5 de las categorías que se pudieron escalonar.
Adaptación de los descriptores al formato de autoevaluación para elaborar una versión suiza de prueba del Portfolio. Esto comprende: (a) un cuadro de autoevaluación para la comprensión auditiva, la expresión oral, la interacción oral, la producción hablada, la expresión escrita (cuadro 2); (b) una lista de control para la autoevaluación de cada uno de los niveles comunes de referencia.
En un congreso final en el que se presentaron los resultados de la investigación, se debatió la experiencia con el Portfolio, y se dieron a conocer a los profesores los niveles comunes de referencia.

Resultados

El escalonamiento de los descriptores de distintas destrezas y de distintos tipos de competencias (lingüística, pragmática, sociocultural) se complica con la cuestión sobre si las evaluaciones de estas distintas características se pueden combinar o no en una dimensión única de medida. Éste no es un problema suscitado por el modelo de Rasch o asociado exclusivamente con ese modelo, sino que se aplica a todo análisis estadístico. El método de Rasch, sin embargo, es menos transigente si surge un problema; los datos de las pruebas, los datos de la evaluación que realiza el profesor y los datos de la autoevaluación pueden comportarse de forma diferente a este respecto. En cuanto al asunto de este proyecto relativo a la evaluación que realiza el profesor, determinadas categorías tuvieron menos éxito y se eliminaron del análisis con el fin de salvaguardar la precisión de los resultados. Las categorías que se extrajeron del fondo original de descriptores fueron las siguientes:

a) Competencia sociocultural Los descriptores que describían de forma explícita la competencia sociocultural y sociolingüística. No está claro hasta qué punto este problema fue provocado: a) por el hecho de que éste sea un constructo separado del dominio de la lengua, b) por descriptores bastante imprecisos que se consideraron problemáticos en los talleres de trabajo, o c) por las respuestas inconsistentes de los profesores que carecían del necesario conocimiento de sus alumnos. Este problema se extendió a los descriptores de la capacidad de leer y apreciar la ficción y la literatura.

b) Relacionadas con el trabajo Los descriptores que pedían a los profesores que se imaginaran actividades (generalmente relacionadas con el trabajo) que no pudieran observar directamente en clase; por ejemplo: llamar por teléfono, asistir a reuniones, realizar presentaciones formales, escribir informes y redacciones, correspondencia formal. Esto ocurrió a pesar de que los sectores de enseñanza profesional y de adultos estaban bien representados.

c) De concepto negativo Los descriptores relativos a la necesidad de simplificación y a la necesidad de que se repita o aclare lo dicho, que son conceptos implícitamente negativos. Dichos aspectos funcionaban mejor con condiciones en especificaciones redactadas de forma positiva; por ejemplo:

Comprende generalmente el discurso claro y en lengua estándar dirigido a él que trata asuntos cotidianos, siempre que de vez en cuando pueda pedir que le repitan o le vuelvan a formular lo dicho. Para estos profesores la comprensión de lectura resultó estar en una dimensión de medida distinta a la de la interacción y expresión oral. Sin embargo, el diseño de recogida de datos posibilitó el escalonamiento de la comprensión de lectura, de forma separada y a continuación, la equiparación de la escala de comprensión de lectura con la escala principal. La expresión escrita no centró mucho la atención del estudio y los descriptores de expresión escrita incluidos en el capítulo 4 se derivaron principalmente de los de expresión hablada. La estabilidad relativamente alta de los valores de escalas de los descriptores de comprensión de lectura y de expresión escrita tomados del Marco, y que fueron presentados tanto por DIALANG como por ALTE (véanse los anejos C y D respectivamente) sugieren, sin embargo, que los enfoques adoptados para la comprensión y la expresión escritas fueron razonablemente eficaces.

Las complicaciones surgidas en las categorías que acabamos de analizar tienen todas que ver con el escalonamiento de la unidimensionalidad por oposición a la multidimensionalidad. La multidimensionalidad se muestra de una segunda forma con relación a la población de alumnos cuyo dominio de la lengua se describe. Hubo varios casos en los que la dificultad de un descriptor dependía del sector educativo implicado. Por ejemplo, los profesores de principiantes adultos consideraban que las tareas de «la vida real» les resultaban más fáciles a sus alumnos que a los de catorce años. Esto parece intuitivamente sensato. Dicha variación se conoce como «Función diferencial del Ítem» (FDI). En la medida en que esto fue viable, se evitaron los descriptores que tenían FDI cuando se elaboraron los resúmenes de los niveles comunes de referencia presentados en los cuadros 1 y 2 del capítulo 3. Hubo muy pocos efectos significativos por parte de la lengua meta, y ninguno por parte de la lengua materna excepto la sugerencia de que los profesores nativos quizá tengan una interpretación más estricta de la palabra «comprender» en niveles avanzados, sobre todo respecto a la literatura.

Explotación

Los descriptores ilustrativos de los capítulos 4 y 5 han sido (a) situados en el nivel en que ese descriptor concreto fue calibrado empíricamente en el estudio, (b) escritos mediante la combinación de elementos de descriptores clasificados de esa forma en ese nivel (para unas pocas categorías como, por ejemplo, Declaraciones públicas, que no se incluyeron en el estudio original), (c) seleccionados con relación a los resultados de la fase cualitativa (talleres de trabajo), o bien (d) escritos durante la fase de interpretación para llenar un vacío de la subescala graduada empíricamente. Este último punto se aplica casi en su totalidad a la Maestría, para la que se habían incluido muy pocos descriptores en el estudio.

Seguimiento

Un proyecto para la universidad de Basle, realizado en 1999-2000 adaptó en su momento los descriptores del Marco de referencia para un instrumento de autoevaluación diseñado para el ingreso en la universidad. También se añadieron descriptores de la competencia sociolingüística y de la toma de apuntes en un contexto universitario. Los nuevos descriptores fueron escalonados para los niveles del Marco con la misma metodología utilizada en el proyecto original, y se han incluido en esta edición del Marco de referencia. La correlación de los valores de gradación de los descriptores del Marco de referencia entre sus valores originales de escala y sus valores en este estudio fue de 0,899.

Obras de consulta:

North, B. (1966/200), The development of a common framework scale of language proficiency, tesis doctoral, Thames Valley University, (reimpresa en 2000, Nueva York, Peter Lang).

North, B. (de próxima publicación), «Developing descriptor scales of language proficiency for the CEF Common Reference Levels», en Alderson, J. C. (ed.), Case studies of the use of the Common European Framework, Consejo de Europa.

North, B. (de próxima publicación), «A CEF-based self-assessment tool for university entrance», en Alderson, J. C. (ed.), Case studies of the use of the Common European Framework, Consejo de Europa.

North, B. y Schneider, G. (1998), «Scaling descriptors for language proficiency scales», Language Testing, 15/2, págs. 217-262.

Schneider y North (1999),"In anderen Sprachen kann ich" … Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunicationmsfähigkeit, informe de proyecto, Programa Nacional de Investigación 33, Berna, Consejo Nacional Suizo de Investigación Científica.

Los descriptores del Marco de referencia europeo

Además de los cuadros utilizados en el capítulo 3 para resumir los niveles comunes de referencia, los descriptores ilustrativos se encuentran intercalados en el texto de los capítulos 4 y 5 de la siguiente forma:

Documento B1 Escalas ilustrativas del capítulo 4: Actividades comunicativas

edu.red

Documento B5 Coherencia en la clasificación de los descriptores

Las posiciones en las que se detalla un contenido concreto indican un alto grado de coherencia. Es el caso de los temas, por ejemplo. No se han incluido descriptores para clasificar los temas, pero se hace alusión a ellos en los descriptores de varias categorías. Las tres categorías que se consideraron pertinentes son: descripción y narración, intercambio de información y alcance.

Los gráficos a continuación establecen una comparación de las distintas formas de abordar los temas en estas tres áreas. Aunque el contenido de estos tres gráficos no es idéntico, la comparación entre los tres muestra un cierto grado de coherencia, que se refleja en el conjunto de la clasificación de los descriptores. Este tipo de análisis ha constituido la base para la elaboración de descriptores de categorías que no se incluían en el estudio original (por ejemplo, la categoría "Hablar en público") mediante combinaciones de ciertos elementos de algunos descriptores.

edu.red

Documento B6 Escalas de dominio de la lengua utilizadas como fuentes

Escalas holísticas del dominio hablado general

Hofmann, Levels of Competence in Oral Communication, 1974.
University of London School Examination Board, Certificate of Attainment -Graded Tests, 1987.
Ontario ESL Oral Interaction Assessment Bands, 1990.
Finnish Nine Level Scale of Language proficiency, 1993.
European Certificate of Attainment in Modern Languages, 1993.

Escalas para distintas actividades comunicativas

Trim, Possible Scale for a Unit/Credit Scheme: Social Skills, 1978.
North, European Language Portfolio Mock-up: Interaction Scales, 1991.
Eurocentres/ELTDU Scale of Business English, 1991.
Association of Language Testers in Europe, Boletín 3, 1994.

Escalas para las cuatro destrezas

Foreign Service Institute Absolute Proficiency Ratings, 1975.
Wilkins, Proposals for level Definitions for a Unit/Credit Scheme: Speaking, 1978.
Australian Second Language Proficiency Ratings, 1982.
American Council on the Teaching of Foreign Languages Proficiency Guidelines, 1986.
Elviri et al., Oral Expression, 1986 (en Van Ek, 1986).
Interagency Language Roundtable Language Skill Level Descriptors, 1991.
English Speaking Union (ESU) Framework Project, 1989.
Australian Migrant Education Program Scale (Sólo comprensión auditiva).

Escalas de valoración para la evaluación oral

Dade County ESL Functional Levels, 1973.
Hebrew Oral Proficiency Rating Grid, 1981.
Carroll B. J. y Hall P. J., Interview Scale, 1985.
Carroll B. J., Oral Interaction Assessment Scale, 1980.
Internacional English Testing System (IELTS), Band Descriptors for the Speaking & Writing, 1990.
Goteborgs Univeritet, Oral Assessment Criteria.
Fulcher, The Fluency Rating Scale, 1993.

Marcos de contenidos de programas y de criterios de evaluación para las fases pedagógicas del logro de los objetivos.

University of Cambridge/Royal Society of Arts Certificates in Communicative Skills in English, 1990.
Royal Society of Arts Modern Languages Examinations: French, 1989.
English National Curriculum: Modern Languages, 1991.
Netherlands New Examinations Programme, 1992.
Eurocentres Scale of Language Proficiency, 1993.
British Languages Lead Body: National Language Standards, 1993.

Anejo C: Las escalas DIALANG

Este anejo contiene una descripción del sistema DIALANG de evaluación de la lengua que es una aplicación del Marco para fines de diagnóstico. Este sistema se centra en las especificaciones de autoevaluación utilizadas y en el estudio de valoración llevado a cabo en ellas como parte del desarrollo del sistema. También se incluyen dos escalas descriptivas relacionadas, que se basan en el Marco y que se utilizan para informar a los alumnos de los resultados del diagnóstico y para explicárselos. Los descriptores de este proyecto fueron escalonados y se equipararon con los niveles del Marco utilizando el método nº 12c (modelo de Rasch) explicado al final del anejo A.

El proyecto DIALANG

El sistema evaluador de DIALANG

El proyecto DIALANG es un sistema de evaluación pensado para alumnos de idiomas que quieren conseguir información de diagnóstico sobre su dominio de la lengua estudiada. El proyecto DIALANG se lleva a cabo con la ayuda financiera de la Comisión Europea y la Dirección General de Educación y Cultura (Programa SOCRATES, LINGUA, Acción D).

El sistema se compone de autoevaluación, pruebas lingüísticas y retroalimentación, que están disponibles en catorce lenguas europeas: alemán, danés, español, finés, francés, griego, holandés, inglés, irlandés, islandés, italiano, noruego, portugués y sueco. DIALANG se puede utilizar a través de Internet de forma gratuita.

El marco de evaluación de DIALANG y las escalas descriptivas utilizadas para informar de los resultados a los usuarios se basan directamente en el Marco de referencia. La mayoría de las especificaciones de autoevaluación empleadas en DIALANG, también se han extraído del Marco y se han adaptado, cuando ha sido necesario, para satisfacer las necesidades específicas del sistema.

Finalidad del proyecto DIALANG

El proyecto DIALANG se dirige a los adultos que quieren conocer su nivel de dominio de una lengua y obtener retroalimentación sobre las cualidades y las insuficiencias de dicho dominio. Este sistema también proporciona a los alumnos consejos sobre la forma de mejorar sus destrezas lingüísticas y además intenta despertar en ellos la conciencia del aprendizaje y del dominio de la lengua. Este sistema no concede certificados y sus usuarios principales son alumnos que estudian idiomas de forma independiente o en cursos académicos. Sin embargo, muchas de las características del sistema también les pueden resultar útiles a los profesores de idiomas para sus objetivos.

El procedimiento evaluador en DIALANG

El procedimiento evaluador de DIALANG consta de las siguientes fases:

1. Elección de la lengua de recepción de la prueba (catorce posibles).

2. Registro.

Elección de la lengua de la que se quiere ser evaluado (catorce posibles).

Prueba de valoración de la amplitud de vocabulario.

Elección de la destreza (comprensión escrita y auditiva, expresión escrita, vocabulario, estructuras).

Autoevaluación (sólo en comprensión escrita y auditiva y en expresión escrita).

Estimación previa del sistema sobre la capacidad del alumno.

Se proporciona una prueba de dificultad adecuada.

Retroalimentación.

Al entrar en el sistema, los alumnos eligen primero la lengua en la que desean recibir instrucciones y retroalimentación. Después de registrarse, se les presenta una prueba de clasificación que también valora la cantidad de su vocabulario. Después de elegir la destreza de la que quieren ser evaluados, se les presentan varias especificaciones de autoevaluación antes de realizar la prueba elegida. Estas especificaciones de autoevaluación abarcan la destreza en cuestión, y el alumno tiene que decidir si puede realizar o no la actividad que se describe en cada especificación. La autoevaluación no está disponible para las otras dos áreas evaluadas por DIALANG, vocabulario y estructuras, porque no existen en el Marco especificaciones que sirvan de fuente. Después de la prueba, como parte de la retroalimentación, se pregunta a los alumnos si su nivel de dominio autoevaluado difiere del nivel de dominio que el sistema les otorga según su actuación en las pruebas. También se ofrece a los usuarios en la sección explicativa de la retroalimentación, la oportunidad de analizar los motivos potenciales de una mala equiparación entre la autoevaluación y los resultados de la prueba.

Finalidad de la autoevaluación en el sistema DIALANG

Las especificaciones de autoevaluación se utilizan por dos motivos en el sistema DIALANG. En primer lugar, la autoevaluación se considera una importante actividad en sí misma. Se estima que fomenta el aprendizaje autónomo, que da a los alumnos un mayor control sobre su aprendizaje y que mejora su conciencia sobre el proceso de aprendizaje.

La segunda finalidad de la autoevaluación en DIALANG es más técnica: el sistema utiliza la prueba de valoración de la amplitud de vocabulario y los resultados de la autoevaluación para valorar la capacidad del alumno, y después le propone la prueba cuyo nivel de dificultad se equipara mejor con su capacidad.

Las escalas de autoevaluación de DIALANG

Fuente

La mayoría de las especificaciones de autoevaluación utilizadas en DIALANG fueron tomadas de la versión inglesa del Marco de referencia (Versión 2, 1996). A este respecto, DIALANG es una aplicación directa del Marco con fines de evaluación.

Desarrollo cualitativo

El grupo de trabajo de DIALANG que se ocupa de la autoevaluación[1]revisó todos los enunciados del Marco de referencia en 1998 y eligió los que parecían ser más concretos, claros y sencillos, y se consultaron, asimismo, los resultados empíricos de North (1996/2000) relativos a las especificaciones. Se eligieron más de cien especificaciones para la comprensión de lectura, la comprensión auditiva y la expresión escrita. Del mismo modo, se eligieron especificaciones relativas a la expresión oral, pero como la expresión oral no forma parte del actual sistema DIALANG, no se incluyeron en el estudio de validación que se describe más adelante y no se presentan, por tanto, en este anejo.

La redacción de las especificaciones se cambió de tercera a primera persona, porque se iban a utilizar para fines de autoevaluación más que para fines de evaluación del profesor. Se modificaron algunas especificaciones para simplificarlas y así adecuarlas a los usuarios a los que iban destinadas; también se elaboraron algunas especificaciones nuevas, cuando no había material suficiente en el Marco de referencia del que hacer uso (las especificaciones nuevas aparecen en los cuadros en cursiva). Todas las especificaciones fueron verificadas por el Dr. Brian North, creador de las especificaciones del Marco, y por un grupo de cuatro expertos en evaluación y enseñanza de idiomas, antes de decidir la redacción final de las especificaciones.

Traducción

Debido a que DIALANG es un sistema multilingüe, las especificaciones de autoevaluación fueron después traducidas del inglés a otras trece lenguas. La traducción siguió un procedimiento concertado, se acordaron unas directrices para la traducción y la negociación y un criterio cualitativo importante fue la comprensibilidad para los alumnos. Al principio, dos o tres traductores por lengua tradujeron las especificaciones a su idioma de forma independiente y después se reunieron para debatir las diferencias y acordar una redacción de consenso. Las traducciones fueron remitidas al grupo de autoevaluación, cuyos miembros tenían el dominio lingüístico suficiente para comprobar además la calidad de las traducciones en nueve lenguas. Se contactó con los traductores, se discutieron todos los asuntos relacionados con la redacción y se acordaron las modificaciones.

La gradación de las especificaciones de autoevaluación

Hasta ahora, el proyecto DIALANG ha llevado a cabo un estudio de gradación de las especificaciones de autoevaluación. Antes de nada, hay que anotar que la gradación de dificultad es un procedimiento que determina de forma estadística el nivel de dificultad de ítems, especificaciones, etc., con el fin de establecer una escala con ellos. La gradación se basó en una muestra de 304 sujetos (diseño completo de la prueba) que también realizaron varias pruebas de DIALANG en finés. Se les presentaron las especificaciones de autoevaluación, bien en sueco (para 250 individuos que tenían el sueco como lengua materna) o bien en inglés. Además, la mayoría de estas personas podía consultar la versión finlandesa de las especificaciones.[2] Se analizaron los datos con el programa OPLM (Verhelst et al., 1985: Verhelst y Glass, 1995).[3] Los resultados del análisis fueron muy buenos; más del 90 por ciento de las especificaciones pudieron ser escalonadas, es decir, encajaron en el modelo estadístico utilizado. Las tres escalas de autoevaluación que se crearon mediante la gradación de las especificaciones fueron muy homogéneas, como así lo indicaron los altos índices de fiabilidad (alfa de Cronbach: 0,91 para la comprensión de lectura, 0,93 para la comprensión auditiva y 0,94 para la expresión escrita)[4].

Parecidos estudios de gradación se llevarán a cabo cuando se realicen pruebas con las otras trece lenguas siguiendo el enfoque desarrollado por el grupo de análisis de datos. Estos estudios demostrarán hasta qué punto se pueden repetir los excelentes resultados del primer estudio y si existe la tendencia de que algunas especificaciones sean mejores que otras de forma consistente para fines de autoevaluación.

Aunque el primer estudio de gradación sea sólo uno, hay que destacar que este estudio demuestra la calidad de más de una versión en una lengua de las especificaciones de autoevaluación del sistema DIALANG. Esto es así porque la mayoría de los alumnos estudiados pudieron elegir cualquiera de las tres versiones, e incluso todas (sueco, inglés o finés) cuando completaron la parte de autoevaluación, aunque la mayoría probablemente utilizó la versión sueca. Debido al cuidadoso procedimiento de traducción, podemos suponer con toda garantía que las especificaciones de autoevaluación son en gran medida equivalentes en todas las lenguas, suposición que obviamente será evaluada como parte de otros estudios de gradación.

Otra muestra de la calidad de las escalas de autoevaluación de DIALANG —y de las escalas del Marco de referencia— la obtuvo el Dr. Kaftandjieva, al establecer una correlación entre los valores de dificultad de las especificaciones de este estudio y los valores de las mismas especificaciones conseguidos por North (1996/2000) en un contexto diferente. La correlación resultó ser muy alta (0,83 o incluso 0,897, si se excluye una especificación de comportamiento extraño).

El documento C1 presenta las 107 especificaciones de autoevaluación para la comprensión de lectura, la comprensión auditiva y la expresión escrita que superaron el estudio de gradación basado en datos finlandeses. Las especificaciones de cada cuadro están ordenadas en función de la dificultad, de las más fáciles a las más difíciles. Las especificaciones que no se tomaron del Marco de referencia aparecen en cursiva.

Otras escalas DIALANG basadas en el Marco de referencia

Además de las especificaciones de autoevaluación, DIALANG utiliza dos conjuntos de escalas descriptivas basadas en el Marco de referencia. Las escalas se refieren a la comprensión de lectura, la expresión escrita y la comprensión auditiva:

La versión más concisa acompaña la puntuación de la prueba,

La versión más extensa forma parte de la información adicional sobre los resultados.

Escalas concisas

DIALANG utiliza las escalas concisas generales de la comprensión de lectura, la expresión escrita y la comprensión auditiva, para informar de las puntuaciones del sistema DIALANG. Cuando los alumnos obtienen retroalimentación sobre su actuación, se les da un resultado respecto a la escala del Marco de referencia, de A1 a C2, y el sentido de esta puntuación se describe utilizando estas escalas de información de resultados. Estas escalas fueron ratificadas en el contexto DIALANG pidiendo a doce expertos que asignaran cada especificación a uno de seis niveles. Estas escalas generales de información de resultados fueron utilizadas después por los expertos para asignar cada ítem de las pruebas de finés de DIALANG a un nivel del Marco de referencia. La escala está basada en el cuadro 2 del Marco; las descripciones fueron ligeramente modificadas de la misma forma que las especificaciones de autoevaluación. Estas escalas se presentan en el documento C2.

Información adicional sobre los resultados

La sección de información adicional sobre los resultados del sistema de evaluación utiliza escalas que contienen descripciones más extensas de dominio de la lengua, relativas a la comprensión de lectura, la expresión escrita y la comprensión auditiva. La sección ofrece a los usuarios una relación más detallada de los conocimientos lingüísticos característicos de los usuarios en cada uno de los niveles de destreza. Los alumnos también pueden comparar la descripción de un nivel concreto con las descripciones de niveles contiguos. Estas escalas más detalladas también se fundamentan en las escalas del cuadro 2 del Marco, pero los descriptores se elaboraron más a fondo con la ayuda de otras secciones del Marco y también a partir de otras fuentes. Estas escalas se presentan en el Documento C3.

Los lectores que se interesen por los resultados de los estudios empíricos a los que nos hemos referido aquí, encontrarán una información más detallada sobre ellos en la obra de Takala y Kaftandjieva (de próxima publicación); para obtener más información sobre el sistema en general y sobre la retroalimentación que proporciona, se pueden consultar las obras de Huhta, Luoma, Oscarson, Sajavaara, Takala y Teasdale (de próxima publicación).

Obras de consulta:

Huhta, A., Luoma S., Oscarson M., Sajavaara K., Takala S. y Teasdale A., (de próxima publicación). «DIALANG: A Diagnostic Language Assessment System for Learners», en Alderson J. C. (ed.), Case Studies of the Use of the Common European Framework, Consejo de Europa.

North, B. (1996/2000), The Development of a Common Framework Scale of Language Proficiency Based on a Theory of Measurement, Tesis doctoral, Thames Valley University, Reimpresa en 2000, Nueva York, Peter Lang.

Takala, S. y Kaftandjieva F. (de próxima publicación), «Council of Europe Scales of Language Proficiency: A Validation Study», en Alderson J. C. (ed.), Case Studies of the Use of the Common European Framework, Consejo de Europa.

Verhelst, N., Glass C., y Verstralen H. (1985), «One-Parameter Logistic Model: OPLM», Arnhem, CITO.

Verhelst, N. y Glass C. (1995), «The One-Parameter Logistic Model», en Fisher G. y Molenaar I. (ed.), Rasch Models: Foundation, Recent Developments and Applications, Nueva York, Springer-Verlag, págs. 215-237.

Anejo D Las especificaciones de capacidad lingüística ("Puede hacer") de ALTE

Este anejo contiene una descripción de las especificaciones "Puede hacer" (Can Do statements) de ALTE, que forman parte de un proyecto de investigación a largo plazo que lleva a cabo la Asociación Europea de Examinadores de Lenguas (Association of Language Testers in Europe, ALTE). Se describen los objetivos y la naturaleza de las especificaciones, para después explicar cómo se desarrollaron dichas especificaciones, relacionadas con los exámenes de ALTE y vinculadas al Marco de referencia. Los descriptores de este proyecto fueron escalonados y equiparados a los niveles del Marco con el método número 12c (modelo de Rasch), explicado en el anejo A.

La Estructura de Niveles de ALTE y el proyecto "Puede hacer"

La Estructura de Niveles de ALTE

Las especificaciones de capacidad lingüística ("Puede hacer") de ALTE constituyen una parte fundamental de un programa de investigación a largo plazo establecido por ALTE, cuyo objetivo es crear un marco de niveles clave de actuación lingüística dentro del cual se puedan describir exámenes objetivamente.

Ya se ha realizado gran parte del trabajo que consiste en colocar los sistemas de exámenes de los miembros de ALTE dentro de este marco, basándose en un análisis del contenido de los exámenes, de los tipos de tareas y de los perfiles de los candidatos. Una introducción integradora a este sistema de exámenes se encuentra disponible en el Handbook of European Language Examinations and Examination Systems de ALTE (véanse las págs. 27 y 167).

Las especificaciones "Puede hacer" de ALTE son escalas centradas en el usuario

La finalidad del proyecto "Puede hacer" es desarrollar y validar un conjunto de escalas relacionadas con la actuación donde se describa lo que los alumnos son realmente capaces de hacer en la lengua extranjera.

Según la distinción de Alderson (1991) entre escalas centradas en el constructor, el examinador y el usuario, las especificaciones "Puede hacer" de ALTE en su concepción original están centradas en el usuario, contribuyen a la comunicación entre los participantes del proceso de evaluación, y, en concreto, a la interpretación de los resultados de las pruebas por parte de los no especialistas. Como tales, proporcionan:

Un instrumento útil para todos aquellos que participan en la enseñanza y en la evaluación de los alumnos de idiomas. Se pueden utilizar como una lista de comprobación de lo que pueden hacer los usuarios de la lengua y así definir la etapa en la que se encuentran.

Una base para desarrollar tareas de pruebas de diagnóstico, currículos basados en las actividades y materiales de enseñanza.

Un medio para llevar a cabo una verificación lingüística basada en actividades, de utilidad para personas relacionadas con la formación en el ámbito de los idiomas y con la selección de personal en las empresas.

Un medio de comparar los objetivos de los cursos y los materiales en distintas lenguas, pero dentro del mismo contexto.

Estas especificaciones serán de gran utilidad para los departamentos de formación y de personal, ya que ofrecen descripciones de actuación fácilmente comprensibles, que se pueden emplear a la hora de determinar los requisitos para profesores de idiomas, o a la hora de formular descripciones de puestos de trabajo y de especificar los requisitos lingüísticos para nuevos puestos de trabajo.

Las especificaciones de capacidad lingüística "Puede hacer" de ALTE son multilingües

Un aspecto importante de las especificaciones "Puede hacer" es que son multilingües, y han sido traducidas hasta ahora a doce lenguas representadas en ALTE. Estas lenguas son: alemán, catalán, danés, español, finés, francés, holandés, inglés, italiano, noruego, portugués y sueco. Como descripciones de niveles de dominio de la lengua, independientes de la lengua que se evalúa, constituyen un Marco de Referencia con el que se pueden relacionar potencialmente distintos exámenes de idiomas de diferentes niveles. Ofrecen la oportunidad de demostrar las equivalencias existentes entre los sistemas de exámenes de los miembros de ALTE, en términos claros referidos a las destrezas lingüísticas de la vida cotidiana que podrán llevar a cabo los candidatos que aprueben los exámenes.

Organización de las especificaciones de capacidad lingüística "Puede hacer"

Las escalas "Puede hacer" se componen actualmente de unas cuatrocientas especificaciones, organizadas en tres áreas generales: Sociedad y Turismo, Trabajo y Estudio. Éstas son las tres áreas que más interesan a la mayoría de los alumnos de idiomas. Cada una incluye otras áreas más concretas: el área Sociedad y Turismo tiene secciones como Ir de tiendas, Comidas en restaurantes, Alojamiento, etc. Cada una de ellas comprende hasta tres escalas para las destrezas de Comprensión Auditiva/Expresión Oral, de Comprensión de Lectura y de Expresión Escrita. La Comprensión Auditiva/Expresión Oral combina las escalas relacionadas con la interacción.

Cada escala incluye especificaciones que cubren una serie de niveles. Algunas escalas cubren sólo una parte de la franja de dominio de la lengua, dado que hay muchas situaciones en las que sólo se requiere un dominio de la lengua básico para conseguir el éxito de la comunicación.

El proceso de desarrollo

El proceso original de desarrollo se sometió a las siguientes etapas:

Descripción de los usuarios de las pruebas lingüísticas de ALTE por medio de cuestionarios, informes de los centros escolares, etc.

Utilización de esta información para especificar el alcance de las necesidades de los candidatos y determinar los intereses principales.

Utilización de las especificaciones de las pruebas y de los niveles reconocidos internacionalmente como, por ejemplo, el Plataforma y el Umbral para preparar las especificaciones iniciales.

Reajuste de las especificaciones y estimación de su adecuación a los candidatos.

Experimentación de las especificaciones con los profesores y alumnos para evaluar su adecuación y transparencia.

Corrección, revisión y simplificación de la formulación de las especificaciones en función de lo anterior.

Validación empírica de las especificaciones de capacidad lingüística "Puede hacer" de ALTE

Las escalas así elaboradas se han visto sometidas a un extenso proceso de validación empírica. El proceso de validación pretende transformar las especificaciones "Puede hacer", para que pasen de ser un conjunto esencialmente subjetivo de descripciones de nivel a convertirse en un instrumento de medición perfectamente calibrado. Éste es un proceso en curso y a largo plazo, que continuará conforme se vayan consiguiendo más datos procedentes del conjunto de idiomas representados en ALTE.

Hasta ahora, la recogida de datos se ha basado principalmente en el autoinforme, se han presentado las escalas "Puede hacer" como un conjunto de cuestionarios enlazados. Casi diez mil personas han completado estos cuestionarios y hay, además, disponibles datos complementarios de muchas de estas personas en forma de resultados de exámenes de idiomas. Se trata de la mayor recogida de datos llevada a cabo hasta ahora para validar una escala descriptiva de dominio de la lengua.

Se ha puesto en marcha un análisis empírico de la coherencia interna de las escalas "Puede hacer", que pretende:

Comprobar el funcionamiento de las especificaciones individuales dentro de cada escala "Puede hacer".

Equiparar las distintas escalas "Puede hacer", es decir, establecer la dificultad relativa de las escalas.

Investigar la independencia de las escalas "Puede hacer" con respecto a la lengua utilizada.

Se pasaron los cuestionarios en la primera lengua de los participantes, excepto en niveles muy avanzados, y principalmente en países europeos. Se comprobó que los cuestionarios eran los apropiados para los participantes; las escalas de Trabajo se dieron a personas que utilizan la lengua extranjera en el ámbito profesional y las escalas de Estudio a personas que participan o se preparan para participar en un curso utilizando una lengua extranjera. Las escalas de Sociedad y Turismo se dieron a otros participantes, mientras que se incluyeron como anclaje escalas seleccionadas de esta área en los cuestionarios de Trabajo y de Estudio.

Los items de anclaje se utilizan en la recogida de datos para un análisis de Rasch, con el fin de enlazar distintas pruebas o cuestionarios. Como se explica en el anejo A, el análisis de Rasch crea un único marco de medida utilizando un diseño matriz de recogida de datos o una serie de formas superpuestas de pruebas enlazadas por ítems que son comunes a las formas contiguas, a los que se denomina items de anclaje. Dicha utilización sistemática de especificaciones de anclaje es necesaria con el fin de permitir que se establezca la dificultad relativa de las áreas de uso y de las escalas concretas. El uso de las de Sociedad y Turismo como anclaje partió de la suposición de que estas áreas demandan un núcleo común de dominio de la lengua y se puede esperar que proporcionen el mejor punto de referencia para equiparar las escalas de Trabajo y de Estudio.

Revisión textual

Un resultado de la primera fase ha sido la revisión textual de las escalas "Puede hacer". En concreto, se han eliminado especificaciones de orientación negativa, ya que demostraron ser problemáticas desde el punto de vista estadístico y no parecían totalmente apropiadas para descripciones de niveles de aprovechamiento. Aquí se muestran dos ejemplos del tipo de cambios realizado:

Las especificaciones negativas se volvieron a redactar de forma positiva, preservando el sentido original:

Primera redacción: NO PUEDE contestar más que preguntas sencillas y predecibles.

Redacción final: PUEDE contestar preguntas sencillas y predecibles.

2. Las especificaciones utilizadas como calificación negativa de una especificación de nivel bajo se transformaron en especificaciones positivas que pretendían describir un nivel más alto.

Primera redacción: NO PUEDE describir síntomas no visibles tales como distintos tipos de dolor; por ejemplo: «sordo», «agudo», «punzante», etc.

Redacción final: PUEDE describir síntomas no visibles tales como distintos tipos de dolor; por ejemplo: «sordo»,«agudo», «punzante», etc.

Relación de las especificaciones de capacidad lingüística "Puede hacer" con los exámenes de ALTE

Después de la gradación inicial de las especificaciones "Puede hacer" y de la revisión textual descrita anteriormente, la atención se centra en el establecimiento de un enlace entre las escalas "Puede hacer" y otros indicadores de nivel lingüístico. En concreto, ha comenzado un análisis de la actuación llevada a cabo en los exámenes de ALTE y de la relación entre las escalas "Puede hacer" y los niveles del Marco de referencia del Consejo de Europa.

En diciembre de 1998 se comenzó la recogida de datos para unir las autoevaluaciones de los cuestionarios "Puede hacer" con las calificaciones de los exámenes de inglés como lengua extranjera de UCLES (University of Cambridge Local Examinations Syndicate) en distintos niveles. Se encontró una relación muy clara que hizo posible comenzar a describir el sentido de una calificación de examen en función de perfiles característicos de capacidad lingüística "Puede hacer".

Sin embargo, cuando las evaluaciones "Puede hacer" se basan en el autoinforme y provienen de una amplia serie de países y de grupos de participantes, se encuentra cierta variabilidad en la percepción general que los participantes tienen de sus propias capacidades. Es decir, las personas tienen tendencia a comprender "Puede hacer" de forma un tanto diferente por motivos que se pueden relacionar en parte con factores tales como la edad o el origen cultural. Para algunos grupos de participantes, esto debilita la correlación con sus calificaciones de examen. Se han elegido enfoques analíticos para establecer con la mayor claridad posible la relación entre las autoevaluaciones "Puede hacer" y los niveles de criterio del dominio de la lengua como los miden las calificaciones de examen. Probablemente será necesaria una mayor investigación basada en evaluaciones "Puede hacer", llevada a cabo por evaluadores experimentados, con el fin de caracterizar totalmente la relación existente entre las calificaciones de los exámenes y los perfiles de capacidad propios de las especificaciones "Puede hacer".

Un problema conceptual que hay que tratar en este contexto se refiere al concepto de dominio, es decir, ¿a qué nos referimos exactamente con la expresión "Puede hacer"? Se requiere una definición en función de la probabilidad con que esperamos que una persona tenga éxito en una tarea en un determinado nivel. ¿Significa que una persona logrará siempre llevar a cabo con éxito la tarea? Éste sería un requisito demasiado estricto. Por otro lado, una probabilidad de éxito del cincuenta por ciento sería demasiado baja para que se considerase dominio.

Se ha escogido la cifra de ochenta por ciento, dado que esta puntuación se utiliza a menudo en la evaluación referida al ámbito o al criterio como indicación de dominio en un ámbito dado. Por lo tanto, los candidatos que consiguen un aprobado normal en un examen de ALTE de un nivel dado, deberían tener el ochenta por ciento de probabilidad de éxito en tareas que se identifican como descriptores de ese nivel. Los datos recogidos hasta ahora de las personas que realizan exámenes de Cambridge, indican que esta cifra concuerda con su probabilidad media de confirmar las especificaciones "Puede hacer" en el nivel adecuado, y esta relación ha resultado ser bastante constante en todos los niveles de examen.

Al definir la expresión "Puede hacer" explícitamente de esta forma, tenemos una base para interpretar niveles concretos de ALTE en función de destrezas "Puede hacer".

Aunque la relación con la actuación en exámenes se ha basado hasta ahora en exámenes de Cambridge, se seguirán recogiendo los datos que enlazan especificaciones "ser capaz de" (can do) con la actuación en otros exámenes de ALTE, permitiéndonos comprobar que estos distintos sistemas de exámenes se relacionan esencialmente de la misma forma con el marco de cinco niveles de ALTE.

Anclaje con el Marco de referencia del Consejo de Europa

En 1999 se recogieron respuestas en las que el anclaje se lograba a partir de especificaciones tomadas del documento de 1996 del Marco de referencia europeo del Consejo de Europa. Los anclajes comprendían:

Los descriptores que componen el cuadro de autoevaluación de categorías principales de uso de la lengua por nivel, presentados como cuadro 2 del capítulo 3.

Dieciséis descriptores relacionados con los aspectos comunicativos de la fluidez, que aparecen en las escalas ilustrativas del capítulo 5.

Se eligió el cuadro 2 porque en la práctica se está utilizando mucho como descripción que resume los niveles. La capacidad que tiene ALTE de recoger datos de respuestas en un gran número de lenguas y de países contribuyó a la validación de las escalas del cuadro 2.

Se habían recomendado las especificaciones de «fluidez» porque habían resultado tener los cómputos de dificultad más estables cuando se midieron en distintos contextos del proyecto suizo (North 1996/2000). Se esperaba que permitieran así una buena equiparación de las especificaciones "Puede hacer" de ALTE con el Marco de referencia del Consejo de Europa. El cálculo de dificultades de las especificaciones de «fluidez» resultó concordar en gran medida con los datos ya conocidos (North 1966/2000), mostrando una correlación de r = 0,97. Esto constituye un anclaje excelente entre las especificaciones "Puede hacer" y las escalas utilizadas para ilustrar el Marco de referencia del Consejo de Europa.

Sin embargo, el uso del análisis Rasch para equiparar conjuntos de especificaciones (escalas) entre sí no es sencillo. Los datos nunca encajan en el modelo con exactitud: hay cuestiones de dimensionalidad, discriminación y función diferencial del ítem (variación sistemática de interpretación por parte de grupos distintos) que deben ser determinadas y tratadas para conseguir que se establezca la relación más verdadera posible.

La dimensionalidad se relaciona con el hecho de que, aunque las destrezas de Comprensión Auditiva/Expresión Oral, Comprensión de Lectura y Expresión Escrita tengan una alta correlación, aún existen diferencias, ya que el análisis en el que se encuentran separadas produce distinciones de nivel más coherentes y discriminatorias.

La discriminación de variables resulta evidente cuando comparamos el cuadro 2 y las especificaciones "Puede hacer". El cuadro 2 produce una escala más larga (para distinguir niveles más matizados) que las especificaciones "Puede hacer", lo cual probablemente sea debido a que el cuadro 2 representa el producto final de un largo proceso de selección, análisis y perfeccionamiento. El resultado de este proceso es que cada descripción de nivel es un compuesto de elementos característicos elegidos cuidadosamente, lo que facilita que los participantes en un nivel dado reconozcan el nivel que mejor los describe. Esto crea una estructura de respuestas más coherente, que a su vez genera una escala más larga, distinta de la forma presente de las especificaciones "Puede hacer", que aún son especificaciones breves y atómicas, no agrupadas todavía en descripciones de niveles tan terminadas y holísticas.

Los efectos del grupo (función diferencial del ítem) se evidencian en la observación de que determinados grupos de participantes (es decir, personas que completan los formularios Sociedad y Turismo, Trabajo o Estudio del cuestionario) discriminan mejor determinados niveles en determinadas escalas utilizadas como anclaje por motivos que ha resultado difícil determinar.

Ninguno de estos efectos es inesperado cuando se utiliza el enfoque del modelo de Rasch para equiparar escalas, e indican que una revisión sistemática y cualitativa de los textos de las especificaciones individuales sigue siendo una fase necesaria e importante para conseguir una equiparación definitiva de las escalas.

Niveles de dominio de la Estructura de Niveles de ALTE

Hasta este momento, la Estructura de ALTE es un sistema de cinco niveles. La validación descrita anteriormente confirma que estos niveles se corresponden en términos generales con los niveles del A2 al C2 del Marco de referencia del Consejo de Europa. Está en curso la labor de definir un nivel inicial más (Nivel Acceso), y el proyecto "Puede hacer" está contribuyendo a la caracterización de este nivel. Por tanto, la relación entre los dos marcos es la siguiente:

Niveles del Consejo de Europa		A1	A2	B1	B2	C1	C2
Niveles de ALTE		Nivel Acceso de ALTE	Nivel 1 de ALTE	Nivel 2 de ALTE	Nivel 3 de ALTE	Nivel 4 de ALTE	Nivel 5 de ALTE

Las características principales de cada nivel de ALTE son las siguientes:

Nivel 5 de ALTE (Usuario óptimo): capacidad para utilizar material con un alto nivel de exigencia académico o cognitivo y de causar una buena impresión en el uso de la lengua en un nivel de actuación que puede ser, en cierto sentido, más avanzado que el de un hablante nativo de tipo medio.

Ejemplo: PUEDE leer textos por encima para buscar información importante, PUEDE captar el tema principal del texto y leer con tanta rapidez como un hablante nativo. Nivel 4 de ALTE (Usuario competente): capacidad para comunicarse en la que destaca lo bien que lo hace en función de su adecuación, sensibilidad y capacidad para abordar temas no cotidianos.

Ejemplo: PUEDE responder a preguntas hostiles con seguridad. PUEDE tomar y mantener el turno de palabra. Nivel 3 de ALTE (Usuario independiente): capacidad para conseguir la mayor parte de sus objetivos y de expresarse en una cierta variedad de temas.

Partes: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11

Página anterior

Volver al principio del trabajo

Página siguiente