miércoles, 12 de febrero de 2020

Más reflexiones...

... al hilo de otra cuestión...

Se trata de la cuestión de la medida de los parámetros dificultad y discriminación, y viene a cuento de un comentario que me hacía alguien sobre la pregunta nº 177 de la versión 0 de examen.

Publiqué no hace mucho una entrada titulada ¿Por qué corrigen el examen las academias?... y de la misma se desprendería el porqué una pregunta puede tener, y tiene, diferente parámetro de dificultad, y discriminación, entre los alumnos de una academia determinada y el resto.

El mayor conocimiento que extraen las academias de la corrección de los exámenes son los resultados que obtienen sus alumnos respecto de los del resto.

Pero no por lo que pudiera parecer en un primer momento. No, no es por alparcear o para hacer propaganda, eso es secundario por importante que sea para cada una.

La madre del cordero es detectar, a través de la comparación de los resultados, las preguntas que hemos fallado más nosotros, ¿por qué?... porque si nuestros alumnos lo contestaron peor que el resto es que nosotros, nuestro profesor de la materia en concreto, no incidió lo suficiente en ello y los del resto sí, y no solamente sí, sino cuánto sí.

Alguno recomienda a sus alumnos que solo se corrija en la plataforma de la academia y no en el resto. Pero mira por donde deja la puerta abierta a que el resto lo corrija con ellos. Lo mismo se puede decir de esas maratones de corrección de simulacros, que se han puesto de moda con la escusa de darles una referencia con más aspirantes que los de la academia. Solo sería creíbles unos y otros si para darte de alta en la corrección no te exigieran que incluyas la academia en la que te preparas.

Todo esto viene a cuento de la pregunta nº 177 como podría ser otra cualquiera.

¿Y qué tiene que ver eso con los parámetros dificultad y discriminación y su medida?

Si pudiéramos medir los resultados de cada pregunta que han tenido los alumnos de cada una de ellas podríamos tener también los del resto. Así veríamos las diferencias, especialmente en algunas preguntas significativas si fueran las contestaciones diferentes. 

Ahí está el conocimiento que extraen las academias corrigiendo exámenes en el postMIR, no para alparcear sino para aprender donde hemos fallado nosotros y donde han acertado el resto. Todo eso a través de un gradiente de diferencias pregunta por pregunta. 

Claro que no solo eso. Hay más conocimiento extraído en la corrección del postMIR. En primer lugar el propio contenido y la posibilidad inmediata de realizar el análisis del examen pregunta por pregunta obligándose a corregirlo. La variabilidad de los resultados con los simulacros utilizados durante la preparación y otros muchas variables que servirán para preparar el siguiente ciclo.

En mi caso, sobre todo, aprendo de la relatividad de las mediciones.

Medir, en todo caso, es hacerlo en relación a un patrón de medida. Longitud, volumen, etc.

En nuestro caso, respecto del parámetro dificultad, ¿cómo lo medimos?

La literatura ha convenido, en general, decir que la dificultad es una proporción de aciertos en un examen determinado. En el caso que nos ocupa sería comparar el % de respuestas netas en una pregunta determinada por el subconjunto de los alumnos examinados respecto del % del resto. Incluso si se quiere, compararlo con el promedio de todos los examinados y ver si está por debajo o por arriba para tener un mejor modelo de comparación. 

Respecto del parámetro discriminación, la literatura ha convenido que es una correlación. Una correlación entre el resultado esperado o probable en una pregunta determinada respecto del conocimiento mostrado en el resto de preguntas, y el real en esa pregunta que tratamos de medir. El del examen sería su promedio. La comparación para el subconjunto de alumnos seguiría el mismo patrón que en el caso de la dificultad.

No siempre existe correlación entre dificultad y discriminación, pero en este tipo de exámenes la suele haber. Especialmente en las preguntas que han resultado muy difíciles para la mayoría y que esa dificultad viene de haber sido mal construidas por haber sido contestadas en mayor proporción por los que menor conocimiento han demostrado en el resto de preguntas.

Tanto el parámetro dificultad como el parámetro discriminación después de ser calculados se ordenan de menos a más y se escalan adjudicando por intervalos de medida una calificación en letra a través de una escala convenida previamente y poder mostrar esos datos agrupados por intervalos en una gráfica.

Pues bien, el ministerio caso de calcular dichos parámetros, solo podría hacer una foto fija de los mismos. La del resultado final del ejercicio de examen correspondiente. Las academias sin embargo pueden calcular una colección de fotogramas simulacro por simulacro. Así tienen obtienen conocimiento no solo de la pendiente de crecimiento, que es la razón de ser de su existencia, sino también las diferencias entre simulacro y simulacro de cada uno de los alumnos, es decir, del tobogán de su variabilidad entre simulacro y simulacro, independientemente de que sigan una pendiente de crecimiento a lo largo de los mismos.

El ministerio no puede estudiar la variabilidad, para ver si es algo normal y azaroso, o por el contrario obedece a causas específicas del aspirante. Estudiar las diferencias entre el último simulacro y el MIR es especialmente interesante porque las academias durante la preparación intentan acercarse lo máximo posible a como será el examen. Su arte y parte está en esa aproximación. 

Disponer de la foto de la variabilidad, su gráfica de dispersión en un diagrama de barras, le llevaría al ministerio a una reflexión sobre el examen, sobre su naturaleza y sobre su objetivo. No solo sobre el nº de preguntas del examen, que también, sino sobre todo si se ha de seguir jugando todo a una sola carta cada año o por el contrario habría que jugarlo a varias cada año. De optar por varios exámenes, a la vista de la gráfica de la variabilidad, el resultado final sería lógicamente su promedio. Una manera menos azarosa de aproximar la puntuación verdadera de cada partícipe.

Resumen.- Lo que cuenta para las academias en el esfuerzo del postMIR es el conocimiento que extraen del mismo. Lo que tirarían por la borda del postMIR, si pudieran, sería el posicionamiento. Solo les trae problemas y conflictos. Pero, ¿quién le pone el cascabel al gato, es decir, quién de ellos tira primero la toalla?... por el momento ninguno. Todas las facetas del postMIR está bien como servicio para los alumnos, menos posicionar. Es un coñazo y origen de muchos disgustos, se reconozca o no. 

1 comentario:

  1. CTO ha tirado la toalla cuanto a predicción del puesto, ya que se limitan a hacer una regla de tres extrapolando el percentil obtenido en la muestra a la población total de personas que realmente se han presentado al MIR en base a sus cálculos.

    Lo cual me parece una actitud pueril y deshonesta con quienes hacen el favor de mandar sus exámenes para la corrección en lo que, como bien dice, es probablemente la fuente de información más importante de que disponen en todo este camino que es el examen MIR. Y que los mandan no de forma desinteresada, sino a cambio simple y llanamente de algo de información sobre qué va a pasar con su futuro en los próximos meses.

    Entiendo que para ellos es un problema e, incluso, una posible fuente de desprestigio, el tratar de acertar en algo tan difícil. Pero no sé qué fuente de mala fama puede haber peor que hacer un feo de este calibre a quienes confían en ellos para, al final, obtener algo de sosiego en estos días tan difíciles, aunque ellos puedan decir que realmente nunca fue su intención ofrecer tal información (aceptando, de paso, que por el interés te quiero, Andrés).

    Ahora, eso sí, el correo para informar de sus cursos ReMIR para aquellos que no han alcanzado el número pretendido, rápido que lo mandan.

    En fin...

    ResponderEliminar