domingo, 8 de abril de 2018

Fiabilidad del examen MIR, serie histórica...

... desde el examen de la convocatoria 2001 hasta el último inclusive...


Adenda al análisis.- Este cálculo pertenece a procedimientos válidos pero antiguos en el sentido de que contempla los datos del examen en su conjunto y no pregunta por pregunta. En el cálculo del mismo intervienen los datos de las tres filas de celdas tintadas de gris que son datos globales de los resultados del examen. El número total de preguntas, la desviación típica y la media. 

Por la ley de los grandes números todo análisis del examen en el que se parta de los resultados globales del mismo tendría que ser muy malo para que no obtuviera como mínimo una nota centrada. En el caso que nos ocupa está dentro del intervalo considerado como adecuado por la literatura en cuanto a la estabilidad de su medida durante 17 años. Es por lo tanto confiable. ¿Entonces qué?... 

Entonces lo que conviene hacer además es el análisis del examen pregunta por pregunta. Hoy podemos hacer los cálculos de los parámetros que indica el consenso de la literatura pregunta por pregunta. El examen seguiría pasando la nota porque sería el promedio de la evaluación de las preguntas, pero con una diferencia capital y fundamental. Si lo hacemos pregunta por pregunta podemos presentar como anulables las preguntas que no pasen un determinado nivel de discriminación. Entonces la nota del examen, promedio de la nota de las preguntas, mejoraría. Esa mejora lo haría más objetivo y equitativo, más discriminativo. Es ahí donde hay que hincar el diente. En el análisis pregunta por pregunta. 

Es de cajón. Hoy no hay que conformarse solo con calcular el coeficiente de fiabilidad, que por cierto ni siquiera sabemos si se hace porque no se publica.

Si quieres innovar para mejorar, mide los parámetros que determina el consenso de la literatura académica para cada pregunta. Toma decisiones para determinar si son anulables o no, conforme a las mediciones obtenidas en cada una de ellas. 

Para eso está previsto el que las preguntas puedan ser anuladas si no cumplen un mínimo de calidad discriminativa. No solo hay que anular si se falla en el qué se pregunta, o si se falla porque el cómo se pregunta. También hay que anular si se falla en el cuánto mide lo que debería de medir. Esas son las preguntas candidatas a ser anuladas.

Ese cuánto es el tema del que va este discurso. Si lo mides conforme indica el consenso de la literatura académica al uso, ¿quién se iba a oponer? 

La discriminación del examen es el promedio de la de cada una de sus preguntas y por tanto si anulas las de discriminación negativa, como mínimo, mejoraría el promedio. Estaríamos a la última, y eso es lo que conviene a todas las pruebas de formación sanitaria especializada. Lo que le conviene a los interesados en las mismas, lo que le conviene a sus gestores. 

Además se haría pedagogía sobre la evaluación del examen. Conseguirías que se conozca su nomenclatura, su literatura, su disciplina académica. Conseguirías que los interesados conozcan su contenido y su porqué. Conseguirías centrar el debate del ejercicio de examen conforme a las reglas académicas al uso. Conseguirías mejorar el banco de preguntas de los exámenes. Conseguirías aumentar su prestigio. Conseguirías justificarlos ante la sociedad que los financia y de los que se beneficia. ¿Acaso no sería bueno eso?... 

¿Entonces a qué y a quién esperamos para hacerlo?

¿Por qué no hacéis lo más fácil?... y, ¿qué es lo más fácil?...

Lo que no cuesta nada. Poner las matrices de los datos de las respuestas en ficheros descargables: por examen, por pregunta, y por examinado anonimizado, con el nº de respuesta contestado para cada pregunta, incluidas las de reserva, y además la matriz de respuestas de la plantilla original de cada uno de los exámenes, la plantilla prevista por el examinador. Da igual que sean exámenes de 250+10 preguntas y 5 respuestas, de 225+10 preguntas y 5 o 4 respuestas.

Con eso se conseguiría que no se dudara de su transparencia. Se conseguiría que los diferentes grupos de investigación de las universidades que lo consideren oportuno realicen el análisis, publiquen los artículos correspondientes, y a la vista de los mismos se pueda realizar su contraste. 

Además de ello nada impide que el gestor de las pruebas realice su propia evaluación, o la encargue para consumo interno, y por supuesto además de para su consumo interno para su publicación. Lo que todavía daría al mismo un mayor contraste con el análisis que pudieran hacer los interesados en ello. 

¿Acaso sería todo eso malo para la salud de las pruebas?

Con el debido respeto pero sin ninguna duda. Esta entrada es una interpelación directa al Secretario General del MSSSI, que antes fue Director General de Ordenación Profesional, y al Director General actual, responsables últimos del tema que la motiva. El MSSSI analizó el examen de varios años antes de 1995... ¿por qué no volver a hacerlo?

1 comentario:

  1. Anónimo9/4/18 15:38

    Don José María, deberían ficharlo en el ministerio, es usted un crack, todo mi respeto y admiración. Es impagable su labor.

    ResponderEliminar