miércoles, 23 de diciembre de 2015

El porqué de algunas cuestiones...


... en las pruebas selectivas que miden por discriminación para ordenar...

1.- Resumen

Las pruebas de libre concurrencia para elegir plaza de formación sanitaria especializada concentran aspirantes de distintos centros de formación, de diferentes años de graduación, y de distintos baremos académicos, tratan de ordenarlos o "normalizarlos" de forma prevalente para ello.

Su naturaleza, su "alma", deviene de la necesidad de contar con un instrumento adecuado de medición, que contenga un amplio conjunto de preguntas con opciones múltiples de respuesta en un tiempo determinado, y por tanto una escala amplia de valoración que permita discriminar al conjunto de presentados para reducir los empates del examen al mínimo deseable. Es por tanto un examen de potencia y de velocidad. Para ello se hace necesario contar con un amplio banco de preguntas que alimente al instrumento de medición.

Para poder intentar acotar esa discriminación necesaria se necesita "calibrar" a priori las preguntas del banco de preguntas. Esa calibración es una "caracterización" de las mismas, es decir, una adjudicación a cada una de ellas de una serie de caracteres que permitan su selección fácil y rápida desde la base de datos donde "reposan" para poder "llamarlas" por dichos caracteres para poder ser candidatas a formar parte del examen. 

Los caracteres pueden ser de muchos tipos, y fundamentalmente serán su materia, si son casos clínicos o no, si son preguntas positivas o negativas, su grado de dificultad y de discriminación, si han sido o no previamente preguntadas en otras convocatorias, cuantas veces lo han sido, etc. Habrá caracteres que podremos mecanizar mediante análisis matemático y otros será necesario hacerlo mediante juicio médico. 

La finalidad que se pretende es acotar el grado de incertidumbre del examen para conseguir una discriminación igual a lo largo de su distribución de resultados, es decir, para conseguir una distribución normal de los mismos para una demanda aproximada de 2:1 por plaza ofertada.

2.- ¿Por qué ha de discriminar el examen?

Porque debe de "separar" las notas de todos los demandantes que se presentarán al examen sin alterar la paz social entre los mismos al realizarlo, es decir, debe de tratar de lograr que los empates por intervalo de notas de examen eviten tener que desempatar por sorteo. 

La prueba no es solo para los recién egresados, que pueden presentarse este año alrededor de 5.650 para 6.098 plazas ofertadas sino que los presentados rondarán los 10.500 este año en libre concurrencia para esas mismas plazas. Por otra parte tampoco es obligatorio elegir plaza, es decir, no solo es una prueba selectiva para ordenar la elección de las plazas sino que la propia demanda elige o no cuando le toca por orden en función de sus intereses. 

Si las notas del examen estuvieran empatadas su ordenación no lo podría estar y de ahí viene esa necesidad de discriminar al máximo posible. A nadie le gustaría obtener un buen resultado de examen y un mal nº de orden. 

3.- ¿Cómo se puede conseguir eso si ya todos son médicos?

Lo primero que se necesita es un instrumento de medición adecuado, en este caso un ejercicio de 225+10 preguntas tipo test de respuesta múltiple, con unas normas de valoración que determinan una escala de clasificación de 0 a 675 para poder discriminar al máximo en el examen. 

Aún así en la mayor parte de los intervalos unitarios entre notas de la escala habrá para cada uno de ellos del orden de 10-20-30-40 empates en la mayor parte de la distribución de los mismos, por lo que tendrá que ser el baremo académico quien decida, con su peso y transformación en puntos, quien dirima los empates en el examen, y caso de persistir los empates entran en acción las normas de desempate previstas.

4.- ¿Por qué se hace necesario que sea así?

Porque en las pruebas selectivas de formación sanitaria especializada en España quien elige plaza es el examinado sin tener que ver en ello el centro de formación.

Si en la elección de plaza tuviera que dar la conformidad el centro de formación no sería necesaria tanta exigencia para discriminar. Darían igual los empates, a un hospital le daría igual que la nota del aspirante fuera un 7,4 o un 7,5 y que hubiera cientos y cientos de empates entre los miles de aspirantes en cualquier escala. La nota obtenida sería un dato más del currículum y sería el centro de formación en última instancia quien decidiría. 

La prueba podría ser una mera reválida de acreditación con un formato de examen distinto y con una escala distinta, lo de menos sería quien la organizaría. El acreditado con el certificado correspondiente y su curriculum procedería a hacer la "ruta del bacalao" dejando copia de su acreditación y currículum en aquellos centros de su interés y a esperar. 

A cambio de reconocerle a los centros de formación la autonomía de la elección de aspirantes les trasladamos el "marrón" de su selección.

5.- La línea de flotación del examen 

Como vemos el punto débil del examen, su línea de flotación, reside en quién manda en la elección de plaza, si el examinado o el centro, y eso determina su necesidad de discriminar a la diezmilésima en la nota final de la misma. Determina su naturaleza, su "alma".

Así pues esta es una de las servidumbres del MIR, su necesidad imperiosa de discriminar a la diezmilésima entre los examinados para evitar al máximo los empates, y esa es también la causa de su formato, de su amplia escala, de su potencia y de su velocidad, responder una media de pregunta por minuto, y casi siempre teniendo que elegir dudando. El formato no solo mide conocimientos médicos sino un conjunto de sesgos, dentro de la lógica médica, apoyándose en la ley de los grandes números, tanto en el examen como en el baremo académico, para conseguir discriminar a los demandantes a la diezmilésima.

6.- La necesaria profesionalización de la prueba

Parece evidente que para conseguir ese objetivo una prueba de esta naturaleza requiere apoyarse en una serie de técnicas que hacen necesario que se "profesionalice" apoyándose en un conjunto de "expertos" que prestan ese servicio a la Comisión Calificadora de la misma que es a quien corresponde formalmente poner el examen, anular las preguntas que consideren anulables y por fin decidir y hacer pública la plantilla definitiva de respuestas.

A nadie en su sano juicio se le puede ocurrir pensar que un instrumento de medición de tan necesaria precisión lo pueda ejecutar una Comisión Calificadora nombrada poco tiempo antes del examen y que por razones obvias no ha participado en la redacción del mismo sino que la hace suya en la primera reunión que tiene el mismo día del examen justo antes del inicio del mismo y que termina justo después de que termina el mismo. Posteriormente tiene otra reunión para determinar las preguntas que se anulan. 

Por lo tanto la Comisión Calificadora somete a debate las propuestas de los expertos y toma las decisiones oportunas en las dos reuniones quedando reflejadas en las Actas correspondientes. También resuelve sobre los incidentes que se puedan dar durante la celebración del ejercicio. 

7.- Las consecuencias de sacar el cuadernillo de preguntas con la copia de la hoja de respuestas

Un fenómeno propio del MIR les salvó de la quema de preparar el examen sin temario a las generaciones siguientes a las primeras utilizando para ello los monumentales manuales de medicina general sin adelgazar. 

A los creadores no se les ocurrió otra cosa que dejar sacar los cuadernillos de preguntas y una copia de la plantilla de respuestas para comprobar su corrección por el interesados cuando se publicara la plantilla oficial de respuestas. 

Esa fue la "ocurrencia" que solucionó el "problema del temario". Determinados asesores externos se llevaron las manos a la cabeza cuando se enteraron de ello, pero mira por donde el tiempo ha venido a dar la razón a esa "ocurrencia" y los gestores en su pecado han llevado la penitencia. La "ocurrencia" les ha obligado a gestionar un inmenso banco de preguntas que cada año aumenta los cuadernillos que posteriormente servirás de "temario" de preparación a los nuevos aspirantes, y justo ese pecado ha sido la salvación de todos, el causante de que el "comportamiento" del examinador, de los preparadores y de los preparandos determine la "acotación de la incertidumbre" del "comportamiento de todos" con la discriminación necesaria.

En definitiva y en contra de sus detractores el examen ha conseguido la "paz social" entre todos los interesados, "casi" ninguno está plenamente de acuerdo con el mismo pero "casi" todos los creen necesario porque piensan que es el menos malo, más que nada porque los aspirantes son mayoría y ellos tienen "el mando en plaza", y nunca mejor dicho.

8.- La calibración de las preguntas el meollo del "arte" del examinador

Para conseguir que la discriminación del examen lo sea la necesaria en todas las partes de la distribución de resultados, habrá que conseguirlo previamente calibrando cada una de sus preguntas por separado, y ahí está la madre del cordero de la discriminación del examen. 

El "arte" del examinador está en dividir el examen en subconjuntos de preguntas en función de esa "calibración" previa de cada una de ellas. 

El equilibrio entre la "calibración" de los subconjuntos de preguntas muy difíciles, difíciles, medianas, fáciles y muy fáciles determinará la discriminación total del examen en toda la distribución de resultados aproximándola a una distribución normal o simétrica y platicúrtica. 

9.- ¿Cómo se calibra previamente el grado de discriminación de una pregunta?

A quienes les tocó desarrollar el MIR desde los comienzos se encontraron de bruces con este problema, y no hay nada para aprender como tener que resolver un problema.

Ellos tenían un temario que no figuraba como tal en la convocatoria, eran el conjunto de los programas académicos de las facultades de Medicina españolas, entonces menos dispersos que ahora, pero lo que no había era un banco de preguntas y a eso dedicaron sus primeros esfuerzos, supongo que las encargarían a tutiplen a expertos de cada tema a preguntar. 

Cuando alguien piensa en un concepto a preguntar está pensando en la respuesta a la vez, posteriormente intenta pensar en la redacción de la pregunta y de la respuesta válida y por último piensa en el resto de respuestas o distractores y en su redacción para que "distraigan" a los examinados de la respuesta correcta. 

La calidad de discriminación de una pregunta no está solo en el concepto que la sustenta y que haya sido repetido o no en convocatorias anteriores, lo es también la forma de su redacción, si es una pregunta negativa o positiva, los es la redacción de su respuesta válida y también, y mucho, la capacidad de distracción de los distractores y su redacción.

Por lo tanto en un principio solo les queda "calibrar" todas las preguntas con juicio médico y conforme fue pasando el tiempo aquellas preguntas de las que se iban a repetir ya tenían una "calibración" previa a través de los resultados de esas preguntas en las convocatorias anteriores.

Así pues el "arte" del examinador se apoya en dos "calibraciones" diferentes en el tiempo, las preguntas que se van a repetir se pueden calibrar con los datos de los que las contestaron en convocatoria anteriores, y el resto de preguntas nuevas se han de "calibrar" a "ojo de buen cubero", es decir, con ojo clínico. Ese es el "arte" del examinador. El "artista" determina el grado de dificultad de la misma dentro de la escala mencionada anteriormente, es decir, la "calibra" en ese carácter y en el resto de caracteres que utilice para "llamarla" desde el banco de preguntas. 

Así pues del banco de preguntas el examinador ha de elegir las preguntas para el examen de cada convocatoria y eso lleva su tiempo. Ha de decidir las materias a preguntar, aquellas preguntas que formarán parte de la mitad que se repetirá y por tanto ya se dispone de su "calibración" en su grado de dificultad y discriminación, y también habrá de pensar si su redacción definitiva será la misma o cambiará algo de la misma en la pregunta, en la respuesta válida y en los distractores.

Además habrá de elegir la otra mitad del examen de la que solo tendrá una "calibración" a "ojo de buen cubero", es decir, su "calibración" estará realizada mediante el juicio médico de quien la elaboró en primera instancia y de quien la redactó en última instancia, sea el propio examinador u otro médico.

10.- La necesidad de mantener a raya la mediana del resultado del examen para que la distribución de las notas de todos los presentados se acerque a una distribución normal

Cuanto más arriba en respuestas netas suban los resultados menos simétrica será la distribución de los mismos en su densidad y por tanto cuanto más vayan las respuestas netas para arriba más se irán para abajo los nº de orden. Ambas densidades de distribución deben de tender a ser iguales. Porque el examen es un medio para ordenar y no un fin en sí mismo. 

La estrategia de acotar el grado de incertidumbre del examen se mantuvo "a raya" en un intervalo de 15 respuestas netas en su mediana hasta la convocatoria 2013 y en la de 2014 de golpe y porrazo se amplio 11 respuestas netas más pillándonos a todos desprevenidos con un examen que por sus resultados resultó ser el más fácil de la historia, ampliando el intervalo de incertidumbre a 26 respuestas netas. 

Además el número de presentados al examen ha ido aumentado a partir de la convocatoria de 2009 por encima de los 10.000, primero fue la demanda extranjera y el año pasado si bien disminuyó la demanda extranjera aumentaron los recién egresados en las facultades españolas. La convocatoria pasada es la única de la que se dispone el dato oficial de presentados recién egresados en las facultades españolas que ascendió a 5.224 frente a un total de 10.801 en total.  

Forma parte de la normalidad que en el examen se repitan aproximadamente el 50 % de los conceptos y el otro 50 % sean nuevos. Eso no es un capricho del examinador sino que ha sido una necesidad en la búsqueda de un "comportamiento" sujeto a la certidumbre de saber a qué palo quedarse preparando el examen por la amplitud de la materia. Ese comportamiento tiende a repetir una serie de conceptos que el examinador entiende importantes y generales.

Desde mi punto de vista se ha venido haciendo para poder "mantener a raya" la distribución de resultados con una discriminación que parta en dos mitades a los examinados que tiendan a la simetría, por tanto que su media y mediana estén lo más cercanas posible, acercándose al propósito de los estudiosos de la materia, de esa forma los datos del P73 y del P27 determinarían la cabeza y la cola de la distribución, es decir, el grupo fuerte y el grupo débil, quedando como grupo medio entre los dos dividido por el P50 o mediana. La nota de corte ideal se aproximaría al P27.

Por lo tanto las referencias históricas, en respuestas netas de examen, de esos tres puntos de la distribución y el número de presentados al examen son las variables claves para poder hablar de mayor o menor discriminación del examen

En definitiva la discriminación que produzca el examen en el conjunto de los examinados depende de dos variables, el número de presentados al examen y el grado de dificultad del mismo medido en respuestas netas en esos tres puntos de la distribución que supone tanto como medirlos en su % es decir en su densidad. En la medida de los posible sea cual sea el número de presentados la distribución de resultados del examen entiendo que debería de acercarse a la normalidad y a la simetría en sus densidades.

11.- La necesidad de centrar el debate del examen en su calidad métrica

Esa "servidumbre", esa necesidad de ordenar a la diezmilésima en el examen se ha convertido en la "garantía" de tener que buscar su calidad métrica, es decir, de su calidad de medir aquello que se quiere medir y que su resultado sea distribuir a los demandantes en una distribución normal y simétrica en sus densidades para que tienda a coincidir la distribución de la densidad de respuestas netas con la densidad de la distribución de nº de orden con una forma "normal" o tendente a la "normalidad". 

Desde mi punto de vista el debate del examen debería de centrarse primero en su métrica y ese debate centraría posteriormente el debate cualitativo del mismo una vez se produjera el desmenuzamiento de sus recovecos que curiosamente están sustentados en una disciplina académica que debieran de conocer aquellos críticos del mismo.

Este debate debería de estar propiciado por el MSSSI mediante la publicación de los resultados métricos, no solo de los partícipes, sino fundamentalmente de todas y de cada una de las preguntas del examen  para comprobar su "calibración" mediante análisis matemático, que es donde está la madre del cordero de la "evaluación de la calidad del examen", es decir, el examen del examen. 

De esa forma todos aquellos que "le quieren meter mano al examen" por la causa que fuere se vean impelidos a entrar previamente en ese "recorrido previo" que no solo es cuantitativo sino también cualitativo. 

Es perfectamente legítimo tratar de centrar el debate primero en el "fuero" en lugar de en el "huevo" pero a mi entender el debate sobre el "fuero" debería de ser posterior. ¿Por qué?

Porque en el supuesto de que el "fuero" se cambiara no se iban a librar de encontrar los que lo consiguieran como medir el "huevo" y se aprende un huevo, valga la redundancia, intentando comprender el proceso y el procedimiento al intentar medir previamente el "huevo".

Esa actitud de medir antes de juzgar es implícita a no tener un "juicio previo mediatizado" sobre el resultado del debate por legítimo que sea cambiar el "fuero". De esa forma se hace más creíble el mismo y sobre todo es más fácil aceptar el resultado final del debate, sea el que sea.

PD.- El examen de esta convocatoria tiene que estar ya puesto para que llegue en su diferentes versiones el día 6 de febrero a cada Mesa. Sus preguntas o conceptos repetidos y los novedosos tienen que estar camino de la imprenta o ya están en las galeradas pendientes de terminar su impresión, clasificación, empaquetado y precintación, para su transporte y custodia, todo preparado para el día D con tiempo suficiente para prevenir posibles huelgas. 

Todo con la menor intervención humana posible hasta su entrega en cada Mesa de examen para ser abierto una vez estén identificados y sentados cada uno en su aula y sitio a la espera del reparto de los cuadernillos de colores. Falta lo más importante, proseguir la preparación y entrenamiento, y cuidar la salud y la calma para rendir al máximo el día D. 

No hay comentarios:

Publicar un comentario en la entrada