sábado, 10 de febrero de 2018

De 1978 a 2018, y aún desde antes, una historia por contar...

...

En mi primera visita a la sede de la OMC, un día de la primavera del 2010, sentado en una mesa larga, teniendo a mi derecha al vocal que me había invitado y a mi izquierda al que entonces era vicesecretario y hoy tesorero, enfrente al que entonces era tesorero y hoy vicesecretario, y otros más que no recuerdo, comenté entre la exposición de tablas y tablas, que a pesar del número de cátedras de Historia de la Medicina en la universidades españolas, la historia de la especialización médica en España estaba por escribir.

Recuerdo, como si fuera ahora mismo, que el entonces tesorero le decía al vocal de mi derecha que tomara nota... y proseguí con el pase de diapositivas. 

Digamos que en esa historia de la especialización médica por escribir, hay un antes y un después del 78. Ese año emblemático en nuestra historia reciente, en el que además de darnos la nueva Carta Magna, es el siguiente a la recreación del Ministerio de Sanidad desde los tiempos de la 2ª República, y el año de la implantación del MIR. Esa prueba selectiva, de la que se realiza hoy el examen de la convocatoria actual, por la que se ordena a los aspirantes para elegir de forma prevalente especialidad y centro para comenzar su formación especializada. Sistema que ahora, curiosamente, se pretende trasladar para al acceso y especialización en la docencia primaria y secundaria. 

Cuando se cumplen 40 años desde 1978, no solo la historia que nos ocupa sigue sin escribir. También sigue sin hacerse, salvo de un breve período de tiempo, el examen del examen. Ese que debería de justificar el instrumento de medida utilizado para ordenar de forma prevalente el acceso a la formación especializada. Examen del que se ocupa una disciplina académica denominada Psicometría, para saber si el instrumento es fiable, y es válido. Disciplina introducida en España por el profesor D. Mariano Yela, sembrando de discípulos la universidad española.

¿Hasta cuándo la una y lo otro?

Adenda a la entrada.- La Memoria que sigue fue redactada después de mi segunda, y última, visita a la sede de la OMC el 31 de octubre de 2012 con motivo de la celebración de la Jornada de Demografía Médica. Tanto el contenido de mi participación en la Jornada como la Memoria redactada, que transcribo, fueron entregadas por mi parte en la sede del MSSSI a quien entendí que debía hacerlo. En el blog hay testimonios de haber pedido por mi parte, para poder hacer ese examen del examen, que el MSSSI ponga a disposición de todos los interesados las matrices descargables de los resultados de la contestación dad cada pregunta por los examinados anonimizados, y la plantilla primera de respuestas previa al examen. De esa forma los investigadores de las diferentes universidades, como el resto de interesados, podrían realizar su evaluación y publicar su resultado para su conocimiento, debate y crítica, por parte de la comunidad de interesados.

Memoria sobre evaluación del examen MIR

José María Romeo Ladrero
Editor del blog MIRentrelazados

Noviembre de 2012 – Enviado al MSSSI en Diciembre


1.- Antecedentes

1.1- En la revista de Sanidad e Higiene Pública. 63, 117-133, año LXIII, septiembre-octubre de 1989, se publicó un trabajo de investigación sobre Validez y adecuación estructural del examen nacional de acceso a la formación médica especializadaEvaluación de la prueba correspondiente a la convocatoria 1988-89.

Autores, Saturno Hernández, P. J. y Mataix González, Rosa de la Subdirección General de Planificación Sanitaria y Formación del Ministerio de Sanidad y Consumo.

Los autores decían en su introducción que se había hecho para satisfacer una necesidad socialmente ineludible y además para ser utilizado en tres niveles diferentes y complementarios:

  1. Disponer de unos datos y valoraciones explícitas de la bondad del instrumento de selección en su conjunto y en sus principales componentes, que contribuya a su mejora en futuras ediciones, y sobre los que basar las eventuales discusiones.

  1. Proporcionar a los coordinadores de los cuestionarios una información pormenorizada que les permita discriminar al máximo nivel práctico de detalle las fuentes y características de las preguntas inadecuadas.

  1. Sentar públicamente, y por lo tanto sometidas a debate de la comunidad científica y entre los sectores interesados, las bases metodológicas para que esta evaluación se convierta en rutinaria.

En el trabajo se confiesa que evaluaciones semejantes se han realizado en años anteriores, pero sin seguir un patrón uniforme y sin hacerlas públicas, concluyendo que un análisis objetivo y transparente del examen ha de ser útil para mejorar la necesaria selección de aspirantes.

Había material, datos sobre los resultados de la prueba, y había metodología en la literatura científica en la que apoyarse para hacerlo, así se podría responder sobre las cuestiones elegidas: la fiabilidad del examen, su grado de dificultad y su poder de discriminación, es decir sobre el equilibrio y validez de su contenido.

Antes de comenzar las conclusiones el trabajo en cuestión decía lo siguiente:

Este ejercicio debería quizás ser sustituido en próximas ediciones por un análisis de fiabilidad, dificultad y, sobre todo, discriminación del examen por Facultad de procedencia.

Los desequilibrios de contenido y los fallos importantes en la equidad del examen se han de traducir en desequilibrios a su vez en la fiabilidad y discriminación de la prueba.

Las conclusiones del trabajo publicado en 1989 fueron:

  1. El examen nacional de acceso a la formación médica especializada correspondiente a la convocatoria 1988-89 resultó ser fiable (r"=0,94), de una dificultad a niveles óptimos      (índice de dificultad de 57) y una discriminación calificable de muy buena (poder de discriminación de 0,35).

  1. En el análisis por materias destacan como revisables, por su elevada proporción de preguntas incorrectas y consiguientes índices de discriminación inadecuados, Obstetricia y Ginecología, Bioquímica, Farmacología y Psiquiatría. El índice de discriminación corresponde a las preguntas de Bioquímica. En esta materia fueron incorrectas 5 de cada 6 preguntas.

  1. El análisis de contenidos muestra una importancia porcentual de las preguntas clínicas mayor que la existente como media para estas materias en los contenidos de los planes de estudio oficiales. A ello se une una práctica ausencia de preguntas sobre materias de tipo social, humanístico y metodológico (Medicina Preventiva y Salud Pública, Estadística, Medicina Legal, Historia de la Medicina)

  1. La variabilidad de las preparaciones de cada materia en los diferentes planes de estudio existentes y la cuestionabilidad de tomar este patrón como referencia para valorar la validez de contenido del examen. Tal como está estructurado en la actualidad se selecciona a los candidatos con mejor base de conocimientos clínicos.

  1. Es preciso establecer rutinariamente una evaluación explícita del examen como la que presentamos para mejorar la adecuación de la prueba a la necesaria selección de aspirantes.

El resumen del trabajo decía:

  1. En el presente artículo, como parte de un informe más amplio de la convocatoria nacional de acceso a la formación especializada 1988-89 presentamos la evaluación del examen correspondiente a los Licenciados en Medicina.

  1. Esta evaluación se ha hecho en base a las respuestas dadas a las preguntas del test por los 18.198 participantes en la prueba.

  1. Entre las características del examen, analizamos específicamente su fiabilidad, dificultad y poder de discriminación. También, y hasta donde los datos lo permiten, el equilibrio y la validez de contenido del mismo.

  1. El examen en su conjunto resultó ser fiable, de una dificultad a niveles óptimos y una discriminación calificable de muy buena.

  1. El análisis de materias destaca como revisables Obstetricia y Ginecología, Bioquímica, Farmacología y Psiquiatría. El resto de las materias básicas, las materias médicas y quirúrgicas y la Pediatría presentan índices de discriminación y de dificultad adecuados.

  1. En cuanto a los contenidos, el examen muestra una mayor importancia porcentual de las preguntas clínicas que la existente para estas materias en los contenidos de los planes de estudios oficiales, así como una práctica ausencia de materias de tipo social, humanístico y metodológico (Medicina Preventiva y Salud Pública, Estadística, Medicina Legal, Historia de la Medicina)

  1. Otras importantes conclusiones extraíbles del análisis son la necesidad aún no expresada de definir el tipo de candidato que se quiere seleccionar para adecuar a ello los contenidos del examen, y la necesidad de establecer de manera rutinaria una evaluación explícita de examen como la que presentamos, con el fin de mejorar la adecuación de la prueba a la necesaria selección de los aspirantes.

1.2.- En el año 1993 el Ministerio de Sanidad y Consumo publicó un libro y un apéndice sobre las Pruebas selectivas para el acceso a plazas de formación de médicos especialistas (1982-1992) Validez estructural, diseño y capacidades exploradas en los exámenes de las convocatorias referenciadas.

Autores:

-Gutiérrez Morlote, Jesús (Director General de Ordenación de Profesional)
-Escanero Marcén, Jesús Fernando (Subdirector General de Desarrollo de Recursos Humanos)
-Gómez-Escolar, Ignacio (Subdirector General de Planificación y Ordenación de Recursos Humanos)
-Ramírez Díaz-Bernardo, Jesús (Subdirector General de Organización de Recursos Humanos)
-Mataix González, Rosa (Jefe de Servicio. Subdirección General de Planificación y Ordenación de Recursos Humanos)
-Riesgo Moreno, Covadonga (Jefa de Área. Subdirección General de Desarrollo de Recursos Humanos)
-Rojo Fernández, Vicente (Ex-Subdirector General de Investigación y Docencia)
-Sánchez Chamorro, Emilia (Consejera Técnica. Subdirección General de Planificación y Ordenación de Recursos Humanos)
-Hernando Avendaño, Luis (Vicepresidente de la SEDEM)

El libro fue dedicado a Fernando de la Torriente Oria, que había fallecido en Barcelona el año anterior (29/05/1992) siendo Subdirector General de Planificación, Desarrollo y Recursos Humanos del Ministerio de Sanidad y Consumo.

El libro fue prologado por Marcos Peña Pinto, Secretario General de Salud.

Parece evidente que existe un nexo de unión-continuación entre el trabajo de Saturno y Mataix y el siguiente en el que también figura como coautora Mataix. No solo son relativamente cercanos en el tiempo y en el propósito, sino que la convocatoria estudiada en el primero vuelve a incluirse en el segundo, o bien el primer trabajo en realidad es un adelanto de una parte del segundo.

1.3.- A pesar de los propósitos que se hacían los autores, y sus recomendaciones, el Ministerio de Sanidad no ha vuelto a publicar ningún trabajo posterior sobre evaluación de la prueba.

Hay que esperar al año 1996 para que se publique, externamente, un trabajo en forma de libro con parecido propósito, y posteriormente hay que esperar hasta el 2011 que se publicó el último, también externo como un trabajo de investigación.

1.3.1.- El trabajo publicado en 1996 por el Servei de Publicacions de la UAB es un libro titulado La prova d’accés a metge intern resident. Pertinència i capacitats explorades envers l’exercici de la professió mèdicaSon sus autores Esteve Pont Barceló, Ferran Ferrer Julià, Lluís Bohigas Santasusagna.

El trabajo publicado se realiza sobre los resultados de las convocatorias 1991 y 1992 y sigue la pauta y metodología del trabajo del estudio previo del Ministerio, estudia la fiabilidad, la dificultad y la discriminación.

El trabajo sin embargo amplía la visión crítica de la prueba, entra a valorar la pertinencia de su contenido, y realiza una serie de propuestas de mejora.

1.3.2.- El siguiente y último trabajo, por el momento, ha sido publicado en la revista Gaceta Sanitaria, 2012;26(3);231-235 con el título Pruebas de acceso a la formación sanitaria especializada para médicos y otros profesionales sanitarios en España: examinando el examen y los examinados. Es su autor Albert Bonillo, del Departamento de Psicobiología y Metodología de Ciencias de la Salud de la UAB.

Se centra en el estudio de varias de las pruebas, no solo la de médicos, referidas a las convocatorias 2005 y 2006 siendo su objetivo evaluar la calidad de los exámenes y explorar las variables de los aspirantes que permiten predecir la puntuación final.

Se realiza un análisis de los ítems a partir de las respuestas de los aspirantes para así evaluar la fiabilidad de las pruebas. Se calculan modelos de regresión lineal para estudiar qué variables permiten predecir la puntación final de un aspirante.

Finalizando con la conclusión de que las pruebas tienen una excelente calidad psicométrica, que sería optimizable reduciendo el número de alternativas y eliminando algunos ítems más a posteriori, por último afirma que los alumnos españoles son los que mejor nota media ajustada logran.

Según el autor la formación sanitaria especializada no ha recibido demasiada atención por la literatura y las pruebas que rigen el acceso aún menos, incidiendo en lo que se hace en otros países con exámenes análogos, concretando a modo de ejemplo que una búsqueda no exhaustiva en Medline arroja 270 referencias sobre el USMLE.


2.- Justificación del trabajo de evaluación

Los profesionales que tenían la responsabilidad de gestionar la prueba en el Ministerio de Sanidad mantenían que era conveniente analizar la fiabilidad del test y su adecuación a los fines de selección para los que había de servir, expresando que era una necesidad socialmente ineludible, tal y como se recogía en el trabajo anterior de Saturno y Mataix y en el libro publicado por el Ministerio.

Conviene recordar que la prueba tiene carácter anual y nacional y se hace necesario garantizar su fiabilidad y su equidad. Por lo tanto la justificación de la misma no solo procede ante sus destinatarios, sino por su propia naturaleza, que no es otra que garantizar y objetivar el acceso a la formación especializada y por tanto a la salud de la población a través de sus destinatarios, de ahí la necesidad social de justificar su evaluación.

El Secretario General de Salud, en el prólogo, decía que sus destinatarios, aun conteniendo información útil para los alumnos, son los profesores y planificadores de las pruebas selectivas.

Reconocía así el Secretario General, la importancia que tienen en una prueba de esta naturaleza la continuidad y la evaluación, para establecer una dirección y sentido fiables que marquen y guíen los diferentes comportamientos de todos los que intervienen en el resultado final de la misma.

Como la prueba pretende discriminar entre los mayores y menores conocimientos de medicina de los examinandos y ordenarlos por ellos y por su baremo académico previo, su evaluación terminará influyendo en los diferentes comportamientos de todos los que intervienen en la formación de los examinandos y en los que la planifican.

Primero, los comportamientos de los profesores y alumnos durante la licenciatura, cuyo reflejo será el baremo académico de partida y que se valora como parte del resultado final de la prueba, segundo, el comportamiento de los preparandos durante la preparación, cuyo reflejo será, junto con los conocimientos de partida, el resultado en la misma, y tercero, el comportamiento de los planificadores de la prueba, cuyo reflejo será la evaluación, a posteriori, de la fiabilidad, dificultad y discriminación del examen que han preparado los planificadores.

El conjunto de todos esos comportamientos constituirá el comportamiento del resultado de la prueba, y por tanto, la distribución de los resultados ordenados de mayor a menor, permitirá que los examinados puedan elegir, con objetividad y equidad, plaza de formación sanitaria especializada, entre las de su preferencia que queden sin asignar, cuando le corresponda por turno y nº de orden, es decir, de forma prevalente conforme al resultado de la prueba.

A su vez la evaluación de la prueba servirá, según los criterios y métodos de la literatura académica, primero para conocer su fiabilidad y validez, y segundo para su mejora en posteriores convocatorias. Además de para consumo interno, y como uno de sus propósitos, para su justificación ante la sociedad y ante los interesados.

PD.- Si hoy tuviera que volver a escribir la Memoria, después del punto 2.- Justificación del trabajo de evaluación, añadiría un apartado específico sobre el tema de la Anulación de preguntas.

Así pues añadiré un link  a una entrada reciente en la que se habla de ello y un breve resumen. 

Como resumen sencillo sobre el tema bastaría decir que un examen se califica a la vista de los resultados. Es entonces cuando a través de su métrica se puede conocer, según la literatura, su fiabilidad y su validez. Pero lo más importante es que podemos conocer, analizando pregunta por pregunta dos parámetros, dificultad y discriminación. Los del examen serán su promedio. Si tu eliminas de un conjunto de preguntas las que tienen valor negativo en el parámetro discriminación su valor promedio aumentará. Es decir, habremos aumentado la discriminación del examen.

Según la literatura la dificultad es una proporción de preguntas acertadas, en el caso que nos ocupa de preguntas netas acertadas, a las que además podemos eliminar el error de haberlas acertado por azar. La discriminación según la literatura es una correlación entre el conocimiento de los examinados y la probabilidad de acertar la pregunta. De tal manera que las preguntas con mayor índice de discriminación separan mejor los que más conocimiento demuestran de los que menos. El conocimiento para calcular la probabilidad de contestar cada pregunta se mide con el conocimiento demostrado en las respuestas del resto de preguntas. 

A partir de ahí, y obtenidos los valores de los parámetros dificultad y discriminación, se escalan las preguntas de menor valor del parámetro a mayor. El resultado de ese escalado determina un orden dejando los valores negativos, y la pregunta a la que corresponden a la vista. Dichas preguntas y el valor del parámetro se incorporarían a un Informe propuesta de preguntas anulables realizado por expertos, a petición de la Comisión Calificadora. A su vista y a la vista de las impugnaciones recibidas, previo debate, decidiría las anulaciones correspondientes y levantaría Acta de las mismas y de su causa justificada. Se sabría si ha sido su contenido, el qué se ha preguntado, su redacción, el cómo se ha preguntado, o el cuánto de su métrica lo que ha determinado la causa de su anulación, y por tanto la justificación de la misma. Parece que es lo que corresponde en los tiempos que corren. 

En cuanto a la métrica serían candidatas a anularse todas las preguntas con un índice de discriminación negativo, ya que resulta de su análisis que ha sido más probable que las hayan acertado los que menos conocimiento han demostrado en el resto de preguntas que al revés. Ello iría contra toda lógica.


No hay comentarios:

Publicar un comentario