jueves, 26 de noviembre de 2015

Dificultad y discriminación...


... terminada para mi la trifulca de estos días, volvamos a los números porque las palabras se las lleva el viento y más en otoño... como si fueran hojas caducas...

Para todos aquellos interesados no solo en tener que hacer el MIR obligatoriamente sino también para todos aquellos que no saben como meterle mano para influir en el mismo, piensen antes que nada en su naturaleza, en su "alma" que dice el nuevo líder de la escuela de líderes...

Ese alma, o su naturaleza, no es otra que tratar de "separar o discriminar" suficientemente a unos de otros por un conjunto de rasgos latentes a través de un instrumento de medición adecuado... 

Una separación en los resultados a la diezmilésima que se convertirá posteriormente en un nº de orden cuya "separación" se manifiesta de uno en uno... 

Esta perogrullada es el "alma" de esta prueba... nadie discute si eres médico o no porque el examen en España no es de acreditación sino de selección para "ordenar" y si esa ordenación se ha de manifestar en un nº de orden conviene, y conviene mucho para garantizar la ausencia de empates al máximo, utilizar un instrumento de medición que lo garantice. 

Ese instrumento de medición se manifiesta en un formato determinado de examen con suficiente potencia (nº de preguntas y respuestas posibles), y de velocidad (un tiempo medio de resolución por pregunta), y en unas normas y criterios de valoración de las respuestas... 

Esa puntuación se suma con la puntuación obtenida de la medición del baremo académico, que además de premiar la "mochila" que traes de partida, remata la tarea de desempatar los empates del examen, de 20 a 40 por intervalo de nota en la mayor parte de la distribución de sus resultados, dependiendo del grado de dificultad del mismo.

Seguramente cuando los interesados recorran el camino del estudio del instrumento de medida, es decir, del formato del examen, de la necesidad y consecuencias del mismo, es decir, de su potencia y velocidad para medir los sesgos latentes del conocimiento médico general, se darán cuenta que lo último que necesita el examen para cumplir con su "alma" es un apto no apto suficiente para acreditar, o incluso una nota en base 10 partiendo de 5 del aprobado para acreditar...

¿Se imaginan ustedes la cantidad de empates que obligarían a sortear para poder ordenar?...

Así pues parece evidente que para ordenar evitando al máximo los empates, a 10.000 aspirantes por ejemplo, se requiere un instrumento de medida que responda a esa "alma", a esa naturaleza, a esa necesidad...

Para evitar al máximo los empates se ha de disponer de un instrumento de medición que consiga discriminar entre uno y otro partícipe de tal manera que evite tener que sortear para ordenar porque sus notas sean muy parecidas o estén entre una escala de 5 a 10 insuficiente a todas luces para conseguirlo... porque ese resultado se ha de transformar o normalizar con un orden de uno en uno entre todos los resultados... por lo tanto se requiere un instrumento de medición en el que el "alma" del examen exprese ella sola esa ordenación con el mínimo de empates para que luego venga el baremo académico de cada uno de los partícipes, premie una parte y remate la faena desempatando los empates por intervalo de notas en una escala desde un máximo teórico del valor particular del examen de 225*3 a valores negativos del mismo.

¿Por qué demonios todo esto?

Porque aquí los examinados eligen ellos y solo ellos, la especialidad y el centro de formación, y los centros de formación, hospitales y unidades docentes, no tienen arte y parte en eso. Si la tuvieran no haría falta nada más que un examen de reválida para acreditar el poder ejercer la medicina como pasa en USA, pero aquí la acreditación posterior a las facultades de medicina no es necesaria, y por tanto el título de médico acredita para el ejercicio profesional general. 

Solo para hacer una especialidad es necesario pasar por el MIR que no acredita sino que selecciona ordenando precisamente para elegir plaza de formación. Aquellos que se presentan con un título extranjero no los acredita el MIR sino la homologación previa de su título, que curiosamente no es el producto de un examen de acreditación sino una resolución administrativa sustanciada en papeles a instancia de parte del interesado, es decir ad libitum, es decir, no por una convocatoria de plazas al efecto. Si así fuera sería muy fácil controlar el número de títulos extranjeros homologados pero las normas no lo prevén así.

Así pues el "alma" de una prueba como el MIR es la necesidad de ordenar discriminando al máximo a lo largo de toda la distribución para que hay distancia entre un resultado y otro y ese orden sea "natural" para eligir plaza por parte del ordenado sin que el centro de formación tenga arte y parte. 

Esa "servidumbre" es más difícil de satisfacer que un mero examen de acreditación y lleva inexorablemente al "alma" del examen, es decir, a su naturaleza, que no es otra que su formato, un ejercicio tipo test de respuestas múltiples con normas de valoración que hagan posible esa ordenación con el mínimo de empates y con criterios de mínimos que adecuen la naturaleza cambiante de la demanda a la oferta, esos criterios no son otros que las modulaciones que tratan de adaptarse a las circunstancias variantes de la libre concurrencia.

Esa es la gran servidumbre del examen MIR y del propio MIR, seleccionar ordenando, porque si solo se requiriera acreditar a los examinados para que hagan la "ruta del bacalao", hospital por hospital para ver cuál de ellos los elige, acabamos rápido con el tema trasladando esa "servidumbre" a los hospitales y unidades docentes y que ellos se las apañen con ella, pero fueron ellos precisamente los que se la traspasaron al Ministerio de Sanidad y al Ministerio de Educación, y a veces se nos olvida.

No te digo nada ya si eso lo mezclamos con la necesidad de especializarse para el ejercicio profesional en el SNS desde 1995. Ahí nace la "obligación teórica" de garantizar el "continuo grado-postgrado" convertida esa satisfacción al 100 % y de una tacada, en una paradoja por ser el MIR una prueba selectiva (1), no obligatoria (2), de libre concurrencia (3), y de demanda selectiva (4). Cuatro paradojas en una sola que han de superar como pueden las modulaciones.

Modulaciones no entendidas en general y necesarias por sus resultados ratificados a posteriori porque de lo contrario para conseguirlo de otra manera se habrían de sobrepasar dos circunstancias o límites que no se han sobrepasado desde entonces, la libre concurrencia establecida por la LOPS de 2003 por un lado, y por otro la libertad de elegir o no plaza de los recién egresados, es decir, la demanda selectiva. 

Ambas cuestiones llevarían a tener que crear una prueba exclusiva para cada promoción de medicina y además que todos los presentados eligieran plaza necesariamente. O bien dos pruebas al año, una exclusiva para recién egresados del año y otra para el resto. A esta segunda se presentarían solo los que en años anteriores no habían querido elegir en la primera. Evidentemente para poderlo hacer sería necesario cambiar la LOPS en el supuesto de que el legislador estuviera por la labor. Pero no haría falta, nadie se ha atrevido ni se atreve a pedir semejante cambio, se le echarían encima unos y otros. 

¿Por qué andamos pues, todavía, en si han de ser galgos o podencos, en si la prueba ha de tener un "alma" u otra?

A mi entender porque son muchos los que consideran que no tienen casi arte ni parte en la prueba y creen que deberían de tener más de ambas cosas.

Es tan simple como darse cuenta de donde venimos (1978 año de la Constitución, de la creación del Ministerio de Sanidad y de la creación del MIR actual que ya comenzó a gestarse antes), donde estamos (obvio), y a donde vamos a ir (no lo sabemos pero intentamos meter baza). 

Salvo Sanidad y Educación nadie tiene como suya la prueba porque todos los que opinan no tuvieron arte ni parte en su creación. Los que la pergeñaron en su momento tuvieron que buscar el instrumento para llevar a cabo lo que querían, curiosamente evitar la "ruta del bacalao" a los examinados, y lo encontraron en otro lado adaptándolo a su "alma". Ahora estamos en otra época donde algunos de los interesados en influir en su marcha o cambiarlo no han encontrado todavía su sitio para poder hacerlo y están en el intento.

Si no se aceptara el camino que conduce a que elija plaza el examinado, y no el centro, estaríamos en un debate diferente, y así es como lo han resuelto otros países, y es así porque se adapta a una visión más liberal de la sociedad donde los centros que han de impartir la formación, sean públicos o privados, tienen arte y parte en la aceptación de los aspirantes. Así lo manifestaron visitantes extranjeros no hace mucho en un encuentro que tuvo lugar en Santander.

Por el contrario, si se acepta el camino que conduce a que el examinado siga mandando sobre el centro a la hora de elegir especialidad y plaza, porque así lo han querido y supuestamente lo siguen queriendo los centros que han de impartir la formación supongo que por ser en su mayoría públicos, y así evitar la "ruta del bacalao" a los aspirantes por cada centro con su acreditación correspondiente, currículum, entrevista y lo que sea, el debate debería de ser otro del que es ahora mismo.

Ese debate por los interesados en la prueba necesariamente debería centrarse en estudiar, entender, y mejorar el instrumento de medición para seleccionar ordenando, y su calibración para conseguir ordenar discriminado el máximo posible, a través de un examen del examen, es decir, de su evaluación... ¿por qué?... porque lo que ha de medir ese examen ya está definido previamente por la LOPS, y por sus reglamentos... y su servidumbre no es otra que discriminar el máximo posible entre unos y otros aspirantes para evitar que tenga que ser el sorteo el que termine ordenándolos. Hay otros que piensan que precisamente el sorteo sería la mejor y más eficiente fórmula para hacerlo. 

Lo que entiendo que no se debe de hacer es mezclar uno u otro sistema porque ambos provienen de dos "almas" distintas...

La evaluación de las habilidades clínicas y de comunicación, ese mandato de la LOPS, ya está resuelto satisfactoriamente mediante la inclusión por un lado de los casos clínicos e imágenes ligadas a los mismo, y con la ECOE implementada por las facultades, solo faltaría exigirla a todos los aspirantes que no la hayan realizado, provengan de facultades del interior o del exterior. En breve todas las facultades tendrán el problema logístico resuelto para realizar la ECOE.

Quien ha puesto hasta ahora el ejercicio del examen para caminar hacia el "alma" de la selección por ordenación ha conseguido durante años un grado de dificultad del examen que ha estado acotado en un intervalo de incertidumbre aceptable hasta el año pasado... y también una discriminación a lo largo de la distribución que ha evitado al máximo los empates, y eso no es fácil teniendo en cuenta que todos los aspirantes son ya médicos con su título, bien sea homologado, reconocido, o expedido en España. 

Lo lógico sería preguntarse porqué se ha conseguido eso y porqué sin embargo ese intervalo de incertidumbre en los resultados se ha ampliado en la mediana más de lo habitual el último año...

¿No es de eso de lo primero que se habría de hablar?... 

Si nos ponemos a estudiar el instrumento de medida, si disponemos de datos y herramientas académicas aceptadas por todos, todos hablaremos el mismo lenguaje, todos centraremos el debate y mejorar el instrumento será más fácil... hay disciplinas académicas y herramientas matemáticas para conseguirlo... están ahí... y eso más tarde o más temprano nos llevaría a hablar con más conocimiento del "alma" y del instrumento de medida adecuado para esa "alma"...

Si quieres ponerlo todo patas arriba o solo una parte, no pasa nada de nada, pero tendrás que establecer primero una dirección y un sentido a ese camino para que te lleve al "alma" nueva que se supone que quieres... y además necesitarás implementar un instrumento de medida para conseguirlo, y una evaluación posterior de ese instrumento para saber si te ha conducido al "alma" que querías o a otro sitio... es decir, tendrás que hacerle un examen al examen...

De lo que no te librarás nunca será de establecer lo que quieres medir ("alma"), de buscar un instrumento de medición adecuado ("formato y escala de la medida")... y de calibrarlo periódicamente ("evaluación del instrumento"), para saber si mide lo que se quiere medir y si lo hace con la precisión necesaria y suficiente... 

Resumiendo... para qué se examina, quién examina, de qué se examina, y cómo se examina... 







Adenda.- El arte y la parte del grado de dificultad del examen y de su discriminación deberían de tender a que el tono de los colores en la cuarta tabla fuera lo más próximo posible por columnas para conseguir el mismo nº de orden con el mismo esfuerzo.

¿Sería eso posible?... 

¿Cómo se podría intentar conseguir que tendiera a ese ideal, es decir, que los examinados tuvieran la sensación de que cada año "cuesta el mismo esfuerzo o parecido" conseguir el mismo nº de orden que es con lo que se eligen las plazas y no con las respuestas netas de examen?

12 comentarios:

  1. Hola Jose María, ya está la hoja de respuestas por si te interesa para algo.

    http://sis.msssi.es/fse/FicherosMirweb/QE-00/QE-02/0/NOVEDADESCONVOCATORIAS201366.pdf

    ResponderEliminar
  2. Buenas, Gangas!
    Parece que por fin habemus plantilla en la web del ministerio: http://sis.msssi.es/fse/FicherosMirweb/QE-00/QE-02/0/NOVEDADESCONVOCATORIAS201366.pdf

    ¡Gracias por tu trabajo!

    ResponderEliminar
  3. Hola Gangas!! como crees que deberia ser esta prueba para que sea "perfecta", porque claro el MIR es casi lo mas objetivo posible, pero en EEUU es una combinacion de ambas donde aveces la subjetividad manda mas que lo objetivo, o en otros paises en donde casi solo vale una entrevista, desde tu punto de vista y tus conocimientos, cual sera la mejor prueba humanamente posible en donde lo objetivo, subjetivo y lo que traes contigo de tu Universdad, sea evaluado de la mejor forma posible?.

    Gracias!!!
    me encanta tu trabajo!!!

    ResponderEliminar
    Respuestas
    1. En primer lugar la perfección es una tendencia no una realidad, por lo tanto no hay un examen perfecto, pero lo es más aquél que discrimina más, especialmente a lo largo de toda la distribución de resultados.

      Para tender a conseguir eso hay que hablar de la puntuación verdadera, que sería aquella que estuviera desprovista de los errores no aleatorios o debidos al instrumento de medida, y también de los errores aleatorios.

      Los errores no aleatorios debidos al instrumento de medida se pueden evitar con una calibración más eficiente del mismo y son relativamente fáciles de disminuir.

      Como los errores aleatorios no se pueden evitar porque son debidos a circunstancias personales de los examinados y no al instrumento de medida, para aumentar la probabilidad de obtener mejores mediciones, o mediciones que se acerquen a la puntuación verdadera de cada examinado, la única solución posible es aumentar el número de exámenes y que el resultado fuera la media de los resultados de ese número que al menos debería de ser de dos en dos días seguidos, pero como eso dudo mucho que fuera asumido por nadie hay que asumir la variabilidad de la medida debida a la aleatoriedad.

      Esa aleatoriedad, que gira alrededor de +15 % y -10 % pero que puede ampliarse en sus magnitudes y disminuirse en su probabilidad de que ocurra, es prácticamente una distribución cuasi normal a favor del sigo + respecto del - en su mediana.

      Es decir, la probabilidad de sacar una nota exactamente igual a la del último simulacro gira alrededor del 2 % y a partir de ahí hay quien sube y hay quien baja con gradientes como los explicados de forma simplificada más arriba.

      La tendencia a la perfección del examen giraría así desde mi punto de vista:

      - Mejorar el banco de preguntas mediante análisis matemático de las respuestas de los examinados.

      - Elegir las preguntas a anular mediante análisis matemático de las respuestas de los examinados.

      - Disminuir una parte de la aleatoriedad inevitable del resultado de la prueba mediante la realización de dos exámenes de 250 preguntas en dos días seguidos de cinco horas de duración cada examen y que el resultado final del examen sea la media aritmética de los dos.

      - Adaptar el valor de las respuestas válidas y erróneas al necesario para que no compense estadísticamente contestar dudando entre cuatro (actualmente es neutro, ni ganas ni pierdes, por haber reducido a 4 las respuestas y haber mantenido el valor de la respuesta válida y de la errónea)

      - Por último incorporaría la necesidad de haber realizado la ECOE previamente a la inscripción en la prueba aprovechando que se va a terminar de implantar en las facultades, los aspirantes con títulos extranjeros deberían de incorporar además de la homologación del título el justificante de haber realizado la ECOE en una facultad de medicina en España..

      Eliminar
  4. Hola Gangas, desde que leo tu blog poco a poco he entendido como funciona el proceso de discriminación del MIR (principalmente el hecho de que el número de netas no es absoluto ni constante, depende de la dificultad del examen y el número de participantes, pues al final es un examen de oposición y por lo tanto lo que importa es la discriminación entre los participantes y no un número absoluto aprobatorio).

    Quería hacerte un par de preguntas con respecto al nuevo modelo del examen (4 respuestas en lugar de 5).
    La lógica me lleva a pensar que al reducir el número de distractores de 4 a 3, va a haber un aumento de las respuestas correctas (ya que en el peor de los casos tendrás que acertar 1/4 en lugar de 1/5). y por lo tanto los puntajes se irán a valores más altos.
    ¿Que efectos crees que tenga este cambio en el poder de discriminación del examen suponiendo que la dificultad se mantiene constante a los últimos años (que han sido, por lo que entiendo, examenes fáciles)?

    ResponderEliminar
    Respuestas
    1. De las simulaciones que he realizado y publicado en varias entradas en el blog en el momento que se adelantó esa circunstancia manteniendo el valor de la respuesta válida y de la errónea, fue la siguiente en formato resumen simplificado derivado de aquellos trabajos publicados:

      Si dividimos la distribución de presentados en cuatro partes iguales, la primera de ella o de cabeza (que supondría el 25 % de los presentados con mejores resultados) mejoraría aproximadamente 1 respuesta neta de media, las dos siguientes, o partes centrales, (que supondrían el 50 % de los presentados) mejorarían aproximadamente 2 respuestas netas de media, y por fin el último 25 % o cola de la distribución de los presentados mejorarían una media aproximada de 3 netas.

      Esto parece obvio porque los de cabeza tendrían menos distractores eliminados contestados mal, que los dos cuerpos siguientes, y el último es que más distractores eliminados tendrían mal, y por lo tanto con más probabilidades de contestar bien con la nueva situación, ya que potencia el contestar al azar sin perder al seguir manteniendo el valor de la respuesta válida (+3) y de la errónea (-1).

      Todo esto se ha ido viendo en los resultados de los simulacros de las academias donde la mediana de las preguntas no contestadas ha bajado extraordinariamente sin bajar por ello los resultados de los examinados.

      En cuanto al tiempo que se gana con la medida, que se ha vendido como algo a favor del examinado, ayuda precisamente a contestar más preguntas todavía, lo que justifica aún más la hipótesis de que la medida descrimina menos, es decir, la desviación típica disminuirá.


      Pero conviene decir dos cosas, una es que según sea el grado de dificultad del examen que marca un intervalo entre la máxima dificultad y la mínima de 26 netas, se puede llevar por delante la comparación que se pretenda hacer a posteriori frente a la realizada con una año de atrás, mismo grado de dificultad, simplemente comparando los resultados de antes de eliminar un distractor de los de después de eliminarlo.

      Para eliminar un distractor de un año anterior solo era necesario fijar un criterio de eliminación, por ejemplo el distractor que menor distracción hubiera producido o lo que es lo mismo el menos elegido dentro del conjunto de examinados para cada pregunta, y después simplemente comparar los resultados mediante reaparto al azar entre el resto de las respuestas.

      La otra cosa que conviene decir es que el tiempo que se gana se puede volver en contra de los interesados a los que más les sobre porque cambiar las respuestas de primera decisión en una examen de potencia y velocidad va en contra de la evaluación de determinados sesgos latentes implícitos en el ajuste adecuado del tiempo.

      Por último decir dos cosas, la primera que esta medida aumentará el apelotonamiento entre el primero y el segundo cuerpo de la distribución, y segunda que en el cuarto cuerpo o de cola su mejoría de nota por la menor discriminación, aproximadamente 3 netas, no será competitiva para el cuerpo de cabeza ni para los de los dos cuerpos centrales, simplemente les beneficia a las primeras notas del cuerpo de cola que podrán tener oportunidad de superar la nota de corte con la ayuda de esas 3 netas de media según sea la dificultad del examen con mayor facilidad que la situación anterior.

      Eliminar
  5. Con lo que entiendo que tener un buen baremo,será importante con tanto apelotonamiento.

    ResponderEliminar
    Respuestas
    1. La importancia del baremo está en tres cuestiones, la primera en lo que significa como "mochila" que va ligada de forma inversa al tiempo que hace que se terminó la licenciatura o grado, cuanto menos tiempo haya transcurrido más probabilidad tiene de expresar lo cargada que esté la "mochila" y al revés, la segunda cuestión es su peso en la suma total frente al examen, y la tercera su capacidad de desempatar frente a un examen igual.

      El empate se expresa por intervalo de netas, es decir, por cada 0,33 netas y es en la mayor parte de la distribución entre 20-30-40 netas según sea el nº de presentados y el grado de dificultad del examen.

      El apelotonamiento se expresa en la zona de mayor "densidad" de esos intervalos de netas, y efectivamente ahí la suma del peso del 10 % del baremo y su capacidad de desempate tiene más repercusión en el nº de orden.

      De todas formas yo quiero ver el tema del "revés", la repercusión que tiene una neta en cada uno de esos intervalos, y muy especialmente en la zona de "arenas movedizas" o apelotonamiento máximo para determinar el nº de orden.

      Es el examen más que el baremo quien tiene arte y parte en el nº de orden y quien justifica la preparación y entrenamiento, por eso aquellos que defienden el baremo como elemento de mayor peso en la ordenación de la distribución quisieran que no se preparara el examen sino que se hiciera nada más terminar el curso.

      Lo que no sabe los que así piensan son los resultados de los alumnos recién terminados los estudios en la facultad en los primeros simulacros y la dispersión o variabilidad en función del baremo, si lo supieran seguramente no opinarían como opinan, y en el mejor de los casos se llevarían las manos a la cabeza con su correlación.

      El examen proporciona dos cosas, la posibilidad de mejorar la correlación del resultado del examen con el baremo para cada aspirante, y la evidencia de que los efectos del baremo como "mochila" disminuyen conforme pasa el tiempo no solo por la pérdida de memoria en sí sino que esa memoria es menos general y más específica, en función que te dediques a la medicina general o a la medicina especializada o muy especializada durante esos años entre la terminación de la licenciatura-grado y la presentación al examen, sea la primera o sucesivas veces.

      Eliminar
    2. http://gangasmir.blogspot.com.es/2015/04/la-funcion-del-baremo-y-su-peso.html

      Eliminar
    3. lunes, 10 de noviembre de 2014
      Probabilidad de nº de orden...
      en función del baremo académico y nacionalidad...

      http://gangasmir.blogspot.com.es/2014/11/probabilidad-de-n-de-orden.html

      Eliminar