sábado, 7 de enero de 2017

¿De qué depende el nº de orden?...

... bien, he recibido algún comentario preguntando qué nº de orden obtendría con tal baremo y tal cantidad de respuestas netas que son las que vengo sacando ahora...

1.- El nº de orden depende en primer lugar del nº de presentados al examen. Así, como lo lees...

¿Cómo es posible?

Muy fácil, pongamos un ejemplo extremo, imaginemos que un año  se presentan al examen 10.000

¿Qué nº de orden sacará un examen mediano?... el 5.000

Supongamos que al año siguiente se presentan 8.000

¿Qué nº de orden sacará un examen mediano?... el 4.000... ¡1.000 nº menos, y las plazas se eligen por nº de orden!

2.- Bien, ¿entonces no importa la dificultad del examen?

Si todos los examinados reaccionaran ante la misma de igual manera que el patrón de comparación, la respuesta sería no, simplemente su nº de orden dependería del nº de presentados al examen.

3.- Veamos con un par de tablas, que pondré más abajo, como son de ciertos el punto 1 y el punto 2 de este desideratum. Para ello haremos un experimento. 

De todas las variables que influyen en la prueba, vamos a mantener todas iguales y solo vamos a variar el nº de presentados. A eso en la literatura se le llama céteris páribus (traducido viene a decir: permaneciendo el resto de las variables constantes, si varío una convenimos en que toda la variación del resultado del experimento se deberá a la variación de esa variable)

La primera tabla representa la distribución del año pasado y ahí están expresadas sus consecuencias. Nn o nº de presentados, los intervalos de nº de orden de los días y turnos de llamamiento, las magnitudes de sus variables, y las plazas que se eligieron por especialidades por cada uno de los intervalos de llamamientos con su último nº de orden que las eligió en rojo.

La segunda tabla representa la distribución que habría este año si se mantuviera todo constante menos el nº de presentados que convengo en que estarán alrededor de 12.100

Si observamos bien, el simple hecho de aumentar el nº de presentados desplaza las magnitudes de netas al alza para cada intervalo de llamamientos y por tanto de nº de orden.

En cuanto a las plazas, como se eligen por nº de orden y no por netas, las especialidades elegidas por intervalo y sus últimos nº de orden con el que se elegirán son una simple referencia de los del año anterior que mantengo en las dos. Se acercarán tanto más a los del año pasado cuanto más se acerquen por días de llamamiento y turno durante la primera semana de elección de plaza. 

Pero vamos al grano. Se obtendrían nada más ni nada menos que 10.010 nº de orden frente a 9.288 del año anterior de mantenerse el resto de variables. Pero eso solo serviría para perturbar la paz social. ¿Quién puede perturbar la paz social? 

Aquellos que habiendo superando la nota de corte no puedan elegir plaza. Los que no la superen ni de coña se van a identificar. Es muy humano ese comportamiento.

Esa es la razón por la que he expuesto reiteradamente que a quien se prepara el examen a conciencia, por las razones que sean, le interesa que el examen sea difícil y discriminatorio. ¿Por qué?... porque con menos netas que con un examen fácil se obtiene mejor nº de orden. No sé si se entiende esta paradoja pero es así. Venga un examen difícil a la par que discriminatorio. Precisamente porque la prueba es de ordenación y no de acreditación.

Los mayores críticos de la nota de corte lo son argumentando que la prueba es ordenadora y no acreditadora. No han entendido de la media la mitad. 

Para ordenar hay que discriminar el máximo posible, es decir, separar lo máximo posible unas nota de otras porque presentándose casi dos por plaza no hay plazas para todos. Ni con el examen de una manera ni con el examen de otra, así que puestos venga la discriminación.

El resultado del examen suele ser bastante proporcional al conocimiento que trata de medir en el momento que se realiza y no en otro. Como el conocimiento general no se mantiene en el tiempo, si no se actualiza, no se justifica que el que demostró cuando se facultó se mantenga  lo largo de la vida como mérito que predomine. Por otra parte el resultado para el grupo GT ya es bastante proporcional a los méritos académicos porque la carga de la mochila es muy reciente y encima se rasantea con la preparación y el entrenamiento. Rasantear viene de igualar lagunas atendiendo más a lo priorizable que es lo que no sabes con certeza que a lo que ya sabes. ¿Es eso malo oiga?... pues en eso consiste la preparación y el entrenamiento. Pregunten a los preparandos.

La prueba selectiva es ordenadora en el sistema español porque no le queda otra mientras sean los examinados quienes mantengan el 100 % de libertad de elección de especialidad y de centro. Así que solo queda que conseguir que el instrumento mida con la mayor precisión posible lo que debe de medir, que no es otra cosa que la discriminación entre los que saben menos en ese momento de los que saben más. En eso consiste discriminar a la diezmilésima. En eso y en evaluar cuánto de eso consigue cada pregunta del examen y la media de todas ellas.

El conocimiento a medir se entiende dentro de un conocimiento general lo más parecido posible al conjunto de los programas de formación de todas las facultades españolas. Así pues conocimiento general que no especializado. Tampoco de las cualidades propias del médico que se supone quedaron facultadas por la universidad correspondiente. Cualidades que garantizarán a lo largo de su ejercicio profesional las comisiones deontológicas de los centros de trabajo y de los colegios profesionales. Si aún así el examen pretendiera conseguirlo tal y como algunos le piden nadie garantiza que se mantendrían de por vida las mismas que el examen hubiera determinado. ¿De qué serviría que el examen se ocupara de eso si no es un examen acreditador de la profesión sino ordenador para elegir plaza de formación especializada?

Así pues el problema se circunscribe a conseguir ordenar lo mejor posible a través de un instrumento de medida lo más eficiente posible en su logística y en su coste. Que como establece la LOPS sea nacional y anual, el mismo día y a la misma hora, de libre concurrencia para todos igual y con las mismas normas de valoración de su resultado, y si además fuera necesario por las circunstancias del momento modular la demanda después de realizado el examen, queda facultado quien convoca para hacerlo en la misma convocatoria dentro de los límites establecidos. Esa es la finalidad de la norma de la nota de corte y de la norma del % del cupo.

Todo eso para conseguir separar o discriminar a la diezmilésima a más de 10.000 aspirantes con el mínimo de empates. Discriminar se consigue con preguntas de probada y acreditada capacidad de discriminación, es decir, previamente testadas en esa cualidad aunque fuera con otra redacción. También es cierto que hay cierta correlación entre dificultad y discriminación pero son parámetros de distinta naturaleza.

La dificultad es una simple proporción entre lo contestado de lo preguntado, es decir, lo que han sabido los examinados respecto de lo que les han preguntado. 

La discriminación tiene más enjundia para conocer si lo que quieres medir lo mides o no. Es una correlación entre el conocimiento de los examinados y la probabilidad que tienen de contestar una pregunta determinada.

La medición del parámetro discriminación es clave para clasificar las preguntas en su calidad y proponer cuales de ellas deben de pasar a debatirse como anulables, eso con las normas actuales. 

Cambiando las normas se podría automatizar el procedimiento de anulación estableciendo unos criterios mínimos a cumplir por las preguntas respecto de ese parámetro. 

En definitiva se podría aumentar la discriminación del examen que es tanto como aumentar aquello que se le encomienda, que no es otra cosa que separar a la diezmilésima a los examinados.

Del estudio de los resultados de la distribución se ha comprobado que las medidas centrales de los diferentes subconjuntos se diferencian entre sí por orden. En primer lugar el subconjunto GT (recién egresados de universidades españolas que se presentan en la convocatoria de su año, 5.541 el año pasado y alrededor de 5.819 este año), en segundo lugar el subconjunto Resto1 (de promociones anteriores de universidades españolas, repetidores, recirculantes, especialistas, y un subresto, cada vez menos numeroso, de médicos de promociones anteriores que no se habían presentado antes al examen), en último lugar el Resto2 (todos los procedentes de universidades no españolas). Lógicamente estamos hablando de medidas centrales de cada subconjunto y no de las medidas de cada uno de los pertenecientes a los mismos.

La nota de corte afecta pues en escalera a los tres subconjuntos, el primer escalón es el del grupo GT menores de 25 años que no llega al 1 % y suponen alrededor del 75 % del grupo GT, los de 25 años y más de ese grupo que se ven afectados alrededor del 10 %, el Resto1 que se ve afectado del 10 al 30 % y el Resto2 que se ve afectado entre el 30 y el 40 %. Si calculamos la afección de los dos primeros subconjuntos su afección media no llega al 10 %

Vayamos ya con las tablas mencionadas que prueban la hipótesis que se exponía en el punto 1 y en el punto 2:


Lo que pasó el año pasado con los 11.227 presentados, 
de ellos 5.541 GT (recién egresados de universidades españolas), 2.460 de Resto1 (de promociones anteriores de universidades españolas que ya se presentaron anteriormente al examen en su mayor parte), y 3.226 de Resto2 (procedentes de universidades no españolas, independientemente de que sea en su promoción de egreso o no y su primera vez o no)


Lo que pasaría este año si solo variara el nº de presentados (12.100),
y se mantuvieran el resto de variables igual que el año anterior, quedando cada subconjunto de partícipes estimado (GT: 5.819, Resto1: 2.800 y Resto2: 3.481) 

Si se fijan en la parte baja de la tabla, a la izda hay dos celdas en blanco que indican, que si se cumplieran las condiciones previstas en la hipótesis los examinados que superarían la nota de corte serían nada menos que 10.010 de los 12.100 con el mismo % de afección de la nota de corte  que el año pasado. Eso que parecería una buena noticia se tornaría en mala porque significaría que se apelotonarían en el último día en un solo turno 4.010 frente a 2.588 si se reprodujera el mismo calendario de llamamientos que el año pasado. 

¿Cuantos de ellos no podrían elegir plaza aún descontando el nº de "huecos" que dejaran los afectados por el cupo que estuvieran entre esos llamados? 

¿Qué significa pues lo que explica la tabla?... 
que cada subconjunto reproduciría su densidad a lo largo de la distribución, simplemente la distribución se comportaría como un muelle extensible, como un acordeón cuando aspira aire y aumenta cada intervalo de su fuelle proporcionalmente. 

Lógicamente esto no ocurrirá exactamente así este año porque ni la proporción de cada subconjunto será la misma que el año pasado ni tampoco la dificultad del examen será exactamente la misma, tampoco lo tiene que ser la media de los diez mejores exámenes que determina la nota de corte, y tampoco tiene porqué ser el mismo comportamiento el de la cola de la distribución de resultados que determina el % de afección de la nota de corte. Ni tampoco el comportamiento del grupo GT que es el que determina que la cresta de la ola esté en los hombros de la distribución, y no justo en el centro simétrico de los 12.100 que determinaría que la media, mediana y moda estuvieran en el centro justo de la distribución. Pero el razonamiento sirve para explicar como funciona lo que tenemos. Al menos eso creo.

Así pues las cosas serán como sean y cada uno las contará conforme crea que le ha ido después del examen, y por último conforme la vaya su nº de orden. 
Así suele ser y así será, con las excepciones de rigor.

Adenda de reflexiones.- 

1.- Sobre las tablas

Obviamente esto es una simulación de lo que pasaría si se dieran las condiciones de la hipótesis que se denomina ceteris paribus que ya ha quedado explicada. En el caso del problema la que hemos variado ha sido la que sabemos ahora que va a variar. El nº de presentados estimados del nº de admitidos definitivamente.

¿Qué sabemos del resto de variables a día de hoy?

Nada de nada.

¿Pero eso desbarata todo lo expuesto?

No, todo todo no.

¿Por qué?

Porque el comportamiento humano es +/- repetitivo y ese +/- es acotable. Más aún  si lo dividimos por subconjuntos cuya patrón de comportamiento es acotable.

Por eso me interesa el MIR, porque es un problema de comportamiento acotable y por tanto medible en su variabilidad. Porque su nº de presentados y su cadencia anual hace la distribución de resultados estudiable, cuantificable y acotable como comportamiento. Comportamiento que deviene del comportamiento del examinador, del formato de medición, del comportamiento de las facultades, del comportamiento de los preparadores y del comportamiento de los aspirantes.

No solo ocurre con los humanos los patrones de comportamiento acotables ante un mismo problema de X variables, también se da en la naturaleza en general y a su estudio se han dedicado muchos, entre otros Gauss, que lo simplificó al máximo proponiendo su distribución normal o Gaussiana. Midiendo y rechazando los comportamientos extremos, independientemente de que existan, para el cálculo del comportamiento estándar.

Algunos de los humanos, en su infinita curiosidad, le dan vueltas y vueltas a las cosas que pasan y cuando se dan cuenta de sus limitaciones para comprender (aprehender) absolutamente un problema, lo simplifican y lo acotan elaborando modelos simplificados de comportamiento que nos han servido hasta hoy para conocer parte de lo que pasa de aquello que nos rodea. En esas estamos.

¿Pero acaba aquí la cosa?

No

El MIR no tiene una distribución normal, cada vez tiende más a ser asimétrica hacia la derecha, es decir hacia la parte de los hombros que es donde la ola de resultados se estrella en su máximo y comienza a surfear quedando en la mínima expresión en el límite de la orilla. ¿Por qué?

Porque cada vez el grupo GT adquiere más importancia relativa dentro del total de presentados, trae las mochilas más cargadas desde antes de entrar en la facultad, y además se prepara más y mejor. Por lo tanto si no se le sujeta con un examen más difícil la ola cada vez será más alta y los nº de orden cada vez costarán más a los que están por detrás de esa altura de netas.

2.- Sobre el porqué he llegado a estas observaciones

La estadística entiende de comportamientos de conjuntos, y si quieres saber más sobre lo que pasa dentro del conjunto te preguntas si dentro del mismo hay patrones de comportamiento agrupables en subconjuntos. Te pones a averiguarlo a través del estudio desagregado de los mismos por perfiles comunes y a partir de ahí observas si ibas desencaminado o no.

Así podemos saber fácilmente cuantos kilos de arroz se comprarán el lunes en España y cuantos en Italia, o cuantos en cada una de las provincias de España, y aún podríamos descender más por ciudades por ejemplo.

¿Pero no hay manera de descender a una persona?

Si, pero las probabilidades de errar en las predicciones son mayores.

Aún así nos atrevemos a hacerlo, pero nos apoyamos en su pertenencia a un subconjunto, es decir, nos apoyamos en su patrón de comportamiento, en unas características determinadas que tiene ese subconjunto y no otro. Por ejemplo, su procedencia universitaria, su edad, su baremo académico hasta la décima, etc.

Esto es lo que hay a priori. 

¿Qué pasará entonces a posteriori?

A posteriori tendremos el nº de presentados y los resultados. Entonces se incorporarán a la colección de comportamiento acotados y vuelta a empezar.

3.- ¿Pero no hay más?

Si, puedo contar que si la dificultad del examen varía a más difícil se puede tragar, toda o parte de la variación del nº de orden debida al aumento de nº de presentados o a su disminución, para arriba o para abajo, especialmente en la primera parte de la distribución que es la que determina los nº de orden clave en la prueba, de sí mismos y del resto que va detrás. Eso tiene importancia especialmente cuando se presentan más de 10.000 admitidos al examen.

¡Toma castaña!

Pues sí, de ese comportamiento está llena la historia del MIR. Por eso hay años "buenos" y años "malos" para los nº de orden.

Por supuesto no hay variación en el nº 1 y por supuesto el último es siempre el que es, es decir, aquel que coincide con el nº de presentados. 

Pero dentro de la distribución las cosas pintan de otra manera, o pueden pintar de otra manera. En el interior de la distribución lo que se puede, y un servidor entiende que se debe, es intentar que la dificultad y discriminación de las preguntas se acomoden a dos variables. Al nº de presentados y al conocimiento de los mismos por subconjuntos. Eso el examinador lo puede saber por tendencias de los dos últimos años, por ejemplo, y sobre todo porque en octubre ya conoce los inscritos, y su pertenencia a los diferentes subconjuntos por patrones de comportamiento, es decir, de conocimiento. 

Curiosamente en eso depende la esencia de estas pruebas según la literatura que las estudia, curiosamente porque son pruebas ordenadoras y no acreditadoras.

4.- El fenómeno de la libre concurrencia como mandato legal

El grupo GT no llega al 50 % de los presentados, el Resto1 de promociones anteriores hace uso de su libertad para concurrir repitiendo, recirculando o intentando reespecializarse con la limitación de no poder elegir la especialidad que ya tiene. El Resto2 de procedencia exterior, concurre porque a los no afectados por el cupo por ser residentes en España los ampara la ley de Extranjería y su reglamento. A los afectados por el cupo los amparan, con los límites establecidos, los Tratados culturales internacionales firmados por España recíprocamente. Lo que no amparan esos Tratados, que no son de inmigración, es que los que los utilizan para venir a especializarse se queden precisamente en España después. Lo previsto es que vuelvan a sus países a ejercer porque de eso iban los Tratados culturales y no de inmigración. Si luego desde su país les permiten emigrar y encuentran donde es otra cuestión. Eso es lo que tiene que cumplir España para que nos respeten, primero respetar nosotros las leyes y tratados que firmamos, y después hacerlos respetar recordando las obligaciones pertinentes. El cupo de formación es para que lo capitalicen los países de origen y no las personas. La inmigración tiene otras vías previstas legalmente. El MIR no es un medio para inmigrar. Los casos previstos de arraigo, si se dieran, están acogidos a la establecido en la ley de Extranjería y su reglamento pero no en la LOPS. El MSSSI debería de ser más riguroso en la comunicación de la terminación de la especialidad a los otros dos ministerios implicados en hacer cumplir las normas posteriormente a la terminación del proceso de formación. La obtención del título se puede hacer telemáticamente además de de poderse hacer un certificado de haberla solicitado por haber superado el proceso de formación.

5.- Los exámenes de criterio y los exámenes de normas

Si has leído la entrada referenciada habrás podido observar que no son lo mismo los exámenes de criterio que los exámenes de normas. Por si no la lees hago un resumen reiterando reflexiones ya expuestas con anterioridad.

Los exámenes en el sistema educativo, en general, son exámenes de criterio. Si no sabes el mínimo establecido para pasar de nivel no pasas.

Los exámenes de normas son en general para seleccionar clasificando, ordenando o normalizando, que de las tres maneras se llaman. Son de libre concurrencia, por ejemplo la selectividad para acceso a las diferentes carreras universitarias y universidades, o por ejemplo los de acceso a la formación sanitaria especializada.

Nadie discute en esas pruebas la facultad de los aspirantes adquirida con anterioridad y dada por el sistema educativo facultado para hacerlo. Simplemente lo que hacen esas pruebas es seleccionar para realizar ordenadamente la elección del siguiente paso, paso que no es obligatorio formalmente. A nadie se le cercena definitivamente en ese proceso tampoco. Puede de hecho repetirlo o intentarlo por otros procedimientos como hacen hoy entre un 10 y un 20 % de los que acceden precisamente a Medicina, ¿o de donde se creen ustedes que viene eso de dividir a los recién egresados en menores de 25 años y en 25 o más?

Así pues estas pruebas simplemente cumplen su mandato legal, seleccionar para ordenar para el paso siguiente en el proceso de formación.

Conseguir seleccionar ordenando es un procedimiento más corto que el de acreditar, pero su complicación reside en la obligación frente a los derechos de terceros que conseguir separar a los aspirante más allá de los empates que en el proceso de acreditación carecen de importancia. 

Así pues se requiere un instrumento de medida capaz de cumplir ese objetivo con unas normas que lo consigan con suficientes decimales que eviten los empates de los examinados. La escala de medida en el caso de las pruebas de formación sanitaria especializada es de 1:750 frente a 1:10 que es la habitual en el sistema educativo que acredita y no ordena. 

Esa escala del sistema educativo 1:10 se convierte en 1:4 para baremar los méritos académicos en las pruebas de formación sanitaria especializada, precisamente para igualar a todos los aprobados de diferente procedencia de centros de formación, e igualmente a todos los notables, a todos los sobresalientes y a todas las matrículas de honor y poder obtener un baremo académico equivalente para todos con esa ponderación, que se pueda sumar transformado por los factores de corrección en puntos sumables al ser de dos escalas diferentes.

Entre un 7,5 y un 7,7 en el sistema educativo tan apenas hay diferencia, y si no eligieran los aspirantes la especialidad y el centro, sino que fueran los hospitales o unidades docentes quienes eligieran a los aspirantes, con eso sería suficiente.

Pero eso no es así porque lo decidió en su día el ordenamiento legal y así sigue a pesar de que la LOPS es del 2003. No habría problema para cambiar que fueran los centros pero habría que cambiar el ordenamiento legal que rige las pruebas. La Constitución, la LOPS, la ley de Extranjería y los Tratados internacionales uno por uno. Tela marinera.

Caso de conseguirse el nuevo ordenamiento encomendaría la prueba a quien decidiera el legislador. Acto seguido, si la ley no descendía al formato del instrumento de medida, sería el organismo encomendado quien lo decidiera, y aquí se acabaría el debate de los galgos y de los podencos. 

Por último decir para terminar este apartado que si lo que se pretende, o pretendiera, fuera ordenar para elegir entonces da igual que el formato del instrumento de medición los administren los galgos que los podencos. Ambos tendrán la misma servidumbre. Ordenar a la diezmilésima y allí se habrían pillado los dedos.

Es decir, siempre habrá un nº 1 y un nº 12.100 si se trata de ordenar, en el caso de este año. Repito, esa es la servidumbre de la prueba. El motivo por el que unos la quieren y otros la odian. 

El resultado del instrumento de medida no determina si tu eres médico o no, eso lo determinó la facultad. No determina tampoco si serás mejor o peor médico en un futuro, solo determina el nº de orden que obtienes en la prueba. Por lo tanto lo que es exigible es que cumpla lo mejor posible ese papel que se le ha encomendado.

6.- Sobre el formato del instrumento de medida 

Para conseguir la ordenación de los examinados, el instrumento de medida elegido ha sido un ejercicio de examen en papel. Tipo test con un nº de opciones de respuesta por pregunta, y unas normas de valoración que premian las respuestas válidas con 3 puntos y penalizan las falladas con -1 punto. En la versión de cuatro opciones de respuesta con esa valoración ha desaparecido el riesgo de contestar dudando. Entre cuatro opciones el riesgo es cero. Por eso solo ha quedado el tiempo de examen como factor límite para contestar. En la literatura hay partidarios en este tipo de pruebas de que el riesgo de contestar dudando sea cero. No sé si eso ayudaría a tomar la decisión de pasar de cinco a cuatro sin cambiar el valor de las válidas y de las erróneas.

Ese instrumento de medida es motivo de defensa por unos y de acoso y derribo por otros. Muy propio del comportamiento humano también. Generalmente los del acoso y derribo quieren un examen más cualitativo, con más intervención humana que juzgue no solo el conocimiento en un momento determinado sino que exprese también las habilidades de ese conocimiento.

Curiosamente suelen ser los mismos que han tenido ocasión de facultarlos como médicos, como si la prueba de ordenación fuera una reminiscencia de la prueba de acreditación propia del sistema educativo que ya los facultó. En otros países es así porque las pruebas son una especie de reválida de acreditación, pero en general ese sistema lo siguen los países en los que son los centros los que eligen a los aspirantes y no al revés.

7.- ¿Oye, y los que investigan este tipo de pruebas de medición han intentado superar el límite de la prueba con ejercicio en papel e igual para todos?

Si

¿Qué quiere decir con esa respuesta?

Vamos a ver, supongamos que todos tenemos un techo de cristal, una frontera de conocimiento, esa en que hace que si aumento un poco la dificultad de la pregunta respecto de esa frontera de conocimiento hace que falle esa pregunta y si la aflojo la dificultad de la pregunta hace que la acierte con el mismo conocimiento.

Ese techo de cristal, ese punto, sería tu puntuación verdadera, tu límite de conocimiento. Aquel punto que discrimina tu frontera de probabilidad de acertar y fallar al 50 %

¿Existe manera de medir eso?

Si

¿Para cada persona?

Si, para eso precisamente se plantea.

¿Cómo se consigue?

Con las puñeteras matemáticas y con la informática.

¿Entonces?

Aquí un día, hace unos años, se lo plantearon los del MSSSI y dijeron que no.

¿Por qué?

No lo sé pero me lo imagino. Lo que hay funciona, es eficiente en términos de logística y de coste. ¿Para qué vamos a cambiarlo? Así que imagino que los echó para atrás enfrentarse a lago que difícilmente entenderían los afectados. 

8.- Entonces ¿qué crees que se debería de hacer según tu leal saber y entender?

Lo que hicieron, y sigue así, fue hacer un ejercicio de examen en papel para todos igual, mismo formato mismas normas de valoración. Eso se hizo en una época en la que no era fácil intentar conocer la frontera del conocimiento de los examinados porque no había instrumentos de medida que fueran a ser aceptables. En aquella época y aún ahora en España la forma más lógica para el común es tratar de conocerlo a través del resultado de un mismo examen, a la misma hora, el mismo formato y las mismas normas de valoración. ¿Por qué?

Porque eso se ha creído y se cree que es la forma más objetiva y suficientemente eficiente de logística y de coste. Además de ser la que más se adapta a nuestra idiosincrasia.

Curiosamente lo más original del sistema español, no sé si lo hicieron adrede o fue un descuido que se ha constituido en costumbre, fue el poder sacar el cuadernillo del examen junto con una copia de la plantilla de las respuestas marcadas del ejercicio.

De esa forma los examinados podían hacerse ellos la corrección del examen cuando saliera la plantilla oficial de respuestas, además de impugnar las que consideraran improcedentes. De esa forma podrían vigilar que en el proceso de valoración no se produjeran errores y si se producían reclamarlos.

Esa es la característica más genuina del sistema español, poder sacar el cuadernillo del examen y una copia de la platilla de sus respuestas. Eso en el magnificado USMLE tararí que te vi.

Eso ha propiciado, que al comprobar que la mitad aproximada del examen de cada año deviene de conceptos previamente testados en exámenes anteriores, y queda una segunda mitad de conceptos no testados previamente. Con esos mimbres comenzaron a trabajar los primeros centros de preparación para el examen. 

Eso ha terminado influyendo, tal y como recoge la literatura que termina ocurriendo en este tipo de pruebas, al igual que la selectividad, en el sistema educativo de la etapa anterior a las mismas. 

Algunos ven en eso un daño colateral a ese sistema educativo previo, y así ha ocurrido entre una buena parte de docentes de las facultades en España. Ese run run hace tiempo que empezó y parece que están intentado preparar una estrategia conjunta de todas las facultades con los representantes de los estudiantes para que el examen se prepare durante el último año de carrera. Para propiciarlo pretenden que todas las facultades modifiquen su plan de estudios y dediquen a rotatorio el último curso. Así justifican ellos que tendrían tiempo suficiente por las tardes para preparar el examen por su cuenta. Esa estrategia lleva aparejado además el adelanto del examen porque podrían calificar el rotatorio con tiempo suficiente para hubiera la excusa de que su adelanto no fuera posible por no estar el certificado de calificaciones entes del período de inscripción previsto en la convocatoria caso de adelantarse caso de que convencieran al gestor de las pruebas. Esa es su propuesta de mejora además de subir la ponderación del baremo académico en la nota final y de paso cambiar la base de cálculo del mismo y hacerla de 1:10 en lugar de de 1:4 admitiendo eso sí que habría que ponderar con las medias de cada facultad y con la media nacional para evitar la posibilidad de que alguna facultad subiera las notas respecto de las del resto.

Esa es su propuesta de mejora. Quitar de en medio lo que ellos llaman despectivamente MIRicina. Si el MSSSI como examinador cometiera el error de incluir preguntas de MIRicina, es decir, preguntas que se contestan mediante trucos, ellos deberían de señalarlas concretadas en estudios pertinentes y no realizar algo tan "científico" como una afirmación general de carácter despectivo como es señalar que el examen es de MIRicina y no Medicina. 

¿Por qué esgrimen eso en lugar de pedir y exigir que el examen se evalúe en las tres partes en las que se ha de evaluar?... el qué se pregunta, el cómo se pregunta, y el cuánto cumplen o no las métricas de sus preguntas lo que han de medir. Es decir, si el instrumento de medida mide lo que tiene que medir y cuánto de bien o de mal lo hace.

¿Por qué tan apenas existen trabajos de cada una de las tres partes en las que se ha de evaluar el examen?... ¿por qué al menos ellos no reclaman y participan en la primera de ellas que es un juicio pericial que les pertenece? 

Si el MIR mide MIRicina y no Medicina, señálese por el procedimiento más adecuado para que los interesados sepan a qué atenerse y los gestores contesten y lo enmienden.

9.- El camino que entiendo que habrá que recorrer

El camino no puede ser otro que el que nos indica la disciplina académica para la cuestión de la evaluación del examen, de las preguntas del examen para ser más precisos. La disciplina en cuestión ya la he avanzado en la introducción a las tablas. Se trata de la Psicometría, tanto en sus modelos TCT (Teoría Clásica de los Test), como en los modelos TRI (Teoría de Respuesta el Ítem) que tratan de superar las limitaciones de la anterior.

La primera de ellas describe lo que pasa a tiro pasado. La segunda establece varios modelos que responden a la probabilidad de acertar o no una pregunta en función del conocimiento del examinado.

Cuando recorres ese camino te ves obligado a preguntarte sobre los parámetros a medir y para qué, lees la literatura sobre el tema, comprendes, relacionas, conoces las ventajas e inconvenientes de lo que te vas encontrando en el camino, en definitiva aprendes. De paso estructuras el lenguaje, utilizas la misma terminología para poder estudiar y debatir los resultados. 

Tratas de buscar y encontrar en ese camino soluciones a las preguntas y los problemas que se plantean, y vas trazando un itinerario de aprendizaje y de debate interno que te lleva a tratar de resolver las dudas con las que te vas encontrando.

Aquí todavía estamos en la guerra de si son galgos o podencos, de si cazas tú o cazo yo. 

De evaluación y psicometría la que haga para consumo interno el gestor de la prueba y alguna cosa que se ha publicado por ahí, poca cosa. Con los dedos de una mano y puede que sobren.

10.- Del formato de papel al formato de los test adaptativos informatizados

Ya vimos y escuchamos de pasada en el vídeo del Dr. Infante que enlacé, que se lo plantearon en su día y que decidieron seguir con la prueba en formato papel.

Aquí surge uno de los posibles daños colaterales que señalarían al sistema español los que interpretan desde el exterior, llevándose las manos a la cabeza las consecuencias de sacar el cuadernillo. Bueno, ellos testan las preguntas nuevas a través de su inclusión en la prueba y luego las retiran de los resultados. Así testan las preguntas novedosas que incluirán y al no entregar el cuadernillo podrán repetir las que tienen testadas previamente sin que las conozcan los aspirantes. Osea que de daño colateral nada de nada, más bien mayor exigencia en aumentar el banco de preguntas continuamente por mitades.

Sacar el cuadernillo ha tenido además más ventajas. Hace innecesario el que tenga que haber un temario en una materia que se actualiza constantemente. Ha contribuido a la caracterización de una parte del banco de preguntas repetidas del que se obtienen los conceptos más preguntados por su importancia según el examinador. Lo que le obliga como se ha dicho a buscar y encargar preguntas continuamente a los profesionales que están más actualizados en las materias objeto de examen determinando en qué momento las incluye y en qué formato de redacción lo que le obliga a testarlas previamente por procedimientos que desconozco..

De ese volumen de conceptos tiran los centros de preparación, que por cierto existen en todos los sistemas de selección y/o acreditación, para preparar el examen.

Ese trabajo realizado por ellos, y que evitan a los preparandos, es su "crimen para quien no los puede ni ver". Pero eso curiosamente también ha contribuido a tirar al alza y a la cresta de la ola las respuestas netas de examen de los que más y mejor se preparan y entrenan contribuyendo a tener que seleccionar el examinador más y mejor aquellos conceptos que pregunta como nuevos.

Ese problema fue el que se planteó la literatura hace muchos años. Desde los orígenes de la TCT se plantearon los teóricos que las formulaciones matemáticas respondían a determinadas cuestiones pero no eran suficientes sus modelos para responder a la probabilidad de contestar según el conocimiento. Es decir, a la necesidad de caracterizar previamente las preguntas en función del conocimiento de los examinandos para ponerles el examen más adecuado para poder discriminar a los que no saben de los que saben con mayor precisión en todos los intervalos de la distribución.

En el trayecto de esa investigación se encontraron que para que fuera más eficiente el examen en la necesidad de separar por el conocimiento se podría conseguir utilizando solo preguntas que estuvieran adaptadas a la raya del mismo, es decir, aquellas que determinan su techo de cristal, su puntuación verdadera, su percentil de conocimiento, su frontera, su punto en el ya no pudiera responder con acierto.

Es decir, no un examen igual para todos con las mismas preguntas sino un examen individual a cada uno con la intención de encontrar ese punto. ¿Por qué pensaron que debería de ser así?

Precisamente porque esa era la misión que pretendían, encontrar esa frontera de conocimiento que superada ligeramente, o  no,  determina en el examinado, por su nivel de conocimiento, el 50 % de probabilidad de acertar y el 50 % de no acertar.  Ese pequeño intervalo que hace variar la probabilidad de acertar y no acertar a partes iguales, es justamente donde se encuentra el límite natural de su conocimiento. 

Ese punto es el punto de máxima pendiente de la CCI (Curva Característica del Ítem o pregunta). El punto que separa a la probabilidad de acertar de la probabilidad de fallar. Justo el punto que informa de la magnitud de discriminación de la pregunta.

Un traje a medida de cada examinado en función de su conocimiento.

Exactamente igual que se hace con los saltadores de altura. Se les pone un listón que tiene que ver con la referencia de la altura saltada en sus marcas anteriores. Aquella que se parte sabiendo su su historial previo, y a partir de ahí se le va subiendo el listón hasta que encuentra su techo. Su techo de conocimiento. Su techo de cristal, aquel que determina la frontera de su conocimiento. Aquel que subiendo el listón ya no lo supera.

Esos son los que se denominan test adaptativos informatizados. 

Aquellos que la lógica obligaba a renunciar a implantarlos en España porque aquí todavía no hemos recorrido el camino de la evaluación del examen, aquel que nos llevaría a centrar el debate en las tres patas de su evaluación, el qué, el cómo, y el cuánto. 

Sin centrar el debate de la prueba en la evaluación de su examen a través de la disciplina adecuada su aprendizaje no existe y si no existe ¿cómo vas a plantear los tes adaptativos informatizados que son el final del recorrido para medir objetivamente el conocimiento de los examinados?

Llegar al final sin recorrer previamente el camino hubiera sido empezar la casa por el tejado. Habrá que esperar y ya veremos lo que acontece. 

Mientras vosotros discutís si son galgos o podencos yo he ido a mi marcha por la vereda tratando de centrarme en la faena con la botas de regar y el mono, dale que te pego. Tal como reza el subtítulo del blog. Una búsqueda apasionada por los recovecos de la distribución. La cabra tira al monte y cada loco a su tema.

11.- Corolario final

Hay quien piensa que la prueba mientras no la gestione la universidad no estará sujeta al método científico (no hace mucho se publicó en prensa la opinión razonada en ese sentido de un docente interesado), de tal manera que pareciera que el método científico, y las disciplinas que lo siguen, solo se siguiera o se pudiera seguir en el ámbito universitario como garante del mismo.

Por ejemplo todo lo que investigan, producen, y satisfacen a los consumidores de productos y servicios las empresas a través de sus departamentos de investigación, desarrollo e innovación antes de trasladarlos a los centros de producción en serie, en el mundo mundial, no es ciencia ni método científico porque no está garantizado con el marchamo universitario. 

Como si en las empresas e instituciones de servicios no trabajaran universitarios facultados por esas universidades. Como si esos universitarios no siguieran el método y las disciplinas científicas y académicas que aprendieron durante sus estudios y después. Curiosamente algunas de esa empresas tienen departamentos que trabajan en la misma frontera del conocimiento y son además los que más patentan. Instrumentos, componentes y servicios de propósito general por la humanidad entera. La ciencia ya no se hace solo en la universidad, y menos aún según en qué universidades. Tampoco se hace solo por personas individuales como en tiempos pretéritos. 

No es ni solo ni suficiente el marchamo de un departamento universitario para acreditar el método científico. Se puede dar en otros ámbitos y se puede evaluar su eficiencia sin necesidad de pasar por las horcas caudinas. 

Si fuera como se pretende de las las universidades españolas habrían salido centenares de artículos de una pruebas de tanta influencia social. ¿Cuántos artículos han salido de los que reclaman su protagonismo en las mismas? Busquen en la literatura y veamos cuántos de ellos salen.

En fin, el cuento de nunca acabar. Quítate tú para ponerme yo que soy quien represento a la ciencia y debo de administrar el examen, ¿en qué quedamos, es un simple examen de ordenación o de acreditación? 

Tampoco hay tan apenas estudios sobre los resultados de las pruebas y su evaluación de otros académicos de la disciplina que se ocupa de ello. Eso sí, muchos de investigación, pero sobre sus resultados y su evaluación solo conozco uno que evaluó varias pruebas de ellas utilizando los datos que pidió y le proporcionó el gestor de las mismas. Eso fue ya hace varios años.

No me extraña que el MSSSI no entre al trapo... apenas tiene presión que no sea la mía, y ya se sabe que un servidor es un simple pastor que cuenta con los dedos de la mano... y que pinta menos que Pichorras en Pastriz...

5 comentarios:

  1. Entonces, parece ser que todo estará un poquito mas caro este año, sobre todo cuantos menos netas saques en el examen...

    Muchas gracias por tu trabajo.

    ResponderEliminar
    Respuestas
    1. Por el nº de presentados sí, pero por el resto de variables está por ver.

      El resto de variables pueden amortiguar el empeoramiento del nº de orden por el aumento del nº de presentados, se la pueden comer con patatas y quedarse en paz, o incluso pueden centrar la media y la mediana que se ha venido disparando los dos últimos años.

      No tengo ni idea de lo que pasará finalmente, lo sabremos a tiro pasado.

      Eliminar
  2. Primero felicitarte por tu gran trabajo. Te sigo desde hace años. Soy recirculante especialista...y si me presento de nuevo es porque creo q me equivoqué de especialidad.No se si te sirva el dato q te paso (porque seguro ya los tienes) ...pero por si acaso: En el mir 2010-2011 saque 112 netas y mi puesto fue el 3621. En el mir 2015-2016 me volví a presentar y saque 117 netas y mi puesto fue 5696. No cogí plaza y me presento este año de nuevo...a ver que pasa. Recibe un gran abrazo y gracias por todo.

    ResponderEliminar
    Respuestas
    1. Gracias, 112 netas en el MIR 2010/2011 como tu misma reconoces valían mucho más que lo que valieron después en exámenes que por sus resultados fueron más fáciles.

      Nota.- No hay otra manera de cuantificar la dificultad, así lo reconoce la literatura, que por una proporción entre las preguntas contestadas respecto de las preguntadas.

      La alternativa simplemente sería un juicio clínico pericial y no quiero ni pensar en cómo medir eso, la definición de las escalas y su valoración.

      Lo dicho, la dificultad en psicometría es una proporción, y los años más difíciles desde que el examen tiene 225+10 preguntas fueron el 2009/2010, el 2010/2011, con diferencia respecto de los siguientes.

      Podríamos entrar a hablar de las proporciones de los diferentes subconjuntos, pero me quedo con tu agradecimiento y con tu abrazo.

      Ambos te los devuelvo deseando que tu esfuerzo fructifique, que la serenidad te acompañe, y también la suerte.

      Eliminar
  3. Primero felicitarte por tu gran trabajo. Te sigo desde hace años. Soy recirculante especialista...y si me presento de nuevo es porque creo q me equivoqué de especialidad.No se si te sirva el dato q te paso (porque seguro ya los tienes) ...pero por si acaso: En el mir 2010-2011 saque 112 netas y mi puesto fue el 3621. En el mir 2015-2016 me volví a presentar y saque 117 netas y mi puesto fue 5696. No cogí plaza y me presento este año de nuevo...a ver que pasa. Recibe un gran abrazo y gracias por todo.

    ResponderEliminar