domingo, 28 de junio de 2015

Cuatro ejemplos de eliminación de distractores...

....

y sus posibles consecuencias...



Ejemplo nº 1


Ejemplo nº 2


Ejemplo nº 3


Ejemplo nº 4


Adenda a las gráficas.- Por convenio se pueden clasificar las preguntas por su grado de dificultad según el % de examinados que las acierten, y ahí caben todos los tipos de clasificación que se quieran incluir, desde difíciles, regulares y fáciles, hasta una subdivisión de los mismos.

Igualmente por convenio, se podrían clasificar las preguntas por su capacidad de discriminación en función de la calidad de las respuestas distractoras, por ejemplo por su % de contestación respecto del % de aciertos, y automáticamente la decisión de su eliminación estaría tomada, la de menor % de contestación sería clasificada como mala distractora y por lo tanto se elimina y punto.

Si eso fuera así, de entrada serviría para depurar manualmente solo aquellas preguntas del banco de preguntas que supuestamente se seleccionaran previamente como candidatas a repetirse en el próximo examen, que rondarán como de costumbre incluso algo más del 50 % del total. Ello terminará determinando +/- el comportamiento de una parte de la distribución de resultados, ya que esas preguntas suelen versar sobre los conocimientos generales más importantes y preguntados previamente por el examinador. 

En eso se basa en parte el comportamiento del MIR español y las diferentes metodologías de las academias de preparación, en priorizar las materias y conceptos más preguntadas, que se saben de antemano a través de los cuadernillos de examen. Al contrario que otros exámenes, cuando lo terminas, se pueden sacar los cuadernillos por el examinado junto con la copia de la plantilla de respuestas, que le sirve a posteriori para su revisión inmediata una vez salen las plantillas provisionales y definitivas, y poder realizar o no reclamaciones a la lista oficial de resultados.

Aunque no es tan sencillo como lo escribo, porque el examinador reescribe o puede reescribir el concepto repetido e incluso los distractores cambiándolos por otros, sirva como ejemplo de como proceder a la eliminación del cuarto distractor en las preguntas del banco de preguntas. Una limpieza que se puede producir informáticamente de un plumazo, aprovechando que van a pasar las posibles respuestas de cinco a cuatro. 

Hasta aquí una opinión de lo fácil que puede ser detectar y eliminar las respuestas con menos capacidad distractora y por tanto menos consistentes.

Pero la posibilidad de eliminar fácilmente el peor distractor no lo dice todo de la calidad de la pregunta... de su fiabilidad, de su dificultad, y de su capacidad de discriminación, pero que duda cabe que la mejora respecto de su situación anterior, y puede ser un primer avance en el examen del examen que proponía y además con coste prácticamente cero.

Pero, ¿y las preguntas que no serán de conceptos repetidos y que están vírgenes en el banco de preguntas?... ¿cómo determinarán la eliminación del distractor menos consistente?... parece evidente... ¡a ojo de buen clínico!

De aquí en adelante, aquellas preguntas que se encargan para el banco de preguntas a determinados profesionales las pedirán con la respuesta válida y tres distractores nada más.

Pero, ¿acaso significa eso que tendrán mayor calidad de distracción?... 

Eso dependerá de los conocimientos y habilidad de quien la redacte para el banco de preguntas... y muy especialmente del encargado del sancta sanctorum, es decir de poner y custodiar el examen, en el momento que sea elegida para el mismo y en su redacción final...

Que duda cabe que las preguntas se redactan antes pero solo han sido probadas, y por lo tanto testadas, las que se preguntaron previamente en anteriores exámenes, y aún así depende de si se mantuvo en la misma +/- su redacción y sus distractores.

Esto va para que nos pongamos en el lugar del examinador y en el lugar de los que redactan las preguntas que se encargan, el uno es el artista que elige y decide su redacción final tal y como saldrá en el examen, y los otros son los artistas que nutren el banco de preguntas, de miles de preguntas, esas que, una vez elegidas y adaptada su redacción y sus distractores salen en el examen, y sirven después para entrenarse durante la preparación del mismo...

Arreglárselas para buscar una pregunta y su respuesta no es difícil, lo difícil es buscar y redactar los distractores, ahí ahí le duele, por eso eliminan uno ahora, el de menor capacidad de distracción  o de menor consistencia, y supongo que así se hará... 

Si redactas preguntas, una vez que redactas la pregunta y la respuesta correcta, buscas el resto de respuestas, los distractores. Una vez que has encontrado y redactado dos que crees consistentes, encontrar un tercero ya se hace cuesta arriba y es lógico que no sea de la misma calidad de distracción, y no te digo nada si has de encontrar un cuarto... 

Esa entiendo que ha sido la razón última de su eliminación una vez calculados y comprobados los % de contestación de los mismos por parte de los examinados años atrás...

Lo de justificar el tener mayor tiempo es una concesión gratuita a la galería, ya que es justo lo contrario de lo que recomienda la literatura para mantener la potencia, la velocidad y la discriminación del examen... mira por donde eso no facilita las cosas en cuanto a su capacidad de discriminación... 

Si detectar y eliminar los peores distractores lo tienen muy fácil y muy barato respecto de las preguntas del banco que ya han salido en alguno de los exámenes... pero en las que no han salido nunca, y permanecen vírgenes en el banco de preguntas, esas solo se ven como mucho... con buen ojo clínico...

¿Cómo influirá en el resultado general y no en el concreto la eliminación de una respuesta?...

Esta es la pregunta del millón, y la que verdaderamente importa contestar...

De entrada va a influir en la media de los diez mejores exámenes,  y por tanto indirectamente en dos cuestiones que dependen de la misma, en el factor de corrección del examen que es el multiplicador del valor particular de todos los exámenes (90/media de los diez mejores exámenes) y que será menor cuanto más suba esa media porque el numerador 90 es fijo, salvo que lo aumenten, y en la nota de corte que es un % de esa media... para mantener el equilibrio actual habría que subir la ponderación del examen y bajar la del baremo hasta encontrar el equilibrio anterior como mínimo aproximadamente, de lo contrario y en la práctica el examen reduciría su peso respecto de la situación anterior, tanto más cuanto más subiera la media de los diez mejores exámenes como consecuencia del cambio de cinco a cuatro respuestas posibles por pregunta...

Además, si no cambia el valor de las respuestas válidas y erróneas, para mantener el balance del % de aleatoriedad y del % de penalización, terminará influyendo en el número de respuestas no contestadas, que serían menos,  como consecuencia de no solo disminuir el riesgo, sino de dejarlo a cero, es decir, de eliminarlo con la nueva medida, ya que si dudas entre las cuatro y mantienes el valor de la válida en 3 y la errónea en -1 compensaría contestar todas las preguntas del examen ya que ni sumas ni restas, su saldo es cero, cero pelotero...

Por tanto si se mantienen esos valores terminarían aumentando la media y la mediana de respuestas netas, por lo que para mantenerlas a raya y mantener la capacidad de discriminación solo quedaría la posibilidad de aumentar la dificultad del examen y de aumentar el % de la nota de corte o de ambas cosas hasta encontrar un equilibrio...

Pero además, para terminarla de enredar, el reparto de las consecuencias de la eliminación de un distractor no será igual en todas las preguntas ni en todos los examinados, porque no todos los distractores que se eliminen tendrán la misma potencia de distracción ni su eliminación se repartirá por igual en el resto de respuestas tal y como he materializado en la gráfica de la derecha de cada pregunta repartiendo el resto de forma proporcional... no, la realidad no será así...

El menor riesgo a asumir por el conjunto de los examinados, de no equilibrarse el balance de la aleatoriedad y de la penalización, supondría un aumento de las respuestas netas en el conjunto de los examinados que no sería proporcional en toda la distribución. Salvo error por mi parte, de mantenerse los valores de las válidas y erróneas como están, los que se verían más favorecidos serían aquellos, que por las cusas que sean preparan y entrenan menos y peor respecto de los que se preparan más y mejor... eso lo que significaría sería disminuir la capacidad de discriminación del formato actual... para equilibrarlo en la cabeza, tronco, y pies de la distribución, solo lo veo posible aumentando la dificultad del examen y/o aumentando el % de la nota de corte hasta encontrar un equilibrio, tal y como decía anteriormente.

En principio, y siempre que se eliminen con tino los peores distractores, no tiene porqué ser una mala medida el cambio que se promueve, pero entiendo que se debe de recuperar el balance anterior entre la aleatoriedad y la penalización...

Como decía al principio el cambio que se ha comunicado va a influir en el balance de la equivalencia de una décima de baremo en netas, salvo que se balancee el peso del baremo...

Ese balance será difícil que se mantenga con los actuales pesos de uno y otro, si sube la media de los diez mejores exámenes y se mantiene la media de los diez mejores baremos el balance se rompe a favor del baremo, tanto más cuanto más suba la media de los diez mejores exámenes...

Manteniendo el peso actual 90;10 y suponiendo un aumento del 5 % en la media de los diez mejores exámenes el examen perdería un 4,76 % de peso efectivo respecto del baremo, y el equilibrio actual se conseguiría, de mantenerse ese aumento del 5 %, entre el 95;96 % de peso para el examen y el 5;4 % de peso para el baremo académico en el resultado final de la prueba.

Un aumento del 5 % en la media de los diez mejores exámenes supondría un aumento de 9,33 netas en la media de los últimos catorce años.

Para terminar con las reflexiones entiendo que lo habrán simulado todo previamente para determinar las consecuencias, bastarían una pocas instrucciones informáticas... elimina las respuestas con menor % de contestación... reparte el % de las respuestas del valor del distractor eliminado entre el resto de opciones de la forma que encuentres más coherente... recalcula todo... dime la nueva nota de corte... calcula y dime la diferencia de afección de la nota de corte... dime la nueva media y mediana de VPE... dime el % de aumento respecto de la situación anterior... ahora dime la nueva relación de equivalencia de VPE por décima de baremo... calcula y dime que pasaría con un peso de 95 % para el examen y del 5 % para el baremo respecto de la equivalencia de VPE por décima de baremo...

¿Cómo reparto las contestaciones del distractor eliminado?... 

Lo tendrás que decidir y simular amigo, porque no las puedo cargar todas a la cuenta de no contestadas, ya que eso va en contra de la hipótesis de que la reducción de cinco a cuatro aumenta la aleatoriedad... quien me lo iba a decir... mira por donde la TRI puede venir en tu ayuda... la TRI y algo más que la TRI...

Una vez terminadas las simulaciones, porque no te queda otra que simular... dirás arre o so... tomarás las decisiones que entiendas más adecuadas respecto del valor de la válida y la errónea... tomarás las decisiones respecto del % de peso del examen y del % del peso del baremo académico... justificarás todo, y decidirás si comunicarlo o no, de la forma más conveniente, o simplemente esperar a hacerlo a finales de septiembre, no te quedará otra, cuando después del visto bueno del Pleno de la Comisión de Recursos Humanos del SNS se pronuncie, y aquí paz y mañana gloria... salvo que algunos componentes de la Comisión salgan respondones...

La única duda que me cabe de todo esto es por qué se comunica en la Nota de Prensa el cambio de cinco a cuatro respuestas, además del resto de cuestiones que se comunican, y no se dice nada del valor correspondiente a las respuestas válidas y erróneas, y al % del peso del examen y del baremo... ¿será verdad que no pensaban ni piensan en cambiarlos?...

¿Será verdad que sí lo pensaban, por haber realizado antes las simulaciones precisas, y la coletilla del apartado Calendario de la Nota de Prensa significa lo que dice textualmente, que se publicarán en septiembre pudiéndolos adelantar ahora?... 

Vamos hombre... eso es tanto como quedar mal pudiendo quedar bien por el mismo coste... por eso me cabe la duda, por eso no lo entiendo...

Salvo mejor criterio naturalmente...

Adenda de curiosidades para los preparandos, aprovechando la ocasión.-

¿A pesar de darle vueltas y vueltas a su estudio y entrenamineto, se pueden acertar todas las preguntas cuyos conceptos se preguntaron antes y están en todo el histórico de cuadernillos anteriores?... difícilmente, todas, dificilmente...

No es imposible, pero la probabilidad de conseguirlo no es precisamente altísima, ni siquiera muy alta en condiciones normales, hace falta entrenarlas de forma persistente para intuir el concepto preguntado porque su redacción en el examen seguramente habrá cambiado, pero es prioritario tratar de conseguirlo para quien se prepara y entrena... y para los gestores de la prueba que representan a los destinatarios de la misma, el conjunto de centros del SNS... 

Sí sí, para los gestores y para el SNS también porque la prueba la crearon ellos para su servicio, para simplificar y hacer la selección de los aspirantes lo más eficiente posible...

La eficiencia no es la perfección, la eficiencia es lo mejor posible, en el menor tiempo posible, al menor coste posible cumpliendo los requisitos de mérito y capacidad con la mayor equidad (medición) posible, con un procedimiento garantista, es decir, transparente...

Los centros del SNS obtienen de ese procedimiento el fruto de la preparación y entrenamiento de una buena parte de los preparandos. No solo se alimentan de ello sino que la selección del centro, en una buena parte de los casos, potencia la calidad y empuje de su actividad, manteniendo no solo su capacidad para renovarse sino asentando la potencia de poder aspirar a mejorar y por tanto a ser y/o seguir siendo referentes... 

De ahí que muchas veces no entienda las pegas que se ponen al sistema de selección, preparación y entrenamiento por parte de algunos...

La preparación y entrenamiento intensivo, aumenta la capacidad de elegir dudando con premura, refresca lo estudiado previamente, cubre determinadas lagunas tal y como expresan algunos de los preparandos, y ello se hace posible manteniendo un comportamiento de todos los que intervienen en el proceso que hace que compense el coste y el esfuerzo que se ha de realizar durante la misma... incluso para aquellos que por su objetivo de elección no necesitan un buen nº de orden...

El resultado de ese comportamiento es precisamente el que determina el intervalo de dificultad en el que se mueve el examen en sus medidas centrales, y por tanto su incertidumbre... 

El comportamiento previo de las facultades y de los alumnos en las mismas, el comportamiento de quien lo pone, el comportamiento de los preparadores, el comportamiento de los preparandos, su actitud durante la preparación, su metodología y control del estudio y del descanso, su entrenamiento y su equilibrio emocional durante la misma... que les ha de servir también para tenerlo el día del examen...

Si no fuera así preparar el examen no compensaría a ninguno de los citados y la distribución saldría como saldría... y si quieren saber como saldría que le pregunten a las academias como sale el primer simulacro entre los recién egresados nada más que terminan el curso, que miren la correlación  con el baremo, que miren el ruido de fondo... y que saquen conclusiones para saber si compensa adelantar el examen...

Y si no que me dejen los datos para trabajarlos y publicar la nube con los resultados y ver el ruido de fondo respecto del baremo... ¡ojo! solo de recién egresados... que es lo que se ventila para justificar el sí o el no a la preparación de la prueba, y por tanto al adelanto de la misma justo a la terminación del último curso... 

4 comentarios:

  1. Interesante... Desde que salió la noticia no paraba de preguntarme la finalidad de esa reducción de respuestas. Lo que entiendo de su análisis es que al final los baremos mas bajos se verían perjudicados, pues "el examen perdería un 4,76 % de peso efectivo respecto del baremo".. Cree usted que bajaran el peso del baremo en la nota final?

    ResponderEliminar
    Respuestas
    1. Para que se cumpla esa pérdida que citas se han de cumplir dos condiciones, que los diez mejores exámenes suban de media un 5 % respecto de la media de los últimos catorce años y que siga el peso de examen y baremo, y se mantenga en la media de los últimos catorce años.

      Lo que vaya a terminar ocurriendo no lo sé.

      Tal y como escribo en la entrada y en la anterior me limito a reflexionar en voz alta para poder ser refutado, eso en primer lugar, por eso digo salvo mejor criterio, y en segundo lugar a pedir, después de las reflexiones que se mantengan los balances de aleatoriedad y de penalización por un lado y de examen y baremo por otro.

      ¿Lo tienen preparado ya así y no lo han comunicado?

      ¿Lo piensan dejar como está y por lo tanto de desbalancean de lo actual?

      Solo puedo contestar que no tengo ni idea ni de lo que han simulado o no, ni de como lo dejarán definitivamente.

      Dicho eso a título individual de los preparandos ¿qué hacer?

      Ese asunto no depende de ti, no pierdas ni un minuto en el mismo, dedica todo tu tiempo, tu actitud, tu energía y esfuerzo, a preparar y entrenar con la máxima eficiencia, es decir priorizando lo más importante y lo más rentable, porque además de las preguntas y/o conceptos que se repitan en el examen, le habrán quitado la respuesta más fácilmente descartable.

      Aunque sea cierto ese cálculo de darse esa condición las netas equivalentes a una décima de baremo pasarían de alrededor de 0,50-0,51 a alrededor de 0,52-0,53 por lo tanto el examen se seguiría apoderando del baremo a efectos de la preparación con contundencia, que es lo que procede por otra parte, de lo contrario que se ordene por baremo y acabamos con el examen de una vez.

      Por mi parte ya he dejado clara mi postura, recuperar ambos balances en función de lo que marquen las simulaciones, ¡ojo! con las bases de datos del MSSSI y solo ellos disponen de las mismas.

      Eliminar
  2. Anónimo2/7/15 14:05

    Hola GANGAS. Muchísimas gracias por tu trabajo, es un placer leerte, sobre todo cuando estás preparando el MIR.

    Hay una cosa que no entiendo y es lo del baremo: con solo 4 posibles respuestas, ¿no subiríamos de netas todos? Cuando calculas la puntuación total del examen para un opositor, sumas la división de sus netas entre la media de los diez mejores y la división de su baremo entre la media de los diez mejores, ponderando cada valor por el factor correspondiente, ¿no? Si suben las netas de todo el mundo, la primera división se queda igual. O sea, suben las netas de los diez mejores, y las del p50, y las del p20...

    Por otro lado, para los que nos perdemos un poco con los números, está claro que un examen que pasa de 4 a 3 distractores, si se mantiene la penalización actual y no aumenta la dificultad del examen ni la longitud de las preguntas, pierde en discriminación. ¿Pero pierde mucho, poco...? En otras palabras: si yo en vez de tener un MIR de 225+10 preguntas de 5 horas, tuviera un MIR de 450+20 preguntas de 10 horas, repartidas en dos mitades dos días seguidos, tendría un MIR aún MÁS discriminativo. Pero el formato que hasta ahora había ya era LO SUFICIENTEMENTE DISCRIMINATIVO como para que las diferencias que se encontraban en netas se debieran a las diferencias reales en la preparación de la prueba y no al azar. Suponiendo que mantengan la actual penalización de 0,33 por pregunta fallada, ¿seguimos teniendo un MIR suficientemente discriminativo, o nos han hecho una chapuza?

    Gracias.

    ResponderEliminar
    Respuestas
    1. He estado rehaciendo el texto de la entrada para tratar de acercarme a tus preguntas, pero trataré de contestarte aquí.

      1.- El cambio de cinco a cuatro sube de entrada la aleatoriedad (acertar por suerte) un 20 % porque pasa del 20 % actual (una entre cinco) al 25 % del nuevo escenario (una entre cuatro)

      2.- Ese cambio además, de no cambiar proporcionalmente el valor de la válida y la errónea, si no cambia el valor de la respuesta válida y de la respuesta errónea, mantiene la penalización en el 33 % por lo que la hace nula con cuatro respuestas posibles en lugar de cinco rompiendo la relación actual entre aleatoriedad y penalización

      3.- Ese cambio, de cinco a cuatro, si se mantienen los valores de válidas y erróneas no supondrá que sean igual para todos las consecuencias del mismo, de ninguna manera será así, porque al aumentar la aleatoriedad (la suerte) del 20 % al 25 % significaría que compensaría contestar todas las preguntas porque cuanto menos sepas más preguntas contestas aleatoriamente con resultado de no sumar y no restar, y por tanto menos penalización tienes por hacerlo, así que si la suerte se pone de tu parte terminarás sumando, y eso no lo puede pretender un examen sino lo contrario. ¿Por qué?

      Porque es un examen para ordenar, y ha de procurar hacerlo discriminando al máximo las notas, porque las notas se expresan en diezmilésimas y los nº de orden de uno en uno.

      Entre alguien que saca una diezmilésima más que tu y tu no hay prácticamente diferencia de conocimientos, pero si diferencia de un nº de orden que es con lo que se eligen las plazas.

      Un ejemplo extremo para entender esto sería el siguiente, supongamos que todo el mundo empata, ¿cómo ordenas?

      Por sorteo que viene de suerte.

      Una prueba que fomente la suerte (aleatoriedad) más que la discriminación estaría fomentando que el resultado dependiera más del sorteo (suerte, aleatoriedad) que de la discriminación (penalización por contestar mal)

      Mantener la penalización en el 33 % (+3 para las válidas y -1 para las erróneas) anula la misma con preguntas de cuatro posibles respuestas si contestas todas las preguntas al azar o aletoriamente.

      Para recuperar ese equilibrio has de buscar y encontrar un nuevo valor para las respuestas válidas y para las respuestas erróneas, que haga que contestar dudando entre cuatro no compense hacerlo o no lo deje sin penalizar, que es como quedaría de disminuir a cuatro las respuestas y dejarlos como están.

      Salvo mejor criterio, naturalmente.

      Eliminar