lunes, 29 de mayo de 2017

La paradoja de la medida...


Reponer las lindes de los campos en los valles del Tigris y Eúfrates, y en el valle del Nilo, después de las riadas que los inundaban hacía necesario volverlos a delimitar. Los primeros agrimensores se dieron cuenta que para alinear y medir necesitaban fijar unidades de medida e instrumentos para conseguir su propósito. Todavía no se había decidido por convenio las unidades métricas, pero fueron sus precursores.

Lo importante de este asunto, sin extenderme en la historia, es darse cuenta que para medir tienes que tener un patrón de referencia como medida. Que no hay una medida absoluta de la que echar mano para medir, sino que se mide en relación a algo que se fija como patrón previamente. Medir no es por tanto un ideal absoluto sino algo relativo respecto de un patrón. Ese patrón de medida se fija por convenio entre los que lo van a usar. La teoría de la medida lleva siempre aparejada la teoría del error de medida.

En un ejercicio de respuestas múltiples con normas de valoración previamente fijadas las cosas parecerían habas contadas, ya tenemos las normas convenidas para medir y punto.

Pero no. Si quieres rascar más, y hay que rascar más, no resultan suficientes las normas de valoración de las respuestas válidas y erróneas.

Las pruebas con ese formato y que son de libre concurrencia de centros de formación, interior y exterior, de diferentes promociones, y que su propósito es ordenarlos a todos con el mismo rasero, es decir, separarlos lo suficiente para evitar el máximo de empates, has de tener en cuenta otros parámetros que las meras normas de valoración para que la prueba no termine siendo un churro.

La cuestión se entenderá fácilmente si pongo un ejemplo. Supongamos una prueba de salto de altura. ¿Qué sentido tendría poner a Ruth Beitia a saltar un listón con un metro de altura siendo su récord  superior a los dos metros?... ninguno.

Pero resulta que el salto de altura es una prueba individual y por eso es lógico que a la saltadora le pongan el listón por debajo de su récord pero no muy por debajo del mismo para saber su medida de salto. Lo contrario sería una pérdida de tiempo. Se trata de averiguar ese punto en que tiene el 50 % de probabilidades de saltar sin tirar el listón y otro 50 % de tirarlo en el salto. 

Ese punto es el que nos interesa medir. El punto que discrimina su último salto. En el caso que nos ocupa el punto que separa la probabilidad de acertar y de no acertar. 

Pero la prueba que nos ocupa no es una prueba individual sino colectiva. Hay que ser capaces de medirlo a todos los partícipes a la vez, como si fuera una carrera de fondo, el mismo día y a la misma hora, y además con 225+10 saltos de altura. Veamos como hincar el diente al asunto.

En una prueba de libre concurrencia con una Nn que supera los 12.000 presentados, de los que la mitad aproximadamente son recién egresados de universidades españolas, unos 3.000 de promociones anteriores de dichas universidades, y otros 3.000 de universidades no españolas de más de 100 países diferentes y de promociones diferentes... ¿por donde empezamos a poner el listón?

La solución buscada fue poner 225+10 listones de altura diferente y a todos a la vez. Las preguntas, cada pregunta, supone un listón de altura diferente.

Bien... ¿pero cómo mides el listón de cada pregunta y con qué métrica lo determinas?

Bien... ya salió la palabra... métrica... ¿qué indica la palabra métrica?

La palabra métrica nos lleva directamente a parámetros a medir, y en nuestro caso nos lleva a dos parámetros por pregunta como más importantes por consenso de la literatura sobre el tema. El parámetro dificultad y el parámetro discriminación.

La paradoja que quiere expresar el título de la entrada es la siguiente. La dificultad es una proporción entre las preguntas acertadas y falladas. Más aciertos más conocimiento, menos aciertos menos conocimiento. La discriminación es una correlación entre el conocimiento mostrado al responder el resto de preguntas y el que supuestamente mostrará en la pregunta en la queremos medir el parámetro.

La discriminación por tanto parte de una esperanza que nos lleva directamente a una probabilidad de contestar acertadamente o no. Por convenio aceptamos que la probabilidad de contestar una pregunta determinada estará en función del conocimiento mostrado en el resto de preguntas ya contestadas. La desviación de esa esperanza de correlación indicará menor discriminación, y la coincidencia con esa esperanza indicará mayor discriminación. Un pregunta discrimina más o menos en función de lo cercana o lejana que se encuentre la respuesta de esa esperanza. De ahí que hable de paradoja, por que ambos parámetros, dificultad y discriminación no son absolutos. Para un examinado las preguntas serán más difíciles que para otro. El promedio de dificultad y discriminación del examen será el promedio de la dificultad y discriminación del total de las preguntas. 

En un examen de esta naturaleza, las preguntas no se pueden someter a priori a una encuesta pericial para obtener un convenio previo sobre su dificultad. Tampoco sobre la discriminación porque habría que hacer con ellas previamente un examen. Parece obvio que ninguna de las dos cosas se debe de hacer a priori para evitar filtraciones.

Así que estamos limitados. Sin embargo el examinador no puede preparar el examen al tun tun porque lo propio de un examen de esta naturaleza es separar para ordenar para elegir plaza de forma prevalente, con paz social entre los examinados. Así pues cada pregunta será la que ponga el listón a una altura diferente de dificultad y de discriminación para tratar de abarcar todos los niveles de conocimiento que nos permitan separar adecuadamente a todos los partícipes para que su ordenación sea pacífica. ¿Cómo se consigue eso? 

Eso se consigue con un banco de preguntas preexistente. En el mismo se encuentran las que ya fueron preguntadas en exámenes anteriores, y que por tanto han sido testadas previamente. Conocemos de ellas sus parámetros dificultad y discriminación por las medidas de los mismos en cada uno de los exámenes que se pusieron en el tiempo. Además ese banco se encuentra enriquecido, año a año, con más preguntas. Preguntas nuevas que se incorporan al mismo redactadas por encargo a peritos en la materia. 

Aunque los porcentajes de participación de cada uno de los subconjuntos en los que he dividido a los partícipes en la prueba de libre concurrencia van variando en el tiempo, el examinador puede estudiar previamente sus resultados del año anterior y en anteriores, y puede tener una idea de por donde van a ir los tiros sobre el conocimiento de los diferentes subconjuntos de partícipes esperados por tendencia.

Ahí comienza el examinador a tener una idea de cómo proceder a seleccionar y redactar finalmente las preguntas. La mitad de las mismas aproximadamente serán de conceptos generales ya preguntados con anterioridad una o más veces. De esas preguntas ya dispone, o puede disponer, de sus parámetros. La elección de la otra mitad será de su cosecha entre las incorporadas como nuevas. Incluso la redacción última no tiene porqué ser igual, las puede volver a redactar dando un nuevo enfoque al concepto que se repite en función de su importancia general, y también pude hacerlo con las encargadas a lo largo de los años. 

Una vez decidido el examen, y redactado definitivamente, solo faltaría aleatorizar el orden de las respuestas de cada pregunta para evitar el sesgo humano del examinador en la posición del orden de la respuesta verdadera, y de paso evitar que nadie lo conozca, incluido el examinador, en su última posición. El examen reposaría en una base de datos, y de allí a otra que lo imprime, lo empaqueta, lo precinta y lo deja listo para su transporte previo a diferentes cajas fuertes en las ciudades de examen. Por último de allí a las diferentes Mesas de examen, el día en que se celebre. 

Para quien quiera ampliar la visión del campo sobre los parámetros dificultad y discriminación puede hacerlo a través de la lectura de tres artículos escritos en colaboración, y de la bibliografía incluida en los mismos:

1.- El examen al examen MIR 2015. Aproximación a la validez estructural a través de la teoría clásica de los test (TCT)

2.- El examen MIR 2015 desde el punto de vista de la teoría de respuesta al ítem (TRI)

3.- Propuesta metodológica para la detección de preguntas susceptibles de anulación en la prueba MIR. Aplicación a las convocatorias 2010 a 2015

Como resumen aparente del título de la entrada diré que las medidas de los parámetros en la TCT describen lo que ocurrió a tiro pasado. La TRI da un paso adelante buscando una estandarización de las medidas de los parámetros pasando a anticipar la descripción como probabilidad de que ocurra. Para ello establece un modelo estándar probabilístico para el estudio de los parámetros en cuestión, dando como medida de los mismos la probabilidad de que ocurra en función de la variable conocimiento. 

Lo más sugerente de la TRI es que nos marca dos caminos para la medida, uno serviría para justificar la anulación de las preguntas con discriminación negativa de forma automática. El otro nos llevaría a la posibilidad de establecer una prueba adaptada al conocimiento de cada candidato como si fuera un saltador de altura. Nos permite poner el listón a su medida para averiguar ese punto de su conocimiento en el que la probabilidad de acertar o fallar se reparte al 50 % que sería el punto de su discriminación. Su puntuación verdadera. Menos preguntas, menos tiempo, y menos aleatoriedad para medir mejor. Sin cuaderno de examen, corrección y resultado  automático.

Y ya que estamos aquí va una propuesta de ponderador, elaborado por el editor del blog, para tener una idea con meses de antelación de por donde pueden ir los tiros de la demanda si se dieran determinadas tendencias de presentados, por subconjuntos, y por donde pudieran ir los tiros del comportamiento de esa demanda si la misma siguiera determinadas tendencias de comportamiento:


Nota 1.- Los MIRes están denominados por el año de su convocatoria y no de sus examen, por lo tanto el que viene es el 2017 y no el 2018. La fecha del examen forma parte del Calendario de la prueba sin más. La convocatoria de la prueba se publicará en el BOE a mediados de septiembre de 2017 y por tanto es su única denominación oficial. Esa es su denominación oficial y si no tienes bastante mira los Cuadernillos de examen y lo verás. 

Igualmente denominar como puntos a las netas es también contribuir a la confusión. Los puntos finales del examen son otra cosa. Para poder entenderse entre interlocutores lo primero que es necesario es utilizar una nomenclatura común que no puede ser otra que la oficial. La usada por el MSSSI.

Nota 2.- Las netas no existen, existe el valor particular del examen (VPE). ¿Por qué se habla entonces de netas si no existen oficialmente?... por la necesidad de tener una referencia simplificada del resultado del examen. Las netas son un tercio del VPE que es la medida oficial del examen. El resultado de multiplicar las respuestas válidas por su valor (3) y restar el valor de las respuestas erróneas (-1)

Los puntos finales del examen, así se denominan, son el producto de multiplicar el VPE por su factor de corrección. El factor de corrección no es otra cosa que el cociente de la ponderación en el resultado final de la prueba (90 %) dividido por la media de los diez mejores exámenes  y expresado con 11 decimales truncados. Es la forma de poder sumar el examen y el baremo académico que se expresan en dos escalas diferentes (675 y 5 respectivamente) y que por tanto no se pueden sumar directamente. Para poderlo hacer es necesario previamente transformarlos a la misma escala de medida y eso se consigue con los factores de corrección.

La simplificación de un camino solo tiene sentido cuando se conoce el camino previamente en su integridad. Nunca antes porque te privarás de conocerlo y además te confundirás cuando lo recorras. Asunto que que se puede observar en el postMIR por las preguntas que hacen una buena parte de los partícipes. ¿Cómo se puede presentar alguien a una prueba sin conocer sus normas o peor aún confundiéndolas?

Nota 3.- Esta perorata nos llevaría al objetivo de este blog. ¿Para qué es el blog... para el postMIR o para el preMIR?... más aún... ¿para qué es más importante, para el preMIR o para el postMIR?

Las cosas hay que saberlas antes no después cuando ya no tienen remedio. Por eso digo que la primera lección del MIR es leer la convocatoria del año anterior, ahora curiosamente que tienes tiempo. No solo para saber los papeles que habrás de presentar para inscribirte, sino también para saber las referencias de sus resultados, su campo de juego.

En la convocatoria se han de leer las Bases de la prueba que no son otras que sus normas. Las que te aplicarán a ti. Cuanto mejor conozcas las normas de la prueba y las referencias de sus resultados mejor te irá. Más probabilidades tendrás de pasar de las arenas movedizas, esas donde entre 6-7 netas desaparecen la mayoría de las especialidades y 1 neta de menos te deja a dos velas de tu objetivo, a la zona de confort, esa donde quedan la mayoría de las especialidades y elegir conforme a la expectativas es todavía posible, esa en la 1 neta de menos te deja con todas las velas encendidas para poder conseguir tu objetivo.

No hay comentarios:

Publicar un comentario