viernes, 23 de mayo de 2014

Comparación de la hipótesis de Ebel y Truman en el MIR ...

... frente a los diferentes % de afección de la nota de corte en el conjunto de examinados...

Por un lado, como si se hubiera aplicado una nota de corte del 35 % a los MIRes objeto de estudio (se incluyen los datos en una tabla), y por otro, como si se aceptase que la nota de corte debiera ser aquella que tuviera como afección, a los que obtienen más respuestas erróneas que válidas en el examen (se incluyen las gráficas correspondientes, los datos se incluirán en una tabla). A esa nota de corte la denomino "nota de corte natural", hipótesis de este trabajo.


1.- Introducción

El MIR no es una oposición, sino una prueba. En una oposición no se puede aprobar a más aspirantes que plazas ofertadas, en el MIR sí. En su día el resultado de la prueba simplemente ordenaba a todos los aspirantes presentados al examen incluso con nota de examen negativa, o incluso dejando en blanco el examen. A partir del año 2008 se reguló la posibilidad de establecer una nota de corte para poder ser ordenado en el resultado final. 

En el resultado final de la prueba se tienen en cuenta el resultado del examen, y si supera las nota de corte se tiene también en cuenta el resultado del baremo académico habiendo. La ponderación en el resultado final ha quedado fijada en el 90 % y en el 10 % respectivamente.

El resultado del examen y el del baremo académico se expresan en bases distintas y por lo tanto no sumables directamente. La máxima puntuación teórica del examen sería 225*3=675 y la máxima teórica del baremo académico es 4+1=5. 

La superación de esa dificultad se realiza a través de los factores de corrección de examen y baremo. Los factores se hallan dividiendo el peso del examen y del baremo académico (90 % y 10 %) por la media aritmética de los diez mejores, respectivamente. Posteriormente los factores de corrección obtenido multiplican a los puntos finales del examen (VPE=respuestas válidas*3 - respuesta erróneas) y los puntos finales del baremo académico MIR de cada examinado para poder calcular los puntos totales de cada uno mediante su suma. 

La suma de los puntos finales del examen y del baremo académico son el resultado de la prueba en puntos totales. Los puntos totales, ordenados de mayor a menor, determinan el nº de orden con el que se eligen las plazas. La superación de la nota de corte determina que se adjudique o no nº de orden a cada uno de los examinados, los que no la igualan o superan quedan eliminados de la prueba.

Esa fue la razón de fijar como referencia la media de los diez mejores exámenes y baremos académicos, y que curiosamente el Ministerio la ha elegido como referencia para concretar la nota de corte.

La nota de corte es previa al cálculo de los puntos finales del examen, quien no la supera queda eliminado de la prueba. Los diez mejores baremos que se eligen para el cálculo del factor baremo son entre aquellos examinados que hayan superado la nota de corte.

2.- Antecedentes 

Ebel y Truman demostraron que, en las pruebas tipo test de respuesta múltiple con penalización, la composición de los grupos fuerte y débil debe de hacerse con el primer 27 % (P73) y el último 27 % (P27) del total de los examinados, ordenados según su puntuación.


La posibilidad de fijar, cada convocatoria, una nota de corte está regulada en la DTQ del RD 183/2008la DTQ fija un suelo mínimo de nota de corte, que sea positiva, pero no fija un techo máximo de la misma, de tal manera que se ha de concretar en cada convocartoria.

El Ministerio puede fijar la nota de corte utilizando la referencia que crea conveniente porque se regula en cada convocatoria sin haber una norma de rango superior que especifique la metodología de referencia para ello

En las dos convocatorias anteriores ha utilizado como referencia la media aritmética de los diez mejores exámenes, concretándola en el 30 % en el primero de ellos, que supuso una afección del 21,99 % de los examinados, y en el 35 % en el MIR recién terminado, y que ha supuesto una afección del 28,13 % de los examinados

Parece como si el Ministerio fuera buscando una referencia de modulación de la nota de corte que supusiera que el % de afección quedara cercano al 27 %, fijado por Ebel y Truman para separar el grupo débil del medio y del fuerte. Curiosamente esa referencia es la que utilizó para presentar los resultados del MIR 2012/2013.

En las dos últimas convocatorias que el Ministerio ha aplicado una nota de corte por encima de la meramente positiva, la referencia que ha utilizado ha sido la media aritmética de los diez mejores exámenes, que es la regulada para fijar los factores de corrección de examen y baremo académico, según la Orden de 27 de junio de 1989, y que se mantiene para ello en todas las regulaciones posteriores de modificación de la misma. ¿Podría haber utilizado otra referencia?

Sí, pero al no dejar fijado un techo para la nota de corte, se ha dejado guiar por una referencia tradicional en la prueba. Por ejemplo podría haber utilizado como referencia el P27 de la distribución de resultados del examen, que dejaría fijo el 27 % de afección de los examinados, pero ha optado en su lugar porque ese % de afección  sea variable, en función del grado de dificultad del examen sentido por el conjunto de los examinados y específicamente por los que realizaron los diez mejores trasladándolo a los demás.

El % de la nota de corte podría establecerse a posteriori del examen si se aceptara la hipótesis de "la nota de corte natural" variable en cada convocatoria, pero parece adecuado encontrar una que se le parezca y que se determine previamente en cada convocatoria.

Por eso no es de extrañar que el propio Ministerio, elegida como referencia la nota media de los diez mejores exámenes,  haya probado o tanteado su % de afección en el conjunto de los examinados, con dos % de nota de corte en los dos años en que se ha puesto en marcha. 

Supongo que lo que ha pretendido con ello es afinar el % de afección alrededor del 27 % que es el propuesto por Ebel y Truman como grupo débil.

3.- La decisión del Ministerio de utilizar como referencia la media aritmética de los diez mejores exámenes y baremos para el cálculo de los factores de corrección, y en qué ha quedado la crítica teórica a esa referencia que hice en su día

El utilizar la referencia de la media aritmética de los diez mejores exámenes en el MIR es un clásico en su regulación y era lógico que el Ministerio la haya utilizado también para fijar la nota de corte.

La crítica que formulé en su día era precisamente esa variación, y propuse que se fijara en el máximo teórico y no en el máximo probable que era la causa de variación.

La variación de un año a otro de la dificultad del examen sentida por los diez mejores examinados y el resto, quedaría parcialmente compensada por la nueva ponderación del examen y del baremo (90 %;10 % en lugar del 75 %;25 %) regulada en la Orden/SAS/2158/2010

Hasta esa nueva ponderación fui crítico con la variación anual de los factores de corrección proponiendo su fijación, para lo que se hacía necesario pasar de tomar la referencia con el máximo probable (media aritmética de los diez mejores) con el máximo teórico del examen y del baremo pasando de esa manera a ser fijos. 

La nueva ponderación desde la convocatoria 2010 hizo que optara por abandonar esa postura crítica que consideraba, y aún considero, mejor. Mantener hoy esa postura crítica sería pura retórica teórica, y no merece desgastarse en artificios de perfección con un mayor coste de gestión que no justificaría el cambio, ya que la nueva ponderación (90 %;10 % en lugar del 75 %;25 %) resuelve múltiples problemas de gestión como suprimir el baremo académico de la prueba, cuya función fundamental es disminuir los múltiples desempates en el examen, aunque se justificara por otras causas. Además las pruebas no son solo para los MIRes sino también para un conjunto de profesiones sanitarias y su fuente de regulación es la misma, lo que requiera que la misma tenga sentido para todas ellas y no solo para una. 

Manteniendo la referencia de los diez mejores exámenes, además de ser práctico y entendible, no ha sido necesario cambiar la regulación de la misma para usar una nueva referencia para la nota de corte, utilizando la misma que para los factores, la media aritmética de los diez mejores exámenes. Lo mismo sirve al baremo académico, pero aún más sobre el mismo, puede leerse al final aquí.

4.- La hipótesis del autor del trabajo y editor del blog respecto del % de la nota de corte

La nota de corte debiera ser un % de la media aritmética de los diez mejores exámenes que determinara un % de afección, entre los examinados, que estuviera dentro del intervalo de "la nota de corte natural" de los MIRes estudiados.

El intervalo de "la nota de corte natural" sería aquel, entre los trece MIRes estudiados, que determinaran los valores extremos de las proyecciones ortogonales o perpendiculares en el eje de las X, de los puntos de intersección de las dos funciones que expresan, por separado y para cada MIR, el conjunto de los momentos o valores medianos de las respuestas válidas y erróneas de cada examinado, representados en el eje de las Y, y las respuestas netas del examen correspondientes (las válidas - 1/3 de las erróneas) representadas en el eje de las X. (ver las funciones y sus ecuaciones en las gráficas)

Se habla de un valor de "la nota de corte natural", dentro de un intervalo a determinar, porque los valores en el intervalo serían variables un año para otro porque la referencia elegida, la media de los diez mejores exámenes, lo es, y también lo son el conjunto de los resultados de los examinados de un año para otro, por ser diferente el grado de dificultad del examen según años. 

La nota de corte propuesta estaría dentro del intervalo entre la máxima y la mínima obtenida como "notas de corte naturales" en el trabajo de trece MIRes que se publica, y sería aquella que aproximara más el % de afección en la distribución de resultados a lo propuesto por los autores de referencia, Ebel y Truman. 

Sirva como ejemplo, la variación de la nota de corte expresada en respuestas netas de examen, medida con el 35 % de nota de corte. Hubiera sido entre un mínimo de 62,00 respuestas netas en el MIR 2004/2005 simulado como si hubiera tenido 225 preguntas, y un máximo de 67,67 respuestas netas en el MIR 2012/2013. Todo ello según hubieran sentido la dificultad del examen todos los examinados, además los diez examinados que realizaron los diez mejores exámenes con los que se calcula la nota de corte. 

5.- Los objetivos del trabajo

Objetivos a conseguir con el diseño y metodología del cuasiexperimento:

Primero, visualizar la "nota de corte natural" formulada en la hipótesis en las representaciones gráficas de las variables de todos y cada uno de los MIRes estudiados. 

Segundo, cuantificar la "nota de corte natural" formulada en la hipótesis en todos y cada uno de los MIRes estudiados.

Tercerocaso de que la cuantificación variara, tratar de establecer la causa de esa variación.

Cuarto, cuantificado el intervalo de la "nota de corte natural" y la causa de la variación, proponer una nota de corte dentro del intervalo de la "nota de corte natural" para ser fijada como comportamiento previsible al que atenerse.

Quinto, a la vista de los resultados del trabajo discutir si la tesis de Abel y Truman se puede generalizar como referencia válida aproximada para determinar el punto débil de la distribución de resultados de un examen de las características del MIR, comparada con la hipótesis del autor.

6.- El diseño y la metodología

En un reciente trabajo del editor del blog se desarrollaba una metodología para medir si los resultados del examen de cada examinado representados por su respuestas válidas y erróneas en el eje de las Y, en dos funciones distintas, y sus respuestas netas, en el eje de las X.

Con el diseño y metodología seguidos en el cuasiexperimento se trataba de ver si la proyección ortogonal del cruce de las funciones se aproximaba o no al P27 de la distribución de respuestas netas, que significaría que se acercaba o no al 27 % que Ebel y Truman determinaron como grupo débil de la misma.

Si el Ministerio hubiera determinado como nota de corte el P27 de la distribución de resultados del examen, siempre hubiera afectado al 27% de la población de presentados, fuese cual fuese el grado de dificultad del examen. 

Al elegir como referencia la media aritmética de los diez mejores exámenes, el % de afección de la nota de corte será diferente cada año, aunque se fije el mismo % de nota de corte todos los años, porque dependerá, del grado de dificultad del mismo, que sientas todos los examinados y además el que sientan los que realicen los diez mejores exámenes.

La metodología propuesta se ha aplicado a los últimos trece MIRes y tiene como objetivo cuantificar "la nota de corte natural" de cada uno de ellos. Una vez calculada la afección de "la nota de corte natural" de cada MIR se compararía con  el P27 propuesto por Ebel y Truman, y con la calculada como si se hubiera aplicado la nota de corte del 35 % a todos y cada uno de los MIRes estudiados, para poder responder a los objetivos fijados en el estudio.

Como resumen tendríamos la afección propuesta por Ebel y Truman, fija y del 27 % por lo tanto coincidiría la nota de corte del P27 y la afección del 27 %, el intervalo de los extremos de las trece afecciones de "la nota de corte natural" propuesta en la hipótesis del trabajo, y el intervalo de las trece afecciones obtenidas de la simulación de haber aplicado la nota de corte del 35 % en cada uno de los MIRes estudiados.

Este resumen de cálculos se trasladará a la tabla de resultados complementaria de las gráficas y será objeto de discusión, conclusiones, y propuestas, mediante la comparación de una afección fija del 27 % en todos los MIRes con una nota de corte equivalente al P27 de los resultados del examen, con los resultados del intervalo de valores de las diferentes afecciones obtenidas aplicando una nota de corte del 35 %, y con los valores del intervalo de las "notas de corte naturales" obtenidas por la proyección al eje de las X del punto de intersección de las funciones que representan las respuestas válidas y las respuestas erróneas de los resultados de los examinados de cada uno de los MIRes estudiados, ordenados por sus respuestas netas en el examen.

De la comparación de los dos resultados del % de afección podremos obtener la conclusión de su varianza respecto del valor fijo propuesto por Ebel y Truman del 27 % como grupo débil de la distribución de resultados del examen, y de ahí concluir si la nota de corte del 35 % de la media aritmética en el último MIR es la más adecuada o no.

7.- Las variables, lo datos y los cálculos

Se han utilizado, como variables, los resultados de las respuestas válidas y las respuestas erróneas de los listados de resultados definitivos de los exámenes, expuestos al público por el MSSSI en su sede durante un mes después de su publicación.

El primer cálculo han sido las respuestas netas, variable dependiente de las dos anteriores. Posteriormente se ha procedido a ordenar y percentilizar la distribución del resultado de dicho cálculo. Posteriormente se ha procedido a realizar la representación gráfica de las variables. Por fin se ha procedido a calcular y representar las funciones correspondientes a cada una de las variables objeto de estudio teniendo en cuanta su dispersión por el procedimiento de su mínimos cuadrados. Las gráficas expresan los datos de cada variable en un color diferente así como el marco de su ecuación , y la representación de sus funciones lineales en color rojo.

Una vez terminadas las representaciones gráficas se ha procedido a calcular el % de los afectados por la nota de corte simulada del 35 % en cada uno de los MIRes, el % de los afectados por "la nota de corte natural" proyectada perpendicularmente desde el punto de cruce de las funciones al eje de las X. Se ha definido y cuantificado el intervalo entre la afección mínima y máxima. Por último se ha procedido a calcular su valor medio, mediano y equidistante, para proceder a elegir el que se propone. La tabla con el resumen de los datos se publica al final de las gráficas.

Para la elaboración del trabajo se ha utilizado exclusivamente la hoja de cálculo Excel.

8.- Los resultados

Las gráficas de representación de las variables y sus funciones en cada uno
de los MIRes estudiados y el Percentil (%) de afección de su "nota de corte natural"
Para "ver" el Percentil proyectar el punto de intersección sobre el eje de las X


MIR 2013/2014


MIR 2012/2013


MIR 2011/2012


MIR 2010/2011


MIR 2009/2010


MIR 2008/2009


MIR 2007/2008


MIR 2006/2007


MIR 2005/2006


MIR 2004/2005


MIR 2003/2004


MIR 2002/2003


MIR 2001/2002


Variabilidad de la "nota de corte natural" en función
de la dificultad del examen sentida por los examinados 


La tabla con el resumen de los cálculos

9.- Discusión de los resultados de cada uno de los objetivos fijados en el punto 5.-

Objetivo primero, visualizar la "nota de corte natural" formulada en la hipótesis en todos y cada uno de los MIRes estudiados. Si clikamos en la primera gráfica o en cualquiera de ellas podemos visualizar todos por el orden que se quiera para visualizar el punto de corte de las funciones y proyectarlo visualmente de forma ortogonal al eje de las X visualizando el intervalo percentílico de la afección, % aproximado de afectados, en la distribución de resultados. (Ver la tabla con el resumen de los datos)

Objetivo segundo, cuantificar la "nota de corte natural" formulada en la hipótesis en todos y cada uno de los MIRes estudiados. Se trasladan a una tabla las medidas obtenidas en el objetivo primero.(Ver la tabla con el resumen de los datos)

Objetivo tercerocaso de que la cuantificación variara, tratar de establecer la causa de esa variación. Si convenimos que el grado de dificultad del examen sentido por los examinados está expresado por los valores en respuestas netas de los percentiles iguales de cada MIR, la causa de su variación será el diferente grado de dificultad del examen cada año, porque esos valores correspondientes en respuestas netas a percentiles iguales son diferentes cada año. (La causa de esa variación es el diferente grado de dificultad sentido por el conjunto de los examinados y específicamente por los examinados que obtuvieron las diez mejores notas en el examen. Faltaría desagregar la distribución de resultados del examen por subconjuntos de partícipes y ver las diferencias, por si fueran constantes o variables a lo largo de lo trece años.)

Objetivo cuarto, cuantificado el intervalo de la "nota de corte natural" y la causa de la variación, proponer una nota de corte dentro del intervalo de la "nota de corte natural" para ser fijada como comportamiento previsible al que atenerse. (Ver la tabla con el resumen de los datos y las conclusiones del trabajo)

Objetivo quinto, a la vista de los resultados del trabajo discutir si la tesis de Abel y Truman se puede generalizar como referencia válida aproximada para determinar el punto débil de la distribución de resultados de un examen de las características del MIR, comparada con la hipótesis del autor. (Ver la tabla con el resumen de los datos y las conclusiones del trabajo)

10.- Conclusiones y propuestas


La hipótesis de Ebel y Truman.-  

En las pruebas tipo test de respuesta múltiple con penalización, la composición de los grupos fuerte y débil debe de hacerse con el primer 27 % (P73) y el último 27 % (P27) del total de los examinados, ordenados según su puntuación.

Ello supondría utilizar todos los años una nota de corte equivalente la P27 de la distribución de los resultados del examen, siempre fija sea cual sea la dificultad del examen, por lo que siempre tendría una misma afeccción del 27 % en el conjunto de los examinados.

Los tanteos del Ministerio.- 

El Ministerio, cuando se decide a aplicar la posibilidad regulada de la nota de corte en la DTQ del RD 183/2008, decide modular la nota de corte utilizando una referencia respecto de la media aritmética de los diez mejores exámenes, por lo que la afección de la nota de corte (% de los examinados afectados) no sería fija sino que estaría en función del grado de dificultad sentido por el conjunto de los examinados y por la dificultad sentida por los que obtuvieran las diez mejores notas.

El Ministerio el primer año que la aplicó con esas características, MIR 2012/2013, decidió tantear con el 30 % y la afección en el conjunto de examinados fue del 21,99 % por debajo del 27 % de la hipótesis de Ebel y Truman, que sí aplicó en el resumen de resultados que publicó a posteriori.

El Ministerio en el año siguiente, MIR 2013/2014, y no creo que fuera por casualidad, aplicó como nota de corte el 35 % y el resultado de afección en el conjunto de los examinados fue del 28,13 % que sobrepasó ligeramente el 27 % que propusieron en su día Ebel y Truman como punto de separación entre el grupo débil de la distribución de resultados de los examinados.

La "nota de corte natural" como hipótesis del editor del blog.-

La nota de corte debiera ser un % de la media aritmética de los diez mejores exámenes que determinara un % de afección, entre los examinados, que estuviera dentro del intervalo de "la nota de corte natural" de los MIRes estudiados.

El intervalo de "la nota de corte natural" sería aquel, entre los trece MIRes estudiados, que determinaran los valores extremos de las proyecciones ortogonales o perpendiculares en el eje de las X, de los puntos de intersección de las dos funciones que expresan, por separado y para cada MIR, el conjunto de los momentos o valores medianos de las respuestas válidas y erróneas de cada examinado, representados en el eje de las Y, y las respuestas netas del examen correspondientes (las válidas - 1/3 de las erróneas) representadas en el eje de las X. (ver las funciones y sus ecuaciones en las gráficas)

Se habla de un valor de "la nota de corte natural", dentro de un intervalo a determinar, porque los valores en el intervalo serían variables un año para otro porque la referencia elegida, la media de los diez mejores exámenes, lo es, y también lo son el conjunto de los resultados de los examinados de un año para otro, por ser diferente el grado de dificultad del examen según años. 

La nota de corte propuesta estaría dentro del intervalo entre la máxima y la mínima obtenida como "notas de corte naturales" en el trabajo de trece MIRes que se publica, y sería aquella que aproximara más el % de afección en la distribución de resultados a lo propuesto por los autores de referencia, Ebel y Truman. 

Conclusiones.- 

A la vista de la tabla resumen de los cálculos parece evidentemente que la nota de corte del 35 % de la nota media aritmética de los diez mejores exámenes es la que más se acerca al % de afección entre el conjunto de los examinados propuesto por Ebel y Truman como punto que separa al grupo débil del resto.

También es la que más se aproxima al valor medio calculado con la hipótesis del autor y editor del blog con la denominada "nota de corte natural", que es "aquella que elimina a aquellos que sus respuestas erróneas superan a sus respuestas válidas". Lo que ha quedado demostrado gráfica y analíticamente en el trabojo de referencia, así como en el resumen de esta entrada.

Según la tabla resumen de los cálculos:

1.- Si se hubiese aplicado el P27 como nota de corte fija y no en función del grado de dificultad del examen, el % medio de afección en los trece años hubiera sido del 26,86 % prácticamente el 27 % propuesto por Ebel y Truman.

2.- Si se hubiese aplicado el 30 % de la MDME como nota de corte el % medio de afección en los trece años hubiera sido del 21,40 % que es el más alejado del 27 % propuesto por los autores de referencia.

3.- Si se hubiese aplicado el 35 % de la MDME como nota de corte el % medio de afección en los trece años hubiera sido del 27,37 % que sería el segundo más cercano al 27 % propuesto por los autores de referencia.

4.- Si se hubiese aplicado el % de la "nota de corte natural" como nota de corte el % medio de afección en los trece años hubiera sido del 26,70 % que es el más cercano, de los variables, al 27 % propuesto por los autores de referencia, pero esa diferencia es mínima, siendo más fácil de entender y aplicar la nota de corte del 35 % de la MDME que la "nota de corte natural".

Corolario final.- 

Parece evidente que el Ministerio, con los tanteos efectuados con la nota de corte del 30 % y 35 %, buscaba una referencia que acercara el % de afección de la nota de corte al 27 % propuesto por Ebel y Truman en su día para este tipo de pruebas.

Que en su momento no fue necesario implementarla porque el exceso de demanda respecto de la oferta cortaba la distribución de su natural. Los que sacaban más erróneas que válidas obtenían nº de orden pero no conseguían optar a elegir plaza.

Que el paradigma del exceso de demanda frente a la oferta comenzó a cambiar a partir de 1995 pero si bien aumentó la oferta no se notaron sus efectos en la cola de la distribución porque se hacían dos pruebas cada año, la específica de Familia y la general también con plazas de Familia.

Que eso se trastocó a partir de la convocatoria 2001/2002 por haberse terminado la prueba específica de Familia en el 2000/2001 que fue la última. A partir de entonces en la elección de plazas comenzó a mandar la demanda selectiva por estar concentrada toda la oferta en una sola convocatoria, y todos sabemos lo que pasó en ese decenio conforme avanzaba el mismo.

Las modulaciones han sido la respuesta al conjunto de circunstancias que causaron el desbarajuste, primero previéndolas en 2008 y 2010, y después aplicándolas en años sucesivos.

Pero, ¿y si el Ministerio en lugar de tanteos lo hubiera hecho por hacer caso a circunstancias "medioambientales", sería lo más adecuado para la prueba?

Una vez se ha avanzado en la aproximación de la producción a las necesidades de médicos entiendo que se hace necesario, en lugar de hacer caso a las circunstancias "medioambientales", por el bien de la prueba, fijar unos criterios de comportamiento en la misma por parte de todos los que intervienen, Ministerios de Sanidad y Educación, CNECS y SNS,  que procuren que compense, a ellos y a los interesados, saber a qué atenerse, que es la mejor manera para que compense a todos la preparación de la prueba. Eso la guardará de veleidades, que lo único que procurarían sería su ruina dejando su resultado al azar. Reglas claras y cada uno a su faena.

Propuesta final.- 

A la vista de los datos y de su análisis, la nota de corte respecto de la MDME que más se aproxima a la delimitación del grupo débil propuesta en su día por Ebel y Truman es el 35 %.

No hay comentarios:

Publicar un comentario en la entrada