... entrada editada el 27/11/2015...
... la segunda servidumbre del MIR es su variabilidad de resultados en la búsqueda de la "puntuación verdadera" de cada uno de los aspirantes...
Distribución de la variabilidad estándar entre simulacros,
y entre el último simulacro y el MIR
En un comentario de la entrada a la que nos lleva el link del párrafo primero de la entrada sobre la primera servidumbre del MIR se me hace una pregunta en uno de sus comentarios que transcribo y además la contestación a la misma porque viene a cuento para explicar la gráfica:
Anónimo26/11/15 16:38
Hola Gangas!! como crees que debería ser esta prueba para que sea "perfecta", porque claro el MIR es casi lo mas objetivo posible, pero en EEUU es una combinación de ambas donde aveces la subjetividad manda mas que lo objetivo, o en otros países en donde casi solo vale una entrevista, desde tu punto de vista y tus conocimientos, cual sería la mejor prueba humanamente posible en donde lo objetivo, subjetivo y lo que traes contigo de tu Universidad, sea evaluado de la mejor forma posible?.
En primer lugar la perfección es una tendencia no una realidad, por lo tanto no hay un examen perfecto, pero lo es más aquél que discrimina más, especialmente a lo largo de toda la distribución de resultados.
Para tender a conseguir eso hay que hablar de la "puntuación verdadera", que sería aquella que estuviera desprovista de los errores no aleatorios o debidos al instrumento de medida, y también de los errores aleatorios.
Los errores no aleatorios debidos al instrumento de medida se pueden evitar con una calibración más eficiente del mismo y son relativamente fáciles de disminuir.
Como los errores aleatorios no se pueden evitar porque son debidos a circunstancias personales de los examinados y no al instrumento de medida, para aumentar la probabilidad de obtener mejores mediciones, o mediciones que se acerquen a la "puntuación verdadera" de cada examinado, la única solución posible es aumentar el número de exámenes y que el resultado fuera la media de los resultados de ese número que al menos debería de ser de dos en dos días seguidos, pero como eso dudo mucho que fuera asumido por nadie hay que asumir la variabilidad de la medida debida a la aleatoriedad.
Esa aleatoriedad, que gira alrededor de +15 % y -10 % pero que puede ampliarse en sus magnitudes y disminuirse en su probabilidad de que ocurra, es prácticamente una distribución cuasi normal a favor del sigo + respecto del - en su mediana.
Es decir, la probabilidad de sacar una nota exactamente igual a la del último simulacro gira alrededor del 2 % y a partir de ahí hay quien sube y hay quien baja con gradientes como los explicados de forma simplificada más arriba.
Cinco propuestas para mejorar la prueba, desde mi punto de vista:
1.- Evaluar el banco de preguntas mediante análisis matemático de las respuestas de los examinados.
2.- Elegir las preguntas a anular mediante análisis matemático de las respuestas de los examinados.
3.- Disminuir una parte importante de la aleatoriedad del resultado de la prueba mediante la realización de dos exámenes de 250 preguntas en dos días seguidos de cinco horas de duración cada examen siendo el resultado final la media aritmética de los dos.
4.-
5.- Por último incorporar a los requisitos de inscripción la necesidad de haber realizado la prueba ECOE previamente aprovechando que se va a terminar de implantar en todas las facultades de Medicina. Los aspirantes con títulos extranjeros deberían de incorporar además de la homologación del título un certificado de haberla realizado en una facultad de Medicina en España. Igualmente el resto de aspirantes de promociones anteriores a excepción de los ya especialistas vía MIR.
Adenda a esta entrada editada el 12/02/2016.-
Hola gangas. antes que nada me gustaría decirte que esa frase "la perfección es una tendencia, no una realidad" ha sido maravillosa, se ve que tienes el corazón de un estadista.
ResponderEliminarCon respecto a los dos primeros puntos que mencionas.
- Mejorar el banco de preguntas mediante análisis matemático de las respuestas de los examinados.
¿A que te refieres exactamente? que tipo de preguntas interesan más, ¿aquellas que se acercan al 50% aciertos y 50% de errores? o las que se van a las puntas, (digamos 25%-75%).
Yo en lo personal creo que uno de los problemas en lo exámenes de oposición es justamente el usar bancos de preguntas, pues al repetir una pregunta, sin importar cual haya sido el resultado en las pruebas anteriores, va a tener un poder muy débil de discriminación, pues la mayoría de los opositores conocerán la pregunta y por ende, la respuesta.
- Elegir las preguntas a anular mediante análisis matemático de las respuestas de los examinados.
En este punto, repito las preguntas nuevamente, ¿Que preguntas consideras que deben de ser eliminadas, aquellas que se acercan a las puntas (90%-10% errores-aciertos), o las medias (50%-50%)?
1.- En las pruebas de esta naturaleza en la que no existe un temario, porque la materia motivo de evaluación está en continuo cambio y obedece además a todo el programa de formación de todas las facultades de Medicina, se hace conveniente que el examen tenga en la práctica un intervalo de dificultad, o incertidumbre, acotado por un 50 % aproximadamente de conceptos preguntados con anterioridad más o menos repetidos, en preguntas cuya redacción y distractores cambian generalmente en su enunciado. Ese sistema se basa en que el cuadernillo de preguntas se puede sacar por el examinado así como una copia de la plantilla de respuestas para poder controlar su correcta corrección o no para poder efectuar la correspondiente corrección de la misma.
EliminarPara poder elegir las preguntas se encargan a expertos externos y van a parar a un banco de preguntas en las que están las preguntadas con anterioridad y sus resultados y las no preguntadas.
Las preguntas encargadas no tienen porqué salir el año de su encargo y ni siquiera con su redacción original, sino que pueden ser reescritas o incluso dejarlas para otro año.
Las preguntas imagino que estarán carecterizadas por temas, grado de dificultad, etc. y que por lo tanto se pueden seleccionar en función de esa carecterización por % respecto del global, de tal manera que se puedan elegir y reelaborar posteriomente hasta su redacción última y elección o no para el examen correspondiente.
De esa guisa se pueden elegir alrededor del 50 % de preguntas que determinan la acotación de esa incertidumbre a la que se añadirán el resto de preguntas según el arte del examinador.
En el conjunto total de las preguntas estará el grado final de dificultad del examen, que no será otra cosa que unos % de subconjuntos de preguntas, un % de preguntas muy difíciles, un % de preguntas difíciles, un % de preguntas de dificultad media, un % de preguntas fáciles, y por fin un % de preguntas muy fáciles.
La capacidad de discriminar en función de los conocimientos de los examinados, es la forma de expresar la calidad del examen para cumplir con su cometido.
Todas esas cualidades se pueden analizar por métodos matemáticos que determinan su información para cada pregunta de las de conceptos repetidos, y el resto queda al arte del examinador como decía antes.
Esos análisis realizados sistemáticamente permitiría mejorar las preguntas con menor capacidad de discriminación con una nueva redacción, bien sea del contenido bien sea de los distractores.
2 y 3.- Incluso realizando ese análisis inmediatamente después de corregir los exámenes se podrían determinar las preguntas candidatas a ser anuladas no solo por su menor capacidad de discriminación sino muy especialmente aquellas que la tienen negativa, es decir, aquellas que es más probable que la acierten los que saben menos que los que saben más.
Los % de aciertos o fallos de una pregunta, mientras discrimine posiitvamente, es decir, su curva sea de pendiente positiva, serán mejores o peores según sea esa pendiente, y por lo tanto serán de mayor o menor calidad de discriminación según el nivel de conocimientos, pero aquellas que su pendiente sea negativa, es decir, que su pendiente sea negativa han de ser susceptibles de ser candidatas a ser anuladas.
El análisis matemático después de la corrección le dejaría en bandeja las preguntas susceptibles de ser anuladas a la Comisión Calificadora, que puede servirse, y se sirve, de técnicos expertos en la cuestión, tanto para poner el examen como para estudiar las preguntas susceptibles de ser anuladas.
Repasando tu pregunta y la contestación dada me puse a echar cuentas y he decidido ampliar la respuesta con mayor concreción del nº de preguntas según el grado de dificultad de las mismas.-
EliminarPor convenio divido las preguntas en seis grupos por grado de dificultad y para conseguir que la mediana de la distribución vuelva a estar por debajo de 100 netas entiendo que "habría que tender" a una distribución del % de cada grupo, salvo error por mi parte o mejor criterio, de la siguiente manera:
1.- Muy difíciles el 11 %
2.- Difíciles el 23 %
3.- MedianoA el 23 %
4.- MedianoB el 20 %
5.- Fáciles el 18 %
6.- Muy fáciles el 5 %
Respecto de la medición del grado de dificultad me he limitado a incluir el % de las preguntas respecto de las 225+10 y no del % de aciertos u otros % que se pueden utilizar para hacerlo más entendible.
EliminarRespecto de las preguntas a eliminar serían aquellas que la discriminación sea de signo contrario a la conveniente, es decir, aquellas preguntas que los que las contestan bien tienen menos conocimientos (menos preguntas bien contestadas del total u otros sistemas de medirlo) respecto de los que tienen más (más preguntas bien contestadas del total u otros sistemas de medirlo)
EliminarSe prepara una lista de esas preguntas razonando el procedimiento de cálculo y ordenada de mayor a menor conveniencia de eliminación para que la Comisión Calificadora "corte" por donde crea conveniente porque esa es su función.