... hablemos de la paradoja de la superposición de estados. Es decir, de la probabilidad como medio de significar la puntuación "verdadera" en un sistema de medición.
Aprovechando la ocasión me hago la siguiente reflexión, a la que invito a quien lo lea.
Supongamos una prueba de salto de altura.
¿Cuál seria la puntuación verdadera de la misma?
Aquella en la que las probabilidades de superar el listón, y de no hacerlo, se repartan por mitades. Es decir, al 50 % cada una de las dos opciones.
Si convenimos en que esa medida es la puntuación verdadera tendremos la posibilidad de establecer un modelo matemático de medición de la misma.
Dicho modelo no es otro que una curva característica de distribución de los resultados que queremos medir. En este caso las alturas del listón en la prueba de salto de altura.
Pues bien, supongamos que queremos calcular en esa curva el punto en que se reparte la probabilidad al 50 % de superar o no el listón.
¿Qué punto será ese?... el punto de máxima pendiente en dicha curva.
Vayamos al principio. Denominamos como constructo aquello que queremos medir. Constructo porque hemos de determinar la construcción previa del instrumento de medición. En el caso que nos ocupa, un listón apoyado en dos salientes de los postes que lo van a sujetar. De tal manera nivelado que quien lo salte limpiamente seguiría en la misma posición sin caerse después del salto. De lo contrario caería al suelo.
¿Cómo trasladamos eso a una prueba selectiva en la que el instrumento de medida está compuesto por un conjunto de preguntas de respuestas múltiples con penalización para las que son falladas?
Pues de la misma manera. Primero se determina el constructo a medir. En el caso que nos ocupa sería el conocimiento médico general teniendo en cuenta los programas de formación de las diferentes facultades del sistema universitario del ámbito en el que se celebra la prueba. A nadie se le escapa que es más difícil de definir un conjunto de preguntas con cuatro alternativas de respuesta que determinar el gradiente de saltos de altura de un atleta determinado.
En estos casos en los que el constructo resulta difícil de determinar con pureza se habla de medición de rasgo latente, que no es otra cosa que una aproximación a la pureza del constructo a medir. Convenimos que el conocimiento médico general de los examinados, en una pregunta determinada, se calcula en función del conocimiento demostrado en el resto de preguntas al ser lo que queremos medir un conocimiento de tipo general.
Como el objetivo de la prueba es ordenar a los presentados para elegir plaza de forma prevalente, se deberá diseñar un instrumento de medida, el ejercicio de examen, que determine el menor número posible de empates entre los examinados. Así pues el papel del examinador habrá sido, para tratar de conseguirlo, elegir las preguntas entre cientos o miles de posibilidades. A ser posible caracterizadas previamente en una buena parte de ellas por el resultado de una serie de parámetros de los que se dispondría previamente en alguna medición previa a colectivos de examinados de parecido conocimiento.
El parámetro más imaginado por todos es sin duda la dificultad, aunque no sea precisamente el más importante. Dificultad calibrada previamente en una escala en la que habría preguntas muy difíciles, difíciles, de dificultad óptima, fáciles y muy fáciles. De tal manera que se trataría de que hubiera un % de cada subconjunto de esa escala que facilitara la separación para que el instrumento de medida cumpla con la función encomendada.
Pondré un ejemplo del subconjunto de preguntas muy difíciles. Las preguntas muy difíciles son esas en las que las dudas hacen ver al gato vivo y muerto a la vez. Pues bien, serían aquellas cuyo resultado en respuestas netas sería cero o negativo. Es decir, aquellas en las que las contestaciones falladas se apoderan de las acertadas en al menos tres veces o más.
Si a este procedimiento de medir le aplicamos un modelo de curva característica de distribución de la probabilidad de acierto en función del conocimiento demostrado en el resto de preguntas, en lugar de medir lo que se ha acertado realmente en dicha pregunta, podremos calcular la probabilidad de acertarla y así no solo mediremos la dificultad sino dos parámetros más, la discriminación y el azar. La discriminación sería la correlación entre lo esperado y lo real. El azar sería la diferencia entre lo real y lo esperado. Es decir, la diferencia entre lo ocurrido y lo probable. La dificultad de esa pregunta sería la proporción de respuestas netas en la misma.
Corolario sobre mi actividad en esta aventura.-
1.- Mi dedicación a medir la evaluación del ejercicio de examen en esta prueba comenzó por sentir la necesidad de determinar un sistema de posicionamiento de los presentados, es decir, su nº de orden con un resultado determinado de respuestas netas. Entre otras variables era necesario el valor de Nn en la función de distribución. Esa fue mi primera preocupación para aproximarme al nº de orden de la distribución. Su expresión simplificada ha terminado siendo la Calculadora GangasMIR con otros modelos intermedios que duraron su tiempo.
2.- Posteriormente me ocupé de desagregar los presentados en diferentes subconjuntos que tuvieran algo en común. Intuía en cada uno de ellos patrones de comportamiento en cada fase de los resultados. Eso explicaría no solo los resultados globales sino si los de cada subconjunto eran diferentes y cuanto de diferentes. Su última expresión simplificada es el artilugio que denomino ponderador.
3.- Una vez obtenidas explicaciones suficientes de los patrones de comportamiento de los diferentes subconjuntos a través de la persistencia en sus resultados, pasé a sistematizar y normalizar las bases de datos acumuladas en el tiempo. A eso le he denominado trazabilidad. Su explicación quedó determinada en el texto y en las tablas a partir de lo que denominé como los apuntes del anarquista. La aplicación para mostrarlos se denomina MGM que son las iniciales de quien me envío una matriz de la misma que se había elaborado para hacer su seguimiento.
4.- Por último, desde finales de 2012, estoy en otra aventura. El examen del examen a través de su métrica, pregunta por pregunta. Se trata de medir tres parámetros en cada una de ellas. Su mayor aplicación sería determinar y justificar las preguntas que deberían de anularse por no cumplir determinados requisitos. La evaluación del examen sería el resultado promedio de la evaluación de los parámetros en cada una de las preguntas no anuladas. La anulación de las preguntas resultado de no haber alcanzado determinados requisitos mínimos fijados normativamente.
En todas aventuras he tenido colaboradores voluntarios. Si tienes un taller donde fabricas prototipos de herramientas y no tienes una finca donde probarlas solo tienes sueños pero no palpas realidades. No sabes si te equivocas o no. Por otra parte siempre se ha dicho que ven más cuatro ojos que dos, y si son más de cuatro mejor que mejor.
Corolario final, el recorrido de la aventura.-
Comencé en esto por azar, y lo cuento tal cual aquí para despejar dudas. Ni fue altruismo ni fue un móvil económico por legítimos que hubieran sido ambos. Fue simplemente por puntillo, es decir, por orgullo o amor propio. Lo cuento debajo.
a) En mi trabajo profesional, después de terminar un expediente complejo que llevaba sin terminar desde 1956, pasando por diversas manos, corrido diferentes suertes en el tiempo, me tocó recogerlo en 2002 creo recordad y terminarlo en el 2005. Mis superiores, que denominaré "el de la tumba" y "el de las almorranas", no daban un duro ni por el expediente ni por mí. Pero el tren llegó a término. El premio fue una mesa en un rincón con una tarea "importante" que realizar según ellos. Ordenar la documentación generada en esos tres años como si no lo estuviera.
Ahí empezó esta aventura para no morirme de asco. En un rincón y por azar. No soy de los que denuncia por mobbing, más bien de los que reaccionan por puntillo.
El "sabat" duró aproximadamente un año. Otro arrinconado desde mayor cargo, me recuperó para su equipo hablando con "el de la tumba". Se trataba de hacer un trabajo más cómodo que el realizado hasta antes de recalar en el rincón. Supongo que lo hizo porque se quedó con un efectivo menos por traslado de otro al aprobar una oposición. O por compasión, vaya usted a saber.
El caso es que el "sabat" produjo sus efectos. No solo no me hundieron en la miseria sino que consiguieron lo contrario. Tenía un tema para entretenerme en el que no tenía superiores, y posteriormente llegó otro tema profesional. En el primero solo mi curiosidad para buscar datos, procesarlos y obtener información de los mismos. Una hoja de cálculo era toda mi compañía. El primer año expresaba las tablas en formato texto en el foro P@si. El blog ya me permitió subirlas en formato imagen, llegó pasado un año justo.
Lo que ha venido después ya se conoce. Miles de aves de paso. Millones de páginas vistas a una media de algo más de un millón por convocatoria, que dudo que se repita ese alucvión, y me refiero en mi caso. Más de 4.000 entradas en el blog, más del doble de tablas y tablones. Todo eso indicaba la sequía que había en el terreno de cultivo. Ahora todo el mundo informa del preMIR, del MIR, y del postMIR. Todos publican series de datos desde la convocatoria 2001. Debe de ser que los ministerios implicados en el tema han decidido publicar series históricas con ese intervalo de fechas porque citan la fuente como de ellos. ¿Será verdad que es por eso?
Por cierto, me he dejado de mencionar la otra actividad de seguimiento y recopilación. La de las notas de acceso a las facultades y del numerus clausus, que constituyen en sí mismos otra aventura complementaria de esta en la encontré en el camino otros interesados en ese asunto. Aventura que voy abandonando poco a poco en la medida que otros se ocupan de ello.
Ese tablón del numerus clausus rapiñado, partido en tres y amputado en alguna de sus partes que no se quiso que se vieran, venía de ahí, de ese trabajo y de otras fuentes de datos de colaboradores y mías de las que se derivaban alguno de ellos con proyecciones hasta 2023 y que luego estos días he actualizado y ampliado con proyecciones hasta 2014, que se sigue rapiñando en alguna de sus partes ya modificado sin citar la fuente de trabajo y recopilación, que ya dura más de 12 años.
Tanto al principio de mis trabajos como al final de los mismos, me he dedicado a describir con números o gráficas los datos que recopilaba. Es decir, a reflejar lo que pasaba y no a decir lo que debería de pasar. Eso son otros los que lo decían, los que lo dicen, y los que lo dirán, por eso les he denominado predicadores.
Si mi empeño persiste no es por otra cosa que por terminar, si se puede, la parte final de la aventura. Contribuir a que se haga el examen del examen.
Tal y como habéis podido leer en los corolarios empecé por una razón que ninguno de vosotros podría haber sospechado hasta que lo haya leído hoy aquí. Lo sabían menos personas que dedos tiene una mano. Muchos se preguntaron qué era o qué podía ser lo que me motivaba a hacerlo. Aquí lo tienen, y si cuento estos detalles ahora precisamente, es para hacer frente a determinadas interpretaciones de una parte de los actores interesados o colaterales que confunden opinión con análisis. No solo eso, además me hacen responsable de lo que pasa. Algunos especialmente de sus desgracias y otros de lo que consideran una desgracia en general.
Reitero, recalé en este tema por azar y si acaso por puntillo. Me entretuvo porque mi trabajo profesional tenía que ver con la medida, y porque era un reto. Una forma de ver las cosas desde un ángulo de proyección que no había visualizado ni dibujado previamente nadie. No tenía quien me dijera lo que tenía que hacer. Tampoco busqué fuentes que me pudieran contaminar. Y la cosa ha resultado ser tan rara que me ha posicionado en un extremo de la curva de Gauss. Uno de los dos que no se tienen en cuenta para predecir comportamientos estándar. Una cosa rara rara. Así lo denominó Nínive durante su preparación, allá por 2006, en el desaparecido foro P@si.
Sois libres de pasarme factura por mi trabajo, o por lo que alguno me ha insinuado ser la causa del mismo, algún interés espurio. Pero os equivocáis, unos y otro. Solo ha sido un hecho casual sin plan preconcebido, que ha ido variando en el tiempo acometiendo diferentes fases conforme se consolidaban las anteriores y descubría segundas y terceras.
Sobre el examen del examen no solo he especulado o hecho propuestas. He escrito en el blog sobre su necesidad, sobre su concepto y sobre sus parámetros y escalas. Además he escrito y publicado en colaboración sobre ello. En el sidebar del blog hay enlaces a cuatro artículos que se pueden descargar. Están fundamentados no solo en la disciplina académica que los sustenta sino en trabajos reales de desarrollo de la misma.
Aprovechando la ocasión me hago la siguiente reflexión, a la que invito a quien lo lea.
Supongamos una prueba de salto de altura.
¿Cuál seria la puntuación verdadera de la misma?
Aquella en la que las probabilidades de superar el listón, y de no hacerlo, se repartan por mitades. Es decir, al 50 % cada una de las dos opciones.
Si convenimos en que esa medida es la puntuación verdadera tendremos la posibilidad de establecer un modelo matemático de medición de la misma.
Dicho modelo no es otro que una curva característica de distribución de los resultados que queremos medir. En este caso las alturas del listón en la prueba de salto de altura.
Pues bien, supongamos que queremos calcular en esa curva el punto en que se reparte la probabilidad al 50 % de superar o no el listón.
¿Qué punto será ese?... el punto de máxima pendiente en dicha curva.
Vayamos al principio. Denominamos como constructo aquello que queremos medir. Constructo porque hemos de determinar la construcción previa del instrumento de medición. En el caso que nos ocupa, un listón apoyado en dos salientes de los postes que lo van a sujetar. De tal manera nivelado que quien lo salte limpiamente seguiría en la misma posición sin caerse después del salto. De lo contrario caería al suelo.
¿Cómo trasladamos eso a una prueba selectiva en la que el instrumento de medida está compuesto por un conjunto de preguntas de respuestas múltiples con penalización para las que son falladas?
Pues de la misma manera. Primero se determina el constructo a medir. En el caso que nos ocupa sería el conocimiento médico general teniendo en cuenta los programas de formación de las diferentes facultades del sistema universitario del ámbito en el que se celebra la prueba. A nadie se le escapa que es más difícil de definir un conjunto de preguntas con cuatro alternativas de respuesta que determinar el gradiente de saltos de altura de un atleta determinado.
En estos casos en los que el constructo resulta difícil de determinar con pureza se habla de medición de rasgo latente, que no es otra cosa que una aproximación a la pureza del constructo a medir. Convenimos que el conocimiento médico general de los examinados, en una pregunta determinada, se calcula en función del conocimiento demostrado en el resto de preguntas al ser lo que queremos medir un conocimiento de tipo general.
Como el objetivo de la prueba es ordenar a los presentados para elegir plaza de forma prevalente, se deberá diseñar un instrumento de medida, el ejercicio de examen, que determine el menor número posible de empates entre los examinados. Así pues el papel del examinador habrá sido, para tratar de conseguirlo, elegir las preguntas entre cientos o miles de posibilidades. A ser posible caracterizadas previamente en una buena parte de ellas por el resultado de una serie de parámetros de los que se dispondría previamente en alguna medición previa a colectivos de examinados de parecido conocimiento.
El parámetro más imaginado por todos es sin duda la dificultad, aunque no sea precisamente el más importante. Dificultad calibrada previamente en una escala en la que habría preguntas muy difíciles, difíciles, de dificultad óptima, fáciles y muy fáciles. De tal manera que se trataría de que hubiera un % de cada subconjunto de esa escala que facilitara la separación para que el instrumento de medida cumpla con la función encomendada.
Pondré un ejemplo del subconjunto de preguntas muy difíciles. Las preguntas muy difíciles son esas en las que las dudas hacen ver al gato vivo y muerto a la vez. Pues bien, serían aquellas cuyo resultado en respuestas netas sería cero o negativo. Es decir, aquellas en las que las contestaciones falladas se apoderan de las acertadas en al menos tres veces o más.
Si a este procedimiento de medir le aplicamos un modelo de curva característica de distribución de la probabilidad de acierto en función del conocimiento demostrado en el resto de preguntas, en lugar de medir lo que se ha acertado realmente en dicha pregunta, podremos calcular la probabilidad de acertarla y así no solo mediremos la dificultad sino dos parámetros más, la discriminación y el azar. La discriminación sería la correlación entre lo esperado y lo real. El azar sería la diferencia entre lo real y lo esperado. Es decir, la diferencia entre lo ocurrido y lo probable. La dificultad de esa pregunta sería la proporción de respuestas netas en la misma.
Corolario sobre mi actividad en esta aventura.-
1.- Mi dedicación a medir la evaluación del ejercicio de examen en esta prueba comenzó por sentir la necesidad de determinar un sistema de posicionamiento de los presentados, es decir, su nº de orden con un resultado determinado de respuestas netas. Entre otras variables era necesario el valor de Nn en la función de distribución. Esa fue mi primera preocupación para aproximarme al nº de orden de la distribución. Su expresión simplificada ha terminado siendo la Calculadora GangasMIR con otros modelos intermedios que duraron su tiempo.
2.- Posteriormente me ocupé de desagregar los presentados en diferentes subconjuntos que tuvieran algo en común. Intuía en cada uno de ellos patrones de comportamiento en cada fase de los resultados. Eso explicaría no solo los resultados globales sino si los de cada subconjunto eran diferentes y cuanto de diferentes. Su última expresión simplificada es el artilugio que denomino ponderador.
3.- Una vez obtenidas explicaciones suficientes de los patrones de comportamiento de los diferentes subconjuntos a través de la persistencia en sus resultados, pasé a sistematizar y normalizar las bases de datos acumuladas en el tiempo. A eso le he denominado trazabilidad. Su explicación quedó determinada en el texto y en las tablas a partir de lo que denominé como los apuntes del anarquista. La aplicación para mostrarlos se denomina MGM que son las iniciales de quien me envío una matriz de la misma que se había elaborado para hacer su seguimiento.
4.- Por último, desde finales de 2012, estoy en otra aventura. El examen del examen a través de su métrica, pregunta por pregunta. Se trata de medir tres parámetros en cada una de ellas. Su mayor aplicación sería determinar y justificar las preguntas que deberían de anularse por no cumplir determinados requisitos. La evaluación del examen sería el resultado promedio de la evaluación de los parámetros en cada una de las preguntas no anuladas. La anulación de las preguntas resultado de no haber alcanzado determinados requisitos mínimos fijados normativamente.
En todas aventuras he tenido colaboradores voluntarios. Si tienes un taller donde fabricas prototipos de herramientas y no tienes una finca donde probarlas solo tienes sueños pero no palpas realidades. No sabes si te equivocas o no. Por otra parte siempre se ha dicho que ven más cuatro ojos que dos, y si son más de cuatro mejor que mejor.
Corolario final, el recorrido de la aventura.-
Comencé en esto por azar, y lo cuento tal cual aquí para despejar dudas. Ni fue altruismo ni fue un móvil económico por legítimos que hubieran sido ambos. Fue simplemente por puntillo, es decir, por orgullo o amor propio. Lo cuento debajo.
a) En mi trabajo profesional, después de terminar un expediente complejo que llevaba sin terminar desde 1956, pasando por diversas manos, corrido diferentes suertes en el tiempo, me tocó recogerlo en 2002 creo recordad y terminarlo en el 2005. Mis superiores, que denominaré "el de la tumba" y "el de las almorranas", no daban un duro ni por el expediente ni por mí. Pero el tren llegó a término. El premio fue una mesa en un rincón con una tarea "importante" que realizar según ellos. Ordenar la documentación generada en esos tres años como si no lo estuviera.
Ahí empezó esta aventura para no morirme de asco. En un rincón y por azar. No soy de los que denuncia por mobbing, más bien de los que reaccionan por puntillo.
El "sabat" duró aproximadamente un año. Otro arrinconado desde mayor cargo, me recuperó para su equipo hablando con "el de la tumba". Se trataba de hacer un trabajo más cómodo que el realizado hasta antes de recalar en el rincón. Supongo que lo hizo porque se quedó con un efectivo menos por traslado de otro al aprobar una oposición. O por compasión, vaya usted a saber.
El caso es que el "sabat" produjo sus efectos. No solo no me hundieron en la miseria sino que consiguieron lo contrario. Tenía un tema para entretenerme en el que no tenía superiores, y posteriormente llegó otro tema profesional. En el primero solo mi curiosidad para buscar datos, procesarlos y obtener información de los mismos. Una hoja de cálculo era toda mi compañía. El primer año expresaba las tablas en formato texto en el foro P@si. El blog ya me permitió subirlas en formato imagen, llegó pasado un año justo.
Lo que ha venido después ya se conoce. Miles de aves de paso. Millones de páginas vistas a una media de algo más de un millón por convocatoria, que dudo que se repita ese alucvión, y me refiero en mi caso. Más de 4.000 entradas en el blog, más del doble de tablas y tablones. Todo eso indicaba la sequía que había en el terreno de cultivo. Ahora todo el mundo informa del preMIR, del MIR, y del postMIR. Todos publican series de datos desde la convocatoria 2001. Debe de ser que los ministerios implicados en el tema han decidido publicar series históricas con ese intervalo de fechas porque citan la fuente como de ellos. ¿Será verdad que es por eso?
Por cierto, me he dejado de mencionar la otra actividad de seguimiento y recopilación. La de las notas de acceso a las facultades y del numerus clausus, que constituyen en sí mismos otra aventura complementaria de esta en la encontré en el camino otros interesados en ese asunto. Aventura que voy abandonando poco a poco en la medida que otros se ocupan de ello.
Ese tablón del numerus clausus rapiñado, partido en tres y amputado en alguna de sus partes que no se quiso que se vieran, venía de ahí, de ese trabajo y de otras fuentes de datos de colaboradores y mías de las que se derivaban alguno de ellos con proyecciones hasta 2023 y que luego estos días he actualizado y ampliado con proyecciones hasta 2014, que se sigue rapiñando en alguna de sus partes ya modificado sin citar la fuente de trabajo y recopilación, que ya dura más de 12 años.
Tanto al principio de mis trabajos como al final de los mismos, me he dedicado a describir con números o gráficas los datos que recopilaba. Es decir, a reflejar lo que pasaba y no a decir lo que debería de pasar. Eso son otros los que lo decían, los que lo dicen, y los que lo dirán, por eso les he denominado predicadores.
Si mi empeño persiste no es por otra cosa que por terminar, si se puede, la parte final de la aventura. Contribuir a que se haga el examen del examen.
Tal y como habéis podido leer en los corolarios empecé por una razón que ninguno de vosotros podría haber sospechado hasta que lo haya leído hoy aquí. Lo sabían menos personas que dedos tiene una mano. Muchos se preguntaron qué era o qué podía ser lo que me motivaba a hacerlo. Aquí lo tienen, y si cuento estos detalles ahora precisamente, es para hacer frente a determinadas interpretaciones de una parte de los actores interesados o colaterales que confunden opinión con análisis. No solo eso, además me hacen responsable de lo que pasa. Algunos especialmente de sus desgracias y otros de lo que consideran una desgracia en general.
Reitero, recalé en este tema por azar y si acaso por puntillo. Me entretuvo porque mi trabajo profesional tenía que ver con la medida, y porque era un reto. Una forma de ver las cosas desde un ángulo de proyección que no había visualizado ni dibujado previamente nadie. No tenía quien me dijera lo que tenía que hacer. Tampoco busqué fuentes que me pudieran contaminar. Y la cosa ha resultado ser tan rara que me ha posicionado en un extremo de la curva de Gauss. Uno de los dos que no se tienen en cuenta para predecir comportamientos estándar. Una cosa rara rara. Así lo denominó Nínive durante su preparación, allá por 2006, en el desaparecido foro P@si.
Sois libres de pasarme factura por mi trabajo, o por lo que alguno me ha insinuado ser la causa del mismo, algún interés espurio. Pero os equivocáis, unos y otro. Solo ha sido un hecho casual sin plan preconcebido, que ha ido variando en el tiempo acometiendo diferentes fases conforme se consolidaban las anteriores y descubría segundas y terceras.
Sobre el examen del examen no solo he especulado o hecho propuestas. He escrito en el blog sobre su necesidad, sobre su concepto y sobre sus parámetros y escalas. Además he escrito y publicado en colaboración sobre ello. En el sidebar del blog hay enlaces a cuatro artículos que se pueden descargar. Están fundamentados no solo en la disciplina académica que los sustenta sino en trabajos reales de desarrollo de la misma.
Su trabajo es estupendo, si lo hace por filantropía o percibe ganancias materiales bien. De cualquier manera el objetivo se cumple al menos en mi humilde opinión, su trabajo orienta, sirve de mapa a miles de médicos que siempre se lo agradecerán lo digan ó no. Trabajar para público hoy por hoy expone a quienes se dediquen a ello a diversidad de opiniones y lo que conlleva. Adelante caballero siga con su trabajo que es muy bien valorado por la mayoría. Un cordial saludo
ResponderEliminarJosé Maria usted a lo suyo, es el gurú del MIR. Siempre lo ha sido y hasta que en el ministerio se les enciendan las bombillas y exista un departamento que se encargue de su trabajo, estamos a merced de su buen hacer.
ResponderEliminar