domingo, 1 de marzo de 2015

¿Se puede extraer conocimiento de los datos?...

...

en las imágenes de abajo hay decenas y decenas de miles de datos, por años, por baremos académicos, por países, por personas, por sus circunstancias... esa es la incuestionable parte cuantitativa que describe los resultados... que expresada gráficamente nos dice aquello de que... "una imagen vale más que mil palabras"...

Pero... siempre hay un pero... le falta el discurso... el discurso cualitativo... la explicación... el análisis para tratar de encontrar la causa... lo causal... aquello que justifica la ausencia práctica de diferencia en la primera imagen... de los unos y los otros... y las diferencias observables en la segunda... de los unos y los otros... el comportamiento +/- regular o coherente, con su baremo académico, de los unos respecto de su resultado en el examen... y el comportamiento +/- irregular y menos coherente de los otros en el resultado del examen respecto de la misma variable, su baremo académico...

Así pues, dos discursos de datos, de decenas y decenas de miles de datos... para intentar extraer conocimiento de los mismos... 

...el cuantitativo, expresado en tablas y/o en gráficas... 

...el cualitativo, expresado en discurso, en palabras, en la búsqueda de la explicación causal... donde uno se pierde casi siempre... 


Baremos académicos en trece años de MIR


Los resultados del examen MIR 2013/2014 
en función del baremo académico de los examinados



Los resultados del examen MIR 2012/2013 
en función del baremo académico de los examinados



Los resultados del examen MIR 2011/2012 
en función del baremo académico de los examinados



Los resultados del examen MIR 2010/2011 
en función del baremo académico de los examinados

Adenda de preguntas y alguna explicación.-

- ¿Existe correlación y causalidad entre baremo académico y resultado en el examen?

- ¿Existe correlación y causalidad entre baremo académico, de los alumnos de unas facultades de Medicina u otras, sean españolas o extranjeras, y el resultado en el examen?

En la población estudiada he desagregado hasta donde podía desagregar, resultados de examen por décima de baremo académico, desagregando los datos en dos subconjuntos del pasado MIR 2013/2014, médicos españoles y extranjeros presentados al mismo. En el análisis comentaré exclusivamente el resultado de los médicos españoles.

- ¿Si pudiéramos desagregar los datos entre facultades españolas, año de egreso, baremos académicos y resultados de examen, encontraríamos diferencias entre unas facultades y otras?

No siempre se puede identificar causalidad con correlación... pero si nos centramos en las cajas de color más claro, que representan en la primera gráfica los baremos de los partícipes españoles, y en la segunda sus resultados de examen, intuimos que algo parece que hay de ambas...

Si intentamos seguir buscando nos fijamos no solo en la posición de las cajas y sus medidas respecto del eje de las Y, sino también en las longitudes de sus bigotes, en la curva logarítmica y asintótica que forma la línea central de sus cajas, su mediana, respecto del eje de las X, subiendo de forma progresiva de menor a mayor baremo académico...

Para terminar nos fijaremos en los sorprendentes resultados de los baremos académicos más altos, curiosamente aquellos que contemplan en su magnitud al menos un doctorado... las secuelas que ese doctorado ha tenido en el olvido de materias generales que son las que "caen" en el examen MIR... para que luego digan que el MIR no es generalista o clínico... por esa causa, en general, los recién egresados prefieren hacer antes el MIR que el doctorado, dejando este último para más adelante... para que no se me olvide la materia general al centrarme en lo específico...

En los resultados, más irregulares, de los médicos procedentes de universidades de múltiples países, todavía se haría más necesario desagregar los datos por universidades de procedencia, edad y otras variables, para tratar de extraer conocimiento de los mismos, de ahí que no haya mencionado nada más que su irregularidad, aunque parece evidente que existe correlación entre baremo académico y resultado... por el momento, y más allá de la gráfica, me perdería en palabras tratando de buscar explicaciones entre tanta heterogeniedad, léase longitud de las cajas, es decir, dispersión de resultados...

Por último decir, para unos y otros, que los baremos académicos no son importantes en sí mismos para encontrar lo causal, su importancia deviene no en lo que supone el 10 % de su participación en el resultado final, que también, sino en lo que arrastran con ellos, de capacidad, de esfuerzo de años, y fundamentalmente de hábito de estudio, que se nota fundamentalmente en su crecimiento y consolidación a lo largo de la preparación... 

Corolario final para decanos, padres y madres, y academias.-

Los resultados de los diez primeros, de los cien primeros, de los mil primeros, son de ellos fundamentalmente, de su capacidad, de su esfuerzo, de su hábito de estudio, en definitiva de su "mochila"... que han cargado durante años y años de tiempo de estudio, incluido el de su preparación del MIR, y que salvo excepciones, no solo se correlaciona con el resultado, si no que es lo causal del mismo... digan lo que digan los demás colaterales...

Nota.- Como complemento de esta entrada pueden verse estas otras, aquí, aquí, aquí, y aquí.

Adenda complementaria sobre el diagrama de caja y su significado.-

- ¿Qué es un diagrama de caja y bigotes?

Es una representación gráfica de la dispersión y simetría de una variable en una población o en un subconjunto de la misma. Para su elaboración se divide al conjunto o subconjunto a estudiar en cuartiles, o cuatro partes de iguales (100 %=4*25 %) que representan gráficamente cinco valores de sus estadísticos, tres de ellos en la caja, y dos en los extremos de los bigotes.

Si representamos la caja de forma vertical, la raya central de la caja es la mediana de la variable, el extremo superior de la misma el P75 de las misma, y el extremo inferior el P25. El extremo del bigote superior es el valor máximo y el extremo del bigote inferior el valor mínimo.

Si la parte superior de la caja es mayor que la parte inferior significa que de la mediana (P50) al P75 los datos de la variable estudiada están más dispersos, más anchos, que los que se encuentran entre la mediana y el P25 que estarían más juntos, más compactos. Si el bigote superior es más largo que el inferior significa que los datos de la variable que representa, el 25 % de los mejores, están más dispersos que el 25 % de los peores que representa el bigote inferior, y al revés.

La mediana (P50) de la variable estudiada de una población es el valor que divide en dos a la misma, por encima de ella el 50 % de los mejores que ella, y por debajo, el 50 % de los peores que ella. El P75 de la variable estudiada de una población es el valor que deja por encima al 25 % de los valores mejores que su valor y al 75 % de los valores peores que su valor. El P25 de la variable estudiada de una población deja por encima al 75 % de los valores mejores que su valor y al 25 % de los valores peores que su valor. 

Es decir, el diagrama de caja, también conocido como box plot, divide la población de datos de la variable estudiada en cuatro partes iguales en número de datos (100 %=4*25 %) pero no necesariamente la distancia del valor de la variable es igual. Esa desigualdad es lo que hace que las cuatro partes (100 %=4*25 %) no sean de igual longitud. A mayor longitud de cada cuartil, o cuarta parte, más dispersos se encuentran los datos y al revés. La diferente longitud de esas cuatro partes en el diagrama de caja (dos partes en el interior de la caja y dos bigotes), explica la dispersión de la variable estudiada en cada cuartil del conjunto o subconjunto estudiado. 

Si las dos partes de la caja fueran de igual longitud y además cada uno de los bigotes fueran iguales en su longitud, como cada una de las partes interiores de la caja, estaríamos ante unos datos de la variable estudiada repartidos de uniforme dentro de cada uno de sus cuartiles (100 %=4*25 %) lo que significaría que estábamos ante una distribución radicalmente normal, gaussiana o simétrica en sus cuatro partes o cuartiles.

No hay comentarios:

Publicar un comentario en la entrada