Sesgo de género en astronomía

T.E.L: 7 min.

Una evaluación cuantitativa en las citas de los trabajos científicos en astronomía arroja un sesgo de género contra las mujeres.

Que existe una diferencia injustificada de género en la realidad social es a todas luces obvia. Pero, ¿en qué medida ocurre?

Un nuevo trabajo intentó medir este sesgo en las publicaciones astronómicas desde 1950 a 2015 (unas 200.000 publicaciones).

En ciencias, lo primero que importa no es si algo es verdadero o falso, sino cuáles son las bases o fundamentos por los cuales se hace una aseveración. De modo que no importa sólo el "resultado" sino el medio por el cual se llega a esa conclusión.

En este caso, el trabajo fue liderado por Neven Caplar, doctorando del ETH Zurich que se dedica en su trabajo doctoral a los AGN y que posee un blog sobre datos (astronómicos y no astronómicos) llamado AstroDataIsCool.

En la introducción de su paper da cuenta (como es usual) de las investigaciones previas sobre sesgo de género. Acto seguido, indica que los autores desearon medir el rol del género en el número de citas que los papers reciben en astronomía. La primera asunción es que los autores deberían recibir el mismo número de citas en aquellos papers que tengan las mismas propiedades fuera de género. Es decir, ante casos similares, tratamiento de género similar. En gran medida los experimentos científicos buscan aislar una variable mientras se tiene el cuidado de que el resto de las mismas sean similares.

Segunda consideración: el trabajo se basa en los autores principales, el primer autor de cada paper.

Tercero: Los autores suelen ser nombrados con abreviaturas, motivo por lo cual es necesario algún procedimiento para saber si un autor nombrado como "J. Apellido" es un hombre o una mujer.

Para obtener los datos que compusieron la muestra usaron el servicio SAO/NASA ADS correspondiente a astronomía para cinco publicaciones establecidas (A&A, APJ, MNRAS, NAT y SCI) entre los años antes indicados.
El servicio permite descargar los parámetros de diferentes variables como nombre de autores, instituciones, número de citas, referencias, año de publicación y otros. La adquisición de datos se realizó en junio de 2016.

Además usaron el servicio de arXiv para completar datos como la extensión del trabajo y subcampo de investigación.

Para la tarea más importante, es decir, saber a qué nombre de pila corresponden las iniciales lo primero que hicieron fue buscar en el conjunto de datos la coincidencia entre nombre abreviado y nombre no abreviado, de forma que si al menos una vez un autor aparece con el nombre de pila explicitado se pueda extrapolar a los demás casos en que el mismo autor es indicado con abreviatura.

Además usaron un algoritmo llamado SexMachine (para Python) que contiene 40.000 nombres de diferentes regiones clasificados por sus hablantes nativos. En tercer lugar, usaron los datos de la Administración de Seguridad Social de USA y la oficina de estadística del Reino Unido. Finalmente usaron la Gender API que incluye cerca de 2 millones de nombres.

Otra variable a considerar fue la experiencia ("seniority") a partir del número de años desde la primera publicación.

Luego limpiaron la muestra de datos espurios o incompletos. Del total de datos de ADS (208 mil) se quitaron más de 58 mil (28%) quedando casi 150 mil. De ese total se quitaron registros sin citas o referencias (4.400), autores que sólo publicaron en Nature o Science (5400), entradas sin autores especificados (491), entradas sin nombre de pila para el primer autor (7.700, típico de artículos de colaboración), entradas en las que el primer autor sólo usa iniciales (es decir, que no se pudo desambiguar, 42400) y entradas cuyo nombre de pila no se pudo determinar (2200). El total de remociones no es la suma de todo lo anterior, debido a superposiciones.

Fig. 1: Total de papers y fracción de papers con género determinado.
En la figura 1 se observa, arriba, el número total de papers con alguna cita y referencia, el número total de papers con género del primer autor determinado, el total de hombres y total de mujeres. Abajo: Fracción de todos los papers para los que se determinó el género (negro), fracción de papers con género masculino para el primer autor (azul) y femenino (naranja). Si se mira la línea negra, la determinación del género es mayor al 50% a partir de 1960, llegando al 80% en 2000. La fracción de mujeres como primeras autoras se incrementó de manera consistente en los últimos 50 años (naranja).

CARACTERÍSTICAS DE PUBLICACIONES EN ASTRONOMÍA
En la figura 2 se muestran algunas tendencias promedio globales de las publicaciones y se remarcan diferencias entre género. En el panel (a) se grafica el número promedio de referencias en papers como una función del año de publicación. Se nota un fuerte incremento del número de referencias por paper a través del tiempo: de 10 por paper en 1960s a 60 en la actualidad (500% de incremento).
Lo notable de ese gráfico es la diferencia entre género: desde 1980 en adelante se halla una clara tendencia en que los papers de mujer como primer autor posee 7 +-3% más referencias que en el caso masculino. En el anexo del trabajo también indican que los papers de mujeres tienden a ser más largos.

Fig. 2: Algunas características de la muestra: número de referencias (a),
la experiencia o seniority (b), citas recibidas según género (c) y representación de género según journal (d). Crédito: Caplar et al (2017).
En el panel (b) se ilustra la experiencia (seniority) promedio en años: hacia 1980 el valor es un promedio de 7, pero luego se incrementa notablemente para los hombres.
En el panel (c) se compara el número de citas recibidas para hombres y mujeres como función del año de publicación. Hasta el 2000, el promedio se incrementa para ambos. Luego decae, pero probablemente se deba a que no pasó suficiente tiempo. En general se halla que los papers de primer autor masculino tengan más citas.
Este punto se profundiza luego en el trabajo.

En el panel (d) se grafica la representación de género en los journals seleccionados. Las mujeres tienden a estar representadas a la baja respecto de hombres en las revistas más prestigiosas que, a su vez, tienen a generar más citas. Alrededor de 1980 la fracción femenina de primeras autoras era similar entre los journals en un 10%. Hasta ahora la fracción se viene incrementando en todos, pero más en A&A, ApJ y MNRAS (hasta 25&) y menos en Nature y Science (17%).

DIFERENCIA DE GÉNERO
Como la cuenta de citas debería estar correlacionada con propiedades que no son de género, como la experiencia y el número de referencias, se tomaron algunos recaudos a la hora de considerar la diferencia de género en relación a citas para que no haya variables espurias.

En la figura 4 se muestra el número medio de citas recibidas por hombres dividido por el número medio de citas recibidas por mujeres en un determinado año.

Fig. 4: Número medio de citas recibidas de hombres sobre mujeres.
Luego evaluaron la experiencia, tras lo cual hicieron lo que se conoce como algoritmo "random forest" o "bosque aleatorio" (cuyo código pusieron online).

De esta manera pudieron predecir el número de citas de un paper basadas en parámetros que no son de género para comparar con la realidad. Hallaron que los papers firmados por mujeres recibieron sistemáticamente menos citas que las esperadas (en relación a los parámetros que no son de género). La diferencia es de 10%.

Fig. 6: Predicho sobre medido: sesgo de género en citas a papers con primeras autoras.

Los autores también tuvieron en cuenta las auto-citas (autores que se citan a sí mismos). Indican que lo lógico es esperar que si los hombres publican más, entonces se citen a sí mismos en mayor cantidad.
Por tanto lo que hicieron fue considerar papers que no sean los primeros para saber si en ellos se indicaba una cita al trabajo inmediatamente anterior del mismo autor. En ese caso, encontraron que las mujeres se citan a sí mismas más que los hombres. Pero si se consideran los demás parámetros (no de género) no se halla tal tendencia.

CONCLUSIONES
Los autores son cautos en sus conclusiones en primero lugar porque determinar el género de un primer autor es difícil y porque aclamar que efectivamente existe un sesgo de género implicaría poder quitar del medio cualquier otra variable, lo cual es también complicado.
Agregan que la comunidad astronómica, cada vez más globalizada, hace las cosas más difíciles ya que implica considerar nombres de pila de diferentes regiones.

Que exista una preocupación al respecto es importante. No hay meritocracia si no hay equidad. Equidad no es igualitarismo. La equidad supone que las posibilidades o condiciones son las mismas. Y que los reconocimientos (que son también condiciones o posibilidades) también lo sean. Las citas son un modo de reconocimiento.

Desde el punto de vista semiótico (tomando a Eliseo Verón como faro) las condiciones de producción son las condiciones de reconocimiento y la diferencia entre ambas es la "circulación".

Pero, ¿sería descabellado pensar que el sesgo de género no es el único? ¿No habrá acaso también sesgos de nacionalidad-institución? ¿Y si así fuera no sería también un principio de autoridad?

Desde hace semanas estoy viendo las serie Genius sobre Einstein, de impecable factura, en NatGeo. El científico alemán se decía "internacionalista", incluso "apátrida". Aunque la serie sugiere que habría que revisar el reconocimiento (indebido) a Mileva Maric. (Seamos justos: también es posible decirlo sobre algunos hombres olvidados. Por caso, Humason).

De modo tal que no sólo hay que revisar el presente de cada al futuro, sino también el pasado. Que hace falta lo prueba la ausencia de respuesta a una simple pregunta: Nombre 5 filósofas destacadas.

En una sociedad basada en la competencia permanente, sin embargo, los hombres no hemos querido competir con las mujeres. Competir es competir con equidad, sino es robo, fraude, chamuyo. Les tenemos miedo. Es la colaboración, más que la competencia, lo que deberíamos hacer. En cambio, todo es negocio. Negocio es beneficiarse a costa de los demás. Habría que pensarlo mejor. A veces "nosotros" somos "los demás".

Fuentes y enlaces relacionados

Quantitative evaluation of gender bias in astronomical publications from citation counts
Neven Caplar, Sandro Tacchella & Simon Birrer
Nature Astronomy 1, Article number: 0141 (2017)
DOI: 10.1038/s41550-017-0141

arXiv:1610.08984 [astro-ph.IM]
https://arxiv.org/abs/1610.08984

Las investigaciones dirigidas por mujeres, discriminadas en Astronomía, por Mar de Miguel
http://www.elmundo.es/ciencia-y-salud/ciencia/2017/05/26/59285b59468aeb3d788b45bd.html

Sobre las imágenes

Figuras tomadas de Neven Caplar, Sandro Tacchella & Simon Birrer (2017).
Logo: She is an Astronomer