¿Los datos nos cuentan a todas las personas?

Silvana Fumega, PhD
Directora de Investigación y Políticas
ILDA

Con frecuencia hablamos de datos como un insumo para algoritmos, pero también son el producto de estándares y marcos legales que dan forma a su producción. Por un lado, algo que suena tan técnico como desarrollar un estándar es un ejercicio que nos permite repensar la producción de datos y su uso, así como los problemas existentes con sesgos en su construcción. Por otro lado, los algoritmos aprenden de los datos y construyen su representación de la realidad a partir de ellos. Por lo tanto, la producción de datos también está en el centro de todas las discusiones sobre lo que se llama inteligencia artificial.

Sin las categorías adecuadas, no se pueden recopilar los datos correctos y, cada vez más, sin los datos correctos, se dificulta la creación de políticas que ofrezcan soluciones a diferentes grupos y personas e incluso de cambios sociales más generales. Esto nos da una idea clara de lo que está pasando cuando no contamos a determinadas personas o grupos y, por tanto, a quienes estamos dejando fuera de nuestra cuenta. Por lo tanto, existe la necesidad de responsabilidad e inclusión cuando se trata de la producción de datos.

Asimismo, al pensar en datos sobre feminicidios, para ofrecer un ejemplo de nuestro trabajo en ILDA, si no existen datos claros sobre una miríada de aspectos que pueden caracterizar estos hechos, podríamos estar omitiendo ciertos delitos de los registros y, por tanto, descuidando considerar a esas víctimas al diseñar e implementar políticas y otras medidas. Además, al explorar datos sobre violencia contra la comunidad LGBTQ + en Centroamérica, es evidente que, sin datos sobre género, orientación sexual y otro tipo de variables, es muy difícil entender qué tan grave se está volviendo el problema en esa región (o en cualquier otro, para el caso).

Sin embargo, hay una advertencia: si bien hacer visibles estas poblaciones y sus problemas a través de los datos puede ayudar a los gobiernos y a los actores de la sociedad civil a abordar sus necesidades, hacerlo también representa un riesgo para las poblaciones vulnerables, ya que podría acelerar las tendencias hacia la discriminación y la exclusión (ILDA, Datos para el desarrollo. Un camino por delante, p. 19).

Perspectiva predeterminada

En este contexto, debemos prestar mucha atención, en ambos casos, a cuya perspectiva se supone que es la predeterminada (D’Ignazio y Klein, Data feminism, capítulo 1). Casi siempre, la perspectiva que se toma es la de quienes ocupan las posiciones más privilegiadas en el campo (personas o empresas que también pueden tener incentivos para explotar los datos y desarrollar algoritmos), como lo hacen en nuestra sociedad en general. Este privilegio hace que algunas poblaciones sean invisibles en conjuntos de datos, algoritmos y visualizaciones, por nombrar solo algunos ejemplos.

¿Qué entendemos por sesgos?

Estas posiciones de poder, en el campo o en la sociedad, se transmiten a los datos por sesgos, una inferencia basada en un prejuicio o una idea preconcebida debido a una cosmovisión específica. Los sesgos tienen múltiples capas y se manifiestan de diferentes maneras. Llevamos nuestros propios prejuicios y los experimentamos en nuestra vida diaria. Pueden estar relacionados con el género, la raza, la edad y la clase, entre otros, y pueden resultar en diferentes tipos de discriminación. (Ver: Brandusescu, Canares, Fumega. ¿Estándares de Datos Abiertos a puerta cerrada?) Como se mencionó, estos sesgos están incluidos en los procesos por los cuales se producen los datos y, en muchos casos, en los estándares que guían esa producción.

¿Qué queremos decir cuando hablamos de prejuicios? Hay diferentes significados, según el contexto. Los ejemplos incluyen sesgos cognitivos (una característica particular de un sujeto, que afecta la forma en que percibe la realidad) o, cuando se habla de IA, sesgos algorítmicos, que son errores sistemáticos y repetidos que crean resultados injustos, como otorgar privilegios arbitrariamente a un grupo de usuarios. sobre otros. Estos sesgos podrían identificarse en diferentes etapas de los procesos de producción de datos, desde la definición del problema hasta la recolección, preparación de datos y, por último, cuando se utilizan los datos y suenan las alarmas (a veces un poco tarde).

Un largo camino por delante

La discusión anterior puede parecer bastante técnica, pero ciertamente tiene un impacto en todas nuestras vidas, especialmente para las partes más desfavorecidas de la población. Esto es particularmente importante cuando los datos y los algoritmos forman parte de los procesos de toma de decisiones que afectan a las personas, ya que, por ejemplo, un patrón estadístico que aplica a la mayoría puede no ser válido para un grupo minoritario. Esta es una de las principales razones por las que discutimos y analizamos este tipo de datos y procesos.

Al final del día, este tipo de preocupaciones son importantes porque estos prejuicios afectan la vida de las personas, al tomar decisiones (nuestras propias elecciones como consumidores) o cuando son el tema del proceso de toma de decisiones de otros. Desde consumir información sobre política, hasta los beneficios a los que tenemos derecho, hasta no recibir ciertas oportunidades solo porque pertenecemos a cierta demografía, nosotros, como sociedad, debemos estar conscientes de las implicaciones de los datos que producimos y consumimos. Todavía estamos aprendiendo a lidiar con los prejuicios y a mitigarlos. Queda un largo camino por delante, pero el primer paso es ser más conscientes de estos peligros e implicaciones.