Bitácora de fernand0 Cambiando de aires

Información, datos y sus límites

Mar, tierra y cielo

Para cualquier persona mínimamente interesada e informada debería estar claro lo que son las inteligencias artificiales que tanto nos deslumbran: una forma muy inteligente (e interesante) de sacar partido de toda la información que han sido capaces de ingerir, con un mecanismo para recuperarla de forma que se ajuste a lo que les hemos pedido. Pero esa información viene en forma de datos que alguien ha puesto en algún sitio de alguna manera.

En The Limits of Data C. Thi Nguyen aprovecha para recordarnos que esta aproximación tiene sus propios límites y comienza con el arte.

Nos habla de un experimento para crear arte basándose en los datos de interés/enganche (engagement) de Netflix.

I asked one researcher about the training data. How did they choose to operationalize “good art”? Their reply: they used Netflix data about engagement hours.

Pero claro, nos recuerda, hora de interés no representan calidad artística (o no tienen por qué representarla).

The problem is that engagement hours are not the same as good art.

Y no sólo eso, sino que el arte puede ser importante para nosotros de formas muy diversas: emocionarnos, removernos, enseñarnos, …

There are so many ways that art can be important for us. It can move us, it can teach us, it can shake us to the core.

La conclusión surge por si sola, si entrenamos a la IA para que valore ese interés obtendremos justamente eso: productos que generen ese tipo de atracción.

Cambiando de enfoque, nos habla de las políticas y su lenguaje, que actualmente parecen ser los datos. La mayoría de las administraciones quieren tener éxito en las medidas sobre los datos, para demostrar su eficacia y eficiencia en términos claros, objetivos y fáciles de comprender.

Government agencies, corporations, and other policymakers all want to make decisions based on clear data about positive outcomes. They want to succeed on the metrics—to succeed in clear, objective, and publicly comprehensible terms.

Pero, nuevamente, la conclusión es clara: los datos y sus medidas son incompletos por su propia naturaleza.

But metrics and data are incomplete by their basic nature.

Y hay muchas cuestiones importantes que no salen en los datos (o que son difíciles de medir): podemos medir la salud, por ejemplo, en términos de longevidad, vidas salvadas,…. Pero es más difícil medir la felicidad, comunidad, tradición, belleza, comodidad, …

It’s easier to justify health care decisions in terms of measurable outcomes: increased average longevity or increased numbers of lives saved in emergency room visits, for example. But there are so many important factors that are far harder to measure: happiness, community, tradition, beauty, comfort, and all the oddities that go into “quality of life.”

Pone más ejemplos y da algunas ideas más, pero podemos saltar a la parte donde nos cuenta cómo hay gente estudiando en los datos que recolectamos, cómo lo hacemos para tomar las decisiones.

A small group of scholars have been working on understanding this, mostly in science and technology studies—an interdisciplinary field focused on how science works that conducts studies across philosophy, history, anthropology, sociology, and more. This work offers an understanding of the intrinsic limitations on the process of data collection and on the contents of big datasets.

Porque, nos dice luego, no todos los tipos de conocimiento, ni todas las clases de comprensión pueden considerarse información y datos.

Not all kinds of knowledge, and not all kinds of understanding, can count as information and as data.

Por no hacer esto muy largo, luego llega a la cuestión de que la cuantificación (información, datos, …) trabaja de manera inevitable eliminando información importante del contexto, porque el objetivo es conseguir información portable, que se pueda comparar, examinar,…

Quantification, as used in real-world institutions, works by removing contextually sensitive information. The process of quantification is designed to produce highly portable information,...

Así que ese es el compromiso: recolectamos datos, ganamos en portabilidad y podremos agregar esa información, pero perdemos información.

So here is the first principle of data: collecting data involves a trade-off. We gain portability and aggregability at the price of context-sensitivity and nuance.

Cuando hay información, y se manejan datos hay otro esfuerzo más, que es el de la clasificación. Una cosa es decir cuál es tu raza con tus propias palabras y otra diferente es incluirte en la categoría que alguien ha definido para poder transformar eso en datos, porque un análisis de la descripción que pudiera hacer caada persona de sí misma sería difícil de manejar.

Data collection efforts require classification, which is a second kind of filter. Imagine a US census form where everybody simply wrote into a blank space their racial identity, in their own terms. There would be no way to aggregate this easily. Collectors need to sort information into preprepared buckets to enable aggregation. So there are distinct buckets—white, Black, American Indian, Asian, and, ...

Pero claro, esas clasificaciones las prepara alguien y no tienen por qué describir bien lo que alguien piensa de sí mismo. Y esas categorías no son neutras. No solo eso, también deciden antes de empezar qué recordar y qué olvidar.

Classification systems decide ahead of time what to remember and what to forget.

Y es verdad que podemos anotar esos datos en muchos casos (una casilla para poner información adicional), pero es igual de cierto que esa parte de la información se ‘mueve’ peor que los datos sin más.

ometimes information infrastructures do offer a place for unstructured notes. When I’m entering my grades into the school’s database, I get a little blank box for other notes. The information is collected in some sense, but it doesn’t really move well; it doesn’t aggregate.

El problema de estas limitaciones tiene que ver, ahora, con que justamente esos valores filtrados (y refiltrados) son los que se integran en los sistemas de decisión automatizados.

And now, in the algorithmic era, there’s a new version of this problem: these filtered values will be built so deeply into the infrastructure of our technological environment that we will forget that they were filtered in the first place.

No deberíamos por ello dejar de entrenar y utilizar este tipo de sistemas, puesto que nos han permitido avanzar mucho en muchas ocasiones.

My point isn’t that we should stop using data-based methods entirely. The key features of data-based methodologies—decontextualization, standardization, and impersonality—are precisely what permit the aggregation of vast datasets and are crucial to reap the many rewards of data-based methodologies.

Pero hay que tener en cuenta las limitaciones, puesto que los sistemas construidos de esta forma tendrán sesgos de manera inevitable.

But policymakers and other data users need to keep in mind the limitations baked into the very essence of this powerful tool. Data-based methods are intrinsically biased toward low-context forms of information.

Y, por lo tanto, deberemos preguntarnos ¿quién recolectó los datos? ¿Quién creó las categorías? ¿Qué información se enfatiza y cuál se pierde? ¿A qué intereses sirve el sistema de filtrado?

This suggests at least two responses to the limitations of data. First, when confronted with any large dataset, the user should ask: Who collected it? Who created the system of categories into which the data is sorted? What information does that system emphasize, and what does it leave out? Whose interests are served by that filtration system?

Y no olvidar que no todos los problemas se pueden tratar solo con los datos, así que no deberíamos dejar que estos ahoguen a los otros modelos de comprensión.

Second, policymakers and data users should remember that not everything is as tractable to the methodologies of data. [...] Data is powerful but incomplete; don’t let it entirely drown out other modes of understanding.

Muy interesante lectura, vale la pena leerlo completo y con calma.