Bitácora de fernand0 Cambiando de aires

Información, datos y sus límites

Mar, tierra y cielo

Para cualquier persona mínimamente interesada e informada debería estar claro lo que son las inteligencias artificiales que tanto nos deslumbran: una forma muy inteligente (e interesante) de sacar partido de toda la información que han sido capaces de ingerir, con un mecanismo para recuperarla de forma que se ajuste a lo que les hemos pedido. Pero esa información viene en forma de datos que alguien ha puesto en algún sitio de alguna manera.

En The Limits of Data C. Thi Nguyen aprovecha para recordarnos que esta aproximación tiene sus propios límites y comienza con el arte.

Nos habla de un experimento para crear arte basándose en los datos de interés/enganche (engagement) de Netflix.

I asked one researcher about the training data. How did they choose to operationalize “good art”? Their reply: they used Netflix data about engagement hours.

Pero claro, nos recuerda, hora de interés no representan calidad artística (o no tienen por qué representarla).

The problem is that engagement hours are not the same as good art.

Y no sólo eso, sino que el arte puede ser importante para nosotros de formas muy diversas: emocionarnos, removernos, enseñarnos, …

There are so many ways that art can be important for us. It can move us, it can teach us, it can shake us to the core.

La conclusión surge por si sola, si entrenamos a la IA para que valore ese interés obtendremos justamente eso: productos que generen ese tipo de atracción.

Cambiando de enfoque, nos habla de las políticas y su lenguaje, que actualmente parecen ser los datos. La mayoría de las administraciones quieren tener éxito en las medidas sobre los datos, para demostrar su eficacia y eficiencia en términos claros, objetivos y fáciles de comprender.

Government agencies, corporations, and other policymakers all want to make decisions based on clear data about positive outcomes. They want to succeed on the metrics—to succeed in clear, objective, and publicly comprehensible terms.

Pero, nuevamente, la conclusión es clara: los datos y sus medidas son incompletos por su propia naturaleza.

But metrics and data are incomplete by their basic nature.

Y hay muchas cuestiones importantes que no salen en los datos (o que son difíciles de medir): podemos medir la salud, por ejemplo, en términos de longevidad, vidas salvadas,…. Pero es más difícil medir la felicidad, comunidad, tradición, belleza, comodidad, …

It’s easier to justify health care decisions in terms of measurable outcomes: increased average longevity or increased numbers of lives saved in emergency room visits, for example. But there are so many important factors that are far harder to measure: happiness, community, tradition, beauty, comfort, and all the oddities that go into “quality of life.”

Pone más ejemplos y da algunas ideas más, pero podemos saltar a la parte donde nos cuenta cómo hay gente estudiando en los datos que recolectamos, cómo lo hacemos para tomar las decisiones.

A small group of scholars have been working on understanding this, mostly in science and technology studies—an interdisciplinary field focused on how science works that conducts studies across philosophy, history, anthropology, sociology, and more. This work offers an understanding of the intrinsic limitations on the process of data collection and on the contents of big datasets.

Porque, nos dice luego, no todos los tipos de conocimiento, ni todas las clases de comprensión pueden considerarse información y datos.

Not all kinds of knowledge, and not all kinds of understanding, can count as information and as data.

Por no hacer esto muy largo, luego llega a la cuestión de que la cuantificación (información, datos, …) trabaja de manera inevitable eliminando información importante del contexto, porque el objetivo es conseguir información portable, que se pueda comparar, examinar,…

Quantification, as used in real-world institutions, works by removing contextually sensitive information. The process of quantification is designed to produce highly portable information,...

Así que ese es el compromiso: recolectamos datos, ganamos en portabilidad y podremos agregar esa información, pero perdemos información.

So here is the first principle of data: collecting data involves a trade-off. We gain portability and aggregability at the price of context-sensitivity and nuance.

Cuando hay información, y se manejan datos hay otro esfuerzo más, que es el de la clasificación. Una cosa es decir cuál es tu raza con tus propias palabras y otra diferente es incluirte en la categoría que alguien ha definido para poder transformar eso en datos, porque un análisis de la descripción que pudiera hacer caada persona de sí misma sería difícil de manejar.

Data collection efforts require classification, which is a second kind of filter. Imagine a US census form where everybody simply wrote into a blank space their racial identity, in their own terms. There would be no way to aggregate this easily. Collectors need to sort information into preprepared buckets to enable aggregation. So there are distinct buckets—white, Black, American Indian, Asian, and, ...

Pero claro, esas clasificaciones las prepara alguien y no tienen por qué describir bien lo que alguien piensa de sí mismo. Y esas categorías no son neutras. No solo eso, también deciden antes de empezar qué recordar y qué olvidar.

Classification systems decide ahead of time what to remember and what to forget.

Y es verdad que podemos anotar esos datos en muchos casos (una casilla para poner información adicional), pero es igual de cierto que esa parte de la información se ‘mueve’ peor que los datos sin más.

ometimes information infrastructures do offer a place for unstructured notes. When I’m entering my grades into the school’s database, I get a little blank box for other notes. The information is collected in some sense, but it doesn’t really move well; it doesn’t aggregate.

El problema de estas limitaciones tiene que ver, ahora, con que justamente esos valores filtrados (y refiltrados) son los que se integran en los sistemas de decisión automatizados.

And now, in the algorithmic era, there’s a new version of this problem: these filtered values will be built so deeply into the infrastructure of our technological environment that we will forget that they were filtered in the first place.

No deberíamos por ello dejar de entrenar y utilizar este tipo de sistemas, puesto que nos han permitido avanzar mucho en muchas ocasiones.

My point isn’t that we should stop using data-based methods entirely. The key features of data-based methodologies—decontextualization, standardization, and impersonality—are precisely what permit the aggregation of vast datasets and are crucial to reap the many rewards of data-based methodologies.

Pero hay que tener en cuenta las limitaciones, puesto que los sistemas construidos de esta forma tendrán sesgos de manera inevitable.

But policymakers and other data users need to keep in mind the limitations baked into the very essence of this powerful tool. Data-based methods are intrinsically biased toward low-context forms of information.

Y, por lo tanto, deberemos preguntarnos ¿quién recolectó los datos? ¿Quién creó las categorías? ¿Qué información se enfatiza y cuál se pierde? ¿A qué intereses sirve el sistema de filtrado?

This suggests at least two responses to the limitations of data. First, when confronted with any large dataset, the user should ask: Who collected it? Who created the system of categories into which the data is sorted? What information does that system emphasize, and what does it leave out? Whose interests are served by that filtration system?

Y no olvidar que no todos los problemas se pueden tratar solo con los datos, así que no deberíamos dejar que estos ahoguen a los otros modelos de comprensión.

Second, policymakers and data users should remember that not everything is as tractable to the methodologies of data. [...] Data is powerful but incomplete; don’t let it entirely drown out other modes of understanding.

Muy interesante lectura, vale la pena leerlo completo y con calma.

¿Qué escuchas en el coche?

Auriculares. Después. Opá yo vi a escuchar un podcast.

Hace tiempo que no comentamos estadísticas (numerología). En In-Car Listening on Mobile Phones nos hablaban de la escucha de dispositivos móviles en el coche.

This week’s insight takes a closer look at in-car listening specifically on mobile devices.

Yo pensaba que sería un número mayor, pero nos dicen que un 29% de las personas de 13 años y más escuchan audio en el coche en un teléfono móvil.

Today that number has nearly doubled, and now 29% of the U.S. population age 13+ who listen to audio in-car do so on a mobile phone.

De ellos, un 53% escucharían música, un 17% podcasts y un 14% música que tienen en el dispositivo. Detrás vendría YouTube (14%) y finalmente audiolibros, con un 4%

The majority of time listening in-car on a phone, 53%, is spent listening to streaming music services. ... ... podcasts at 17%, and owned music such as downloaded digital files at 14%. Listening to music and music videos on YouTube accounts for 9% of listening on a phone in-car. Audiobooks clock in with 4% of the total.

A mi me parece poco, si miro a las personas jóvenes que tengo alrededor y echo de menos en la estadística las redes sociales (la nueva televisión: los reels de Instagram y TikTok). También puede ser que los jóvenes van poco en coche y prefieren (o solo pueden acceder a) otros medios de transporte.

Desde luego, lo que sí que ha pasado ya son los tiempos de escucha única, con un equipo centralizado que era la única posibilidad.

Yo suelo escuchar música (que tengo en un disco portátil). Los podcasts los dejo para pasear.

Internet y la preservación de información

Biblioteca Nacional

No me gusta mucho enlazar artículos que están detrás de un muro (aunque sea registrarse) pero en este caso haré una excepción porque es un tema que me llama la atención. Tengo la teoría de que cuando pase el tiempo veremos que hay etapas sobre las que habrá muy poca documentación: en mi cabeza esa etapa tiene que ver con los momentos de digitalización masiva, donde mucha información ya no se guarda en bibliotecas, archivos,… pero tampoco se conserva adecuadamente (y mucho menos se publica o se pone a disposición de otras personas en la red). Por eso guardo muchas de las cosas que voy leyendo en digital (utilizando sistemas imperfectos, pero que me permiten conservar los textos; por cierto, si alquien quiere este texto también lo tengo).

Y por eso me gustó leer Why the Internet Era Might Be History’s Least-Documented Period donde se hablaba un poco del tema.

Comenzaba hablando de las fotos de su graduación, que estaban en alguna cuenta de algún servicio, en un disco duro roto y por otros diversos lugares….

Last week, I tried to find some photos from my college graduation. Despite being only fifteen years ago, they proved surprisingly elusive – trapped on a defunct Photobucket account, lost to a crashed hard drive, and scattered across social media platforms that no longer exist.

Luego nos recuerda como las empresas deciden cerrar servicios y dejar perder un montón de información (en las próximas semanas ocurrirá con el contenido de Pocket, por ejemplo). Geocities, MySpace, Google+, …

Remember Geocities? Yahoo shut it down in 2009, taking with it millions of early websites – a unique snapshot of early internet culture. The Internet Archive managed to save some pages, but most are gone forever. MySpace lost 12 years of music uploads during a server migration. Google+ vanished, taking with it communities and conversations. Vine? Gone.

Sin embargo, nos recuerda, seguimos pudiendo tener acceso a documentos muy antiguos conservados en diveras bibliotcas, o pinturas de hace mucho tiempo.

We can still read Egyptian hieroglyphics carved 5,000 years ago. We can examine medieval manuscripts, Renaissance paintings, and Victorian photographs. These analog formats have proven remarkably durable.

Es cierto que estos argumentos son trampososo, porque tenemos acceso a unos pocos textos y a unas pocas imágenes, que por muchas y diversas circunstancias se han conservado. ¿Cuántas fotografías analógicas de nuestros padres y abuelos se habrán perdido igualmente que las de la autora?

Luego nos recuerda que los medios digitales son muy frágiles: se rompen los discos duros, los datos se corrompen….

Y la pregunta es evidente, ¿hay alguien conservado estas cosas? La respuesta es, claro, sí y no. El Internet Archive hace un esfuerzo notable (uno de los pocos proyectos a los que dono de vez en cuando algo de dinero). Pero su capacidad llega hasta donde llega, incluso con amenazas legales de vez en cuando.

The Internet Archive does heroic work, but they can only save a fraction of the web and they do so under constant, desperate, grasping legal threat.

También es cierto que uno tenía un libro, o unos documentos y los dejaba en cualquier lado. Con que no tuviera mala suerte, los medios en los que estaban almacenados resistían bastante bien el paso del tiempo. Esto es algo que no sucede tan fácilmente con medios más modernos.

In contrast, a book on a shelf just needs to be kept dry and (preferably) away from fire.

También ocurre que en la actualidad guardamos mucha información en medios diversos que cuando ya no estemos puede desaparecer de manera casi inevitable (los servicios desaparecen, pero aunque no lo hagan, la información está protegida por contraseñas en alguna nube….).

Today, we send ephemeral messages and store photos in the cloud. When we die, our digital presence often dies with us - locked behind passwords or lost to obsolete services.

Las soluciones que propone tienen que ver con aproximaciones híbridas (versiones analógicas de los documentos e imágenes más valiosos), mejorar nuestras habilidades de archivado e instituciones que se encarguen de la preservación a largo plazo.

Perhaps we need a hybrid approach. Critical records could be preserved in both digital and analog formats. Personal archiving could become a emphasized skill, like digital literacy. We might need new institutions dedicated to long-term digital preservation.

Pero sobre todo, nos decía, lo primero es darnos cuenta del problema para poder empezar a actuar.

But first, we need to recognize that the problem actually exists. The digital age promised to make everything accessible, but instead made everything ephemeral. Unless we act, we risk becoming an unexpected dark age - not for lack of records, but for lack of readable ones.

Desde luego, deberíamos invertir más esfuerzo en esto y uno se sorprende al ver como muchas instituciones (para la gente particular es todo más complicado) están ignorando este problema y dejando el tiempo pasar con pérdidas que pueden ser irreparables.

Las definiciones son importantes: IAs 'open source'

Muro de generadores y teclado

Llevamos una (larga) temporada hablando de inteligencia artificial (fundamentalmente modelos gigantes de lengugaje LLMs) y una de las iniciativas que ha proliferado es la posibilidad de descargar los modelos para ejecutarlos localmente (buena noticia desde el punto de vista, al menos, de la privacidad); además, se proporciona información acerca de como se han desarrollado (con la idea de poder intentar reproducirlos), origen de los datos, para qué se pueden utilizar, posibilidad de modificarlos e incluso redistribuir estas modificaciones.

En The Open Source AI Definition Is Out nos hablan justamente de eso: recientemente se publicó la versión 1.0 de la definición de lo que se consideraría una IA ‘open source’, según la Open Source Initiative.

Básicamente la definición dice lo que hemos puesto arriba.

- Provide sufficient information about its design to allow substantial recreation - Disclose pertinent details about training data, including provenance and processing methods - Allow usage for any purpose without permission - Permit studying of the system’s inner workings - Enable modification for any purpose - Allow sharing of the original or modified version.

El problema es que la mayoría de las IAs que ofrecen las empresas llamándolas ‘open source’ no cumplen las condiciciones.

Spoiler alert: Many won’t. The open-wash releases from AI companies such as OpenAI and Meta don’t make the OSAID grade.

Mientras que con el código todo estaba claro, en este caso nos movemos en terrenos más pantanosos, puesto que se incluye código, datos, técnicas, sesgos…

... analyst Stephen O’Grady ... Their scope blends software, data, techniques, biases and more. AI is inarguably a fundamentally different asset than software alone.”

Está claro que un estándar como el propuesto puede servir de referencia y para aclarar el panorama, aunque no sea lo que elijan las empresas relevantes.

No matter where you land on this issue, this new standard could have significant implications for companies that have been marketing their AI models as “open source.”

Desde la iniciativa están abiertos al cambio, pero consideran la propuesta como una primera versión (que no es beta) y esperan que se utilice, se comprenda mejor y se pueda hablar de estas cosas con más precisión a partir de ahora.

Piana explained, being open to change is an “acknowledgment that our collective understanding of what AI does, what’s required to modify language models is limited now. The more we use it, the more we’ll understand. Right now our understanding is limited, and we don’t know yet what the technology will look like in one year, two years, or three years.” Thus the OSAID is leaving room for future flexibility.

Ya era hora.

Las aplicaciones pueden delatar tu posición. O la de alguien con el que vas

Mapa publicitario

Casi a título de inventario, Location of world leaders including Putin, Trump and Macron ‘revealed by security teams’ Strava’ aunque es interesante por el máximo perfil de las personas implicadas.

Y el problema no son ellos mismos, que probablemente están protegidos, sino su personal de seguridad (no informática, claro). Por un lado, agentes del Servicio Secreto de EEUU, que harían de escolta y que tendrían instalada la conocida aplicación deportiva.

A report by French newspaper Le Monde said several US Secret Service agents use the Strava fitness app, which has revealed highly confidential movements of US president Joe Biden, presidential rivals Donald Trump and Kamala Harris and other world leaders.

Pero lo mismo parece que sucede (o sucedía) con el personal de seguridad de Macron, Putin, …

The investigation also identified Strava users among the security personnel for French president Emmanuel Macron and Russian president Vladimir Putin.

Estos dispositivos están prohibidos cuando están trabajando, pero no cuando están en su tiempo de descanso.

In a statement to the newspaper, the Secret Service said its staff aren’t allowed to use personal electronic devices while on duty during protective assignments but “we do not prohibit an employee’s personal use of social media off-duty.”

La clave estaría en identificar a las personas ‘interesantes’, y luego encontrar sus perfiles en las aplicaciones.

Tampoco estoy muy seguro de que esto sea un problema tan grave, teniendo en cuenta todo el personal que mueven a su alrededor (no solo las aplicaciones podrían delatarles). Es algo parecido a lo que dicen desde el gabinete de Macron, por ejemplo, aunque es bueno ser conscientes del problema.

Macron’s office said on Monday that the consequences of the issues reported by Le Monde “are very slight and in no way affect the security of the president of the republic.” But, it added: “A reminder was nevertheless issued to agents by the chief of staff asking them not to use this app.”