Bitácora de fernand0 Cambiando de aires

La información digital, la web y la permanencia

Discos...

No es que sea un fanático de mantener las webs a cualquier precio; de hecho el sitio anterior a este apenas tenía acceso desde Google y no pasaba nada. No sólo eso, estuvo caído varias semanas y la vida siguió. Pero eso no me impide asombrarme cuando muchas organizaciones e instituciones tienen tan poco aprecio por su página: miras el historial de actividades y no existe (utilizan la web para publicitar algo, pero lo borran cuando ya pasó, como si el rastro que dejaran les preocupara).

El tema de la persistencia del contenido web está siendo tratado últimamente y me dejó preocupado (aunque ya lo estaba) leer When Online Content Disappears que resumen un informe que ha elaborado la consultora Pew Research y que nos da unas cifras llamativas:

  • Una cuarta parte de las páginas que existían entre 2013 y 2023 ya no están disponibles.
A quarter of all webpages that existed at one point between 2013 and 2023 are no longer accessible, as of October 2023. In most cases, this is because an individual page was deleted or removed on an otherwise functional website.
  • Para contenido más antiguo, el porcentaje es peor, un 38%.
For older content, this trend is even starker. Some 38% of webpages that existed in 2013 are not available today, compared with 8% of pages that existed in 2023.
  • Un 23% de las páginas tienen, al menos, un enlace roto.
23% of news webpages contain at least one broken link, as do 21% of webpages from government sites.
  • El 54% de las páginas de Wikipedia contienen algún enlace en ‘Recursos’ que apunta a una página que ya no existe.
54% of Wikipedia pages contain at least one link in their “References” section that points to a page that no longer exists.

En las redes sociales la cosa no es mucho mejor:

  • Casi uno de cada cinco tuits ya no son visibles públicamente solo unos meses después de publicarse.
Nearly one-in-five tweets are no longer publicly visible on the site just months after being posted.
  • Algunos tipos de tuits desaparecen más rápido que otros (por ejemplo, más del 40% de los que están escritos en turco o árabe ya no son visibles tres meses después).
Certain types of tweets tend to go away more often than others. More than 40% of tweets written in Turkish or Arabic are no longer visible on the site within three months of being posted. And tweets from accounts with the default profile settings are especially likely to disappear from public view.

El texto proporciona algunos detalles más pero creo que los titulares ya nos hacemos una idea.

Yo entiendo que haya gente que tenga miedo a su pasado (no te pueden atacar por algo que no se puede encontrar en tu web, o en tus redes sociales) pero como sociedad vamos a tener un problema si el medio elegido de publicación es la web y lo que ponemos luego desaparece.

Es cierto, como dicen en How to disappear completely que a veces se trata simplemente de un cambio de dirección (URL).

This happens because pages are taken down, URLs are changed, and entire websites vanish, as in the case of dozens of scientific journals and all the critical research they contained.

Y me recuerda lo frívolas que son algunas organizaciones con estas cuestiones.

Como decíamos, esto es particularmente preoupante para organizaciones gubernamentales, bibliotecas, pero también revistas científicas… Si no guardamos recuerdo de algunas cuestiones estamos perdiendo algo que en el futuro puede ser valioso.

Historical content can be an incredibly informative resource, telling us how people lived and thought. But we must remember that it’s a small fraction of contemporaneous material that survives, even as we hope, of course, that it’s our own existence that is ultimately memorialized.

¿Deberíamos estar pensando mejor cómo archivar alguna información digital valiosa (o no tanto) en previsión de que sus creadores decidan eliminarla o la pierdan por cualquier motivo?

Aún iré más allá y es otro defectillo que tiene la información digital: si solo está en el sitio del proveedor puede que tenga la tentación de modificar cosas, cambiar versiones y que en su web empiecen a perderse ‘detalles’ que eran relevantes pero que por algún motivo no interesa preservar. ¿Estaremos viendo en los sitios de series y películas las versiones que hicieron sus autores o terminaremos teniendo esas versiones recortadas y adaptadas que eliminan los detalles que pueden perjudicar su difusión a públicos más amplios?

Algunas estadísticas y datos sobre chatGPT

Otro robot

A mediados del año pasado se publicaban estos datos: ChatGPT Statistics 2024All the latest statistics about OpenAI’s chatbot que tal vez ya estén un poco anticuadas, pero creo que vale la pena guardar por aquí. Y tal vez me sirvan para otras cosas.

  • Consiguieron un millón de usuarios en la primera semana y en abril de 2024 se estima un número de visitas a la página web de 1800 millones (1.8 billion) con un número de usuarios activos estimado de 100 millones.

  • Está disponible en 163 países y donde no está es en China, Rusia, Ukrania, Bielorusia, Venezuela, Afganistán e Irán.

  • Funciona en inglés, pero parece que entiende cerca de 100 idiomas.

  • Está escrito en Python, aunque también es capaz de comprender otros lenguajes, entre los que se encuentran los más habituales.

  • De los 1000 sitios más importantes un 12% bloquea al bot que recorre la web buscando información.

  • El coste de su funcionamiento se estima en unos 700000 dólares al día. Corre sobre 3500 servidores en Azure y utiliza alrededor de 30000 GPUs (procesadores gráficos).

  • Alrededor del 70% de las personas han oido hablar de estos sistemas y solo un 30.7% los han probado.

Esto es solo una selección de datos que me han llamado la atención, hay muchos más en el artículo.

Manteniendo el jardín digital

Belchite. Pueblo viejo

No me veo con fuerzas, aunque quién sabe. En Tending To My Digital Garden nos cuenta cómo dedica tiempo a echar un vistazo a algunas de las entradas viejas de su sitio y se asegura de que los enlaces funcionen y, al menos, apunte a algo relevante para lo que se decía.

I go in to old posts and check that the links are still pointing somewhere relevant.

A veces es un trabajo gozoso, nos dice, aunque también resulta frustratne ver cómo algunos enlaces valiosos han desaparecido. En todo caso, dice, es meditativo: todo cambia, evoluciona y aunque luchemos contra la decadencia, la entropía siempre gana.

Sometimes the work is delightful - finding a prescient post from a decade ago. Sometimes it is frustrating - being unable to find a vital-but-long-dead link. And sometimes it is sad - seeing how much or how little the world has changed. But, mostly, it is meditative. We do our best to fight against decay, but entropy always wins in the end. Every link eventually withers and every truth is eroded by time. Nevertheless, we continue. </blocquote> ¡Feliz 2025!

Esos viejos discos duros ya no tienen la información, ¿y ahora qué?

Centro de Exposiciones del Centro de Conocimiento sobre servicios públicos electrónicos. Disco duro.

Alguna vez hemos hablado de la preservación de la información y sus dinámicas. Mal llevadas en muchos casos porque descubrimos que son delicadas por las malas. Relacionado con esto, leíamos hace algunas semanas Music industry’s 1990s hard drives, like all HDDs, are dying.

Parece que la industria musical pasó la música de las cintas donde se almacenaba a discos duros y están envejeciendo mal.

One of the things enterprise storage and destruction company Iron Mountain does is handle the archiving of the media industry's vaults. What it has been seeing lately should be a wake-up call: roughly one-fifth of the hard disk drives dating to the 1990s it was sent are entirely unreadable.

Estos aparatitos no están pensados para almacenamiento de larga duración y sus componentes electrónicos también pueden fallar.

Standard hard drives were also not designed for long-term archival use. You can almost never decouple the magnetic disks from the reading hardware inside, so that if either fails, the whole drive dies.

La solución es la de siempre, supongo: estar atentos, observar, copiar a nuevos dispositivos cuando va pasando el tiempo…

The gist of it: You cannot trust any medium, so you copy important things over and over, into fresh storage.

Nada nuevo bajo el sol, pero es un buen aviso para las empresas y también para nuestros propios usos del almacenamiento.

So Iron Mountain's admonition to music companies is yet another warning about something we've already heard. But it's always good to get some new data about just how fragile a good archive really is.

Menos básicos de lo que pensamos: educación y pareja

Pareja de sapos

Otra que no vimos venir. En Online Dating Caused a Rise in US Income Inequality, Research Paper Shows nos dicen que el aumento de las citas en línea ha traído un aumento en la desigualdad de ingresos en los EEUU.

Este tipo de aplicaciones nos permiten elegir los criterios de nuestras posibles parejas, incluyendo la educación. A pesar de que tenemos fama de superficiales, resulta que lo que busca la gente es a otras personas parecidas a ellos. Y, nos dicen, esto tendría una parte de responsabilidad en el aumento de las diferencias de ingresos en los hogares.

Since the emergence of dating apps that allow people to look for a partner based on criteria including education, Americans have increasingly been marrying someone more like themselves. That accounts for about half of the rise in income inequality among households between 1980 and 2020, researchers from the Federal Reserve Banks of Dallas and St. Louis and Haverford College found.

La cuestión parece ser que la gente busca parejas con niveles educativos y de habilidades.

Who people marry has a major impact on household income. The research shows that the two main contributors to inequality through the selection of a future spouse are education and skills.

Luego les importan los ingresos, la edad y la raza parece que no es muy importante.

They are followed, to a much lesser extent, by income and age, while race plays a relatively inconsequential role,...

Lo miden con el denominado coeficiente de Gini y la diferencia observada es de un 3%. No sé si ese porcentaje justifica un informe y luego una entrada aquí, pero aquí queda.