Bitácora de fernand0 Cambiando de aires

La preservación digital y los riesgos actuales

Incunables en su contenedor

De vez en cuando hablamos de preservación digital y, en particular, de la web. En As the Trump administration purges web pages, this group is rushing to save them nos recuerdan que una parte de la web está siendo borrada de manera activa.

No solo páginas federales, que en algunos casos volvían modificadas, sino también conjuntos de datos (fundamentalmente relacionados con ciencia y medio ambiente).

After President Trump's inauguration in January, some federal web pages vanished. While some pages were removed entirely, many came back online with changes that the new administration's officials said were made to conform to Trump's executive orders to remove "diversity, equity, inclusion, and accessibility policies." Thousands of datasets were wiped — mostly at agencies focused on science and the environment — in the days following Trump's return to the White House.

Nos recuerdan de la existencia del Internet Archive y de su valioso trabajo, preservando sitios que van desapareciendo con el tiempo.

The nonprofit, founded in 1996, is a digital library of internet sites and cultural artifacts. This includes hundreds of billions of copies of government websites, news articles and data. The Wayback Machine is the archive's access point to nearly three decades of web history.

Cada día descargan varios teras de información, que archivan adecuadamente y luego ofrecen para su revisión.

Every day, about 100 terabytes of material are uploaded to the Internet Archive, or about a billion URLs, with the assistance of automated crawlers. Most of that ends up in the Wayback Machine, while the rest is digitized analog media — books, television, radio, academic papers — scanned and stored on servers.

Creo que es un proyecto que merece la pena apoyar (independientemente de quién sea el presidente de turno de los EEUU, su trabajo sería valioso aunque no hubiera alguien tratando de borrar información).

Y nos recuerdan que, incluso pasa en la Wikipedia: un número importante de sus enlaces corresponden a páginas que ya no existen, pero cuyo contenido se puede conocer gracias a este proyecto.

"I don't remember the page but, you know, a significant percentage of the links that were on the Wikipedia article are Internet Archive links," he said. "That is really sad — that what people view as a primary source is something that doesn't exist anymore."

También tienen amenazas legales, que pretenden desanimar el archivado y la labor de esta organización.

Founder Kahle said the costly lawsuits — which legal experts say are meant to be a deterrent — threaten the future of the archive.

Cuando los datos pasan de la nube a tu dispositivo y algo va mal

Ruta pasando por el puente del Tercer Milenio

Ya hace algún tiempo que perdimos la fe en Google. En Oops: Google says it might have deleted your Maps Timeline data un recordatorio de que mover datos es más complicado de lo que pensamos.

Google Maps es uno de mis servicios favoritos de Google y no hace mucho nos invitaron a guardar los datos en el dispositivo, en lugar de en su nube. En principio sería un manejo más respetuoso de los datos (porque se supone que ellos no los conservan), aunque no tanto (porque los pueden analizar antes de borrarlos, claro).

Se trata de los datos de localización (historial de visitas) que más de una vez me ha ayudado a saber dónde estuve tal día, o dónde saqué aquella foto.

El caso es que en la migración algunos usuarios han perdido sus datos.

Users started piping up over the past several weeks, posting on the Google support forums, Reddit, and other social media that their treasured Timeline data had gone missing.

Sería, según los portavoces de la empresa, un fallo y nada intencionado, pero los usuarios se han quedado sin la información.

A Google spokesperson confirmed this is the result of a technical issue and not user error or an intentional change.

Y esto nos lleva a dos cuestiones: ¿dejar los datos en la nube o en local? Desde luego, nadie gestiona mejor los datos que los profesionales, dedicados específicamente a ello y con mucha más dedicación de la que podemos tener nosotros.

Google, en todo caso, proporciona una solución intermedia, permitiendo almacenar una copia de seguridad, pero es una opción que hay que activar.

t’s good that Google still supports a secure backup option, but it’s not on by default.

Tener los datos en local tiene algunas ventajas (aunque en este caso no creo que la privacidad sea una de ellas); también para Google, porque si alguna autoridad se lo solicita no puede proporcionárselos (y eso sí que es una ventaja para nosotros, si las cosas vienen mal).

Pero, desde luego, la moraleja es que este tipo de cambios pueden ser traumáticos por muy profesional y cuidadoso que se sea.

Cómo los científicos utilizan la IA para sus programas y qué habría que enseñarles

Cátedra aula Fray Luis de León

En How scientists learn computing and use LLMs to program: Computing education for scientists and for democracy hablan del aprendizje de la informática por parte de científicos que la necesitan para su traabajo.

Hay recursos, nos dicen, abundantes:

I was surprised how much the scientists in her study needed more curation. There’s no lack of ways of learning data science — videos, tutorial, MOOCs, books, ...

Pero se trata de gente ocupada, así que deben ser selectivos en los recursos que utilizarán.

They were busy professionals. They struggled to find the right learning materials for their level of knowledge that matched what their field used.

Se da la paradoja de que la informática es ampliamente utilizada, pero cursar materias relacionadas es raro. Como consecuencia tenemos personas autodidactas o que aprenden lo que necesitan cuando les hace falta.

While programming is common across the sciences, actually taking CS classes is rare among scientists that we’ve worked with. Most of the programming science faculty we met are self-taught, or learned through apprenticeship from the labs and groups they came up through.

Esto les funciona, pero carecen de los recursos necesarios para tomar las decisiones de manera informada; eligen el lenguaje de programación porque se usa en su campo, y no por las características que pueda tener.

They are making choices for programming languages based on the libraries and communities that use those tools, not on the characteristics of the languages themselves.

Y, por supuesto, optimizando su tiempo, prácticamente usando ‘recetas’.

... but within the constraint that they’re trying to optimize their time. ... “Recipes” of how to do things in R are just fine for them.

Tampoco utilizan herramientas de control de versiones, y su preocupación son los datos y los resultados.

They write code (often, no more than a screenful) to get a job done, then throw the code away. They care about the data and the results, not the code. If you don’t invent new abstractions and you don’t reuse code, what does Github buy you?

Y, naturalmente, utilizan los LLMS (IAs) para obtener el código que necesitan, como ha estudiado Gabrielle O’Brien (Elle).

She finds that “scientists often use code generating models as an information retrieval tool for navigating unfamiliar programming languages and libraries.”

No sin verificar el resultado (trabajo riguroso, claro).

I was impressed with how much effort the scientists that she studied put into checking what the LLMs produced.

Aunque a veces estas herramientas añaden problemas que no son fáciles de detectqar, con lo que es posible que se estén teniendo alguna influencia negativa en sus resultados.

And yet, the LLMs still inserted bugs that the scientists missed. LLMs are absolutely nefarious in how and where they generate bugs. Elle raises the possibility that LLMs are having a negative influence on the scientific enterprise.

Información adicional: How Scientists Use Large Language Models to Program.

Porque, como dice el mismo autor en CS doesn’t have a monopoly on computing education: Programming is for everyone. Lo ilustra a través de varios ejemplos:

  • Los estudiantes de Justicia Social, por ejemplo deberían estudiar (según sus rprofesores) cómo se pueden crear páginas web a partir de bases de datos.
  • En las ramas científicas estarían más interesados en la ciencia de datos (cálculo, limpieza de datos, visualización,…)
  • En ramas de las ciencias sociales puede ser interesante conocer el lenguaje R para estadística y visualizaciones.
  • Muchos usuarios utilizan operaciones vectoriales (no bucles o estructuras iterativas).

Pero lo interesantes es que en muchos estudios de informática estas cuestiones no se enseñan por diversos motivos.

La conclusión para el autor es que la informática que se estudia no es la que necesitan las personas que no van a dedicarse la informática.

Learning to program is a form of computing education, but computer science is not typically teaching the things that non-CS majors need to program, so computing education is moving away from Computer Science (field, departments, teachers). Computer science no longer has a monopoly on computing education.

La pregunta es si los que nos dedicamos a este tipo de enseñanza deberíamos acercarnos a estas otras necesidades de informática (yo creo que sí).

Computer science departments should offer computer science educationWe obviously need lots of people who know computer science, including many professional software developers. But most people who program will not be computer science majors (e.g., see this 2017 Oracle study). The needs for computing education must also be met.

La forma en que programamos va a cambiar

Marionetas orientales

En The End of Programming as We Know It una discusión sobre el tema que está más o menos en un montón de sitios relacionados con el tema: desde los que dicen que ya no vale la pena aprender porque lo harán las máquinas por nosotros a los de esto solo produce problemas y desastres, con todas las graduaciones intermedias.

Tim O’Reilly empieza diciendo que no se lo cree.

There’s a lot of chatter in the media that software developers will soon lose their jobs to AI. I don’t buy it.

Aunque matiza que seguramente sí que es el fin de la disciplina y tal y como la conocemos, lo que tampoco es nuevo: al principio se programaba de una forma (prácticamente uniendo cables y enchufando cosas) y luego todo ha ido evolucionando.

It is not the end of programming. It is the end of programming as we know it today. That is not new. The first programmers connected physical circuits to perform each calculation.

Lo mismo sucedió con los sistemas operativos: los primeros usuarios tenían que programar sus propios drivers, luego compilarlos, y finalmente Windows (dice él) nos trajo la independencia en ese tema.

Consumer operating systems were also a big part of the story. In the early days of the personal computer, every computer manufacturer needed software engineers who could write low-level drivers that performed the work of reading and writing to memory boards, hard disks, and peripherals such as modems and printers. Windows put an end to that.

Pero la consecuencia fue que, al final, había más programadores y no menos.

This was far from the end of programming, though. There were more programmers than ever.

Luego habla de la web como nuevo ‘final’ y los resultados que lo contradicen.

Así que la pregunta es, ahora que cualuqiera que no sabe programar puede utilizar una IA para hacer un programa ¿qué sucederá?

Suddenly, though, it is seemingly possible for a nonprogrammer to simply talk to an LLM or specialized software agent in plain English (or the human language of your choice) and get back a useful prototype in Python (or the programming language of your choice).

Al final, nos dice, se trata de un avance que pone la potencia computacional en manos de más gente, pero también la posibilidad de crear más servicios y todo lo que llevan asociado. Sin olvidar los que proporcionan servicios a toda esta ‘nueva magia’.

But that same breakthrough also enables new kinds of services and demand for those services. It creates new sources of deep magic that only a few understand.

Así que probablemente lo que habrá será una transformación: mucho de lo que se hace hoy en día será obsoleto (igual que los conocimientos de los primeros programadores).

AI will not replace programmers, but it will transform their jobs. Eventually much of what programmers do today may be as obsolete (for everyone but embedded system programmers) as the old skill of debugging with an oscilloscope.

Tampoco cree que los jóvenes vayan a ser los damnificados, sino aquellos que sigan empeñados en las viejas costumbres.

... it is not junior and mid-level programmers who will be replaced but those who cling to the past rather than embracing the new programming tools and paradigms.

Su predicción es que la gente creará, utilizará y refinará más programas, y que aparecerán nuevas industrias para gestionar lo que creen.

People will be creating, using, and refining more programs, and new industries will be born to manage and build on what we create.

Definitivamente, lo que sí que cambiará es lo que llamamos programar y el nivel de abstracción manejado.

In a recent conversation, he told me, “We’re in the middle of inventing a new programming paradigm around AI systems. When we went from the desktop into the internet era, everything in the stack changed, even though all the levels of the stack were the same. We still have languages, but they went from compiled to interpreted.

Por un lado, parece que los usuarios tradicionales dicen que son mucho más productivos con la IA, pero no lo estamos notando en los programas que producen:

calls this the 70% problem: “While engineers report being dramatically more productive with AI, the actual software we use daily doesn’t seem like it’s getting noticeably better.”

Por otro lado, los nuevos usuarios pueden terminar presentando prototipos y demostraciones realmente impresionantes, pero no tienen la formación adecuada (o los conocimientos suficientes) para conseguir productos que realmente resuelvan problemas.

He notes that nonprogrammers working with AI code generation tools can get out a great demo or solve a simple problem, but they get stuck on the last 30% of a complex program because they don’t know enough to debug the code and guide the AI to the correct solution.

Y la clave, probablemente, de todo este cambio es que la IA nos pone a pensar de una forma nueva: resolver lo que realmente requiere pensar.

I don’t think AI introduces a new kind of thinking. It reveals what actually requires thinking.

Porque hay mucho trabajo por hacer, pero la IA sola no lo hará.

In short, there is a whole world of new software to be invented, and it won’t be invented by AI alone but by human programmers using AI as a superpower. And those programmers need to acquire a lot of new skills.

Podemos convertirnos en mucho más ambiciosos.

As Simon Willison, a longtime software developer who has been at the forefront of showing the world how programming can be easier and better in the AI era, notes, AI lets him “be more ambitious” with his projects.

YouTube: ¿qué sube la gente normal y para qué lo usa?

Lo que (no) se ve delante de la cámara

Se habla mucho del algoritmo (como si solo hubiera uno, o como metáfora de un pretendido dominio por parte de alguien que maneja algo que influye sobre nuestra voluntad). Da para titulares jugosos y esta vez traemos The hidden world beneath the shadows of YouTube’s algorithm un tema que parece más sugerente que en otras ocasiones.

Empieza diciendo que la mayoría de los vídeos que hay alojados en YouTube no han sido vistos ni una sola vez.

The vast majority of YouTube's estimated 14.8 billion videos have almost never been seen.

Esto es, cuando hablamos de YouTube y la gente que publica nos estamos concentrando en una pequeña parte de la cosa: lo que es popular y, por lo tanto, estamos dejando de lado a mucha gente y sus motivaciones.

"The conversations we're having about YouTube are based on an impoverished view of what the platform really is," says Ryan McGrady, senior researcher at the Initiative for Digital Public Infrastructure at the University of Massachusetts Amherst, US. "When we just focus on what's popular, we miss how the vast majority of people actually use YouTube as uploaders, and overlooking the role it plays in our society."

Pero más allá de lo popular, hay un montón de vídeos que sirven para que unas pocas personas los vean, o incluso como archivo personal.

Most of these videos aren't meant for us to see. They exist because people need a digital attic to store their memories. It's an internet unshaped by the pressures of clicks and algorithms – a glimpse into a place where content doesn't have to perform, where it can simply exist.

Según McGrady la mediana de vistas de un vídeo es de 41, y si el vídeo se ha visto más de 130 veces estamos hablando de uno de los que están en el primer tercio de popularidad.

Among the findings, the researchers estimate that the median video has been watched just 41 times. Posts with more than 130 views are actually in the top third of the service's most popular content. In other words, the vast majority of YouTube is practically invisible.

Y esto nos lleva a la motivación (equivocada) que asumimos que tiene cualquiera que sube un vídeo: tratará de ser un famoso (influencer) y si no lo consigue es un fracaso.

We tend to assume the reason to use social media is to try to be an influencer, either you're Joe Rogan or you're a failure. But that's the wrong way to think about it,

Encontrar o no los vídeos viene mediado por los algoritmos de búsqueda y recomendación de la plataforma, y eso significa ser capaces de determinar qué querrá ver el usuario que la usa.

The algorithm's job is to help people find the videos they want to watch and that will give them value, YouTube says...

Pero si no seguimos las recomendaciones lo que podemos ver es a gente mostrando sus momentos personales y utlizando las herramientas para comunicarse.

Without the algorithm's recommendations, you'll find that YouTube is a study of the everyday, Zuckerman says, people documenting small moments in their lives and using the available tools to exchange ideas.

Por ejemplo, es común en el sudeste asiático que se utilice para comunicarse entre personas que no saben escribir o no lo hacen muy bien.

In South Asia, for example, Zuckerman says YouTube and similar networks seem to function as a video messaging tool for people with low or no literacy.

La mayoría del contenido proviene de fuera de EEUU, con más de un 70% de vídeos que utilizan idiomas diferentes del inglés.

Most of YouTube comes from outside of the US, in fact. Zuckerman's lab has estimated that over 70% of YouTube videos are in languages other than English.

También es cierto que si estos vídeos se convirtieran en ‘virales’ o populares podría ser un pequeño (o grande) desastre para los interlocutores.

"If any of these videos went viral, it would mean something went terribly wrong. That's not what most of YouTube for," Zuckerman says.

Ponen unos cuantos ejemplos (sin enlaces, claro) e incluso muestran las motivaciones de algunas personas, que están ahí por el simple gusto de mostrar lo que hacen y cómo eso les hace felices.

"I don't get a big audience a lot of the time, but that doesn't bother me. I was just so in love with how happy it made the dogs that at some point I thought 'I gotta share this',"

También nos habla de otras investigaciones, según las cuales el sistema de recomendaciones amplificaría la negatividad, y da poco control sobre lo que no queremos ver.

Research suggests YouTube's algorithm amplifies negativity, reinforces stereotypes and gives users little control over the content they don't want to see.

No solo eso, sino también podría ayudar a difundir contenido relacionado con el odio, extremismos políticos y desinformación. Incluso para captar personal para los cárteles de narcotraficantes y grupos terroristas.

... concerns about hate speech, political extremism and misinformation. Along with other social media platforms, YouTube has been utilised by drug cartels and harnessed by terrorists as a tool for promotion and recruitment.

Siempre podemos borrar nuestro historial, para empezar de cero con las recomendaciones y algo que yo aconsejo a quien me lo pregunta (siempre lo he dicho por aquí): esforzarnos un poco en no dejarnos guiar por nuestros instintos y realizar acciones (pasar un vídeo, por ejemplo, o hacer una búsqueda) cuando las recomendaciones no sean correctas para nosotros. La pereza es mala consejera.