Bitácora de fernand0 Cambiando de aires

Las inteligencias artificiales, la web abierta y nosotros

Arcos y rejas

Por aquí ya llevamos tiempo hablando del mal estado de la web: sigue siendo fácil crear páginas, mantenerlas, gestionarlas … El único límite es el interés de la gente por crearlas. Pero también es verdad que ahora hay herramientas mucho más sencillas para publicar en internet (no siempre en la web) y mucha gente no se da cuenta de las limitaciones de ese modelo hasta que ya es tarde (te borran la cuenta, quieres encontrar algo, …). En el acceso pasa algo parecido: es más cómodo entrar en esos sitios donde es fácil publicar y dejarnos llevar por el flujo de imágenes/contenidos que se nos van mostrando.

El otro día leía ¿Está llegando el fin de la web abierta? El control de la IA y la desaparición de los pequeños en favor de los gigantes donde se habla de un nuevo ‘enemigo’: si las inteligencias artificiales nos van a dar los datos que necesitamos, ¿quién va a navegar por la web buscando información?

Hoy en día, cuando hacemos una búsqueda, esperamos recibir una lista de enlaces con páginas que contienen información relevante. Pero cada vez más, las IAs están eliminando ese paso intermedio y ofreciéndonos la respuesta directamente.

Claro, eso puede ser un problema porque nada ni nadie nos garantiza que la información que proporcionarán esas IAs será la que necesitamos sin censura ni transformaciones de conveniencia.

Si las IAs controlan el acceso al conocimiento, surge un problema aún mayor: unas pocas empresas decidirán qué información es relevante y cuál no.

Por lo tanto David nos recuerda que parte de la solución está en nuestras manos: las IAs abiertas y descentralizadas, fomento de plataformas alternativas (no solo las nacidas de las grandes empresas), regulación del acceso (protección del acceso para todo el mundo), y fortalecer la web abierta.

Veo difícil las tres primeras, fundamentalmente porque la historia nos demuestra que en estos juegos el ganador se lo lleva (casi) todo y es muy difícil romper esas dinámicas (tampoco es que haya grandes esfuerzos en ese sentido). Sobre la cuarta, aquí estamos (seguimos) tratando de mantener un espacio y, tal vez, animar a otras personas a tenerlo. Pero casi reconociendo desde el inicio que no vamos a ganar, ni siquiera a ser suficientemente relevantes.

Como dice David:

¿Estamos listos para dejar que esto ocurra? Si queremos un futuro digital libre, ahora es el momento de actuar.

La gobernanza de las universidades y la política (en EEUU)

Gaudeamus Igitur

En EEUU las universidades están atravesando momentos difíciles (por aquí también hay casos, porque, como ya hemos dicho en otras ocasiones y aunque los modelos son bastante diferentes, los políticos -pero no solo ellos, el entorno también marca direcciones- influyen mucho en lo que puede pasar).

En Who actually runs Columbia University? hablan del caso de la Universidad de Columbia y sus problemas de gobierno. La cuestión es algo ténica, pero esencialmente parece que uno de los miembros de la junta directiva (compuesta por personas que no son académicos) sin consultar a las personas de la universidad.

For a member of the board of trustees to assume leadership of the university, without even the fig leaf of faculty consultation, has never occurred in the 271-year history of Columbia.

Todo esto se desarrolla en el contexto de la amenaza del presidente de seguir sus directrices o perder financiación (aunque, como decimos, no son públicas reciben fondos federales y de diversos organismos públicos).

Y, nos dicen, esto afecta a la libertad académica y a la propia gobernanza.

American universities, in their recent dealings with the federal government – and with their own trustees – have repeatedly shown themselves incapable of preserving the core values of academic freedom and shared governance.

Estas juntas directivas desempeñan un papel fundamental en asegurar la salud financiera y la estabilidad, pero en tiempos donde el gobierno quire influir en las universidades esto puede ser un problema grave, afectando a quién se contrata, qué líneas de trabajo se favorecen, incluso con motivaciones políticas de los propios directivos.

Trustees (sometimes called governors, regents, visitors or “members of the corporation”) have a lofty function: to ensure the financial health and stability of the institution, partly through their own donations. ... In our fraught times, these levers are in increasing use, especially by the Trump-driven Republican party, to target disciplines, departments and individual professors. Many boards have become political wolves in the guise of fiduciary sheep.

Habla un poco de las características de estos comités (formados por hombres blancos exitosos, en su mayoría) y sus sesgos e intereses, pero no entraremos en ello.

Sí, claro, dicen que esto es un caso en una Universidad concreta, pero que no es un caso único y por eso debería preocuparnos. La universidades públicas de allá tampoco se salvan.

The Columbia board is by no means unique. ... As far as public universities are concerned, ... In these regards, they are very much like their private counterparts.

Finalmente habla del contrato social de estos directivos y cómo deberían responsabilizarse de sus decisiones y recibir la adecuada vigilancia así como asegurarse de que siguen los valores y principios correctos.

Creating this new social contract will require two crucial steps. The first is to bring the full force of public scrutiny to bear on boards, their membership, their accountability and the checks on their powers. The second is to demand that all academic governing boards both reflect and defend the fundamental values of universities in a liberal democracy: freedom of academic speech, opinion and inquiry; procedural transparency; and demographic diversity.

Para no perder de vista.

La preservación digital y los riesgos actuales

Incunables en su contenedor

De vez en cuando hablamos de preservación digital y, en particular, de la web. En As the Trump administration purges web pages, this group is rushing to save them nos recuerdan que una parte de la web está siendo borrada de manera activa.

No solo páginas federales, que en algunos casos volvían modificadas, sino también conjuntos de datos (fundamentalmente relacionados con ciencia y medio ambiente).

After President Trump's inauguration in January, some federal web pages vanished. While some pages were removed entirely, many came back online with changes that the new administration's officials said were made to conform to Trump's executive orders to remove "diversity, equity, inclusion, and accessibility policies." Thousands of datasets were wiped — mostly at agencies focused on science and the environment — in the days following Trump's return to the White House.

Nos recuerdan de la existencia del Internet Archive y de su valioso trabajo, preservando sitios que van desapareciendo con el tiempo.

The nonprofit, founded in 1996, is a digital library of internet sites and cultural artifacts. This includes hundreds of billions of copies of government websites, news articles and data. The Wayback Machine is the archive's access point to nearly three decades of web history.

Cada día descargan varios teras de información, que archivan adecuadamente y luego ofrecen para su revisión.

Every day, about 100 terabytes of material are uploaded to the Internet Archive, or about a billion URLs, with the assistance of automated crawlers. Most of that ends up in the Wayback Machine, while the rest is digitized analog media — books, television, radio, academic papers — scanned and stored on servers.

Creo que es un proyecto que merece la pena apoyar (independientemente de quién sea el presidente de turno de los EEUU, su trabajo sería valioso aunque no hubiera alguien tratando de borrar información).

Y nos recuerdan que, incluso pasa en la Wikipedia: un número importante de sus enlaces corresponden a páginas que ya no existen, pero cuyo contenido se puede conocer gracias a este proyecto.

"I don't remember the page but, you know, a significant percentage of the links that were on the Wikipedia article are Internet Archive links," he said. "That is really sad — that what people view as a primary source is something that doesn't exist anymore."

También tienen amenazas legales, que pretenden desanimar el archivado y la labor de esta organización.

Founder Kahle said the costly lawsuits — which legal experts say are meant to be a deterrent — threaten the future of the archive.

Cuando los datos pasan de la nube a tu dispositivo y algo va mal

Ruta pasando por el puente del Tercer Milenio

Ya hace algún tiempo que perdimos la fe en Google. En Oops: Google says it might have deleted your Maps Timeline data un recordatorio de que mover datos es más complicado de lo que pensamos.

Google Maps es uno de mis servicios favoritos de Google y no hace mucho nos invitaron a guardar los datos en el dispositivo, en lugar de en su nube. En principio sería un manejo más respetuoso de los datos (porque se supone que ellos no los conservan), aunque no tanto (porque los pueden analizar antes de borrarlos, claro).

Se trata de los datos de localización (historial de visitas) que más de una vez me ha ayudado a saber dónde estuve tal día, o dónde saqué aquella foto.

El caso es que en la migración algunos usuarios han perdido sus datos.

Users started piping up over the past several weeks, posting on the Google support forums, Reddit, and other social media that their treasured Timeline data had gone missing.

Sería, según los portavoces de la empresa, un fallo y nada intencionado, pero los usuarios se han quedado sin la información.

A Google spokesperson confirmed this is the result of a technical issue and not user error or an intentional change.

Y esto nos lleva a dos cuestiones: ¿dejar los datos en la nube o en local? Desde luego, nadie gestiona mejor los datos que los profesionales, dedicados específicamente a ello y con mucha más dedicación de la que podemos tener nosotros.

Google, en todo caso, proporciona una solución intermedia, permitiendo almacenar una copia de seguridad, pero es una opción que hay que activar.

t’s good that Google still supports a secure backup option, but it’s not on by default.

Tener los datos en local tiene algunas ventajas (aunque en este caso no creo que la privacidad sea una de ellas); también para Google, porque si alguna autoridad se lo solicita no puede proporcionárselos (y eso sí que es una ventaja para nosotros, si las cosas vienen mal).

Pero, desde luego, la moraleja es que este tipo de cambios pueden ser traumáticos por muy profesional y cuidadoso que se sea.

Cómo los científicos utilizan la IA para sus programas y qué habría que enseñarles

Cátedra aula Fray Luis de León

En How scientists learn computing and use LLMs to program: Computing education for scientists and for democracy hablan del aprendizje de la informática por parte de científicos que la necesitan para su traabajo.

Hay recursos, nos dicen, abundantes:

I was surprised how much the scientists in her study needed more curation. There’s no lack of ways of learning data science — videos, tutorial, MOOCs, books, ...

Pero se trata de gente ocupada, así que deben ser selectivos en los recursos que utilizarán.

They were busy professionals. They struggled to find the right learning materials for their level of knowledge that matched what their field used.

Se da la paradoja de que la informática es ampliamente utilizada, pero cursar materias relacionadas es raro. Como consecuencia tenemos personas autodidactas o que aprenden lo que necesitan cuando les hace falta.

While programming is common across the sciences, actually taking CS classes is rare among scientists that we’ve worked with. Most of the programming science faculty we met are self-taught, or learned through apprenticeship from the labs and groups they came up through.

Esto les funciona, pero carecen de los recursos necesarios para tomar las decisiones de manera informada; eligen el lenguaje de programación porque se usa en su campo, y no por las características que pueda tener.

They are making choices for programming languages based on the libraries and communities that use those tools, not on the characteristics of the languages themselves.

Y, por supuesto, optimizando su tiempo, prácticamente usando ‘recetas’.

... but within the constraint that they’re trying to optimize their time. ... “Recipes” of how to do things in R are just fine for them.

Tampoco utilizan herramientas de control de versiones, y su preocupación son los datos y los resultados.

They write code (often, no more than a screenful) to get a job done, then throw the code away. They care about the data and the results, not the code. If you don’t invent new abstractions and you don’t reuse code, what does Github buy you?

Y, naturalmente, utilizan los LLMS (IAs) para obtener el código que necesitan, como ha estudiado Gabrielle O’Brien (Elle).

She finds that “scientists often use code generating models as an information retrieval tool for navigating unfamiliar programming languages and libraries.”

No sin verificar el resultado (trabajo riguroso, claro).

I was impressed with how much effort the scientists that she studied put into checking what the LLMs produced.

Aunque a veces estas herramientas añaden problemas que no son fáciles de detectqar, con lo que es posible que se estén teniendo alguna influencia negativa en sus resultados.

And yet, the LLMs still inserted bugs that the scientists missed. LLMs are absolutely nefarious in how and where they generate bugs. Elle raises the possibility that LLMs are having a negative influence on the scientific enterprise.

Información adicional: How Scientists Use Large Language Models to Program.

Porque, como dice el mismo autor en CS doesn’t have a monopoly on computing education: Programming is for everyone. Lo ilustra a través de varios ejemplos:

  • Los estudiantes de Justicia Social, por ejemplo deberían estudiar (según sus rprofesores) cómo se pueden crear páginas web a partir de bases de datos.
  • En las ramas científicas estarían más interesados en la ciencia de datos (cálculo, limpieza de datos, visualización,…)
  • En ramas de las ciencias sociales puede ser interesante conocer el lenguaje R para estadística y visualizaciones.
  • Muchos usuarios utilizan operaciones vectoriales (no bucles o estructuras iterativas).

Pero lo interesantes es que en muchos estudios de informática estas cuestiones no se enseñan por diversos motivos.

La conclusión para el autor es que la informática que se estudia no es la que necesitan las personas que no van a dedicarse la informática.

Learning to program is a form of computing education, but computer science is not typically teaching the things that non-CS majors need to program, so computing education is moving away from Computer Science (field, departments, teachers). Computer science no longer has a monopoly on computing education.

La pregunta es si los que nos dedicamos a este tipo de enseñanza deberíamos acercarnos a estas otras necesidades de informática (yo creo que sí).

Computer science departments should offer computer science educationWe obviously need lots of people who know computer science, including many professional software developers. But most people who program will not be computer science majors (e.g., see this 2017 Oracle study). The needs for computing education must also be met.