William Kilbride

William Kilbride

Last updated on 3 December 2021

[sigue la versión en español]

In November I was invited to speak to the members of RIPDASA in Latin America on the theme of environmental sustainability and digital preservation. This presentation gave me scope to expand a short provocation given on the same theme on the fringes of COP26 which we have also published.  It is not exactly a deep dive, but more than a toe in the water.  You can also watch the video of the presentation which includes Spanish subtitles.

Thank you very much for the invitation to join you today to share some thoughts about the relationship between digital preservation and environmental sustainability.  There’s quite a lot we could say on this issue, so I’d like to cover a lot of ground in the next 15 minutes or so.  I have 5 themes.

Firstly, I want to define the digital preservation problem as this will help establish the scope for discussion that follows. Then I want to clarify the relationship between preservation and disposal and look at the opportunities that digital preservation creates to manage and reduce the amount of data we retain.  I will then dig a bit more deeply into the ways in which digital preservation consumes energy and the implications that arise from efforts to reduce this consumption.  The origin of the energy also matters tremendously as do expectations about access. Towards the end I will take a brief detour into the history of digital preservation as this is not irrelevant to our work.  Changes which will disrupt the digital economy will also disrupt our understanding of digital preservation.  Finally, I want to reflect on the DPC and how we’re beginning to make changes in our own work.

 

So firstly, a brief definition of digital preservation.  It’s “the series of managed activities necessary to ensure continued access to digital materials for as long as necessary.” The words in bold are important.  It’s a process not an event; it fits within a managed framework; it’s about access which means more than just backup or storage; and it’s for as long as necessary – not forever and certainly not everything.  Digital lifecycles are short so lots of agencies which are not archives in the traditional sense have a digital preservation problem.

What’s in scope?  An awful lot is in scope for digital preservation: born-digital and digitized; structured and unstructured; ephemeral and essential.  Really any digital object where the lifecycle and use case is longer than the lifecycle of the infrastructure on which it was created.

On the face of it, digital preservation might sound like keeping lots of things and that sounds energy intensive.  That could be true, but only if you did it badly. 

Good digital preservation is also about keeping control over the digital estate and creating permission to dispose – what to get rid of and when to get rid of it. It might sound strange that I talk about disposal at the start of a presentation about digital preservation: but the two are connected.  Digital preservation is the opposite of unmanaged proliferation.  We can at least agree about the opportunity to de-duplicate.  

One of the most frequently asked questions in digital preservation is how many copies should we keep?  There’s no real answer to that because it depends on the use cases.  But a rule of thumb would suggest that three copies is the minimum we would need to keep, on the basis that you need to poll two files to establish if a third one is corrupt.  I can imagine there is a case for more copies but, remember that the more copies you have you start to introduce noise into the system too: so taken to extremes too many more means greater risk not less.

So from the perspective of digital preservation I am suggesting that we need to triple the data storage.  That sounds like it could quickly get out of hand. But let’s remember that as good archivists we’ve already selected the most important parts of the digital estate for preservation – those parts which we don’t want to leave to the mercy of bitrot or format obsolescence or corporate disruption.  So although I am calling for three copies, it’s based on a small percentage of the collection.  When we make that selection we give ourselves permission to dispose of the other 90 percent. 

My argument therefore is that a digital preservation strategy provides an informed and sustainable basis for reducing your data footprint, and by extension your carbon consumption too.

As an aside, there are particular challenges associated with preserving long-range scientific data about climate change.  It stands to reason we would want to preserve such data because its value and usefulness grows through time.  But universities here in the UK and in the US have faced quite serious ‘denial of service’ attacks because have published findings or gathered data which might be considered hostile to vested interests.  There have been concerted if obscure efforts to make research institutions think twice before engaging in climate science. 

So, while there is a very strong intellectual case about preserving scientific data about the environment, different types of risk also arise.

Considering the large numbers involved, one might be tempted to think of storage as the energy intensive bit of preservation.  It doesn’t have to be, especially insofar as energy can be drawn from renewables.  The source of the energy matters a great deal as does the type of storage used.

There are some good – and some very bad practices in the management of data centres and cloud computing.  There are economies of scale: a small number of large data centres will generally consume less energy than a large number of small ones. This is one of the claimed benefits of cloud computing, though not all commentators agree. A data centre consumes the same amount of energy as around 5000 homes, not to mention the costs and environmental cost (catastrophe) of power distribution, so let’s not think that the cloud is some ethereal and intangible summer’s day. Remember also the extent to which cloud service providers are dependent on public subsidy, no matter how much they look like private corporations.

It’s really an issue about energy supply, and how much we trust the cloud service providers to tell the truth about where they get their electricity.

For example, data centres operated by Google and Apple in North Carolina take energy directly from the state’s power grid which in turn depends on around 50% of its supply from coal and 39% from nuclear. Now if you are already in North Carolina, you would still achieve carbon reductions by using a cloud data centre over a proliferation of local networked drives in a series of small data centres all drawing on the same supply. But if you were in Finland it would be ecological madness to use a service in North Carolina. The CSC data centre in Kajaani, established with access to its own hydro-electric plant, means that Finnish researchers can store and access their data with virtually zero carbon emissions

Every touchpoint in a digital preservation workflow requires energy – ingest workflows, migration or access for example. So as well as reducing the data volumes we need to ask how many times a file needs to be processed.  This is immensely dependent.  There are some high value or high risk environments where the chain of custody really matters and you’d want to monitor the integrity of a file more or less continuously.  But computing across a large data set is going to require processor time and the larger the data set the more energy that will require. So there’s an argument about creating a risk profile and acting strategically depending on the real risks that arise.

Migration too might be an example of this.  Should we migrate and normalize files on receipt at the repository, or do we migrate only when the need arises.  There are argument both ways again depending on the specific use case: but it’s time that we include the energy cost of migrating files in the discussion.

Finally, remember that instant access means spinning disks and if it’s global access then it’s likely to be cached in numerous locations around the world.  Spinning disks are very intensive for energy consumption as against tape or offline disk storage, but both of those are a lot slower in terms of delivery.  Offline storage comes with slower access so is less good for the user, but is much healthier for the planet.

There’s a habit in digital preservation to treat objects as either preserved or not preserved, and to treat repositories as ‘trusted’ or not.  But considering the climate emergency I am beginning to think we need to admit the possibility of something in between.  Files which are checked occasionally, formats that are not migrated unless someone really needs them, access which is slower but more sustainable.

Before we end I want to step back for a moment and reflect on the seriousness of the challenge ahead of us with respect to the climate crisis.

This presentation occurs in the context of a major effort to recalibrate and intensify efforts to address climate change. A mile or so down the road from me here in Glasgow world leaders at COP26 are working through the cause and consequences of the climate crisis, and debating plans, if there are any, to avert the ensuing human calamity.  It’s hard to imagine anything more important and I sincerely hope that delegates there have no shortage of ambition.  It may seem strange to be talking about digital preservation while such great matters are at stake, but the roots of our challenge are tangled with the roots of the bigger one. 

Although you can certainly find earlier examples, digital preservation really emerged in the mid-1990s in response to the widespread move from analogue to digital, brought about by the home computer and then the Internet.  Although we spend a lot of time resolving issues of technology and meaning-making, the origins and causes of digital preservation are really entwined with the social and economic forces that have propelled the digital shift.  Digital preservation is symptomatic of the accelerating cycles of innovation, adoption and disruption which have characterized information technology in the last fifty years. Market forces mean we are locked – we have locked ourselves - into short lifecycles of technology, where obsolescence is taken for granted and infrastructures are disposable. One might be tempted to call this obsolescence as a service; it’s just not clear whom the obsolescence serves. I sometimes think of digital preservation as an insurgency against the deeply embedded economic forces which sit behind technology: a kind of obsolescence rebellion against non-renewable consumption. 

I am dithering: my point is that the climate crisis will impact almost every aspect of our lives. It’s possible – in fact very likely – that we have unsustainable assumptions embedded into our professional practice and our institutions.  The climate crisis will challenge these, and we need to be ready for the disruption that will follow.

A pivot to sustainable long-term business models in the technology sector will alter how we approach preservation.  As with digital preservation, so with the climate crisis: short term thinking serves no one in the long term.   

The best long-term answer, the only one which will ultimately succeed will be to make obsolescence obsolete.

Finally, to the DPC.  I will freely admit our own work on green issues has been too sketchy for too long.  I spoke to a conference session about this in 2010, but it was an empty room: no one seemed very interested.  It didn’t occur to us to include carbon costs into the cost models and risk management tools we have developed over the years.   But that’s changing.  For example, we have now written environmental impacts into the Rapid Assessment Model, so DPC members are being invited to embed benchmarks about energy consumption and green policies withing their digital preservation activities. The DPC’s new strategic plan will explicitly commit us to the Sustainable Development Goals, and we’re going to set these not simply as aspirations or values as they were before, but as auditable goals for which we will be accountable.

As with climate action, so with digital preservation, we have a relatively simple choice: to act in earnest with courage now or throw our hands in the air and hope that something arises.   To be an ancestor or be a good ancestor. That’s an easy choice.


Esta publicación es de una presentación reciente a los miembros de RIPDASA en América Latina, y es una continuación de una versión más corta sobre el mismo tema: Preservación digital sostenible.

También, puede ver la grabación de la de la presentación que incluye subtítulos en español. 

Muchas gracias por la invitación a unirse a ustedes hoy para compartir algunas reflexiones sobre la relación entre la preservación digital y la sostenibilidad ambiental.  Hay mucho que podríamos decir sobre este tema, así que me gustaría cubrir mucho terreno en los próximos 15 minutos.  Tengo cinco temas.

En primer lugar, quiero definir el problema de la preservación digital, porque esto ayudará a establecer el alcance de la discusión que sigue. Luego quiero aclarar la relación entre la preservación y la disposición, y analizar las oportunidades que crea la preservación digital para administrar y reducir la cantidad de datos que retenemos.  Luego hablaré un poco más en las formas en que la preservación digital consume energía y las implicaciones de los esfuerzos para reducir este consumo.  El origen de la energía también es importante, al igual que las expectativas sobre el acceso. Para concluir daré una breve perspectiva en relación con la historia de la preservación digital, y por qué es relevante para nuestro trabajo.  Los cambios que interrumpirán la economía digital también interrumpirán nuestra comprensión de la preservación digital.  Finalmente, quiero reflexionar sobre el DPC y cómo estamos haciendo cambios en nuestro propio trabajo.

Así que, en primer lugar, una breve definición de preservación digital.  Es “la serie de actividades administrados necesarias para garantizar el acceso continuo a los materiales digitales durante el tiempo que sea necesario."  Las palabras fuertes son importantes. Es un proceso, no un evento; preservación digital es un parte de un marco administrado; se trata de acceso, lo que significa más que solo copia de seguridad o almacenamiento; y es durante el tiempo que sea necesario, no para siempre y ciertamente no todo.  Los ciclos de vida digitales son cortos, por lo que muchas instituciones que no son archivos afrontan problemas de preservación digital.

¿Qué hay en el panorama?  Una gran cantidad de información está en el alcance de la preservación digital: nacido digital y digitalizado; estructurada y desestructurada; efímero y esencial. En realidad, es cualquier objeto digital que tiene un ciclo de vida y un uso más largo que de la infraestructura en la que se creó.

Por lo visto, la preservación digital suena como mantener muchas cosas y eso nos lleva a pensar en un intensivo en energía. Eso podría ser verdad, pero solo si la preservación digital se hizo mal.

La buena preservación digital también se trata de mantener el control sobre el patrimonio digital y crear permiso para disponer: de qué deshacerse y cuándo deshacerse de él. Quizás suena extraño que hablo de la eliminación al comienzo de una presentación sobre preservación digital: pero los dos están conectados.  La preservación digital es lo opuesto a la proliferación no administrada. Al menos podemos estar de acuerdo sobre la posibilidad de eliminar duplicados.

Una de las preguntas más frecuentes en preservación digital es “¿cuántas copias debemos preservar?”  No hay una respuesta real a eso porque depende de los casos de uso.  Pero una vía sugiere que tres copias es el mínimo que necesitamos mantener, porque es necesario sondear – evaluar dos archivos para establecer si un tercero está corrupto.  Me imagino que hay un caso para más copias, pero recuerda que más copias introducen ruido en el sistema también: entonces, en el extremo, demasiadas más copias significan mayor riesgo, no menor.

Así que, desde la perspectiva de la preservación digital, estoy sugiriendo que necesitamos triplicar el almacenamiento de datos.  Eso suena como que podría salirse de control rápidamente. Pero recordemos que como buenos archivistas ya seleccionamos las partes más importantes del patrimonio digital para su preservación, aquellas partes que no queremos abandonar a “bitrot” o de la obsolescencia del formato o dependencia de los planes cambiantes de los proveedores de servicios.  Entonces, aunque deseo contar con tres copias, en realidad estas son tres copias de una pequeña parte de la colección. Cuando hacemos esa selección nos damos permiso para deponer el resto. 

Por lo tanto, mi argumento es que una estrategia de preservación digital proporciona una base informada y sostenible para reducir su huella de datos y, por extensión, también su huella de carbono.

Además, existen retos específicos asociados con la preservación de datos científicos a largo plazo sobre el cambio climático. Tiene sentido que queramos preservar estos datos porque su valor y utilidad crecen con el tiempo. Pero las universidades aquí en el Reino Unido y en los Estados Unidos se han enfrentado a ataques bastante graves de "denegación de servicio" porque han publicado o recopilado datos que podrían considerarse contras a los intereses creados.  Ha habido esfuerzos concertados, aunque oscuros, para hacer que las instituciones de investigación reconsideren su participación en la ciencia del clima.

Por lo tanto, si bien existe un caso muy fuerte sobre la preservación de datos científicos sobre el medio ambiente, hay diferentes tipos de riesgo también.

Teniendo en cuenta el gran número involucrado, el almacenamiento parece la parte de preservación que gasta más energía.  No tiene qué ser así, especialmente porque la energía se puede extraer de las energías renovables.  La fuente de la energía es tan importante como el tipo de almacenamiento utilizado.

Hay algunas prácticas buenas y algunas prácticas muy malas en la administración de centros de datos y computación en la nube.  Hay economías de escala: un pequeño número de grandes centros de datos generalmente consumirá menos energía que un gran número de pequeños. Este es uno de los beneficios que sustentan la computación en la nube, aunque no todos están de acuerdo.  Un centro de datos consume la misma cantidad de energía que alrededor de 5000 casas (sin los costes y el coste medioambiental (catástrofe) de la distribución eléctrica), así que no pensemos que la nube es perfecta. Recuerde también que los proveedores de servicios en la nube dependen de los subsidios públicos, aunque parezcan a las corporaciones privadas.

En realidad, es un problema de suministro de energía y siempre confiamos en que los proveedores de servicios en la nube digan la verdad en relación a dónde obtienen su electricidad.

Por ejemplo, los centros datos operados por Google y Apple en Carolina, Estados Unidos, toman energía directamente de la red eléctrica del estado, que a su vez depende de alrededor del 50% de su suministro de carbón y el 39% de la energía nuclear. Ahora, si ya está en Carolina, aún lograría reducciones de carbono por el uso de un centro de datos en la nube en lugar de una proliferación de unidades locales en red en una serie de pequeños centros de datos, todos usando el mismo suministro. Pero si está en Finlandia, sería una locura ecológica usar un servicio en Carolina, Estados unidos. El centro de datos CSC en Kajaani ha establecido acceso a su propia planta hidroeléctrica, que significa los investigadores finlandeses pueden almacenar y acceder a sus datos con emisiones de carbono prácticamente nulas.

Cada punto de contacto en un proceso de preservación digital requiere energía: ingesta, migración, acceso, por ejemplo. Por lo tanto, además de reducir los volúmenes de datos, debemos preguntar cuántas veces se debe procesar un archivo. Esto es inmensamente dependiente. Hay algunos entornos de alto valor o alto riesgo donde la cadena de custodia es muy importante y quiere   monitorear la integridad de un archivo de manera continua.  Pero la computación a través de un gran conjunto de datos va a requerir tiempo de procesador y cuanto más grande sea el conjunto de datos, más energía requerirá.  Así que hay un argumento sobre la creación de un perfil de riesgo y sobre la necesidad de actuar estratégicamente en función de los riesgos reales que surjan.

La migración podría ser un ejemplo de esto también.  ¿Debemos migrar y normalizar los archivos al recibirlos en el repositorio, o migramos solo cuando surge la necesidad?  Hay argumentos en ambos sentidos dependiendo del caso de uso específico: pero tenemos que incluir el costo de energía de la migración de archivos en la discusión.

Finalmente, recuerde que el acceso instantáneo significa que necesitamos discos giratorios y, si queremos acceso global, probablemente el dato se almacena en caché en numerosas ubicaciones de todo el mundo. Los discos giratorios son muy intensivos para el consumo de energía comparado con almacenamiento en cinta o disco fuera de línea, pero ambos son mucho más lentos.  El almacenamiento fuera de línea proporciona acceso más lento, por lo que es menos bueno para el usuario, pero es mucho más saludable para el planeta.

Hay el hábito en la preservación digital de tratar los objetos como preservados o no preservados, y tratar los repositorios como "confiables" o no.  Pero teniendo en cuenta la emergencia climática, empiezo a pensar que debemos admitir la posibilidad de algo intermedio: archivos que se comprueban ocasionalmente, formatos que no se migran hasta alguien realmente los necesite, acceso que es más lento pero más sostenible.

Antes de que terminemos, quiero reflexionar sobre la gravedad del desafío que tenemos con respecto a la crisis climática.

Esta presentación está ocurriendo en el contexto de un esfuerzo importante para recalibrar e intensificar los esfuerzos para abordar el cambio climático. A una milla más o menos de mí, aquí en Glasgow, los líderes mundiales en la COP26 están trabajando en la causa y las consecuencias de la crisis climática, y debatiendo planes, si los hay, para evitar la consiguiente calamidad humana. Es difícil imaginar algo más importante y espero sinceramente que a los delegados no les falte ambición.  Puede parecer extraño estar hablando de preservación digital mientras están en juego asuntos tan grandes, pero las raíces de nuestro desafío están enredadas en las raíces del más grande. 

Aunque se pueden identificar diversos antecedentes, la preservación digital realmente surgió en la década de 1990 en respuesta al movimiento generalizado de analógico a digital, provocado por la computadora doméstica y el internet.  Aunque pasamos mucho tiempo resolviendo problemas de tecnología y creación de significado, los orígenes y las causas de la preservación digital están entrelazados con las fuerzas sociales y económicas que han impulsado el cambio digital.  La preservación digital es sintomática de los ciclos acelerados de innovación, adopción y disrupción que han caracterizado a la tecnología de la información en los últimos cincuenta años. Las fuerzas del mercado significan que estamos encerrados - nos hemos encerrado - en ciclos de vida cortos de la tecnología, donde la obsolescencia se da por sentada y las infraestructuras son desechables. Podemos llamar a esta “obsolescencia como un servicio;” pero no está claro a quién sirve la obsolescencia. A veces pienso en la preservación digital como una insurgencia contra las fuerzas económicas profundamente arraigadas que se encuentran detrás de la tecnología: un tipo de rebelión de obsolescencia contra el consumo no renovable.

Mi punto es que la crisis climática afectará a casi todos los aspectos de nuestras vidas. Es muy probable, que tenemos supuestos insostenibles en nuestra práctica profesional y nuestras instituciones. La crisis climática desafiará estos supuestos, y debemos estar preparados para la interrupción que seguirá.

Modelos de negocio sostenibles a largo plazo en el sector de la tecnología también debería alterar la forma en que abordamos la preservación.  Como la preservación digital, también con la crisis climática: el pensamiento a corto plazo no sirve a nadie a largo plazo.

La mejor respuesta a largo plazo, la única que finalmente tendrá éxito será hacer obsoleta la obsolescencia.

Por último, al DPC.  Admitiré que nuestro propio trabajo sobre temas ecológicos ha sido incompleto durante demasiado tiempo. En 2010, hablé en una conferencia sobre esto, pero era una habitación vacía: nadie parecía muy interesado. No se nos ocurrió incluir los costos de carbono en los modelos de costos y herramientas de gestión de riesgos que hemos desarrollado a lo largo de los años. Pero eso está cambiando.  Por ejemplo, ahora hemos escrito los impactos ambientales en el Modelo de Evaluación Rápida y los miembros de DPC están invitando a incorporar puntos de referencia sobre el consumo de energía y las políticas ecológicas con sus actividades de preservación digital. El nuevo plan estratégico del DPC nos comprometerá explícitamente con los Objetivos de Desarrollo Sostenible, y los vamos a establecer no simplemente como aspiraciones o valores como lo eran antes, pero como objetivos auditables de los que seremos responsables.

Al igual que con la acción climática, también con la preservación digital, tenemos una opción relativamente simple: actuar en serio con coraje ahora o lanzar nuestras manos al aire y esperar que surja algo.   Ser un antepasado o ser un buen antepasado. Esa es una elección fácil.


Scroll to top