Het najagen van wind?
Over het archiveren van websites

Lezing Dag van het Document, 11 oktober 2000
Gerrit Voerman, hoofd Documentatiecentrum Nederlandse politieke partijen

Terwijl er de afgelopen jaren allerlei reddingsacties op touw zijn gezet om het in kranten en boeken vastgelegde 'papieren geheugen' voor de toekomst te behouden, verdwijnt tegelijkertijd het 'digitale geheugen'. Met dit laatste bedoel ik niet de digitale bestanden * waarvoor wat betreft de bewaring tegenwoordig meer aandacht is gekomen * maar de bouwstenen van het World Wide Web: de websites. Aan het begin van de jaren negentig deed het WWW zijn intrede, maar voor zover bekend worden nog nergens in de wereld de websites systematisch gearchiveerd en ontsloten. Er is wel hier en daar een bescheiden begin gemaakt met het archiveren van het web, waar ik straks nog op terugkom, maar dat neemt niet weg dat er reeds een groot deel van dit digitale erfgoed verloren gegaan. En hieraan lijkt voorlopig nog geen einde te komen. Voor toekomstig wetenschappelijk onderzoek naar de 'virtuele' wereld van het WWW als zodanig, voor zijn ontwikkeling en zijn relatie met de 'reële' samenleving, ontbreken derhalve de bronnen.

Het WWW breidt zich gigantisch snel uit: elke maand zouden er zo'n 20 miljoen pagina's bijkomen. Indien deze schattingen juist zijn, zal het WWW in de zomer van 2001 meer dan één miljard pagina's tellen. Het aantal sites ligt waarschijnlijk tegen de vier miljoen; maandelijks neemt dit aantal met 100 à 150.000 toe. Deze fabelachtige groei voltrekt zich ondanks het feit dat ook veel sites verdwijnen. Tegelijkertijd veranderen de meeste bestaande sites voortdurend: een paar seconden na een bezoek aan een site kan deze alweer gewijzigd zijn.

Pantha rhei, zou men in navolging van de Griekse filosoof Heraclitus kunnen zeggen. Ook op het web stroomt alles en is alles aan voortdurende verandering onderhevig. Dat geldt ook voor de websites van politieke partijen, waarin het DNPP met name in geïnteresseerd is. Politieke partijen waren redelijk snel op het web te vinden. In januari 1994 was GroenLinks de eerste partij die met een website begon. In een beweging van links naar rechts volgden de andere partijen: de PvdA in november 1994, D66 medio 1995, het CDA ook (juli 1995) en de VVD voorjaar 1997. De enige partij in de Tweede Kamer die nog geen site heeft is de SGP. Sinds het begin van hun aanwezigheid op het WWW hebben de meeste partijen al een keer of drie hun site compleet gerestyled. Van deze oudere versies is niets meer over. De eerste stappen van de Nederlandse politieke partijen op het WWW zijn dan ook niet meer te reconstrueren.

De sites worden belangrijker voor partijen. Zij zullen een steeds grotere rol gaan spelen in de informatievoorziening aan leden en kiezers. Dit blijkt nu ook al uit de veranderende inhoud van de partijbladen. Hoewel de meeste sites nogal top down gericht zijn, dus vooral bedoeld om informatie aan te bieden, mag verwacht worden dat het interactieve aspect in de toekomst ook meer gewicht zal krijgen. Er is dus alle reden om de digitale presentatie van partijen te documenteren of zo u wilt te archiveren, net zoals we dat bij de gedrukte publicaties ook doen. Onderzoekers van velerlei discipline (historici, sociologen, politicologen, communicatiewetenschappers) en journalisten kunnen hiermee hun voordeel doen. Het DNPP is dan ook dit jaar samen met de Universiteitsbibliotheek van de Rijksuniversiteit Groningen begonnen met de voorbereiding van de archivering en ontsluiting van de websites van de Nederlandse politieke partijen en hun nevenorganisaties. Dit project wordt gefinancierd door de Rijksuniversiteit Groningen en het IWI. Het gaat hier om de sites van de in de Staten-Generaal vertegenwoordigde partijen, maar ook om de partijen die niet in het parlement ziting hebben. Onderzoek naar deze laatste categorie is interessant omdat wel wordt beweerd dat het WWW door de lage kosten die aan een site verbonden zijn, de verschillen tussen de gevestigde partijen en nieuwkomers zou verkleinen. In een later stadium komen de sites van provinciale partijen in aanmerking, en die van landelijke politici. Hiervan zijn er overigens nog niet zoveel; opvallend is wel dat een aantal Europarlementariërs, die relatief ver van huis opereren, al wel enige tijd de voordelen van een website inzien.

Voor het DNPP is het archiveren van de websites van de partijen een logisch vervolg op de traditionele taak van het Documentatiecentrum, namelijk het verzamelen, catalogiseren, ontsluiten en beschikbaar stellen van gedrukte publicaties van en over partijen. Het project verkeert nog in zijn beginfase; concrete resultaten kan ik nog niet meedelen. Ik waarschuw u er nu alvast voor dat ik niet technisch onderlegd ben en dus niet op de ins and outs kan ingaan; ik zal me dus * misschien tot uw opluchting * beperken tot het weergeven van het plan op hoofdlijnen.

Voordat ik dat doe, zal ik eerst ingaan op initiatieven elders. In de Verenigde Staten houdt sinds de zomer van 1996 het zogeheten 'Internet Archive' zich bezig met - zoals de naam al aangeeft - het archiveren van het Internet: van nieuwsgroepen tot home pages. Hiervoor wordt gebruik gemaakt van web crawling robots: programma's die sites opzoeken en ze in hun geheel downloaden. Op deze wijze wordt een momentopname van het Internet gemaakt. De Koninklijke Bibliotheek van Zweden is in 1997 begonnen met het zogeheten 'The Kulturarw3 Project'. Doel is zoveel mogelijk te archiveren van het Zweedse deel van Internet. Hiervan zijn sindsdien enkele snap-shots gemaakt, waarbij in totaal ongeveer 56.000 websites zijn gearchiveerd. Het digitale archief is nog niet voor het publiek toegankelijk.

In Nederland richten twee instanties zich op de archivering van delen van het Internet. De Koninklijke Bibliotheek is begonnen met de inrichting van het Depot van Nederlandse Elektronische Publicaties (DNEP), dat overigens nog niet geheel operationeel is. In het DNEP worden naast off line digitale publicaties als cd-roms ook on line publicaties als elektronische tijdschriften, boeken en artikelen opgenomen. Ook bepaalde webdocumenten kunnen worden ondergebracht in het DNEP. Het Internationaal Instituut voor Sociale Geschiedenis heeft een begin gemaakt met het archiveren van enkele Internet-nieuwsgroepen die veel door actiegroepen en sociale bewegingen worden gebruikt.

Hoewel er meer aandacht voor het probleem komt, is het duidelijk dat de archivering van websites nog in de kinderschoenen staat. De hierboven vermelde projecten verkeren alle feitelijk nog in een beginstadium. Bovendien richt geen van hen zich in het bijzonder op de archivering van websites, behalve het Zweedse. Dit project kent echter een aantal nadelen. Allereerst is het nogal grofmazig opgezet: het beoogt slechts één of twee keer per jaar zoveel mogelijk sites te archiveren. Hierdoor gaat er alsnog veel informatie verloren. Daarnaast vindt er in geen inhoudelijke ontsluiting plaats van het opgeslagen materiaal.

In tegenstelling tot de Amerikaanse en Zweedse initiatieven richt het archiveringsproject van het DNPP zich op een specifieke, beperkte categorie websites. Ik kom nu tot het laatste deel van mijn bijdrage: een beschrijving van de diverse aspecten van het archiveren.

  • Archiveringsstandaard
    Om te beginnen moet er een archiveringsstandaard worden vastgesteld. Twee opties liggen voor de hand: frequente integrale archivering versus continue archivering van mutaties. In het ene geval wordt op gezette tijden een site in zijn geheel gedownload; in het andere worden alle mutaties van een eenmaal gedownloade site doorlopend gekopieerd en weggeschreven in een logfile. Vanzelfsprekend zijn tussenvarianten mogelijk. Gedeeltelijke archivering van verschillende onderdelen van de site met als criterium hun importantie, analoog aan bijvoorbeeld de selectie die wordt toegepast bij gedrukte publicaties, wordt afgewezen vanwege het arbeidsintensieve karakter.

     

  • Technische archiveringsprocedure
    Op basis van de gekozen archiveringsstandaard wordt een technische procedure voor het archiveren ontwikkeld. Hiervoor wordt momenteel onderzocht of de reeds beschikbare programmatuur zoals off line webbrowsers toereikend zijn, of dat er nieuwe programmatuur nodig is. Doelstelling zal uiteraard zijn om het analyseren en bij wijzigingen downloaden en opslaan van de bij dit project betrokken websites maximaal te automatiseren en de personele inbreng te minimaliseren.

     

  • Ontsluiting
    De gearchiveerde websites zullen worden beschreven, gecatalogiseerd en ontsloten via het landelijke Gemeenschappelijk Geautomatiseerd Catalogiseersysteem (GGC) van PICA. Via dit catalogussysteem wordt de informatie daarmee raadpleegbaar in Picarta en de Online Publieks Catalogus (OPC) van het DNPP. Vanuit deze catalogi kan dan gelinkt worden naar de WWW-server van dit project waarop de websites en hun verschillende versies zijn opgeslagen. Op dit moment bestaan er in de GGC (en voor zover bekend elders in de wereld) nog geen richtlijnen en procedures voor het catalogiseren van verschillende versies van gearchiveerde websites.

     

  • Raadpleging
    Het digitale archief zelf zal raadpleegbaar zijn via een transparante menustructuur met adequate zoekmechanismen. Het navigeringssysteem dient mogelijkheden te bieden tot zowel diachroon onderzoek (de ontwikkeling van een site door de tijd heen), als synchrone analyse (de vergelijking van verschillende sites in een bepaalde periode). Alle gearchiveerde pagina's van een site worden als zodanig geoormerkt. Op deze wijze zijn zij duidelijk te onderscheiden van de actuele site van de 'archiefgever' en worden misverstanden voorkomen.

     

  • Opslag
    De in het digitale archief opgenomen websites en de verschillende versies zullen via het WWW worden aangeboden voor raadpleging en onderzoek. Hiertoe wordt een WWW-server met voldoende schijfruimte ingericht. Voor de definitieve archivering van het materiaal is opslag op een harde schijf evenwel niet voldoende. Hiervoor komt een cd-rom, die een veel langere levensduuur heeft, in aanmerking. Het is de bedoeling dat de gearchiveerde data hierop met behulp van een burner opgeslagen. Op deze wijze wordt naast de via het WWW aangeboden gearchiveerde site separaat een replica bewaard. Niet alleen beschikt men zo over een back-up, daarnaast kan periodiek de integriteit van de via het WWW toegankelijke gearchiveerde site worden gecontroleerd.

     

  • Migratie-strategieën
    De korte levensduur van soft- en hardware zal in de toekomst leiden tot problemen bij de opslag, beheer en beschikbaarstelling van de gearchiveerde sites. Ook wanneer de apparatuur en de opslagformaten van tekst, audio, video en animatie verouderd zijn, moeten de gearchiveerde sites raadpleegbaar blijven. Dit betekent dat de digitale archieven periodiek moeten worden overgezet naar een nieuwe generatie soft- en hardwaresystemen. Hierbij moet ernaar worden gestreefd dat de integriteit van de digitale documenten zoveel mogelijk bewaard blijft. Hiervoor dienen adequate strategieën (met betrekking tot media en/of formats) te worden ontwikkeld.

     

  • Auteursrecht, privacy
    Het archiveren van digitale bestanden impliceert per definitie kopiëren. Dit leidt automatisch tot het probleem van het auteursrecht. Een aantal politieke partijen heeft desgevraagd laten weten graag hun medewerking te verlenen aan dit archiveringsproject. Hoe belangrijk dit fiat ook moge wezen, toch zal moeten worden nagegaan in hoeverre er andere rechthebbenden zijn die toestemming moeten geven. Een website is immers een op een eigen wijze vorm gegeven verzameling digitale bestanden (bestaande uit tekst-, audio- of videomateriaal), waarop allerlei rechten kunnen liggen. Deze problematiek zal ertoe kunnen leiden dat de kopieën in het webarchief niet standaard on-line worden aangeboden.

In mei 1996 verscheen in de Verenigde Staten het rapport Preserving Digital Information van de Commission on Preservation and Access en the Research Libraries Group. In dit rapport werd ervoor gepleit een decentraal netwerk te ontwikkelen van digitale archieven, die de collectionering van digitale objecten als bijvoorbeeld websites, hun bewaring en beschikbaarstelling als taak hebben. Het rapport benadrukte het belang van een decentrale opzet: 'A distributed structure... places archival responsibility with those who presumably care most about and have the greatest understanding of the value of particular digital information objects'. Het archiveringsproject van het DNPP en de Universiteitsbibliotheek Groningen past geheel in deze visie. Gezien zijn doelstelling en inhoudelijke kennis ligt het voor de hand dat het DNPP zich over de websites van de Nederlandse politieke partijen ontfermt. Het aandeel van het DNPP in het vastleggen en bewaren van het web voor toekomstige generaties is hiermee zeer bescheiden; wel levert het een grote bijdrage aan de archivering van de virtuele politieke cultuur van Nederland. Bovendien kunnen andere organisaties profiteren van de opgedane kennis. Op deze wijze wordt er een begin gemaakt met het decentraal netwerk van instellingen die elk een segment van het Nederlands deel van het web archiveren. 

Back tp Publications