Het najagen van wind?
Over het archiveren van websites
Lezing Dag van het Document, 11 oktober 2000
Gerrit Voerman, hoofd Documentatiecentrum Nederlandse politieke
partijen
Terwijl er de afgelopen jaren allerlei reddingsacties op touw zijn
gezet om het in kranten en boeken vastgelegde 'papieren geheugen' voor de
toekomst te behouden, verdwijnt tegelijkertijd het 'digitale geheugen'.
Met dit laatste bedoel ik niet de digitale bestanden * waarvoor wat
betreft de bewaring tegenwoordig meer aandacht is gekomen * maar de
bouwstenen van het World Wide Web: de websites. Aan het begin van de jaren
negentig deed het WWW zijn intrede, maar voor zover bekend worden nog
nergens in de wereld de websites systematisch gearchiveerd en ontsloten.
Er is wel hier en daar een bescheiden begin gemaakt met het archiveren van
het web, waar ik straks nog op terugkom, maar dat neemt niet weg dat er
reeds een groot deel van dit digitale erfgoed verloren gegaan. En hieraan
lijkt voorlopig nog geen einde te komen. Voor toekomstig wetenschappelijk
onderzoek naar de 'virtuele' wereld van het WWW als zodanig, voor zijn
ontwikkeling en zijn relatie met de 'reële' samenleving, ontbreken
derhalve de bronnen.
Het WWW breidt zich gigantisch snel uit: elke maand zouden er zo'n 20
miljoen pagina's bijkomen. Indien deze schattingen juist zijn, zal het WWW
in de zomer van 2001 meer dan één miljard pagina's tellen. Het aantal
sites ligt waarschijnlijk tegen de vier miljoen; maandelijks neemt dit
aantal met 100 à 150.000 toe. Deze fabelachtige groei voltrekt zich
ondanks het feit dat ook veel sites verdwijnen. Tegelijkertijd veranderen
de meeste bestaande sites voortdurend: een paar seconden na een bezoek aan
een site kan deze alweer gewijzigd zijn.
Pantha rhei, zou men in navolging van de Griekse filosoof
Heraclitus kunnen zeggen. Ook op het web stroomt alles en is alles aan
voortdurende verandering onderhevig. Dat geldt ook voor de websites van
politieke partijen, waarin het DNPP met name in geïnteresseerd is.
Politieke partijen waren redelijk snel op het web te vinden. In januari
1994 was GroenLinks de eerste partij die met een website begon. In een
beweging van links naar rechts volgden de andere partijen: de PvdA in
november 1994, D66 medio 1995, het CDA ook (juli 1995) en de VVD voorjaar
1997. De enige partij in de Tweede Kamer die nog geen site heeft is de
SGP. Sinds het begin van hun aanwezigheid op het WWW hebben de meeste
partijen al een keer of drie hun site compleet gerestyled. Van deze oudere
versies is niets meer over. De eerste stappen van de Nederlandse politieke
partijen op het WWW zijn dan ook niet meer te reconstrueren.
De sites worden belangrijker voor partijen. Zij zullen een steeds
grotere rol gaan spelen in de informatievoorziening aan leden en kiezers.
Dit blijkt nu ook al uit de veranderende inhoud van de partijbladen.
Hoewel de meeste sites nogal top down gericht zijn, dus vooral
bedoeld om informatie aan te bieden, mag verwacht worden dat het
interactieve aspect in de toekomst ook meer gewicht zal krijgen. Er is dus
alle reden om de digitale presentatie van partijen te documenteren of zo u
wilt te archiveren, net zoals we dat bij de gedrukte publicaties ook doen.
Onderzoekers van velerlei discipline (historici, sociologen,
politicologen, communicatiewetenschappers) en journalisten kunnen hiermee
hun voordeel doen. Het DNPP is dan ook dit jaar samen met de
Universiteitsbibliotheek van de Rijksuniversiteit Groningen begonnen met
de voorbereiding van de archivering en ontsluiting van de websites van de
Nederlandse politieke partijen en hun nevenorganisaties. Dit project wordt
gefinancierd door de Rijksuniversiteit Groningen en het IWI. Het gaat hier
om de sites van de in de Staten-Generaal vertegenwoordigde partijen, maar
ook om de partijen die niet in het parlement ziting hebben. Onderzoek naar
deze laatste categorie is interessant omdat wel wordt beweerd dat het WWW
door de lage kosten die aan een site verbonden zijn, de verschillen tussen
de gevestigde partijen en nieuwkomers zou verkleinen. In een later stadium
komen de sites van provinciale partijen in aanmerking, en die van
landelijke politici. Hiervan zijn er overigens nog niet zoveel; opvallend
is wel dat een aantal Europarlementariërs, die relatief ver van huis
opereren, al wel enige tijd de voordelen van een website inzien.
Voor het DNPP is het archiveren van de websites van de partijen een
logisch vervolg op de traditionele taak van het Documentatiecentrum,
namelijk het verzamelen, catalogiseren, ontsluiten en beschikbaar stellen
van gedrukte publicaties van en over partijen. Het project verkeert nog in
zijn beginfase; concrete resultaten kan ik nog niet meedelen. Ik waarschuw
u er nu alvast voor dat ik niet technisch onderlegd ben en dus niet op de ins
and outs kan ingaan; ik zal me dus * misschien tot uw opluchting *
beperken tot het weergeven van het plan op hoofdlijnen.
Voordat ik dat doe, zal ik eerst ingaan op initiatieven elders. In de
Verenigde Staten houdt sinds de zomer van 1996 het zogeheten 'Internet
Archive' zich bezig met - zoals de naam al aangeeft - het archiveren van
het Internet: van nieuwsgroepen tot home pages. Hiervoor wordt
gebruik gemaakt van web crawling robots: programma's die sites
opzoeken en ze in hun geheel downloaden. Op deze wijze wordt een
momentopname van het Internet gemaakt. De Koninklijke Bibliotheek van
Zweden is in 1997 begonnen met het zogeheten 'The Kulturarw3
Project'. Doel is zoveel mogelijk te archiveren van het Zweedse deel van
Internet. Hiervan zijn sindsdien enkele snap-shots gemaakt, waarbij
in totaal ongeveer 56.000 websites zijn gearchiveerd. Het digitale archief
is nog niet voor het publiek toegankelijk.
In Nederland richten twee instanties zich op de archivering van delen
van het Internet. De Koninklijke Bibliotheek is begonnen met de inrichting
van het Depot van Nederlandse Elektronische Publicaties (DNEP), dat
overigens nog niet geheel operationeel is. In het DNEP worden naast off
line digitale publicaties als cd-roms ook on line publicaties
als elektronische tijdschriften, boeken en artikelen opgenomen. Ook
bepaalde webdocumenten kunnen worden ondergebracht in het DNEP. Het
Internationaal Instituut voor Sociale Geschiedenis heeft een begin gemaakt
met het archiveren van enkele Internet-nieuwsgroepen die veel door
actiegroepen en sociale bewegingen worden gebruikt.
Hoewel er meer aandacht voor het probleem komt, is het duidelijk dat de
archivering van websites nog in de kinderschoenen staat. De hierboven
vermelde projecten verkeren alle feitelijk nog in een beginstadium.
Bovendien richt geen van hen zich in het bijzonder op de archivering van
websites, behalve het Zweedse. Dit project kent echter een aantal nadelen.
Allereerst is het nogal grofmazig opgezet: het beoogt slechts één of
twee keer per jaar zoveel mogelijk sites te archiveren. Hierdoor gaat er
alsnog veel informatie verloren. Daarnaast vindt er in geen inhoudelijke
ontsluiting plaats van het opgeslagen materiaal.
In tegenstelling tot de Amerikaanse en Zweedse initiatieven richt het
archiveringsproject van het DNPP zich op een specifieke, beperkte
categorie websites. Ik kom nu tot het laatste deel van mijn bijdrage: een
beschrijving van de diverse aspecten van het archiveren.
- Archiveringsstandaard
Om te beginnen moet er een archiveringsstandaard worden vastgesteld.
Twee opties liggen voor de hand: frequente integrale archivering
versus continue archivering van mutaties. In het ene geval wordt op
gezette tijden een site in zijn geheel gedownload; in het andere
worden alle mutaties van een eenmaal gedownloade site doorlopend
gekopieerd en weggeschreven in een logfile. Vanzelfsprekend zijn
tussenvarianten mogelijk. Gedeeltelijke archivering van verschillende
onderdelen van de site met als criterium hun importantie, analoog aan
bijvoorbeeld de selectie die wordt toegepast bij gedrukte publicaties,
wordt afgewezen vanwege het arbeidsintensieve karakter.

- Technische archiveringsprocedure
Op basis van de gekozen archiveringsstandaard wordt een technische
procedure voor het archiveren ontwikkeld. Hiervoor wordt momenteel
onderzocht of de reeds beschikbare programmatuur zoals off line
webbrowsers toereikend zijn, of dat er nieuwe programmatuur nodig is.
Doelstelling zal uiteraard zijn om het analyseren en bij wijzigingen
downloaden en opslaan van de bij dit project betrokken websites
maximaal te automatiseren en de personele inbreng te minimaliseren.
- Ontsluiting
De gearchiveerde websites zullen worden beschreven, gecatalogiseerd en
ontsloten via het landelijke Gemeenschappelijk Geautomatiseerd
Catalogiseersysteem (GGC) van PICA. Via dit catalogussysteem wordt de
informatie daarmee raadpleegbaar in Picarta en de Online Publieks
Catalogus (OPC) van het DNPP. Vanuit deze catalogi kan dan gelinkt
worden naar de WWW-server van dit project waarop de websites en hun
verschillende versies zijn opgeslagen. Op dit moment bestaan er in de
GGC (en voor zover bekend elders in de wereld) nog geen richtlijnen en
procedures voor het catalogiseren van verschillende versies van
gearchiveerde websites.
- Raadpleging
Het digitale archief zelf zal raadpleegbaar zijn via een transparante
menustructuur met adequate zoekmechanismen. Het navigeringssysteem
dient mogelijkheden te bieden tot zowel diachroon onderzoek (de
ontwikkeling van een site door de tijd heen), als synchrone analyse
(de vergelijking van verschillende sites in een bepaalde periode).
Alle gearchiveerde pagina's van een site worden als zodanig
geoormerkt. Op deze wijze zijn zij duidelijk te onderscheiden van de
actuele site van de 'archiefgever' en worden misverstanden voorkomen.

- Opslag
De in het digitale archief opgenomen websites en de verschillende
versies zullen via het WWW worden aangeboden voor raadpleging en
onderzoek. Hiertoe wordt een WWW-server met voldoende schijfruimte
ingericht. Voor de definitieve archivering van het materiaal is opslag
op een harde schijf evenwel niet voldoende. Hiervoor komt een cd-rom,
die een veel langere levensduuur heeft, in aanmerking. Het is de
bedoeling dat de gearchiveerde data hierop met behulp van een burner
opgeslagen. Op deze wijze wordt naast de via het WWW aangeboden
gearchiveerde site separaat een replica bewaard. Niet alleen beschikt
men zo over een back-up, daarnaast kan periodiek de integriteit van de
via het WWW toegankelijke gearchiveerde site worden gecontroleerd.
- Migratie-strategieën
De korte levensduur van soft- en hardware zal in de toekomst leiden
tot problemen bij de opslag, beheer en beschikbaarstelling van de
gearchiveerde sites. Ook wanneer de apparatuur en de opslagformaten
van tekst, audio, video en animatie verouderd zijn, moeten de
gearchiveerde sites raadpleegbaar blijven. Dit betekent dat de
digitale archieven periodiek moeten worden overgezet naar een nieuwe
generatie soft- en hardwaresystemen. Hierbij moet ernaar worden
gestreefd dat de integriteit van de digitale documenten zoveel
mogelijk bewaard blijft. Hiervoor dienen adequate strategieën (met
betrekking tot media en/of formats) te worden ontwikkeld.
- Auteursrecht, privacy
Het archiveren van digitale bestanden impliceert per definitie
kopiëren. Dit leidt automatisch tot het probleem van het
auteursrecht. Een aantal politieke partijen heeft desgevraagd laten
weten graag hun medewerking te verlenen aan dit archiveringsproject.
Hoe belangrijk dit fiat ook moge wezen, toch zal moeten worden
nagegaan in hoeverre er andere rechthebbenden zijn die toestemming
moeten geven. Een website is immers een op een eigen wijze vorm
gegeven verzameling digitale bestanden (bestaande uit tekst-, audio-
of videomateriaal), waarop allerlei rechten kunnen liggen. Deze
problematiek zal ertoe kunnen leiden dat de kopieën in het webarchief
niet standaard on-line worden aangeboden.

In mei 1996 verscheen in de Verenigde Staten het rapport Preserving
Digital Information van de Commission on Preservation and Access en
the Research Libraries Group. In dit rapport werd ervoor gepleit een
decentraal netwerk te ontwikkelen van digitale archieven, die de
collectionering van digitale objecten als bijvoorbeeld websites, hun
bewaring en beschikbaarstelling als taak hebben. Het rapport benadrukte
het belang van een decentrale opzet: 'A distributed structure... places
archival responsibility with those who presumably care most about and have
the greatest understanding of the value of particular digital information
objects'. Het archiveringsproject van het DNPP en de
Universiteitsbibliotheek Groningen past geheel in deze visie. Gezien zijn
doelstelling en inhoudelijke kennis ligt het voor de hand dat het DNPP
zich over de websites van de Nederlandse politieke partijen ontfermt. Het
aandeel van het DNPP in het vastleggen en bewaren van het web voor
toekomstige generaties is hiermee zeer bescheiden; wel levert het een
grote bijdrage aan de archivering van de virtuele politieke cultuur van
Nederland. Bovendien kunnen andere organisaties profiteren van de opgedane
kennis. Op deze wijze wordt er een begin gemaakt met het decentraal
netwerk van instellingen die elk een segment van het Nederlands deel van
het web archiveren.
