Het projectplan

Inleiding
Doelstelling
Achtergrond
Functionele beschrijving
Dienst
Resultaten
Slot
Noten


1. Inleiding

Terwijl er reddingsacties op touw worden gezet om het in kranten en boeken vastgelegde 'papieren geheugen' te behouden, verdwijnt tegelijkertijd het 'digitale geheugen'. Met dit laatste wordt hier niet gedoeld op digitale bestanden - waarvoor wat betreft de bewaring tegenwoordig meer aandacht is gekomen - maar op de bouwstenen van het World Wide Web (WWW): de websites. Aan het begin van de jaren negentig deed het WWW zijn intrede, maar voor zover bekend worden nog nergens in de wereld de in verschijningsvorm snel veranderende en vaak in levensduur beperkte websites systematisch gearchiveerd. Hierdoor is reeds een groot deel van dit digitale erfgoed verloren gegaan, en hieraan lijkt voorlopig nog geen einde te komen. Voor toekomstig wetenschappelijk onderzoek naar de 'virtuele' wereld van het WWW als zodanig en zijn relatie met de 'reële' samenleving ontbreken derhalve de bronnen.

In het kader van ICT2005 willen het Documentatiecentrum Nederlandse Politieke Partijen (DNPP) en de Universiteitsbibliotheek van de Rijksuniversiteit Groningen, ondersteund door de sectie Eigentijdse Geschiedenis en de afstudeerrichting Journalistiek van de Letterenfaculteit, de websites van de Nederlandse politieke partijen archiveren en dit digitale archief on line beschikbaar stellen. Het DNPP meent dat het archiveren van deze digitale presentaties van de partijen een logisch vervolg is op de traditionele taak van het Documentatiecentrum, namelijk het verzamelen, catalogiseren, ontsluiten en beschikbaar stellen van (gedrukte) publicaties van en over partijen. Het te ontwikkelen digitaal archief zal in de toekomst een bron van informatie vormen voor onderzoekers van velerlei discipline (historici, sociologen, politicologen en communicatiewetenschappers) en journalisten. Daarnaast kan dit project als een pilot study worden beschouwd: de opgedane ervaringen en uitkomsten kunnen bijdragen tot de ontwikkeling van een algemeen model, aan de hand waarvan andere documentatie-instellingen ook tot de archivering van websites kunnen overgaan.

2. Doelstelling

De hoofddoelstelling van het project is enerzijds de inrichting van een digitaal archief van de websites van Nederlandse politieke partijen en hun neveninstellingen ten behoeve van wetenschap (onderzoek en onderwijs) en media; en anderzijds de ontwikkeling van een algemeen model van digitale archivering van websites ten behoeve van instellingen binnen en buiten de RUG.

De volgende subdoelstellingen worden onderscheiden:

  • Ontwerp van een archiveringsstandaard.
  • Ontwikkeling van een technische procedure voor digitale archivering van websites. Ontwikkeling van een infrastructuur voor de opslag van de gearchiveerde websites inclusief een versie-beheer op de server.
  • Ontwikkeling van een catalogusstructuur waarmee gearchiveerde websites worden ontsloten en toegankelijk gemaakt voor raadpleging.
  • Inventarisatie van de mogelijke technische problemen van de opslag en het beheer van het digitale archief op termijn; ontwikkeling van migratie-strategieën.
  • Inventarisatie van de juridische problemen (auteursrecht, privacy) die zich bij het archiveren voordoen.
  • Inrichting van een website ten behoeve van dit project.

3. Achtergrond

Het WWW breidt zich gigantisch snel uit: volgens een schatting bedroeg het aantal webpagina's in maart 1998 ongeveer 275 miljoen. Elke maand zouden er zo'n 20 miljoen bijkomen. Indien deze taxatie juist is, zou het WWW in de zomer van 1999 meer dan 500 miljoen pagina's tellen. Het aantal site's ligt waarschijnlijk tegen de vier miljoen; maandelijks neemt dit aantal met 100 à 150.000 toe Zie voetnoot 1. Deze fabelachtige groei voltrekt zich ondanks het feit dat ook (delen van) veel sites verdwijnen Zie voetnoot 2. Tegelijkertijd veranderen de meeste bestaande sites voortdurend: een paar seconden na een bezoek aan een site kan deze alweer gewijzigd zijn.

Hoewel het WWW zich een steeds grotere plaats verschaft in de samenleving, gebeurt er tot nu toe bijzonder weinig op het gebied van de archivering van websites. In de Verenigde Staten houdt zich sinds de zomer van 1996 het zogeheten 'Internet Archive' bezig met - zoals de naam al aangeeft - het archiveren van het Internet: van nieuwsgroepen tot home pages. Hiervoor wordt gebruik gemaakt van web crawling robots: programma's die sites opzoeken en ze in hun geheel downloaden. Op deze wijze wordt een momentopname van het Internet gemaakt Zie voetnoot 3. De Koninklijke Bibliotheek van Zweden is in 1997 begonnen met het zogeheten 'The Kulturarw3 Project'. Doel is zoveel mogelijk te archiveren van het Zweedse deel van Internet. Hiervan zijn in 1997 twee snap-shots gemaakt, waarbij in totaal bijna 50.000 websites zijn gearchiveerd. Het digitale archief is nog niet voor het publiek toegankelijk Zie voetnoot 4.

In Nederland richten twee instanties zich op de archivering van delen van het Internet. De Koninklijke Bibliotheek is begonnen met de inrichting van het Depot van Nederlandse Elektronische Publicaties (DNEP), dat overigens nog niet geheel operationeel is. In het DNEP worden naast off line digitale publicaties als cd-roms ook on line publicaties als elektronische tijdschriften, boeken en artikelen opgenomen. Ook bepaalde webdocumenten kunnen worden ondergebracht in het DNEP Zie voetnoot 5. Het Internationaal Instituut voor Sociale Geschiedenis heeft een begin gemaakt met het archiveren van Internet-nieuwsgroepen die veel door actiegroepen en sociale bewegingen worden gebruikt Zie voetnoot 6.

Dit overzicht is vanzelfsprekend niet uitputtend, maar duidelijk is wel dat er momenteel van grootschalige initiatieven elders in de wereld geen sprake is. Er kan dan ook worden vastgesteld dat de digitale archivering van websites nog in de kinderschoenen staat. Ook de hierboven vermelde projecten verkeren alle feitelijk nog in een beginstadium. Bovendien richt geen van hen zich in het bijzonder op de archivering van websites, behalve het Zweedse. Het nadeel van dit project is echter dat het nogal grofmazig is opgezet: het beoogt slechts één of twee keer per jaar zoveel mogelijk sites te archiveren. Hierdoor gaat er alsnog veel informatie verloren. Het door het DNPP en de UB te ontwikkelen archiveringsproject richt zich daarentegen op een specifieke, beperkte categorie websites, die frequenter zullen worden gearchiveerd. Een completer digitaal archief sluit enerzijds meer aan bij de documentatietaak van het DNPP; anderzijds worden de onderzoeksmogelijkheden hierdoor vergroot.

4. Functionele beschrijving

  • Archiveringsstandaard
    Bij het ontwikkelen van de archiveringsstandaard zijn twee polen denkbaar: frequente integrale archivering versus continue archivering van mutaties. In het eerste geval wordt op gezette tijden een site in zijn geheel gedownload; in het tweede worden alle mutaties van een eenmaal gedownloade site doorlopend gekopieerd en weggeschreven in een logfile. Vanzelfsprekend zijn tussenvarianten mogelijk.
  • Technische procedure
    Na de keuze voor de archiveringsstandaard wordt een technische procedure voor het archiveren ontwikkeld. Hiervoor dient onder meer te worden onderzocht of de off line webbrowsers die sites kunnen downloaden toereikend zijn, of dat er nieuwe programmatuur nodig is.
  • Opslag
    De in het digitale archief opgenomen (versies van) websites zullen via het WWW worden aangeboden voor raadpleging en onderzoek. Hiertoe zal voor dit project een WWW-server met voldoende schijfruimte worden ingericht. Voor de definitieve archivering van het materiaal is opslag op een harde schijf evenwel niet voldoende. Hiervoor komt cd-rom, die een veel langere levensduuur heeft, in aanmerking. De gearchiveerde data worden hierop met behulp van een burner opgeslagen. Op deze wijze wordt naast de via het WWW aangeboden gearchiveerde site separaat een replica bewaard. Niet alleen beschikt men zo over een back-up, daarnaast kan periodiek de integriteit van de via Ihet WWW toegankelijke gearchiveerde site worden gecontroleerd.
  • Raadpleging
    De gearchiveerde websites moeten worden beschreven, gecatalogiseerd en ontsloten. Hiervoor dient een standaard te worden ontwikkeld. Het digitale archief zelf zal raadpleegbaar moeten zijn via een transparante menustructuur met adequate zoekmechanismen. Het navigeringssysteem dient mogelijkheden te bieden tot zowel diachroon onderzoek (de ontwikkeling van een site door de tijd heen), als synchrone analyse (de vergelijking van verschillende sites in een bepaalde periode). Alle gearchiveerde pagina's van een site zullen als zodanig moeten worden geoormerkt. Op deze wijze zijn zij duidelijk te onderscheiden van de actuele site van de ‘archiefgever’ en worden misverstanden voorkomen.
  • Migratie-strategieën
    De korte levensduur van soft- en hardware zal in de toekomst leiden tot problemen bij de opslag, beheer en beschikbaarstelling van de gearchiveerde sites. Ook wanneer de apparatuur en de opslagformaten van tekst, audio, video en animatie verouderd zijn, moeten de gearchiveerde sites raadpleegbaar blijven. Dit betekent dat de digitale archieven periodiek moeten worden overgezet naar een nieuwe generatie soft- en hardwaresystemen. Hierbij moet ernaar worden gestreefd dat de integriteit van de digitale documenten (zoveel mogelijk) bewaard blijft. Hiervoor dienen adequate strategieën (met betrekking tot media en/of formats) te worden ontwikkeld.
  • Auteursrecht, privacy
    Het archiveren van digitale bestanden impliceert per definitie kopiëren. Dit leidt automatisch tot het probleem van het auteursrecht. Een aantal politieke partijen hebben desgevraagd laten weten graag hun medewerking te verlenen aan dit archiveringsproject. Hoe belangrijk dit fiat ook moge wezen, toch zal moeten worden nagegaan in hoeverre er andere rechthebbenden zijn die toestemming moeten verlenen. Een website is immers een op een eigen wijze vorm gegeven verzameling digitale bestanden (bestaande uit tekst-, audio- of videomateriaal), waarop allerlei rechten kunnen liggen.

5. Dienst

Het archiveringsproject zal in 24 maanden worden afgerond. Het zal vervolgens worden geïntegreerd in de standaard-activiteiten van het DNPP.

Het volgende tijdspad wordt voorgesteld:

  • januari 2000: start van het project
  • januari - juli 2000: ontwikkeling archiveringsstandaard, technische archiveringsprocedure, opslag- en raadplegingsfaciliteiten
  • maart – april 2000: inrichting WWW server + WWW site
  • mei 2000 : inrichting testcatalogus
  • gedurende gehele projectperiode: selecteren/verzamelen sites
  • gedurende gehele projectperiode: ontsluiten/catalogiseren sites

6. Resultaten

Aan het einde van het project dient een operationeel archiverings- en catalogiseringssysteem van websites te zijn opgeleverd en een website te zijn ingericht waarop de geachiveerde sites kunnen worden geraadpleegd. Daarnaast zal er een notitie zijn opgesteld over de auteursrechtelijke aspecten van het digitaal archiveren. Het is de bedoeling over dit project in verschillende vakbladen te rapporteren.

7. Slot

In mei 1996 verscheen het rapport Preserving Digital Information van de Commission on Preservation and Access en the Research Libraries Group in de Verenigde Staten. In dit rapport werd ervoor gepleit een decentraal netwerk te ontwikkelen van digitale archieven, die de collectionering van digitale objecten (waartoe websites kunnen worden gerekend), hun bewaring en beschikbaarstelling als taak hebben. Het rapport benadrukte het belang van een decentrale opzet: 'A distributed structure... places archival responsibility with those who presumably care most about and have the greatest understanding of the value of particular digital information objects'. Het onderhavige project past geheel in deze visie. Gezien zijn doelstelling en inhoudelijke kennis ligt het voor de hand dat het Documentatiecentrum Nederlandse Politieke Partijen zich over de websites van de Nederlandse politieke partijen ontfermt. Het aandeel van het DNPP aan het vastleggen en bewaren van het World Wide Web voor toekomstige generaties is hiermee zeer bescheiden; wel levert het een grote bijdrage aan de archivering van de virtuele politieke cultuur van Nederland.

8. Noten

Voetnoot 1. Deze schatting van 'Digital' is vermeld in: M. Hofstede, 'Speciale zoekmachines op Internet', in: Informatie Professional, 2 (1998), 12, 32-35.

Voetnoot 2. Volgens de Amerikaanse Internet-archivaris B. Kahle is een webpagina gemiddeld 70 dagen lang on line; zie M. de Waal, 'Archiveren Internet bijna onmogelijk', in: de Volkskrant, 30 januari 1999.

Voetnoot 3. Zie onder meer B. Kahle, 'Preserving the Internet', in: Scientific American, 1997, nr. 3; M. Cunningham, 'Brewster's millions', in: The Irish Times (webversie), 27 januari 1997.

Voetnoot 4. Zie A. Arvidson en F. Lettenström, 'The Kulturarw3 Project - the Swedish Royal Web Archive', in: The Electronic Library, 16 (1998), 2 (April), 105-108.

Voetnoot 5. Zie T. Noordermeer, 'Depot van Nederlandse Elektronische Publicaties', in: Informatie Professional, 1998, nr. 2, 22-24.

Voetnoot 6. J. Quast, 'OCCASIO Digital Social History Archive', in: Historia & Informatica, 1998, nr. 2, 3.

Terug naar Project