Ewoud Sanders

We staan pas aan het begin (v2) 12/01/10

Onlangs nam Wim van Drimmelen afscheid van de Koninklijke Bibliotheek (KB). Onder zijn leiding veranderde de Koninklijke Bibliotheek van een behoudende rijksbibliotheek in Den Haag in een digitale boekenportal die niet alleen nationaal, maar ook internationaal een leidende positie inneemt. Hieronder iets over mijn eigen ervaring met massadigitalisering. Plus enkele adviezen.

Voor mij ligt een boekje getiteld Amsterdam bij nacht. Het is geschreven door A.M. de Jong en uitgegeven door het tijdschrift Het Leven. Het jaar van uitgave ontbreekt - zoals bij zoveel boeken.

Gelukkig bestaat er zoiets als Picarta, het grote bibliografische zoeksysteem. Kent Picarta deze uitgave? Ja, deze titel komt er twee keer in voor. De Vrije Universiteit in Amsterdam blijkt over een exemplaar te beschikken met als datering ‘circa 1930′. Samen met acht andere bibliotheken beschikt de Koninklijke Bibliotheek in Den Haag over exemplaren met als datering ‘circa 1920′.

Amsterdam bij nacht is geen belangrijk boekje, maar het geeft een aardig tijdsbeeld van het smoezelige Amsterdamse nachtleven. De vraag is alleen: van wélke tijd precies? Van omstreeks 1920 of van omstreeks 1930? - wat toch een behoorlijk verschil is.

Het goede antwoord is: van 1921, een jaartal dat ik ontleen aan de biografie van A.M. de Jong door diens neef Mels de Jong.

Er wordt, in verband met de digitale dienstverlening van bibliotheken, vaak gesproken over het digitale loket. Dat is een loket waar je bijvoorbeeld een kopie uit een tijdschrift kunt aanvragen. Die kopie - eigenlijk is het een scan - krijg je dan per e-mail toegezonden.

Dat is natuurlijk een prachtige en vriendelijke vorm van dienstverlening, maar het is wel erg eenzijdig. Waar bevindt zich bijvoorbeeld het loket waar je, als dankbare gebruiker van een bibliotheek, iets digitaal kunt afleveren? Zoals een correctie in een titelbeschrijving.

Al zeker vijftien jaar maak ik intensief gebruik van Picarta. Ik ben dankbaar voor alle goede en nuttige informatie die ik er heb gevonden, maar ik ben er ook op heel veel fouten, omissies en inconsequenties gestuit. Echt honderden. Heb ik die opgespaard, uitgeprint en in porties op de bus gedaan? Nee, ik zou zelfs niet precies weten wáár ik een en ander naartoe had moeten sturen.

De afgelopen jaren zijn de grote wetenschappelijke bibliotheken ingrijpend veranderd. Als student - ruim twintig jaar geleden - moest ik in enorme rijen kaartenbakken opzoeken of een boek wel of niet in de collectie aanwezig was. Aanvragen schreef je op briefjes. Ik heb de eerste computers in die bibliotheken zien verschijnen; grote kasten, die regelmatig uitvielen. Van instellingen waar je boeken en andere publicaties kwam inzien of lenen, zijn wetenschappelijke bibliotheken veranderd in centra van digitale informatie, met kolossale databanken, websites en digitale dienstverlening. En ja, je zou het bijna vergeten, je kunt er ook nog boeken inzien of lenen.

En dan staan we pas aan het begin van dit veranderingsproces. Tot nu toe staan er bijvoorbeeld relatief weinig boeken op internet. Om Nederland als voorbeeld te nemen: de grootste digitale bibliotheek tot nu toe is de Digitale Bibliotheek voor de Nederlandse letteren (DBNL). Deze bibliotheek ging in 2000 online. We zijn nu zeven jaar verder. In die tijd heeft de DBNL zo’n 2300 zelfstandige titels gepubliceerd, naast vierhonderd jaargangen van tijdschriften, en enkele honderden artikelen. In totaal gaat het om ruim 900.000 pagina’s. Sinds medio 2006 is per half jaar de productie in pagina’s verdubbeld: er komen momenteel zo’n vijftig tot zeventig titels per maand bij, goed voor ruim 25.000 pagina’s.

Ruim 900.000 pagina’s is niet weinig, maar hoe verhoudt dit aantal zich tot de complete letterkundige productie in de Nederlanden? Er is niet precies bekend, schrijft de DBNL op haar website, hoeveel boeken en jaargangen van culturele tijdschriften er sinds de Middeleeuwen in de Nederlanden zijn geproduceerd. ‘Het begon met een enkel werk in de twaalfde eeuw, omstreeks 1500 waren het er jaarlijks circa 100 (waarvan de meeste niet-Nederlandstalig) en op dit ogenblik zijn het er enkele duizenden per jaar. Een voorzichtige schatting komt al snel uit op ten minste 300.000 titels, en een ruime schatting op wellicht meer dan een half miljoen. Bij elkaar zijn dat waarschijnlijk bijna honderd miljoen pagina’s.’

Nu lijkt zelfs de ruime schatting mij aan de krappe kant, maar hoe dan ook is het schrikken: van de potentiële honderd miljoen pagina’s is nu, na ruim zeven jaar werken en een investering van een paar miljoen euro, minder dan één procent gedigitaliseerd.

Overigens heeft dit ook te maken met de wijze waarop de DBNL digitaliseert. Aanvankelijk liet zij álle boeken integraal uittikken in de Filippijnen. Nog altijd worden de meeste boeken uitgetikt, maar andere worden - eveneens in de Filippijnen - gescand en gelezen met OCR (optical character recognition).

Zelf ben ik ervan overtuigd geraakt dat uittikken van boeken niet de goede aanpak is, althans niet voor boeken die na omstreeks 1860 zijn gedrukt. Bij die boeken is het zetsel doorgaans zo goed, dat het foutenpercentage van de OCR onder de 1 procent duikt. Willen we echt vaart maken met het ontsluiten van onze boekenmagazijnen, dan zullen we, voor de boeken uit de afgelopen anderhalve eeuw, moeten overstappen op massadigitalisering. En massadigitalisering komt neer op scannen en OCR’en.

Dat is dan ook wat de grote bibliotheken wereldwijd zijn gaan doen, deels in samenwerking met Google, Yahoo en Microsoft. Zo is de universiteitsbibliotheek van Gent, als eerste bibliotheek in het Nederlandse taalgebied, samen met Google begonnen om al haar boeken van de zestiende eeuw tot 1867 te scannen en op internet te zetten (Google stopt hier in 1867 om auteursrechtelijke problemen te voorkomen). In januari 2008 lag de productie op 5.000 titels per maand, een aantal dat moet groeien naar 10.000 titels per maand. In totaal zullen er 300.000 boeken worden gescand, in een periode van vijf jaar.

Natuurlijk roepen al die gescande boeken op internet - bij Google Book Search staan nu al ruim één miljoen titels online - ook problemen op. Wie vindt straks nog z’n weg in deze digitale boekenzee? Het functioneel inrichten van een analoge bibliotheek was al een enorme klus, maar hoe moeten we dat met al die digitale boeken doen?

Laat ik mijn particuliere digitale bibliotheek als voorbeeld nemen, hoewel ik erbij moet zeggen dat zo’n particulier initiatief niet representatief is.

De afgelopen twintig jaar heb ik met veel zorg en liefde een grote bibliotheek opgebouwd over de Nederlandse taal. Met daarin nagenoeg alle tijdschriften over het Nederlands van 1820 tot nu, met een vrijwel complete collectie encyclopedieën van 1730 tot 1990, en met honderden woordenboeken, studieboeken en naslagwerken.

Als ik Bill Gates of Warren Buffett was geweest, had ik de oudste boeken en tijdschriften misschien ergens volledig laten uittikken. Als ik het eeuwige leven had gehad, had ik de jongere boeken en tijdschriften wellicht bladzijde voor bladzijde op de glasplaat gescand. Maar tijd én geld zijn bij mij beperkt en tóch wilde ik mijn boeken en tijdschriften sneller en doelmatiger kunnen doorzoeken.

Daarom heb ik ervoor gekozen om ze open (lees: kapot) te snijden en ze te voeren aan productiescanners. Dat is een methode die velen tegen de borst stuit, ik weet het, maar het is buitengewoon efficiënt. In twee jaar tijd heb ik op deze manier bijna zevenduizend boeken en tientallen tijdschriften gescand (samen goed voor 1,9 miljoen bladzijden). Momenteel ligt de productie op zo’n honderd boeken per week, of vierhonderd per maand. Let wel: ik doe dit (met enige ingehuurde hulp) tussen de bedrijven door, naast het gewone werk.

Relatief gezien is zevenduizend boeken nog steeds niet veel, maar het is toch een flinke stapel, en het aanleggen van deze digitale collectie heeft me het een en ander geleerd over het inrichten en beheren van een digitale bibliotheek. Daarnaast heb ik de afgelopen jaren, als journalist, een kijkje mogen nemen bij enkele grote digitaliseringprojecten van bibliotheken, instellingen en archieven. Dat was vaak inspirerend, soms ook flink schrikken, maar hoe dan ook heeft het me veel geleerd. Ik vat mijn ervaringen hieronder samen in enkele aanbevelingen. Dit ter ere van Wim van Drimmelen, de man die er de afgelopen jaren voor heeft gezorgd dat de Koninklijke Bibliotheek van een behoudende rijksbibliotheek in Den Haag, is omgevormd tot een digitale boekenportal die niet alleen nationaal, maar ook internationaal een leidende positie inneemt.

Hier mijn aanbevelingen, voor wat ze waard zijn.

- Scan volgens internationale standaarden. Die zijn nu: scannen in kleur, grijswaarden of zwart-wit op 300 dpi (afhankelijk van de publicatie). Denk niet alleen aan je eigen instelling, maar kijk ook eens op nationaal of internationaal niveau. Stel jezelf de vraag: kunnen de boeken, kranten, tijdschriften (enzovoorts) die wij scannen makkelijk worden ‘ingehangen’ in een algemene portal? Of: kunnen ze worden benaderd vanuit een nationaal of internationaal zoeksysteem? Hieruit volgt: ga niet in zee met bedrijven die uw scans inbedden in speciale software, die alleen door hen geleverd en onderhouden wordt.

- Bewaar de oorspronkelijke scans van de pagina’s (de zogenoemde moeder-tiff’s) zorgvuldig. Dit geeft de mogelijkheid om een batch (een verzameling tiff’s) later opnieuw te OCR’en, maar dan met de nieuwste, verbeterde software. Omdat er wereldwijd zoveel wordt gescand, wordt er ook ruim geïnvesteerd in OCR-software. Denk hierbij bijvoorbeeld aan het project IMProving ACcess to Text (IMPACT). De opslag van tiff kost overigens erg veel geheugenruimte, daarom slaat men de oorspronkelijke scans tegenwoordig meestal op als JPEG2000.

- Ga na of de titel die jij wilt scannen, niet al elders is gescand. Dit klinkt buitengewoon voor de hand liggend, maar in de praktijk is het lastig om dit na te zoeken. In Nederland zijn tientallen instellingen en bibliotheken aan het scannen geslagen, maar vooralsnog kun je nergens nazien wat er al gedaan is. Het gevolg: nu al zijn sommige boeken drie of vier keer gescand, met overheidsgeld. Richt een centrale database in, maak een lijst op een website of creëer in Picarta de mogelijkheid om aan te vinken dat een boek is gescand. Hoe dan ook: voorkom duur dubbel werk.

- Richt zelf een kleine of grote scanstraat in. Goed scannen is niet makkelijk, maar de techniek is de afgelopen jaren met sprongen vooruit gegaan en zó moeilijk is het nou ook weer niet. Met een scanner van een paar duizend euro kun je al snel 2 miljoen scans maken - scans van uitstekende kwaliteit.

- Staar je niet blind op het scannen van boeken. Al jarenlang worden boeken digitaal geproduceerd. Alle uitgevers beschikken over pdf’s van de laatste (gecertificeerde) proef. Ga die pdf’s verzamelen. Of nog beter, richt een centraal e-depot in waar uitgevers deze pdf’s onder embargo kunnen uploaden (bijvoorbeeld onder de voorwaarde dat de boeken pas op internet of op een intranet mogen worden gezet als ze niet meer in de boekhandel te koop zijn). Er zitten haken en ogen aan zo’n depot, maar mijn ervaringen zijn goed. Jaarlijks krijg ik, zonder problemen, van tientallen uitgevers pdf’s toegestuurd.

- Alle auteurs krijgen een pdf van de laatste proef toegestuurd. Zij beschikken over het auteursrecht op hun publicaties. Als er een e-loket was geweest, in combinatie met een heldere embargoregeling, zou ik zelf al jaren boeken en artikelen hebben ingestuurd, zonodig met een lijstje van de laatste, in de proef aangebrachte correcties.

- Staar je niet blind op je eigen productie. Zolang scans volgens internationale standaarden zijn gemaakt, kun je ze ook betrekken van derden. Ik ken allerlei wetenschappers die zelf boeken scannen, soms op grote schaal. Open een loket waar mensen hun scans kunnen deponeren.

- De digitale boekenzee zal binnenkort zo groot worden, dat je er als gebruiker makkelijk in kunt verdrinken. Bied bij de inrichting van je digitale bibliotheek onderzoekers de mogelijkheid om een bepaalde selectie vast te houden en te doorzoeken (bijvoorbeeld onder te brengen in ‘Mijn bibliotheek’).

- Bied de mogelijkheid om thematisch te zoeken. Mijn eigen digitale taalbibliotheek bevat 130 thematische mappen, met als afdelingen onder meer spreekwoorden (205 titels), etymologie (358 titels) en literaire bronnen (momenteel 3.290 titels, voornamelijk Nederlandstalige romans). Bied niet alleen de mogelijkheid om doorzoekbare pdf’s te downloaden, maar stel ook een attenderingssysteem in: bent u geïnteresseerd in spreekwoorden, vul dan hier uw e-mailadres in, dan houden wij u op de hoogte als er op dit terrein nieuwe titels worden toegevoegd.

- Begin de titel van een pdf bij voorkeur met een jaartal. Dit maakt het mogelijk om de titels - online of op eigen harde schijf - chronologisch of omgekeerd chronologisch te doorzoeken. Voorbeeld van zo’n titel: ‘2008_Drimmelen, Wim v_Het is mooi geweest.’ Er zijn diverse variaties mogelijk, bijvoorbeeld: 1957-1968_Kan, Wim_Dagboeken (1988); 2007_Onze Taal_12 (dec); 1859_Gedichten vd Schoolmeester (ed. Mathijsen 1979).

- Bibliotheken zijn in de eerste plaats bewaarplaatsen, maar je kunt boeken ook alleen in digitale vorm bewaren. Sterker nog: dan worden ze opeens veel vaker geraadpleegd. Wees daarom niet te bang om boeken te versnijden, hoewel dit in eerste instantie emotionele reacties oproept bij het publiek. Boor voor de aanschaf van boeken die mogen worden versneden nieuwe bronnen aan. Bij veilinghuizen en antiquariaten (zoals in Nederland De Slegte) worden jaarlijks duizenden boeken weggegooid of ‘doorgedraaid’. Ook hiervoor geldt dat mijn ervaringen zeer positief zijn: ik heb bij deze bronnen al honderden boeken (waaronder diverse unica) van de dood ‘gered’ door ze onder te brengen in mijn digitale bibliotheek. Die unica heb ik natuurlijk niet versneden (te zijner tijd zal ik ze aan de Koninklijke Bibliotheek schenken).

En tot slot: maak je digitale bibliotheek écht interactief. Maak, net als Wikipedia, gebruik van de kennis die aanwezig is bij de gebruikers. Laat hun bijvoorbeeld weten waar ze correcties in titelbeschrijvingen kwijt kunnen, al was het maar zoiets kleins als de correcte datering van het boekje Amsterdam bij nacht.

Ewoud Sanders

Dit artikel werd onlangs gepubliceerd in de afscheidsbundel voor Wim van Drimmelen, directeur van de Koninklijke Bibliotheek. Het staat Martin Bossenbroek, Perry Moree: Karakter. De Koninklijke Bibliotheek onder Wim van Drimmelen 1991-2008, KG Saur, München, 2008, pp. 375-385.

Reageer



designed by Tbdesigns(.nl) | Stukken (RSS) en Reacties (RSS).