HomeBijdragenBackoffice op de voorgrond (8): Wat kost digitalisering… en wat levert het op?

Backoffice op de voorgrond (8): Wat kost digitalisering… en wat levert het op?

Avatar

Matthijs van Otegem

Hoofd van Productie & Beheer, de backoffice van de Koninklijke Bibliotheek

Elke erfgoedinstelling zet tegenwoordig in op digitalisering. Des te meer, des te beter. Maar is dat nou echt zo?

Na het aanvankelijke enthousiasme van de afgelopen jaren neemt de kritiek toe. Digitaliseren is duur, er wordt veel dubbel gedigitaliseerd, de resultaten vallen tegen, en vooral, ze zijn zo slecht te hergebruiken. Volgens het NRC zou er sprake zijn van een ‘digitaal drama'. Vond ik niet leuk als verantwoordelijke bij de KB, maar wat doe je eraan? Uitleggen wat digitalisering kost, waarom en hoe. Precies wat Dick Vestdijk vroeg op de IP-site in een reactie op de post over Baumol.

1 pagina = 1 euro

Bij de Koninklijke Bibliotheek kost 1 pagina ons gemiddeld 1 euro. Voor boeken iets minder, voor kranten juist weer meer. Die euro is ruwweg als volgt opgebouwd. Let wel: dit zijn de verhoudingen in een project voor massadigitalisering. Verander je de aanpak, dan veranderen de verhoudingen mee.

  • 40% uitbesteed werk bij een digitaliseringsbedrijf
  • 35% inzet eigen personeel
  • 15% IT
  • 5% beschikbaarstelling
  • 5% conservering.

Wat krijg je hiervoor?

Aan het begin van de keten zit de erfgoedinstelling die met subsidie van het nationaal conserveringsprogramma Metamorfoze een collectie wil digitaliseren. De collectie bewerkt de KB voor, voordat deze naar het digitaliseringsbedrijf gaat. Dit houdt in: controleren of digitalisering mogelijk is zonder tekstverlies en waar nodig kleine reparaties uitvoeren. Deze informatie koppelen aan de metadata van de objecten in een database en waar gewenst metadata toevoegen: bijvoorbeeld, welke pagina moet gepresenteerd worden als thumbnail in een zoekresultaat?

Het digitaliseringsbedrijf scant de documenten en levert een set bestanden: wel acht per pagina. Behalve de moederopname (master), willen we ook een lichte versie van de scan (afgeleide) voor een webpresentatie. Daarbij een full-text bestand, gemaakt met OCR-software – optical character recognition. En een bestand dat aangeeft welk woord waar op de pagina staat (ALTO-bestand), een PDF (voor printen en mailen), de verrijkte metadata, een bestand met technische informatie hoe er gedigitaliseerd is (MIX-bestand) en tot slot een bestand dat aangeeft hoe dit hele setje samenhangt (bijvoorbeeld een concordantietabel of MPEG21-Didl bestand).

Natuurlijk controleren we wat we geleverd krijgen. Deels automatisch, deels handmatig via steekproeven. Verbazend genoeg heeft onderzoek van een stagiair bij de KB uitgewezen dat bijna niemand in Europa de resultaten van de digitaliseringsbedrijven goed controleert!? Hiervoor hebben we dan ook wat zelf moeten ontwikkelen. Naast de kosten voor opslag van de bestanden, zit hier een groot deel van onze IT-kosten.

De instelling krijgt de collectie terug en deze wordt geconserveerd. De resultaten van het project komen digitaal beschikbaar, liefst online als de auteurswet dit toestaat en anders onsite.

Kan het ook anders?

Natuurlijk kan het anders… maar dan krijg je ook een ander product. Dat maakt de hele discussie over digitalisering zo troebel. Bovenstaande aanpak levert een perfecte scan die het origineel kan vervangen, en een zoekervaring waarbij net als in Google het zoekwoord wordt uitgelicht in het beeld van het origineel. De tekst is niet perfect, want ook de beste OCR-software herkent niet alle tekens goed. Daar wordt wereldwijd hard aan gewerkt (zie bijvoorbeeld het project IMPACT), maar zeker bij oudere teksten op slecht papier is het resultaat nog niet best. Mocht dit ooit veranderen, dan is de scan goed genoeg om opnieuw de OCR te maken.

Het kan ook anders. Bijvoorbeeld een scan maken die leesbaar is, maar niet meer dan dat. En die scan dan OCR-en en vervolgens met software en handmatig de tekst laten corrigeren tot 99,99% correctheid. Ook kan je dan bijvoorbeeld meteen persoonsnamen ‘taggen’. Je krijgt zo een perfecte en verrijkte tekst om in te zoeken. De scan geeft een indruk van het origineel, maar is verder niet heel bruikbaar en uitlichten van het zoekwoord is niet mogelijk. Toevallig is de prijs per pagina dan ongeveer hetzelfde. Dit doet de Digitale Bibliotheek voor de Nederlandse Letteren.

Verschillende methodes kunnen naast elkaar bestaan, afhankelijk van welk doel je nastreeft. Digitaal Erfgoed Nederland heeft op de website een handig overzicht van standaarden waar je dan wel rekening mee zou moeten houden.

Hergebruik of dubbel werk?

Digitalisering rendeert pas goed als iedereen in staat is andermans resultaten te hergebruiken. Dan hoef je niet meerdere malen te scannen. Daarom wordt wel geroepen om een digitaliseringsregister: een lijst waarin je kan zien wat al gedaan is. Een nationale bibliografie waarin je kan zoeken op links naar een full-text is al heel wat. Voor een register moet je ook weten hoe iets gedaan is. Krijg je straks een perfecte scan of een perfecte tekst, of allebei? Lang niet iedereen legt vast hoe er is gedigitaliseerd, want dat kost ook weer geld. En een register bijhouden ook. Om deze redenen zijn er nog niet zoveel.

Digitaliseren blijft balanceren

Het is duidelijk dat er veel variatie mogelijk is in digitalisering:

  • In welke (deel)producten stop je je geld (scans, tekst, metadata et cetera)?
  • Kies je voor massadigitalisering met een lage kostprijs per stuk maar met het risico op scannen van ‘winkeldochters’, of accepteer je de hogere kostprijs per stuk van scanning on demand om alleen te kunnen doen wat de klant echt wil?
  • Stop je middelen in een digitaliseringsregister om dubbel werk te voorkomen, of is het goedkoper om de kosten van dubbel werk voor lief te nemen dan een digitaliseringsregister te onderhouden?

Deze vragen zijn soms best confronterend: wie durft er te zeggen dat hij expres dubbel scant? Zoals telkens in de backoffice geldt ook hier: expliciteer de voice of the customer. Welk aspect van je digitale product is nu echt kritisch voor de ervaring van je klant? En dan onderbouwen met harde data. Meten is weten. Dan kan je het altijd uitleggen. Ben ik in ieder geval altijd toe bereid. Pottenkijkers welkom!

Lees ook:

Backoffice op de voorgrond (1): In de cloud

Backoffice op de voorgrond (2): Hebben we de ziekte van Baumol? 

Backoffice op de voorgrond (3): Informatie als economisch goed 

Backoffice op de voorgrond (4): Bibliothecaris leert van econoom

Backoffice op de voorgrond (5): Total cost of ownership

Backoffice op de voorgrond (6): Het proces

Backoffice op de voorgrond (7): Return on investment


Reacties

Er is nog niet gereageerd op dit artikel.
Login om te reageren op dit artikel. Klik hier
  Purchasing CialisCialis Professional No PrescriptionCialis OnlineViagra DosageCheap Viagra Online Usa