HomeBijdragenBackoffice op de voorgrond (18): Lezen alsof het gedrukt staat

Backoffice op de voorgrond (18): Lezen alsof het gedrukt staat

Avatar

Matthijs van Otegem

Afgelopen donderdag hadden we een feestje bij de KB: op kranten.kb.nl staan nu miljoenen pagina’s online, die we dankzij subsidie van NWO en Agentschap NL konden digitaliseren. Na de blog over digitaliseren weet je ruwweg wat digitalisering kost en wat je ervoor krijgt. Een 100% correcte tekst zit daar niet bij. Met software haal je dit niet en handmatig kan het niet op deze schaal. Als backofficer zit me dat dwars: de kwaliteit die de klant wil, kan ik niet produceren. We doen het zo goed mogelijk met de technieken die we hebben. Hoe werkt tekstherkenning precies?

Hoe werkt OCR?

OCR, optical character recognition, is een techniek die tekst uit een plaatje omzet naar machineleesbare letters. Als u het gaspedaal iets te hard intrapt tussen Amsterdam en Breukelen, gaat u op de foto en dankzij OCR krijgt u twee weken later keurig een brief thuis. Zwarte koeienletters op een knalgele achtergrond gaat prima, onze historische kranten zijn een stuk moeilijker.

Deze tekenherkenning is de eerste stap. De software moet snappen dat een bepaalde combinatie van pixels een letter is. Dit gebeurt door een afbeelding in te delen in blokken, en in geval van tekst, vervolgens in regels en tekens. De tekens worden vergeleken met een set standaard patronen (letters) en de software kiest de best passende match en geeft hier een cijfer bij voor de betrouwbaarheid. Slecht ‘leesbare’ letters krijgen een lager cijfer dan heldere ‘nummerbord’ letters.

Een volgende stap is het resultaat op woordniveau vergelijken met een woordenboek. Zo kan de software tekens met lagere betrouwbaarheid corrigeren als het eerste resultaat niet leidt tot een bestaand woord. In het project Impact zijn goede resultaten behaald door historische woordenboeken te gebruiken bij het OCR-en van oudere teksten.

Tot slot kan je de software trainen, zodat je steeds preciezer kan laten vaststellen wat een ‘best passende match’ is. De National Library of Australia heeft een mooi artikel gepubliceerd over wat je kunt doen om met deze technieken de OCR bij gedigitaliseerde kranten zo goed mogelijk te krijgen.

OCR is statistiek

Je begrijpt, het gaat om kansen: software leest niet maar kiest voor de hoogste kans op een juiste match. Dit is pure statistiek. OCR verschuift van tekenherkenning naar modelbouw: kunnen we een formule maken van parameters die het best voorspellen wat de boodschap is die de auteur aan de lezer wil overbrengen, gegeven de tekst die we nu hebben? Die tekst is een product van een communicatieketen: drukken, verspreiden, scannen en tekstextractie.

Bij elke stap kan wat mis gaan, net als bij alle communicatie trouwens. Op grond van de vorige stap is niet te voorspellen wat er mis zal gaan bij de volgende. Dit is wat wiskundigen een Markov-keten noemen: een systeem dat zich door een aantal toestanden beweegt, waarbij de toekomst gegeven de huidige toestand niet afhangt van het verleden. Het heeft dus geen ‘geheugen’.

Het vervelende bij OCR is dat we niet goed weten wat de parameters zijn die de volgende toestand bepalen. We moeten het doen met de scan en daaruit reconstrueren wat er onderweg gebeurd kan zijn; het is een zogeheten ‘hidden Markov-model. OCR is hogere wiskunde geworden.

Ontwikkelingen in OCR

Op deze manier geformuleerd is de problematiek van OCR niet wezenlijk anders dan die van vertaalmachines of spraakherkenning. Je ziet dan ook dat de technieken daarvoor steeds meer in elkaar schuiven. Bij Google Research zijn ze daarmee behoorlijk ver, getuige het artikel Translation-Inspired OCR. De omgekeerde weg kan trouwens ook: op basis van correcte tekst goed leesbare onzin maken. Met een Markov-model kan je op basis van een standaardtekst ook tekst genereren waarmee je langs een spamfilter komt. Of zogenaamd wetenschappelijke post-modernistische artikelen produceren. Ja, ook nieuwe historische kranten op basis van wat we nu online gezet hebben.

Maar dat doen we dus niet. Dankzij het nationaal conserveringsprogramma Metamorfoze gaan we door met digitalisering van echte kranten!

Lees ook:

Backoffice op de voorgrond (1): In de cloud

Backoffice op de voorgrond (2): Hebben we de ziekte van Baumol? 

Backoffice op de voorgrond (3): Informatie als economisch goed 

Backoffice op de voorgrond (4): Bibliothecaris leert van econoom

Backoffice op de voorgrond (5): Total cost of ownership

Backoffice op de voorgrond (6): Het proces

Backoffice op de voorgrond (7): Return on investment

Backoffice op de voorgrond (8): Wat kost digitalisering… en wat levert het op?

Backoffice op de voorgrond (9): De klant 

Backoffice op de voorgrond (10): Het Kwaliteitshuis

Backoffice op de voorgrond (11): 8 vormen van verspilling

Backoffice op de voorgrond (12): Go with the flow

Backoffice op de voorgrond (13): Het raadselspel

Backoffice op de voorgrond (14): Hoeveel fout is goed?

Backoffice op de voorgrond (15): De catalogus-winstverdriedubbelaar

Backoffice op de voorgrond (16): Clean desk 

Backoffice op de voorgrond (17): Verliesaversie

 


Reacties

Er is nog niet gereageerd op dit artikel.
Login om te reageren op dit artikel. Klik hier
  Viagra No Prescription OnlinePrice Of CialisCialis WomenViagra No PrescriptionBuy Viagra In Toronto