VUB laat scanners oude documenten beter lezen

11-12-2020
Het digitaliseren van oude documenten verloopt vaak met horten en stoten omdat papier in de loop van de tijd slecht leesbaar is. Dr. Tan Lu van de VUB- onderzoeksgroep Digital Mathematics ontwikkelde voor zijn doctoraatsonderzoek software die zich niet laat foppen door scheuren, vlekken of slechte scans.

In de culturele erfgoedsector is het digitaliseren van oude documenten een belangrijke taak omdat die documenten op die manier doorzoekbaar worden. Dat scannen verloopt aan de hand van optical character recognition (ocr), waarbij de computer als het ware de letters van het document ‘herkent’. De techniek is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina’s, zoals scheuren en vlekken. Bovendien kan de computer in de war raken door de 'frivole' tekst-opmaak die voorkomt in bijvoorbeeld reclames en modetijdschriften.

Onder leiding van Prof. Dr. Ann Dooms ontwikkelde Lu een reeks ‘homogeniteitsmodellen’ die de computer helpen hun tekstherkenning sterk te verbeteren. In deze modellen formuleerde hij scenario's om diverse problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. Daarbij maakte hij gebruik van bestaande kennis over de manier waarop de menselijke hersenen omgaan met gecompliceerde beelden. 

Lu: ‘De gestaltpsychologie leert ons dat mensen losse objecten van eenzelfde soort van nature met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren.’ 

Door dus inzichten uit de waarnemingspsychologie te integreren in een zogenoemd ‘probabilistisch lokaal teksthomogeniteitsmodel’, leerde Lu de computer omgaan met documenten met een moeilijke layout en hierin ook tal van beschadigingen en vervormingen herkennen.

Lees verder >>

Meer over:
Archivering
My Marqit

Registreer je gratis voor de volgende voordelen:

  • Onbeperkt downloaden van meer dan 1500 whitepapers
  • Een marktoverzicht met informatie over alle aangesloten IT leveranciers
  • Kosteloos en vrijblijvend toegang tot alle informatie die de IT sector biedt
E-mailadres
Kies wachtwoord
Wachtwoord vergeten?