7.1.07

Zoeken naar beeld en geluid 1

Inleiding
Zoals u zich misschien herinnert, heb ik onlangs een ongelukje gehad met Blogger waarbij praktisch een hele post in het niets verdwenen is. Het ging daarbij om de vierde en laatste aflevering van een miniserie over de affaire-Hirsi Ali, die ik als casus gebruikte voor een onderzoekje naar de betrouwbaarheid van informatie over Nederlands nieuws in de buitenlandse media.

Performancing, een add-on editor bij Firefox
Die vierde aflevering komt er nog wel, maar intussen wilde ik over een ander onderwerp schrijven dat ik interessant vind en tevens de gelegenheid te baat nemen om enige ervaring op te doen met Performancing, een blog editor die als "add-on" bij de Firefox browser kan worden gebruikt. Gebruik van deze add-on heeft in elk geval twee grote voordelen boven het direct werken met de editor van Blogger zelf, nl. 1. het editen gebeurt op de eigen machine en niet remote; en 2. naast publicatie van de post en het opslaan als draft (conceptversie) wordt opslaan als Note als derde mogelijkheid geboden, en dit gebeurt eveneens op de eigen computer. Dit vermindert de kans op het soort ongeluk dat ik hierboven noemde.
Over Performancing zal ik misschien nog wat meer melden als ik er wat meer ervaring mee heb opgedaan, maar in deze post en de volgende zal ik mij verder beperken tot het onderwerp zoeken naar beeld en geluid. Om te beginnen: zoeken naar stilstaand beeld.

Beeldzoekmachines: Google en Yahoo! images
Bij zoeken naar afbeeldingen stellen we ons meestal het gebruik van zoekmachines als Yahoo! of Google Images voor, maar wat deze zoekmachines in feite doen is niet zoeken naar afbeeldingen zelf, ofwel combinaties van kleuren en vormen, uitgedrukt in kleurwaarden en beeldpuntjes, maar naar tekst die afbeeldingen begeleidt. Dat kan ook nauwelijks anders als de vragen die we aan zulke zoekmachines stellen de vorm van ingetypte tekst hebben waarmee we het te vinden object trachten te beschrijven.
Zoekmachines als Yahoo! en Google Images vinden dus alleen afbeeldingen als die vergezeld gaan van beschrijvende tekst, en dan ook nog alleen als die tekst aan bepaalde regels voldoet die het waarschijnlijk maken dat hij een afbeelding beschrijft. Dat is bijvoorbeeld het geval met de ALT-tag in een hyperlink naar een plaatje, als de tekst een bijschrift bij de afbeelding is -- iets wat een computerprogramma kan herkennen -- of kan het geval zijn met een of meer woorden uit de titel van een document dat een afbeelding bevat. Wie regelmatig een van de hierboven genoemde zoekmachines voor afbeeldingen gebruikt, weet dat deze manier van zoeken naar afbeeldingen nogal wat ruis kan opleveren.
Neem bijvoorbeeld deze afbeelding, in Google Images gevonden met de zoekterm: librarian:



Ik maak me sterk dat weinig vrouwelijke collega's zich in deze afbeelding zullen herkennen (hoewel het weer eens iets anders is dan het even traditionele als karikaturale beeld van de bebrilde oude vrijster met knotje). Ze is dan ook alleen gevonden omdat ze op 4 juli 2006 werd geherpubliceerd in een blog met de titel Law Librarian Blog; in werkelijkheid stelt de afbeelding de Vrede voor, en werd op juli 1865 gepubliceerd in Harper's Weekly.
Overigens: tegenover elke afbeelding die zoekmachines als Google en Yahoo! Images ten onrechte wel vinden, staat er ten minste één die deze zoekmachines niet vinden. Die gevallen doen zich voor bij documenten waarin de beschrijving van de afbeelding zich bevindt op een plaats die door de zoekmachines niet als een bij de afbeelding behorende plaats is aangemerkt. Vandaar dat het beslist de moeite waard is om in die gevallen waarin bij een zoekterm geen afbeelding gevonden wordt, toch een tekstzoekmachine te gebruiken, bij voorkeur een (Yahoo! of MSN) die het mogelijk maakt in een zoekvraag als extra voorwaarde te stellen dat een te vinden document een of meer plaatjes bevat. De handigste zoekmachine hiervoor is Yahoo! met feature:image. Een voorbeeld van een plaatje dat op deze manier wel gevonden wordt en met Yahoo! Images niet is er een van de Woudse Dom in Rijnsaterwoude.
Als bezwaar voor deze manier van zoeken geldt natuurlijk wel dat ze nog veel meer ruis oplevert dan die met de speciale Images-zoekmachines: het feit dat een document een zoekterm bevat en ook een plaatje betekent immers allerminst dat die twee iets met elkaar te maken hebben. Wel biedt een tekstzoekmachine aanzienlijk meer mogelijkheden dan een beeldzoekmachine om het gezochte object in zoektermen te omschrijven. Zo levert de zoekvraag "art nouveau gebouw" "Den Haag" feature:image in de tekstzoekmachine van Yahoo! wel foto's van art-nouveau gebouwen in Den Haag op, maar dezelfde vraag (zonder feature:image) in de beeldzoekmachines van Google en Yahoo! niet.
Toch is het zoeken naar plaatjes via zoektermen, in de hoop die via begeleidende beschrijvende tekst te vinden, maar een van de mogelijkheden die de computer biedt. Computers zijn goed in patroonherkenning, of beter: pattern matching, en net zoals ze gedigitaliseerde tekst kunnen terugvinden door die te vergelijken met het digitale patroon van ingevoerde zoektermen, zo kunnen ze dat ook met kleuren en vormen. Je zou je dus kunnen voorstellen dat er ook zoekmachines zouden bestaan die het omgekeerde doen van waar we beeldzoekmachines normaal gesproken voor gebruiken: niet om een plaatje bij beschrijvende zoektermen te vinden, maar om een beschrijving te vinden bij een plaatje dat we als zoekcriterium invoeren. Als wij bijvoorbeeld de titel van een schilderij zouden willen vinden waarvan we wel weten hoe het eruit ziet maar niet hoe het heet, zouden we een gedigitaliseerde afbeelding van het schilderij in een zoekmachine moeten kunnen invoeren, waarna de zoekmachine naar een afbeelding met dezelfde patronen op zoek zou gaan; en bij een geslaagde zoekactie zouden we bij een door de zoekmachine herkend plaatje een titel en een beschrijvende tekst vinden.

QBIC
Mondiale algemene zoekmachines waarmee dit kan zijn er bij mijn weten niet, maar zoekmachines die -- door uzelf gemaakte of bestaande -- plaatjes als zoekcriterium accepteren en dan afbeeldingen zoeken die daarmee overeenkomen zijn er wel. Een voorbeeld is de QBIC-zoekmachine die de Hermitage in Sint-Petersburg biedt om haar collectie te doorzoeken. QBIC staat voor Query By Image Content en is een experimentele zoektechnologie van IBM. Wat de zoekmachine doet kan ik niet beter uitdrukken dan op de site zelf staat vermeld:



"QBIC interpreteert het virtuele doek als een raster van gekleurde gebieden en vergelijkt dit raster vervolgens met andere afbeeldingen die in de database zijn opgeslagen."

Met QBIC zijn in de Hermitage-database drie typen zoekacties mogelijk: op kleuren, op de combinatie van kleuren en vormen (beide in de vorm van een "query by sketch") en op gelijkenis (met een getoonde digitale afbeelding van een schilderij in de collectie; "query by example"). Die gelijkenis kan in een aantal criteria zijn uitgedrukt, waarvan de meeste beschrijvend zijn (same artist, same school, same style, same theme etc.), maar ook een die op beeldanalyse berust: similar visual layout.
Enig experimenteren met deze mogelijkheden levert gemengde indrukken op. Zoekacties met zelf opgegeven kleuren en layout gaven bij mij resultaten die ik moeilijk kan thuisbrengen, maar een zoekactie naar schilderijen met een visuele layout lijkend op een Maria met kind van Jacopo da Pontormo gaf een verrassend staaltje van overeenkomstig kleurgebruik in een bijna vier eeuwen later geschilderd werk van Le Fauconnier.

QBIC

Wie redelijk begrijpelijke resultaten wil zien met de andere zoekmethodes experimentere met de kleuren en lay-out van een schilder en werk met een nogal karakteristieke signatuur, zoals de portretten van Russische generaals van de 19e-eeuwse Engelse schilder George Dawe.
Uit het hierboven gegeven voorbeeld blijkt dat kleuren en verhoudingen tussen kleuren in een afbeelding voor een beeldzoekmachine een basis kunnen vormen waarop zinnige resultaten kunnen worden geboekt, maar dat dat niet noodzakelijk voor voorstellingen geldt. Zoeken op visuele layout naar schilderijen die lijken op een portret van Dawe levert weliswaar veel andere portretten door dezelfde schilder op, maar een zelfde zoekactie op basis van een aquarel van Van Gogh met de voorstelling van vissersboten op het strand van Saintes-Maries (Boats at Saintes-Maries), met veel blauw en geel en enig rood en groen, levert naast één havengezicht van André Derain met dezelfde kleuren (zij het veel minder geel) onder meer portretten en landschappen op. De verbindende schakel lijkt hier vooral het blauw en geel te zijn dat door Van Gogh en zijn tijdgenoten (Matisse, Dufy, Girieud) gebruikt werd.

LCPD
Wie naar gelijkende voorstellingen zoekt, kan dat beter doen in een database met een veel minder grote variëteit dan de collectie van de Hermitage.
Een voorbeeld daarvan is de Leiden 19th-Century Portrait Database (LCPD),die meer dan 21.000 portretfoto's op visitekaartformaat uit verschillende collecties omvat die, al dan niet met bijschrift, in albums werden bewaard. Het gaat hier om (zwart-wit) foto's die door Nederlandse ateliers tussen 1860 en 1914 werden gemaakt.
Behalve dat hier diverse van de albums per bladzijde te bekijken zijn en daarnaast ook de portretfoto's per fotoatelier (waarbij deze ook nog per stad zijn geïndexeerd) bestaat de mogelijkheid bij de voor- en de achterzijde van de foto's naar overeenkomstige foto's te zoeken; op de achterzijde staat doorgaans het artistiek vormgegeven logo van het atelier afgebeeld.
Het zoeken gebeurt in een aantal stappen via relevance feedback: je begint met een twaalftal willekeurig gekozen foto's bij elk waarvan kan worden aangegeven of hij wel of niet aan jouw (visuele) zoekcriteria voldoet, en verzamelt dan gaandeweg steeds meer foto's waarbij dat het geval is.
Een probleem is hier dat hoewel er wel enige uitleg wordt gegeven over de gevolgde methode die de mate van gelijkenis bepaalt (als ik het wel heb een vector-spacemodel), je daar als gebruiker weinig aan hebt. Alleen door experimenteren kom je erachter dat bij de portretten gelijkenis kennelijk wel gedefinieerd is als wel of niet in een ovaal afgebeeld, wel of niet ten voeten uit en wel of niet bovenlijf met achtergrondschaduw, maar niet als frontaal afgebeeld en wel of niet recht in de camera kijkend. Je kunt je dat ook wel voorstellen: dat onderscheid, voor ons kijkers zo evident, vergt van een retrievalsysteem de reductie van een heel portret tot een voor dat systeem heel moeilijk te herkennen detail.
Ook met het zoekcriterium: de foto moet drie of meer geportretteerden afbeelden blijkt het retrievalsysteem moeite te hebben. De eerste vijf van zulke afbeeldingen zijn nog wel tamelijk snel bijeen te sprokkelen, maar daarna moet met deze vijf positieve resultaten diverse malen naar extra afbeeldingen worden gezocht voordat er weer enkele met drie of meer personen opduiken. Onduidelijk is daarbij hoelang de relevance feedback nog werkzaam is en vanaf welk moment de gebruiker alleen nog willekeurige extra resultaten gepresenteerd krijgt.
Ik weet niet op basis van welke criteria fotohistorici dit soort foto's van elkaar onderscheiden, en het is heel goed mogelijk dat de criteria waarmee ik hierboven gezocht heb voor hen niet relevant zijn. Maar het is wel duidelijk dat de ontsluiting van beeldcollecties aanzienlijk minder eenduidig is dan misschien op het eerste gezicht lijkt; hoewel, als je er even over nadenkt, geldt dat voor teksten eigenlijk net zo goed, denk maar aan de retrievalsoftware waarmee tekstcorpora als het Corpus del Español worden ontsloten.
Overigens geeft de andere zoekmogelijkheid op basis van relevance feedback, die naar de logo's van de fotoateliers, in de Leiden 19th-Century Portrait Database (LCPD) voor de leek directer inzichtelijke resultaten. Zo kost het slechts enkele feedback-acties om uitgaande van één van zulke logo's alle elf in de database aanwezige karakteristieke art-nouveau logo's uit ca. 1900-1903 van de in Dordrecht, Eindhoven en Roermond gevestigde ateliers van de fotograaf H.J. Tollens Chzn. te vinden.

LCPD

Achterzijde van een van de portretten door de fotograaf Tollens in de LCPD.

Ook vind je zo zonder al teveel moeite de overeenkomstig vormgegeven logo's van de ateliers Fuchs in Leeuwarden, Greiner in Amsterdam en Buwalda in Soerabaya.
De LCPD is de vrucht van een samenwerking tussen de Leiden Imaging and Multi-media Group van de Leidse universiteit en Philips Research.

ALIPR
QBIC en de in Leiden en Eindhoven ontwikkelde software vergelijken beelden in een directe vertaling van kleuren en vormen, maar er bestaat ook beeldretrievalsoftware die zoeken en vergelijken van afbeeldingen mogelijk maakt door automatische etikettering van afbeeldingen. ALIPR ( Automatic Linguistic Indexing of Pictures -- real time) is een experimenteel programma dat afbeeldingen automatisch van tags voorziet die (elementen van) die afbeeldingen beschrijven. Dat kan handig zijn voor mensen die hele fotoverzamelingen in bijvoorbeeld Flickr onderbrengen, maar de tijd niet nemen voor of moeite hebben met de toekenning van tags. Aan de hand van de door ALIPR aan (kleuren)foto's toegekende tags kunnen die foto's dan natuurlijk ook weer teruggevonden worden, of kunnen foto's met een of meer van dezelfde tags worden opgespoord.
ALIPR is nog maar net uit de steigers, en zijn initiële vocabulaire van tags is nog beperkt tot 332 aanduidingen. Deze zijn bij de al in de database opgenomen foto's in blauw weergegeven. Daarnaast bestaat voor bezoekers de mogelijkheid aan zulke foto's andere tags toe te voegen, en zelfs ook om foto's toe te voegen, met eigen tags en/of tags uit het bestaande vocabulaire. De tags van bezoekers zijn bij de afbeeldingen in groen weergegeven.
Wie zich wat in ALIPR wil oriënteren, kan het beste beginnen met de tekst About Us, en dan onder View Results: wat spelen met random images, keyword search en Flickr images. Bij het bekijken van de automatisch toegekende tags bij plaatjes die worden getoond vallen zowel fraaie treffers als grandioze missers op. Het laatste geldt overigens voor door bezoekers toegekende tags, die het systeem ernstig kunnen vervuilen, of zelfs ontregelen.

ALIPR1
Enkele geslaagde voorbeelden van automatisch toegekende tags in ALIPR. Alleen indoor valt buiten de boot.

ALIPR2

Polo: "a stroke of genius"! (?) Alleen rock valt buiten de boot.

ALIPR3

indoor??? church???

Enige scepsis over de successen lijkt mij overigens op z'n plaats. Hierbij is het goed te bedenken dat de plaatjes in de database van ALIPR uit diverse bronnen afkomstig kunnen zijn. Er zijn er die van ALIPR zelf afkomstig zijn, andere zijn aan Flickr ontleend, en een derde groep is door bezoekers ge-upload. Bij de eerste groep weten we niet precies hoe ALIPR aan zijn tags is gekomen, maar een van de mogelijkheden hier is dat het oorspronkelijke plaatje een naam had -- bijvoorbeeld polo.jpg -- die al een aanwijzing over het onderwerp van de voorstelling bevatte. Dat is in elk geval zo bij veel van de aan Flickr ontleende plaatjes, waarbij bovendien in veel gevallen in Flickr zelf ook dikwijls een titel en een onderschrift beschikbaar zijn, die met de in ALIPR beschikbare tags konden worden gematched. Bij de laatste groep, de door gebruikers ge-uploade plaatjes, is in elk geval ook een bestandsnaam aanwezig; verder wordt de gebruiker bij het uploaden gevraagd een of meer van vijftien door het programma voorspelde tags als correct aan te kruisen, kan hij daar zelf termen aan toevoegen en wordt hem optioneel ook nog naar een titel en een URL met related pictures gevraagd. Het lijkt me daarom een illusie te denken dat ALIPR enkel en alleen met beeldinformatie werkt.
Een paar voorbeelden. Bij het zoeken naar "related" plaatjes bij de afbeelding van een piramide kwam ik twee plaatjes tegen van resp. een stel mensen en een aantal mussen in een piramidevormige formatie. Beide plaatjes bleken uit Flickr afkomstig, en in het geval van de mensen kwam de term pyramid in de titel voor, in dat van de mussen zowel in de titel als in het onderschrift.

ALIPR5
Drie piramides -- maar geen wonder.

Plaatjes waaraan ALIPR dezelfde tags heeft toegekend heten in het systeem "related", en behalve met zoektermen kan ook met plaatjes naar "related" plaatjes worden gezocht. Daarnaast maakt ALIPR het ook mogelijk op basis van "visual similarity" naar overeenkomstige voorstellingen te zoeken. Daarbij wordt dan gebruik gemaakt van een eerder door de auteurs van de software, twee hoogleraren van Penn State University, ontwikkeld programma, SIMPLIcity. Idealiter zouden met "related" en "visual similar" dezelfde voorstellingen moeten worden gevonden, maar dat blijkt niet het geval.
Gezien de hierboven geschetste manier waarop ALIPR aan zijn tags komt, ligt dat natuurlijk ook niet voor de hand.
Dit maal beginnen we met een plaatje dat in ALIPR wordt gevonden met de zoektermen polo en grass:

ALIPR6

Deze afbeelding komt niet uit Flickr maar heeft als URL: http://www.yale.edu/polo/Pictures/Harriman%202005.JPG, zodat je ook hier zou kunnen vermoeden dat de URL tot de identificatie van het onderwerp polo heeft bijgedragen.
Hieronder laat ik nu twee reeksen afbeeldingen volgen die achtereenvolgens met "relatedness" en "visual similarity" gevonden zijn:

ALIPR7

"Related"...

ALIPR8

... en "visually similar"

Tussen deze twee reeksen afbeeldingen is een duidelijk verschil in de mate van gelijkenis met het uitgangsplaatje en onderling. En het lijkt mij waarschijnlijk dat dat voor een deel kan worden verklaard door het feit dat de drie "related" plaatjes alle drie uit Flickr komen en daar op pagina's staan waar de term polo ofwel een tag is en/of in een comment-tekst voorkomt. De tags waarmee ALIPR naar "related" plaatjes bij een uitgangsplaatje uit Flickr zoekt, zijn dezelfde die het plaatje in Flickr heeft, en het kan dus bijna niet anders of ALIPR heeft die uit Flickr overgenomen.
Betekent dat nu dat ALIPR zonder additionele textuele informatie weinig presteert? Nee, dat is zeker niet zo. Zo meldt Roland Piquepaille in zijn blog Emerging Technology Trends bij ZDNet hoopvolle resultaten bij een twaalftal foto's die hij bij ALIPR uploadde en waaraan de software vervolgens automatisch per foto vijftien tags toekende. Maar mijn eigen resultaten met een drietal foto's uit Flickr laten meer gemengde indrukken achter. Hier volgen ze:

Voorbeeld 1:

ALIPR10

Bij deze eerste foto komt ALIPR met zeven relevante tags
(de door mij aangekruiste), een uitstekend resultaat. Zeker als je bedenkt dat ALIPRs eigen "vocabulaire" nog maar uit 332 termen bestaat, en het daar steeds 15 van toekent (naar mijn smaak is dat beslist te veel).

Voorbeeld 2:
ALIPR11

Van dit voorbeeld heeft ALIPR niets terechtgebracht. Dit ondanks het feit dat de termen still_life, painting en flower, die ik als "extra" termen suggereer, deel uitmaken van zijn vocabulaire.

Voorbeeld 3:

ALIPR12

Ook hier is het resultaat weinig hoopgevend. Van de door mij gesuggereerde tags -- sculpture, man, horse, dragon, fountain -- komt alleen dragon niet in het vocabulaire van ALIPR voor.
De auteurs van ALIPR beklemtonen dat de software nog veel te leren heeft, en dat is denk ik de verstandigste conclusie die we voorlopig kunnen trekken.
Dat ALIPR, of een soortgelijk programma, gebruikt zou kunnen worden om automatisch tags te kunnen toevoegen aan in Flickr ge-uploade plaatjes, lijkt mij niet zo waarschijnlijk. Daarvoor is de range van onderwerpen, motieven en elementen veel te weinig afgebakend. Aan de andere kant lijken successen bij beperktere toepassingen van dit soort technologie wel degelijk mogelijk. Zie daarvoor een ander artikel van Piquepaille.

Tot zover over het onderwerp zoeken naar stilstaand beeld. In de volgende post gaan we naar bewegend beeld en geluid kijken.





powered by performancing firefox

Permalink