5.5.07

Zoeken naar beeld en geluid 2




Spencer Myer plays Scarlatti Sonata K87


Inleiding

Het is alweer enkele maanden geleden dat mijn laatste post op dit weblog gepubliceerd is. En hoewel de redactie van uw gewaardeerde vakblad zich discreet van aanmaningen heeft onthouden, voel ik haar hete adem wel degelijk in mijn nek. Hier dus het tweede artikel over zoeken naar beeld en geluid.

Aanvulling
Om te beginnen een aanvulling op mijn vorige post, over stilstaand beeld. Nu ik de tekst nog eens doorlees, zie ik dat die ging over hoe zoekmachines stilstaand beeld vinden, niet over hoe wij dat (moeten) doen. Wie daarin geïnteresseerd is kan het beste beginnen met de handleiding Finding Images Online die de Britse Technical Advisory Service for Images (TASI) op het web heeft gezet. Deze handleiding maakt deel uit van een uitgebreide site die het hele terrein van digital images en digital imaging, dus ook de productie, archivering en beschikbaarstelling, omvat. Naast de handleiding zijn voor de zoek(st)er onder meer een vergelijkend overzicht van de belangrijkste beeldzoekmachines, -metazoekmachines en collecties zoals die van Corbis, Getty Images en Flickr, en een directory/database van 900 fotoarchieven en -collecties interessant.
In de TASI-handleiding wordt er terecht op gewezen dat lang niet alle plaatjes, zelfs zijn ze online beschikbaar, met de grote of gespecialiseerde zoekmachines te vinden zijn. Veel materiaal zit verstopt in databases, archieven en repositories, en dat betekent dat de zoek(st)er zich om te beginnen extra zorgvuldig zal moeten afvragen wat hij/zij eigenlijk zoekt , met welk doel en wat de afbeelding mag kosten. Aparte hoofdstukken zijn daarom gewijd aan het zoeken naar stockfoto's, nieuwsfoto's, kunstreproducties, historische en wetenschappelijke afbeeldingen, en kaarten. Bij elk van deze categorieën staat een aantal sites opgegeven, helaas vrijwel uitsluitend van Britse of Amerikaanse signatuur. Daarnaast is de al eerder genoemde directory/database van 900 fotoarchieven en -collecties ingedeeld i n tien categorieën en bevat zo hier en daar ook links naar niet-Britse of Amerikaanse sites, zoals het Australische ArtServe en het Italiaanse OCAIW: Orazio Centaro's Art Images on the Web.

Een classificatiesysteem met tien categorieën van image sites die niet verder zijn onderverdeeld, is misschien niet de handigste manier om een afbeelding van een fiets uit 1902 te vinden, daarvoor kun je beter een site gebruiken waar met een systeem van sleutelwoorden wordt gewerkt: Paula Berinsteins Finding Images Online: Links to Image Resources biedt onder het sleutelwoord Bicycles een link naar het Bodleian Library/Toyota City Imaging Project, waar zulke afbeeldingen, afkomstig uit de John Johnson Collection of Printed Ephemera, inderdaad te vinden zijn. Het boek waarbij deze ongeannoteerde lijst van llinks met titels hoort dateert van 1996, maar de lijst zelf is op 4 maart 2006 voor het laatst bijgewerkt. Een ander uitgebreid overzicht, alfabetisch georganiseerd, maar wel geannoteerd, is de afdeling Images van Margaret Vail Andersons Digital Librarian. Voor wat aan afbeeldingen in talloze databases, archieven en repositories verstopt zit, bieden zulke overzichten natuurlijk maar in zeer beperkte mate een toegang, en het zal dan ook vaak van de inventiviteit van de zoek(st)er afhangen of hij/zij de gezochte afbeelding -- als die al online te vinden is -- ook werkelijk vindt. Zo zal, om een eenvoudig voorbeeld te noemen, een foto van de Arnhemse pastoor J.H. van Basten Batenburg (1823-1889) moeten worden gezocht bij het Katholiek Documentatie Centrum in Nijmegen, terwijl een portret van zijn plaats- en tijdgenoot, de schilder Corstiaan Hendrikus de Swart (1818-1897), in de portrettendatabase van het RKD moet worden g ezocht. Voor wie die database niet onmiddellijk als mogelijke vindplaats van zo'n portret in de gedachten schiet, bieden de zoektermen "portretten" en "database" bij Google uitkomst.
In veel gevallen is het verband tussen een afbeelding en de plaats op het web waar die gezocht moet worden wel duidelijk -- in elk geval achteraf. Een voorbeeld biedt onderstaande foto:



Maar in legio andere gevallen is zo'n verband ver te zoeken: net zomin als het voor de hand ligt uitgaven van de Sprookjes van Moeder de Gans in de Leidse UB (Collectie Boekenoogen) te zoeken, zal men geneigd zijn een foto van de Duitse cellist Ludwig Hoelscher en de Oostenrijkse pianist Jörg Demus in een Koreaans blog te zoeken.

Tot slot nog een aanvulling over de productiekant van het proces: wil een afbeelding gevonden kunnen worden dan zal in vrijwel alle gevallen iets van een beschrijving -- in de titel van het bestand of van de webpagina, in een onderschrift, een tag etc. -- moeten bestaan die overeenkomt met de ingevoerde zoekterm(en); de enige andere mogelijkheden zijn dat de zoeker zelf een overeenkomstig beeld tekent en daarmee zoekt, of dat hij/zij dat met een bestaande gelijkende afbeelding doet. Over het onderwerp hoe de informatie over afbeeldingen gegenereerd wordt (niet alleen begeleidende tekst maar ook andere informatie), heeft Niall Kennedy in zijn blog een grondig en uitgebreid overzicht gegeven onder de titel "The current state of image search". Sterk aanbevolen ook vanwege de Comments, met onder meer vermeldingen van de Google Image Labeler, het ESP Game en de daarop gebaseerde ESP Image Search en de Zwitserse beeldzoekmachine Cortina, die behalve met zoektermen ook met "similarity" tussen images werkt. Het ESP Game is een initiatief van Carnegie Mellon University in Pittsburgh, dat websurfers via een spel probeert te verleiden correcte tags aan afbeeldingen op het Web toe te kennen. Daarbij wordt twee willekeurig aan elkaar gekoppelde deelnemers gevraagd binnen een bepaalde tijd "labels" aan een aan beiden getoonde afbeelding toe te kennen, waarbij ze punten kunnen verdienen als ze allebei hetzelfde label toekennen. In de ruim 3,5 jaar sinds het begin van het spel in oktober 2003 zijn er al ruim 27 miljoen labels toegekend, en het resultaat van al dat werk is te bekijken in een database die ruim 30.000 plaatjes omvat. Een nieuwer spel met een soortgelijk doel is Phetch, waarbij een deelnemer, de Describer, een alleen aan hem/haar getoonde afbeelding moet beschrijven en andere deelnemers, de Seekers, op basis van die beschrijving zo snel mogelijk de bedoelde afbeelding moeten vinden.

Tot zover deze aanvulling op mijn vorige post over zoeken naar stilstaand beeld.

Zoeken naar bewegend beeld
Over dit onderwerp kan ik korter zijn, want nog in maart 2006 heeft Eric Sieverts onder de titel "Webzoekers voor bewegend beeld -- Google niet steeds de beste" in IP een uitvoerig overzicht van de zoekmachines voor bewegend beeld gegeven waarbij ook een aantal zoekmachines gebaseerd op spraakherkenning de revue passeerden. Ik beperk me daarom tot het geven van wat aanvullingen en besteed vervolgens nog wat aandacht aan speciaal die zoekmachines in deze categorie die aan spraakherkenning doen ("speech-to-text search engines") en daardoor tekst kunnen vinden die niet door tekstzoekmachines als Google en Yahoo! wordt gevonden. Om te beginnen dus een paar aanvullingen op Eric Sieverts artikel van vorig jaar. In de eerste plaats valt op dat de kwantiteit van de resultaten van Google Video ten opzichte van zijn concurrenten sterk verbeterd is. Zozeer dat met de zoektermen katrina, google, diabetes en pregnancy, die Eric vorig jaar gebruikte, meer treffers gevonden worden dan er worden getoond , wat ik voor testen altijd een beetje link vind. In plaats daarvan gebruik ik daarom de termen elephantiasis, munib, carcharodon en de phrase Jan Marijnissen. In de tweede plaats zijn zowel SingingFish als Truveo inmiddels eigendom van AOL, dat zijn eigen videozoekmachine aanbiedt, zowel onder de naam AOL Video als onder de naam SearchVideo; overigens wel met verschillende interfaces en zoekmogelijkheden: imposant zijn bij Searchvideo speciaal de talrijke sorteer- en filtermogelijkheden. Op zijn beurt wordt de AOL videozoekmachine ook weer gebruikt door andere videozoekmachines, zoals Brightcove, dat de resultaten van de AOL zoekmachine heeft, plus die van content partners en in sommige gevallen video's die het gebruikers toestaat te uploaden, Windows Live Video Search en ScoopVid, dat de resultaten van AOL weergeeft maar als extraatje de mogelijkheid biedt die achteraf tot een "channel" (= provider), categorie of tag te beperken. Een andere zoekmachine die door diverse videozoekmachines wordt ingeschakeld is Google Co-op, onder meer gebruikt door VDoogle en TubeSurf. De resultaten van deze zoekmachines verschillen aanzienlijk, doordat de sites die ze Google (de tekstzoekmachine) laten doorzoeken, verschillen. De meeste treffers bij de voorbeeldvragen (zie hieronder) gaf TubeSurf, dat YouTube en de videosites van MySpace, Google en Yahoo! doorzoekt. Een zoekactie naar de phrase "Jan Marijnissen" bij TubeSurf geeft dus dezelfde resultaten als de volgende zoekactie bij Google: "Jan Marijnissen" site:youtube.com OR site:vids.myspace.com OR site:video.google.com OR site:video.yahoo.com.
Een bijzondere loot aan deze stam is de Duitse videozoekmachine TVIPI -- Fernsehen im Internet, die het Duitse taalgebied doorzoekt en waarmee ik vond dat er in Berlijn een 18e-eeuws "Holländisches viertel" bestaat.
Nieuwelingen of door Eric niet besproken zijn verder Dabble,Videoronk, ClipBlast, Pixsy, en PureVideo, waarvan de laatstgenoemde (net als bijvoorbeeld de metazoekmachine Mamma voor video's) de technologie van Pixsy gebruikt.
De grootste van deze is waarschijnlijk Dabble, met een database van links naar meer dan 11 miljoen video's (nog altijd minder dan de inmiddels 7 miljoen uur van Blinkx). Anders dan bij bijvoorbeeld YouTube gaat het hier niet om video's die door websurfers naar de site van Dabble worden ge-upload, maar om links; deze worden voor een deel door de spiders van Dabble gevonden bij zogeheten "partners" of elders op het Web, en zijn voor een ander deel het resultaat van social bookmarking: met behulp van een bookmarklet in de browser toolbar kunnen de URLs van door Dabble-leden gevonden video's met de metadata en toegevoegde tags in de Dabble-database worden verzameld. De zoekfunctie is eenvoudig: hoewel Dabble de op de oorspronkelijke site aanwezige beschrijvingen van de video's toont, zoekt het alleen in de tags, waarbij het automatische "word stemming" toepast: met de zoektermen caged en virgin werden wel enkele video's gevonden die die termen (of varianten) om de een of andere reden als tags hadden meegekregen, maar niet een video met Ayaan Hirsi Ali waarbij de titel van haar boek in de beschijving voorkwam. Wel laat Dabble je met phrases (in tags) zoeken .
Videoronk (zoals de meeste van de hier behandelde videozoekmachines Beta) is een metazoekmachine die zijn resultaten bij zijn "providers" YouTube, Google Video, Metacafe, DailyMotion, Ifilm, MySpace, Vimeo, Blip, Revver en Vpod haalt -- d.w.z. ze door de site search engines van die videotheken laat zoeken. Daarnaast staan in een afrolmenu nog de opties music en web internet opgegeven, waarvan mij niet duidelijk is welke ruimte daarmee doorzocht wordt. Er is ook een optie Select all, maar hoewel de resultaten wel bij diverse "providers" -- speciaal, of misschien wel uitsluitend, Google Video en Metacafe -- vandaan komen, worden die van andere op deze manier niet gevonden. Daarvoor moet je ze ieder apart gebruiken.
Daarbij komt dat de zoekmogelijkheden van Videoronk beperkt en verwarrend zijn -- iets wat ons gezien zijn karakter van metazoekmachine niet hoeft te verbazen. De zoekmachine weet zich geen raad met phrases, en als je meer dan een zoekterm gebruikt, vindt Videoronk ook treffers die maar één van de zoektermen bevatten. De oorzaak is dat Videoronk, als het geen treffers vindt, zonder daarvan melding te maken toch een allegaartje aan video's toont. Dat gebeurt ook als een van de gebruikte site search engines (bijvoorbeeld die van Metacafe) geen treffers vindt; Videoronk komt voor die site dan toch met irrelevante resultaten.
ClipBlast noemt zich de "World's Largest Video Search", maar maakt die pretentie in het testje niet waar. Toch heeft deze videozoekmachine een aantal aantrekkelijke kanten. Zo verzamelt ClipBlast de video's in zijn database door het Web te spideren en geeft het in een ticker een alfabetisch overzicht van zijn "providers" (die overigens niet allemaal treffers leveren). Uploaden kan niet, maar ClipBlast biedt wel de mogelijkheid video's op de eigen site te laten indexeren. In een tweede banner zijn de 77 onderwerpen vermeld waarin ClipBlast de video's waartoe het toegang verschaft verdeelt, variërend van Adventure tot Wrestling. Via een alfabetbalk kan de gebruiker in beide overzichten naar de gewenste "provider" (bijvoorbeeld: National Geographic, 913 clips; Library of Congress, 30 clips), dan wel het gewenste onderwerp (Environment, 909 clips; Technology, 8413 clips) springen. Onder de "providers" (in dit geval sites die door ClipBlast gespiderd worden) zijn ook bijvoorbeeld Google Video, met 3463 clips, en Metacafe, met 17 clips, ClipBlast kan voor deze sites dus niet als een soort metazoekmachine worden gebruikt. Pikant is dat ClipBlast voor sommige van zijn providers gebruik maakt van de resultaten van andere videozoekmachines; zo is dat voor Discovery SearchforVideo, waarbij de link naar het zoekresultaat van die zoekmachine niet correct werkt. ClipBlast's eigen zoekmachine herkent geen phrases en maakt gebruik van word stemming; gebruik van Boolese of unitaire operatoren heeft geen effect. Het zoekresultaat kan vooraf gesorteerd worden op Most relevant of Most recent.
Pixsy is een zoekmachine voor zowel foto's als video's. Na het ingeven van zoektermen vindt Pixsy ook beide, maar biedt de gebruiker vervolgens de mogelijkheid het resultaat op een van beide te filteren. Ook de sortering kan achteraf worden gewijzigd van Relevance naar Date.
Pixsy betrekt zijn materiaal bij ca. 260 "providers", bij een flink aantal waarvan overigens alleen images kunnen worden gevonden. Pixsy heeft heel wat minder providers dan ClipBlast, maar daar staat tegenover dat het die in sommige gevallen beter dekt: zo vindt het bij Metacafe meer dan duizend video's, tegen ClipBlast 17; en terwijl ClipBlast er bij MarketWatch 412 vindt, zijn dat er bij Pixsy 463.
Een bonus bij Pixsy is dat het bij zijn trefferlijsten zowel de relevante categorieën vertoont waartoe de gevonden video's behoren, als de providers waar het de video's gevonden heeft. Door een categorie of een provider aan te klikken kan de zoekactie achteraf worden beperkt tot de in die categorie of bij die provider gevonden video's.
De categorieën die Pixsy bij de trefferlijsten vertoont, wisselen per lijst. Op het startscherm heeft het er negen, maar afhankelijk van het zoekresultaat kunnen dat er ook meer zijn. Zoveel onderwerpen als ClipBlast heeft Pixsy echter zeker niet.
In vergelijking met de andere hier besproken videozoekmachines biedt Pixsy relatief veel mogelijkheden. De mogelijkheid om zoekacties achteraf tot een categorie of een provider te beperken is zojuist al ter sprake gekomen; daarbij herkent Pixsy phrases en kunnen zelfs OR-vragen worden gesteld. Die laatste eigenschap deelt het met PureVideo, dat echter geen phrases herkent.

Overzichten
Hieronder volgen twee overzichtjes om een indruk te geven van de hierboven besproken videozoekmachines. Ter vergelijking heb ik ook de door Eric bekeken zoekmachines -- voor zover nog bestaand -- nog eens bekeken. In het eerste overzicht staan content en ontsluiting vermeld, in het tweede bevat de testresultaten voor een zevental vragen.

Content / ontsluiting


Zoekmachine

Crawler

RSS/
tracking

Content partners

Upload/
Submit (site en/of feed)

Metadata/
tags/context

Onder-
titeling/
transcript

Spraak-
herkenning

Google Video

nee

nee

ja

ja

ja

? 1

nee

Yahoo! Video

ja

ja

ja

ja

ja

ja 2

nee

AOL Video/ Searchvideo

ja

ja

ja

ja

ja

ja

nee

Blinkx

ja

ja

ja

ja 3

ja

ja

ja

Searchfor-

Video

ja

ja

ja

ja

ja

? 4

? 5

Brightcove

ja

ja

ja

ja

ja

ja

nee

VDoogle

ja 6

ja 6

nee

nee

ja

nee

nee

Dabble

nee

ja

ja

ja 3

ja

nee

nee

Pixsy

ja

ja 7

ja

nee

ja

nee

nee

Videoronk 8

nee

nee

nee

nee

ja

nee

nee

TubeSurf

ja 6

ja 6

nee

nee

ja

nee

nee

Purevideo

ja

ja

ja

ja

ja

nee

nee

Clipblast

ja

ja

nee

ja 3

ja

ja

ja

  1. Een klein deel van de video's in Google Video – aangegeven met het logo cc of ... in de resultatenlijst – heeft ondertitels, en Google lijkt enige tijd te hebben geëxperimenteerd met de alternatieve mogelijkheid een video te starten vanaf de gebruikte zoekterm (Start playing at search term (m.ss). Maar hoewel deze video's inderdaad gevonden worden met tekst uit de ondertiteling, heb ik die mogelijkheid niet meer aangetroffen.

  2. De door Eric Sieverts genoemde mogelijkheid om met Yahoo! Video bij Bloomberg Business TV via de spraakherkenningsoftware van TVEyes in de gesproken tekst van video's te zoeken heb ik niet meer kunnen vinden. De vraag: site:tveyes.com [keywords], die door Gary Price als voorbeeld in het blog van SearchEngineWatch wordt gegeven, levert ook geen treffers meer op. Wel maakt Yahoo! Video in een aantal gevallen gebruikt van fulltext transcripts van video's (voorbeeld, voorbeeld), die echter niet door spraakherkenning tot stand zijn gekomen.

  3. Geen upload, wel invoer rss-feed of anderszins.

  4. Volgens Eric maakt SearchforVideo ook gebruik van transcripts. In dit voorbeeld, een videoclip met de titel "Israel's PM won't resign" (vgl. Blinkx), heb ik dat niet kunnen vinden.

  5. Volgens Eric maakt SearchforVideo ook gebruik van spraakherkenning. In een clip die zowel bij Blinkx als bij SearchforVideo beschikbaar is, heb ik daarvan wel een bevestiging bij Blinkx gevonden, maar niet bij SearchforVideo.

  6. Die van Google.

  7. Voor een lijst van de providers waarvan Pixsy de rss-feeds scant zie hier (linker kolom, onder Sources).

  8. Videoronk is een echte metazoeker, net zoals bijvoorbeeld Ixquick dat voor tekst is. De zoekmachine put dus niet uit een eigen database van hetzij links, hetzij video's.

Zoekterm


Zoekmachine

elephan-
tiasis

"Theo van Gogh"

"avian flu"

Munib

"falun gong"

Carcha-
rodon

"Jan Marij-
nissen"

Google Video (Advanced)

9

117

166

50

218

12

42

Yahoo! Video (Advanced)

4

159

218

2

683

7

99

AOL Video / Searchvideo

6

52

290

3

64

7

13

Blinkx (Advanced) 1

4 (4)

71 (71)

731 (731)

2 (2)

83 (83)

6 (6)

2 (2)

Searchfor-Video

1

24

48 2

0

34

2

10

Brightcove

6

565 3

459 3

3

99 3

7 3

290 3

VDoogle

5 4

115 4

89 4

10

112 4

3

42 4

Dabble

3

30

47

8

28

1

11

Pixsy

1

52

66

0

53

3

0

Videoronk

22

117 5

220 5

56

221 5

21

48 5

TubeSurf

26 4

507 4

538 4

36 4

416 4

10

122 4

Purevideo

1

59 3

99 3

3

64 3

3

17 3

Clipblast

0

8 6

58 6

0

9 6

0

10.552 7

  1. Tot eind april had Blinkx in de Advanced Search een mogelijkheid een "federated search" uit te voeren. Die leverde meer treffers op dan een zoekactie via de Simple Search of de Advanced Search met de betreffende keuze niet aangevinkt. Intussen is dit "federated search" vakje vervangen door een "full index search" vakje, maar zoekacties met dit vakje aangevinkt leveren dezelfde resultaten op als de eenvoudige zoekacties.

  2. De zoekmachine meldt 116 treffers, maar toont na de eerste 48 geen volgende pagina's.

  3. PureVideo en Brightcove strippen de aanhalingstekens van phrases. Wat ze vervolgens met de afzonderlijke zoektermen doen is mij niet duidelijk. Zowel bij PureVideo als bij Brightcove duiken voor mij onbegrijpelijke treffers op. Overigens is het bij Brightcove wel mogelijk met phrases te zoeken door de URL te manipuleren. In dat geval geeft Brightcove vrijwel alleen die treffers weer die bij AOL vandaan komen.

  4. Inclusief (de aanvankelijk) "weggelaten resultaten".

  5. Videoronk is een metazoekmachine die geen phrases accepteert. Bij gebruik van de afzonderlijke termen in een phrase ontstaan echter onbetrouwbare en sterk geflatteerde resultaten. Zo zijn alle 15 treffers die Videoronk met de zoekphrase Theo van Gogh bij Metacafe ophaalt onjuist (gevonden met alleen Theo), plus een stuk of tien van de 81 resultaten die het van YouTube krijgt. De rest komt uit Google Video; de overige sites waar Videoronk zijn resultaten vandaan zegt te halen (Dailymotion, iFilm, Myspace, Vimeo, Blip, Revver) werden bij deze vraag niet gebruikt ongeacht of ze wel of niet treffers bevatten.

  6. ClipBlast vindt geen phrases maar zoekt de termen daarvan in een AND-relatie.

  7. Jan: 10.552 treffers, Marijnissen: 0 treffers. Hier blijkt dat als ClipBlast een phrase of de combinatie van twee of meer zoektermen niet vindt, het resultaten toont die aan één van de zoektermen voldoen. Op de naam Eric Sieverts vond ClipBlast 5509 treffers, op de combinatie Willem (33) Maxima (22) 55 treffers. Op de zoekterm Jan worden verder ook alle video's gevonden die de afkorting van January in de metadata hebben. Mijn indruk is dat Clipblast ook word stemming toepast. Zie de treffers bij de zoekphrase "to give an example".

Waar een family filter beschikbaar was, is dat steeds uitgeschakeld.


Een paar opmerkingen
Voor mij was dit de eerste wat grondiger kennismaking met zoekmachines naar bewegend beeld, want ik heb nu eenmaal wat meer met geschreven en gesproken woord dan met beelden. Die kennismaking roept bij mij gemengde gevoelens op. Laat ik me beperken tot het onderwerp van dit blog: zoeken. Als ik de mogelijkheden om naar bewegend beeld te zoeken vergelijk met die om naar tekst te zoeken, stelt de huidige "state of the art" mij nogal teleur. Dat heeft te maken met een aantal zaken.
Laat ik positief beginnen. Net als OCR een fascinerende techniek is om gedrukte tekst te digitaliseren en doorzoekbaar te maken, zo is spraakherkenning een fascinerende techniek om dat met gesproken woord te doen. Zoekmachines zoals Blinkx en het in Erics artikel besproken Podzinger stellen zoekers door die techniek in staat tekst in audio en video op te sporen; en dat op dit pad nog steeds verder wordt geëxperimenteerd bewijzen zoekmachines als VIBIV en het het Duitse AudioClipping.
Maar tegelijk valt mij op dat deze techniek, waar ze wordt toegepast, nog nauwelijks geïntegreerd is met de andere mogelijkheden om video en audio te vinden. Als databasegebruikers weten we dat titels, trefwoorden, woorden in abstracts en termen in fulltext elk hun eigen gewicht hebben; een enkel woord in de fulltext van een interview heeft een heel ander gewicht in het zoeken naar een tekst -- en dus ook naar audio en video -- dan datzelfde woord in de titel van de beschrijving of als tag. Van die verschillen lijken zoekmachines zoals Blinkx nog nauwelijks gebruik te maken; in elk geval bieden ze hun gebruikers niet de mogelijkheid hun vragen zo te stellen dat van die verschillen gebruik wordt gemaakt; het is zelfs niet duidelijk welke video's door spraakherkenning en/of ondertiteling zijn ontsloten en welke niet. Weliswaar staat Blinkx in de Advanced Search sortering op relevantie toe; maar hoe die sortering plaatsvindt blijft onduidelijk. Daarbij komt dat de op een zoekterm gevonden video's vaak in hun geheel moeten worden bekeken om daarin de zoekterm op te sporen (bij tekst doe je dat even met de zoekfaciliteit van je browser), waarbij dan vaak blijkt dat ze die niet eens bevatten. Wat ik eigenlijk zou wensen is een Google of een Yahoo! Video met spraakherkenning en dezelfde functionaliteit als de tekstzoekmachines hebben.
Het feit dat sommige zoekmachines in dit testje transcripts/ondertiteling en/of spraakherkenning gebruiken en andere niet, relativeert vanzelfsprekend ook het belang van de aantallen gevonden treffers. Immers, als een zoekmachine als Blinkx bij een bepaalde vraag een groot deel van zijn treffers aan die capaciteit te danken heeft, kan dat betekenen dat zijn zoekresultaat minder relevante treffers bevat dan het kleinere zoekresultaat van een zoekmachine die alleen in metadata zoekt.
Een ander probleem is de dekking. Bij het bekijken van de testresultaten voor de verschillende vragen hierboven, valt op dat sommige zoekmachines wel meer treffers vinden dan andere, maar dat voor het overige de resultaten per vraag sterk uiteenlopen. Zo scoort Blinkx op de vraag naar "avian flu" veel hoger dan de andere zoekmachines, maar doet Yahoo! Video dat met de vraag naar "falun gong" en Tubesurf dat met die naar "Jan Marijnissen". Maar bij de vraag naar "Munib" komt Videoronk met 56 treffers, 20 meer dan Tubesurf, en 54 meer dan zowel Yahoo! Video als Blinkx. Dat betekent dat bij veel, zo niet bij alle vragen meerdere zoekmachines zullen moeten worden gebruikt. Voeg daarbij het feit dat de zoekmogelijkheden divers zijn (hoe gaat elke zoekmachine met phrases om, wat gebeurt er als de zoekmachine een combinatie van termen niet vindt, etc.) en in het algemeen nogal beperkt, en het wordt duidelijk dat er -- ook met de bestaande mogelijkheden -- nog heel wat te verbeteren valt.

Lectuur

Tot slot geef ik nog wat referenties naar lectuur die ik zo hier en daar tegenkwam.
In deze post zijn alleen de algemene videozoekmachines ter sprake gekomen, niet bijvoorbeeld de videotheken zoals van het type YouTube, of de podcastzoekmachines zoals Podzinger. Wie een breder overzicht wil hebben van wat er op dit terrein te koop is kan terecht bij Web Video Watch en de Online Video Guide. Raadpleging van zulke overzichten is speciaal aan te bevelen voor wie bijvoorbeeld vooral geïnteresseerd is in instructievideo's.
In The current state of video search geeft Niall Kennedy een gedegen en goed leesbaar overzicht van de manieren waarop zoekmachines videomateriaal op het Web vinden en vindbaar maken. Een manier die hij nog niet vermeldt is de aanpak van een bedrijf/product met de naam Nexidia, dat gesproken tekst analyseert op basis van fonemen.
Naar aanleiding van een artikel in de New York Times van 25 februari, waarin de loftrompet over Blinkxs technologie wordt gestoken, geeft Danny Sullivan in Search Engine Land van 26 februari een historisch overzicht van de ontwikkelingen in de technologie van audio en video search, van vroege experimenten met ondertitels en transcripts (AltaVista, Virage) en zelfs spraakherkenning (Compaqs Speechbot) in 1998/1999 tot aan de "killer tech" van 2005, sharing and rating (YouTube). Voor de naaste toekomst ziet Sullivan niet spraakherkenning maar "meta search" als grote belofte. Daarbij verstaat hij onder "meta search" niet strikt zoekmachines die de resultaten van afzonderlijke (site) search engines verzamelen en in één resultatenlijst integreren, maar zoekmachines die systematisch content op het Web opsporen op de plaatsen waar die te vinden is. Een kanttekening die daar wel bij past is dat gebruikers van zoekmachines die zowel YouTube, als Google Video als Metacafe en alle andere videotheken ontsluiten, zich er altijd van zullen moeten vergewissen hoe compleet zulke sites door een "metazoekmachine" worden ontsloten.
In Video Search Engines And Online Video Directories: A Mini-Guide bespreekt Robin Good in het kort de belangrijkste zoekinstrumenten voor video op het Web. Een aantal die in deze post niet ter sprake komen, zoals specifieke zoek-, mail- en bewaarmogelijkheden, de aan- of afwezigheid van de mogelijkheid om video's te beoordelen of te becommentariëren en filter- en sorteermogelijkheden van zoekresultaten, vindt u hier besproken.
Niet alle sites waar video beschikbaar is bieden de mogelijkheid die ook te downloaden of te bewaren. Eric Sieverts noemde in zijn artikel al de programma's Streamdown en TotalRecorder. Een uitputtende opsomming van programma's die voor dit doel gebruikt kunnen worden, met nog allerlei toeters en bellen, geeft "Streaming media recording" Een simpele en goedkope oplossing, in elk geval voor video's van Google en YouTube, biedt KeepVid, dat je een knop in de linkswerkbalk van je browser laat zetten waarmee je een spelende video kunt downloaden. Voor gebruikers van FireFox is ook de extension DownloadHelper beschikbaar, waarmee video's van een hele lijst van sites via één pictogrammetje in de adresbalk kunnen worden gedownload.

And now for something completely different...




In een volgende post kijken we naar audiozoekmachines.


Powered by ScribeFire.

Permalink