Zoeken naar beeld en geluid 3
Inleiding
In deze laatste aflevering van een serie van drie posts, gewijd aan het onderwerp zoeken naar beeld en geluid, gaan we kijken naar zoekmachines (en andere zoekinstrumenten) die geluidsbestanden doorzoekbaar maken. Maar eerst nog een paar korte aanvullingen op de vorige aflevering, over het zoeken naar videoclips. Daarin kwamen hoofdzakelijk de videozoekmachines ter sprake, hoewel Google Video, dat ik ook in de test opnam, eigenlijk geen videozoekmachine maar een videotheek of videoportal is.
Wat die videoportals betreft staat in de Chip van vorige maand een staatje van "de belangrijkste sites op internet", met daarbij in een aantal gevallen de aantallen clips die ze bevatten. Verreweg de grootste blijkt Yahoo!, met 40 miljoen clips, alleen, Yahoo! is natuurlijk in de eerste plaats een zoekmachine met eigen spiders, en die telt in dit gezelschap eigenlijk niet mee. Google Video zou volgens het overzichtje in Chip iets meer dan 25 miljoen video's bevatten, maar of dat inclusief of exclusief YouTube is vermeldt de auteur niet. Van YouTube zelf wordt geen omvang opgegeven, enkel dat aan deze videotheek 65.000 nieuwe clips per dag worden toegevoegd. De enige andere videotheek van enigszins vergelijkbare omvang is de videoafdeling van MySpace, die 6.650.000 video's zou bevatten. Hierbij zijn de video's op de regionale sites van MySpace meegerekend.
Een tweede aanvulling betreft een verschijnsel waarvan ik in mijn vorige post al even melding maakte: de spreiding van de aantallen zoekresultaten voor uiteenlopende vragen over de diverse videozoekmachines. Deze lijkt in hoge mate verband te houden met de specialisatie van de diverse videotheken. Dat YouTube verreweg de populairste onder deze videosites is, is geen nieuws; maar daarnaast blijkt het voor sommige onderwerpen ook vrijwel de enige van de bekende videosites te zijn bepaalde typen clips te vinden zijn. Dat geldt bijvoorbeeld voor clips met klassieke muziek, maar ook voor universitaire hoorcolleges. Alleen bij Dailymotion vond ik over deze onderwerpen verder nog aantallen treffers die de moeite waard waren. Myspace stelde me -- nog los van de verwarrende interface -- ook in dit opzicht teleur.
Ten slotte een in mijn vorige post nog niet vermelde videozoekmachine om in de gaten te houden: ook de grote internationale zoekmachine van Franse bodem, Exalead, heeft tegenwoordig een aparte "Video Search", waarmee clips bij YouTube, Dailymotion, Metacafe, Kewego en IFILM kunnen worden gevonden. Aantrekkelijke extra's zijn de mogelijkheden om het zoekresultaat achteraf anders dan op relevantie (standaard) te sorteren en of te verkleinen. De sorteermogelijkheden (naast relevantie) zijn: most recent, most rated, most viewed en lengte, de mogelijkheden om het resultaat te filteren zijn per site (dus YouTube, Dailymotion, etc.) en op lengte (long, average en short). Sommige vam deze mogelijkheden zijn vooraf ook beschikbaar in de Advanced Search, die daarnaast nog enige extra mogelijkheden bieden om van de geavanceerde zoektaal van Exalead (trunceren, soundslike:, spellslike:, NEAR etc.) gebruik te maken. Let wel, Exalead is geen metazoekmachine, deze zoekmogelijkheden kunnen die van de hierboven genoemde sites dus inderdaad overtreffen. Wel stelt de gebrekkigheid van de metadata bij dit soort materiaal beperkingen aan het nut van deze geavanceerde zoekmogelijkheden.
In dit verband verdient ook vermelding dat de tekstzoekmachine van Exalead -- met een database van ruim 8 miljard pagina's soortgelijke mogelijkheden biedt om naar videoclips te zoeken als Yahoo! die bezit. Zoals we hebben gezien levert de opdracht feature:video bij Yahoo! pagina's op die een verwijzing naar een videofile bevatten; bij Exalead kan hetzelfde, maar dan achteraf, door de zoekactie te verfijnen door op de link Video onder Narrow your search -- Multimedia te klikken. Dat de relevantie van de resultaten van deze manier van zoeken niet erg groot is, behoeft nauwelijks betoog.
Zoeken naar geluid
Bij zoeken naar geluid kun je je veel verschillende dingen voorstellen. Zo heeft de vogelliefhebber die het lieflijke geluid van het baltsende roodborstje wil beluisteren andere wensen dan de regisseur van een amateurtoneelgezelschap die op zoek is naar het geluid van een optrekkende stoomtrein, en de muziekliefhebber die Couperins "Tic-Toc-Choc" wil horen, andere verlangens dan wie geïnteresseerd is in wat ds. D.M. van de Linde, predikant te Rotterdam-Hilligersberg, te zeggen heeft over Marcus 8:21-26.
De mogelijkheden van de grote, algemene tekstzoekmachines
In al deze gevallen biedt de algemene zoekmachine van Yahoo! met zijn limiter feature:audio de mogelijkheid de gewenste geluidsbestanden op het spoor te komen. Een alternatief is de limiter linkextension: gevolgd door de diverse audio file extensions, maar omdat dat er nogal wat zijn, is de vraag lastiger te stellen. Zelfs als we ons beperken tot de meest gebruikte audioformaten, dan dienen er nog meer dan een dozijn te worden gebruikt: .aac, .aif, .iff, .m3u, .mid, .midi, .mp3, .mp4, mpa, .ra, .ram, .wav en .wma. Een voordeel is dat de vraag naar "Tic-Toc-Choc" beperkt tot deze linkextensies bij Yahoo! iets meer treffers oplevert dan "Tic-Toc-Choc" feature:audio, en een ander voordeel is dat met de opdracht contains: in plaats van linkextension: in één moeite door ook de database van Live Search kan worden doorzocht. Een derde mogelijkheid die uitsluitend Yahoo! biedt om audiofiles op te sporen is met de limiter outgoingurltype: gevolgd door een MIME-type, bijvoorbeeld: "Tic-Toc-Choc" outgoingurltype:audio/mpeg. Voor MIME-types, zie A Simplified Guide to MIME. Perfect zijn deze manieren van zoeken niet. Enerzijds leveren ze ook irrelevante treffers op, waar de audio op een gevonden webpagina op iets anders betrekking heeft dan op het gezochte muziekstuk, anderzijds vinden ze maar een deel van wat wel relevant is omdat embedded geluidsbestanden niet worden gevonden. Hetzelfde geldt voor videobestanden, die ook als geluidsbestanden-met-beeld kunnen worden opgevat. Terwijl we met de hierboven vermelde zoekacties met Yahoo! en Live Search een audio-opname van Couperins klavecimbelstuk door de grote Hongaarse pianist Gyorgy Cziffra kunnen opsporen, biedt noch de opdracht "Tic-Toc-Choc" beperkt tot de meest gebruikte file-extensies voor video (.3gp, .asf, .asx. .avi, .flv, .mov, .mp4, .mpg, .qt, .rm, .swf, .wmv; zie: Video File Formats), noch die met de limiter feature:video of feature:shockwave, noch die met de MIME-type outgoingurltype:video/x-flv of outgoingurltype:application:x-shockwave-flash toegang tot de video-opname van een van de grootste levende pianisten van dit moment, Grigory Sokolov, bij YouTube, terwijl die wel in de database van Yahoo! zit.
Hierboven is al even ter sprake gekomen, dat de tekstzoekmachine van Exalead het achteraf mogelijk maakt zoekresultaten te beperken tot pagina's die een verwijzing naar een of meer videobestanden bevatten; op dezelfde manier kan door de keuze Audio onder Narrow your search -- Multimedia het zoekresultaat worden beperkt tot die pagina's die een verwijzing naar een geluidsbestand bevatten.
Speciale audiozoekmachines bij de grote, algemene zoekmachines
Tot hier toe hebben we het alleen nog maar over de algemene zoekmachines van Yahoo!, MSN Live Search en Exalead gehad, die ons de zoekmogelijkheden bieden om HTML-pagina's met een link naar geluids- en videobestanden op te sporen. Daarnaast hebben de grote drie onder de zoekmachines echter ook nog speciale zoekmachines voor video (alle drie) en geluid (momenteel alleen Yahoo!).
In vergelijking met de hierboven vermelde tekstzoekmachine van Yahoo! biedt de speciale audiozoekmachine voor het zoeken naar audiobestanden een heleboel extra mogelijkheden. In de eerste plaats maakt deze zoekmachine het mogelijk een zoekactie achteraf tot een van drie opties te beperken: Music, Podcasts en Other Audio. Met de eerste optie, Music, zoekt men naar muziek bij hetzij een aantal aanbieders die online afspeelbare en opneembare tracks ("Audio service providers" zoals ITunes, Napster en MSN Music) verkopen, hetzij "Web service providers", waaronder kennelijk alle andere aanbieders van muziek op het Web (bijvoorbeeld CD-winkels) worden verstaan. Die muziek vind je met de derde optie, Other Audio, ook, maar daarnaast worden daarmee ook audiobestanden van andere geluiden gevonden. Kies je de tweede optie, Podcasts, dan zoekt Yahoo! Audio naar muziekstukken en andere geluiden die het in RSS-feeds heeft opgespoord. Bij de zoekresultaten vind je hier ook de feeds vermeld, waar je je dan meteen op kunt abonneren.
Vindt Yahoo! Audio in zijn hele database of het geselecteerde gedeelte geen bestanden die aan de zoekcriteria voldoen, dan schakelt hij over naar de tekstdatabase, waarin de zoektermen dan vervolgens met de limiter feature:audio (zie boven) worden gezocht.
Ook bezit de audiozoekmachine van Yahoo! dat bij de resultaten van Music en Other audio een koppeling naar de tekstdatabase wordt geboden die het mogelijk maakt naar bijbehorende reviews te zoeken. De implementatie van dit op zichzelf nuttige instrument laat echter veel te wensen over.
Zowel bij de optie Music als bij Other Audio wordt de mogelijkheid geboden het zoekresultaat nog verder te beperken. Bij beide opties kan dat op formaat (MP3, MIDI etc.), duur (korter of langer dan 1 minuut) en bron (alleen Audio services, en bij Other Audio ook Web only), bij Music kan daarnaast de zoekactie ook nog worden beperkt tot alleen de Major releases, d.w.z. zonder alternate releases, importen, EP releases e.d.
Ten slotte vinden we bij de resultaten bij Music nog de mogelijkheid die te verfijnen met de opties Song, Artist, Album en Lyrics. Daarvan is de laatste optie de meest exclusieve en dus de nuttigste.
Yahoo!'s audiozoekmachine bestaat nu een jaar of twee en omvatte oorspronkelijk zo'n 50 miljoen geluidsbestanden. Zoeken in deze database is geen sinecure: doordat met vaak tentatieve zoektermen niet in fulltext maar in niet gestandaardiseerde beschrijvingen wordt gezocht laat het resultaat in termen van recall en precision vaak sterk te wensen over en werken ook de diverse filters gebrekkig of helemaal niet. Hinderlijk is ten slotte dat veelbelovende opnamen uiteindelijk toch op sites blijken te staan waar de creditcard moet worden getrokken om ze te kunnen beluisteren. Wie daarin niet geïnteresseerd is, kan beter naar de audiozoekmachine van AltaVista uitwijken, die bij de meeste zoekacties minder treffers oplevert, maar niet van dit soort sites. Anderzijds: zo vind je wel de Erlkönig van Bryn Terfel (een foutje van een webmaster) en van een aantal mindere goden, maar niet die van Victoria de los Angeles, Ian Bostridge en Christa Ludwig.
Tot dezelfde categorie audiozoekmachines kan die van AOL worden gerekend, niet te verwarren met de speciale podcastzoekmachine van AOL, die ook naar geluid zoekt. Evenmin als de audiozoekmachine van Yahoo! beschikt die van AOL over een Advanced Search, en ook hier kan het zoekresultaat alleen achteraf worden beperkt. Bij AOL is dat tot het soort "Show": All (standaard), Music, News en Radio. Deze categorieën sluiten elkaar niet uit, en zijn ook niet altijd begrijpelijk. Zo bleken de inleidingen tot een aantal pianosonates van Beethoven die de grote Hongaarse pianist Andras Schiff medio 2006 in de Londense Wigmore Hall gaf en die via een muziekblog van de Britse krant The Guardian beschikbaar zijn, bij News te zijn ingedeeld. Verder geldt voor deze zoekactie dat ze beter in de tekstzoekmachine van Yahoo! zou kunnen worden uitgevoerd: deze vindt alle posts van het blog die toegang verschaffen tot de geluidsbestanden en de verzamelpagina van The Guardian waar direct toegang wordt gegeven tot alle lezingen van Schiff.
De audiozoekmachine van AOL is ook nog in een andere gedaante beschikbaar, nl. als een gecombineerde audio-/videozoekmachine, waarvan ik echter alleen een Duitse versie heb kunnen vinden. Naast de optie naar audio- én videobestanden te zoeken, dan wel naar een van beide biedt deze gecombineerde zoekmachine nog een aantal mogelijkheden die de afzonderlijke audio- en videozoekmachines van AOL niet hebben. Zo kan al in het standaard zoekscherm worden gekozen voor geluidsbestanden van langer dan 1, dan wel 3 minuten (of alle, en is er een "erweiterte Suche" waar de zoekactie op diverse manieren kan worden beperkt: tot livestreams, tot een of meer geluidsformaten (MP3, Quicktime, RealPlayer, Windows, naast alle) en tot diverse bitrates (omvang van de bestanden en kwaliteit van het geluid). Een ander verschil is dat de gecombineerde zoekmachine naast genre en duur ook nog formaat en bitrate vermeldt. Daartegenover staat dat de AOL audiozoekmachine de audiokwaliteit vermeldt, vermoedelijk een vertaling van de bitrate.
De resultaten van deze twee vormen van de AOL audiozoekmachine komen niet helemaal overeen: zo levert de zoekactie Liszt Campanella in AOL Audio Search 61 treffers op, die naar dezelfde zoektermen in AOL Audio-/Video-Suche 55.
Hieronder volgt een staatje met de resultaten voor zeven zoektermen voor de algemene audiozoekmachines Yahoo! Audio, AOL Audio Search en AOL Audio-/Video-Suche.
| Audiozoekmachine → Vraag ↓ | |||
| Liszt Campanella | |||
| "expanding universe" | |||
| "Tic-Toc-Choc" | |||
| "steam train" | |||
| ringtone Timberlake | |||
| "squeaking door" | |||
| Poe "The Raven" |
Het is duidelijk dat de audiozoekmachine van Yahoo! een veel grotere database bestrijkt dan die van AOL. Daarbij past de aantekening dat een groot deel van de resultaten van Yahoo! bij de audio search providers vandaan komt en dus niet gratis kan worden beluisterd. Daarbij dekt de audiozoekmachine van Yahoo! ook podcasts, een categorie audiobestanden waarvoor, zoals we zullen zien, AOL een aparte speciale zoekmachine bezit.
In termen van "precision" werken deze speciale audiozoekmachines een stuk efficiënter dan de eerder genoemde mogelijkheden van de grote tekstzoekmachines als Yahoo! en Live Search. Maar als om het gesproken woord gaat, bieden ze nog bij lange na niet dezelfde mogelijkheden als de grote tekstzoekmachines voor tekst doen. Webpagina's worden door deze immers fulltext ontsloten, terwijl de hierboven genoemde audiozoekmachines zich maar op enkele summiere gegevens van audiofiles baseren. Willen we meer, dat wil zeggen: willen we ook audiobestanden fulltext kunnen doorzoeken, dan moeten we ons wenden tot een categorie audiozoekinstrumenten (directories en zoekmachines) die merendeels alleen een bepaald soort bestanden doorzoeken, te weten podcasts. Daarover later meer.
Speciale audiozoekmachines
De tot dusver hier behandelde audiozoekmachines zijn algemeen van aard, in de zin dat daarmee alle mogelijke typen geluid op het hele Web kunnen worden gevonden. Podcastzoekinstrumenten beperken zich tot audiobestanden die op bepaalde plaatsen op het Web te vinden zijn en aan het bestaan waarvan volgens een bepaalde methode (via feeds) ruchtbaarheid wordt gegeven. Maar de meeste zoekmachines onder deze podcastzoekinstrumenten hebben nog een extra beperking, nl. tot stemgeluid: ze maken gesproken tekst doorzoekbaar. En evenzo zijn er zoekmachines die zich tot andere geluiden -- muziek, maar ook andere geluiden -- beperken.
Een simpel voorbeeld van zo'n zoekmachine is FindSounds, waarmee allerlei soorten geluiden, variërend van een bomexplosie tot het gekwaak van een kikker, kunnen worden gevonden. Deze zoekmachine vindt daarnaast ook geluiden die lijken op een al eerder gevonden geluid ("sounds like").
De geluiden die FindSounds laat horen zijn van zo korte duur dat je er weinig aan hebt, en in feite is deze website bedoeld als demosite voor een softwareprogramma dat je geluiden in een eigen verzameling op de pc laat zoeken. Wie op andere manieren geluideffecten op het Web wil vinden, verwijs ik kortheidshalve naar een tip van Wendy Boswell op de site van About.com.
FindSounds is een voorbeeld van een zoekmachine die op basis van metadata zoekt, en voor de al eerder genoemde zoekmachines en de meeste van de hierna te behandelen zoektools voor muziek en spraak geldt dat ook, maar er zijn ook zoekmachines voor die soorten geluid die zich het materiaal zelf adresseren. Een voorbeeld daarvan is midomi, dat je een melodie laat zingen of neuriën en er dan het bijpassende stuk muziek (in modern jargon: "song", of het nu Norah Jones of een symfonie van Bruckner is) bij geeft; mits het dat natuurlijk in de database heeft. Elders op het Web zijn meer van dergelijke zoekmachines te vinden, zoals het Duitse experimentele Musicline, dat kennelijk bedoeld is om potentiële klanten van CD-producenten en online CD-winkels op basis geneuriede melodieën naar opnamen te laten zoeken. De methode volgens welke zulke zoekmachines werken, schijnt gebaseerd te zijn op iets dat de "Parsons code" heet.
Een andere benadering vinden we bij SongTapper, die je het ritme van een stuk muziek (minimaal tien aanslagen op de spatiebalk) laat intypen en dan met, vooruit, songs komt die aan het patroon voldoen. Geeft niet altijd het verwachte resultaat, en soms juiste maar onverwachte resultaten.
Het meest compleet op dit terrein is vermoedelijk Musipedia, dat maar liefst vier methodes om "songs" te vinden biedt: naast "Sing or Whistle" en "Rhythm Search" ook een "Contour Search" en een "Keyboard Search". Bij de "Contour Search" typ je de letters van de Parsons code in (R voor Repeat, U voor Up en D voor Down; de eerste noot is altijd *), bij de "Keyboard Search" laat de zoekmachine je noten horen als je die op het scherm aanraakt en noteert die bij aanklikken in een notenbalk; daarin kunnen ook rusten worden geplaatst.
Muziekzoekmachines zoals deze zijn wel eens leuk om mee te spelen, maar de ware muziekliefhebber zal zijn muziek op het web toch meestal op basis van de metadata -- componist, titel, opus etc. -- zoeken. Daarvoor bieden zowel de hierboven genoemde algemene audiozoekmachines als de hierna te noemen podcastzoekinstrumenten goede mogelijkheden, waarbij ook de al eerder behandelde videozoekmachines en videoportals als YouTube en DailyMotion niet moeten worden vergeten. Daarnaast bestaan er tientallen speciale zoekmachines voor de diverse audioformaten, zoals MP3, MIDI, WAV, WMA, OGG etc. Uitgebreide overzichten zijn te vinden op een Italiaanse en een Franse muziekpagina. Een muziekzoekmachine (eigenlijk eerder een database dan een zoekmachine) die ikzelf met veel plezier gebruik als ik eens een ochtend lang Schubert of Beethoven wil horen, is Spool.fm, dat de treffers bij een zoekactie verzamelt en vervolgens -- vanaf een door mij gekozen nummer in de resultatenlijst -- achter elkaar afspeelt.
Podcastzoekinstrumenten
Podcasts zijn digitale bestanden die met een zekere regelmaat door middel van feeds op internet worden aangeboden. Ze zijn enigszins te vergelijken met blogs, in de zin dat ze gedurende een kortere of langere periode met een zekere regelmaat worden "uitgezonden" en dat ze uit afzonderlijke afleveringen ("clips", "items", "episodes" of "shows") bestaan (de podcasts zelf worden als "series", "shows"(!), soms ook als "channels" aangeduid, niet te verwarren met de categorieën of genres waaruit directories bestaan en die ook wel "channels" worden genoemd). De inhoud van een podcast kan van alles en nog wat zijn, in beeld ("vidcasts") of geluid; vergelijk het maar met alles wat op professionele of amateur radio- en tv-zenders te horen en te zien valt. In het verband van deze post zijn met name muziek en spraak relevant.
Net als blogs hebben podcasts sinds hun ontstaan een pijlsnelle ontwikkeling doorgemaakt: van 0 ruim twee jaar geleden tot naar schatting 100.000 (ca. 1.500.000 afleveringen) nu. Vinden doe je ze door middel van (doorzoekbare) directories en zoekmachines. Daarbij is de situatie tot op zekere hoogte vergelijkbaar met die van de bekende zoekinstrumenten op het Web: de directories maken gebruik van een vrij grove indeling in categorieën, die in het geval van de podcasts een of twee lagen diep gaat. Elke podcast en elke episode is voorzien van een kortere of langere beschrijving en/of een aantal tags die de aard ervan verder omschrijven, en de eigen zoekmachine van de directory zoekt in die metadata. De meeste zoekmachines (Feedster en nog enkele andere buiten beschouwing gelaten) zoeken fulltext, dat wil zeggen dat de audiobestanden eerst door speech-to-text software in tekstbestanden worden geconverteerd en vervolgens in die vorm geïndexeerd en doorzoekbaar gemaakt. Een synchronisatiemechanisme ("time-coding") leidt de gebruiker dan naar de juiste passages in het geluidsbestand. Eén directory, Pluggd, beschikt ook over een experimentele zoekmachine
Beide typen zoekinstrumenten hebben hun eigen nut, waarbij een aantal zaken dienen te worden aangetekend:
- de grootste podcastdirectories dekken een relatief veel groter aantal podcasts dan webdirectories als Yahoo! en ODP dat met websites doen.
- daartegenover staat dat de ontsluiting veel minder diep gaat; een diepte van meer dan twee niveaus heb ik niet aangetroffen, met als gevolg dat bij het gebruik van de directory als directory de keuze in het beste geval tot enkele tientallen en in het slechtste tot enkele duizenden beperkt wordt.
- doordat podcasts in meer categorieën ondergebracht kunnen zijn, is het aantal ervan per directory moeilijk te schatten. Van de grotere directories geeft alleen PodcastBlaster op hoeveel podcasts (35.000) en episodes (620.000) het dekt; bij de andere directories kunnen we die aantallen alleen maar schatten.
- de zoekmogelijkheden in de diverse directories variëren in aanzienlijke mate, van zoeken met een of meer zoektermen in een impliciete OF-relatie in de metadata van zowel podcasts als episodes (Podcast Alley, PodcastBlaster, zij het dat de laatste de resultaten onderverdeelt naar podcasts en episodes) tot het doorzoeken van de afzonderlijke velden Title & Description, Keywords, Host, Location en Episodes (Podcast.net) of het zoeken met phrases in titels, beschrijvingen en tags van podcasts en episodes of een van beide (Yahoo! Podcasts).
- de zoekmachines ontsluiten de episodes weliswaar fulltext, maar sommige doen dat alleen sequentieel, zoals bij een tekstverwerker; woorden en phrases kunnen als zoekterm dienen, maar er kan niet met combinaties van zoektermen worden gezocht. Verder doorzoeken deze zoekmachines alleen de fulltext van de episodes zelf, je vindt er -- doorgaans -- geen podcasts of episodes op metadata mee (tenzij die in de episode genoemd worden).
Directories
Een enigszins complete directory van podcasts ken ik niet. Het meest omvattend lijkt momenteel die van Yahoo! te zijn, die verdeeld is in 13 "main categories" (arts, comedy, entertainment, technology etc.) zonder verdere onderverdeling. Alle categorieën opgeteld leveren ca. 110.000 podcasts op, maar gegeven het bestaan van podcasts met titels als "Current Science & Technology Podcast" ligt het vermoeden voor de hand dat in dat getal doublures zitten. In de categorieën "Education" (8882) en "Technology" (12244) is de overlap zelfs 6785 podcasts. Over de betrouwbaarheid van de indeling make men zich ook niet al te veel illusies: zo komt in zowel de categorie "Science" als de categorie "Technology" een podcast "DoctorTrey.com" voor, volgens de beschrijving "a
Tel je de aantallen podcasts die bij de andere podcastdirectories bij een van hun categorieën zijn ingedeeld bij elkaar op, dan kom je op getallen van 33.000-40.000 podcasts, maar ook die aantallen zijn geflatteerd omdat de podcasts doorgaans bij meer dan één categorie zijn ingedeeld. Hieronder volgen in twee tabellen eerst de zoekmogelijkheden van de vier grootste directories, en vervolgens de aantallen treffers voor een tiental vragen.
| Directory → Zoekmogelijkheden ↓ | ||||||
| Zoekt naast podcasts ook afleveringen | ja | ja | ja | nee | ja | ja |
| Zoekactie beperken tot categorie | nee | nee | nee | nee | ja (achteraf) | nee |
| Impliciet OR | nee | ja | nee | ja | ja | ja |
| Expliciet OR | nee 1 | n.v.t. | nee 2 | n.v.t. | n.v.t. | n.v.t. |
| Impliciet AND of + | ja | nee | ja | nee | nee | nee |
| Expliciet AND of + | n.v.t. | nee 2 | n.v.t. | nee 2 | nee 2 | nee 2 |
| Expliciet NOT of - | ja | nee 2 | nee 2 | nee 2 | nee 2 | nee 2 |
| Ranking op plaats en frequentie zoekterm(en) | ja 3 | ja 4 | ja | ja | ja | ja |
| Zoekactie beperken tot titel | nee | ja (achteraf) | nee | nee | nee | nee |
| Zoekactie beperken tot titel/beschrijving | nee | ja (achteraf) | ja | nee | nee | nee |
| Zoekactie beperken tot podcasts | ja | ja (achteraf) | nee | nee | ja (achteraf) | ja |
| Zoekactie beperken tot episodes | ja | ja (achteraf) | ja | nee | ja (achteraf) | ja |
| Zoekactie beperken tot trefwoorden/tags | nee | nee | ja 5 | nee | nee | nee |
| Zoekactie beperken tot locatie (stad of land) | nee | nee | ja | nee | nee | nee |
| Zoekactie beperken tot host (presentator) | nee | nee | ja | nee | nee | nee |
| Zoeken met phrases | ja | nee 6 | ja | nee 6 | nee 6 | nee |
- OR in de zoekvraag wordt als zoekterm opgevat.
- OR, AND, NOT en/of +, - in de zoekvraag worden verwaarloosd.
- Maar het eerste sorteercriterium is de rating door gebruikers.
- PodcastBlaster toont zijn zoekresultaten in volgorde van zoekterm in de titel van de podcast, de beschrijving van de podcast en de beschrijving van de episode.
- Trefwoorden en tags zijn gedeeltelijk, maar niet helemaal synoniem.
- Aanhalingstekens worden verwaarloosd en zoektermen worden in een impliciete OR-relatie geplaatst.
De zoekmogelijkheden in deze directories zijn dus nogal beperkt, zelfs in aanmerking genomen dat ze "slechts" ca. anderhalf miljoen episodes dekken. Niettemin zijn die zoekmogelijkheden toch nog redelijk gevarieerd: zo zoek je in Podcast Alley alleen naar podcasts, niet naar afleveringen, en in alle andere naar beide; en kun je in PodcastBlaster en Podcast.net een zoekactie tot de titel en beschrijving van een podcast beperken, en in de andere directories niet. Andere verschillen zitten 'm in de lengte van de beschrijvingen, zowel van de podcasts zelf als van de afzonderlijke episodes, en in het aantal episodes van een podcast dat door de diverse directories gedekt wordt. Zo dekt Yahoo! Podcasts van de muzikale podcast "In the hands" 51 episodes, Pluggd 22, Youloud 21 en PodcastBlaster 25; Podcast.net meldt er 286, maar toont er niet meer dan 60. Geen van de directories bestrijkt de hele serie, waarvan de eerste post al in augustus 2004 werd gepubliceerd. De tabel hieronder kan dan ook alleen maar een idee geven van de relatieve omvang en samenstelling van de diverse directories. Het getal tussen haakjes geeft het aantal gevonden episodes aan.
| Directory → Zoekvraag ↓ | PodcastBlaster 1 2 | Youloud 3 | ||||
| dynamite | ||||||
| OpenOffice | ||||||
| Balkenende | ||||||
| Sarkozy | ||||||
| Bonaparte | ||||||
| Brahms | ||||||
| Borat | ||||||
| quarks | ||||||
| jihad | ||||||
| descartes |
- De resultaten zijn die van de eigen zoekmachine van PodcastBlaster, niet die van de ook beschikbare Google Custom Search.
- PodcastBlaster en Podcast.net tonen niet meer dan 100 treffers.
- Op basis van de Youloud-directory bestaat nog een aparte zoekmachine, Noisely genaamd, die de resultaten van een zoekactie in die directory achter elkaar afspeelt.
Podcastzoekmachines
Directories van podcasts zijn noodgedwongen gebaseerd op metadata van het materiaal, maar dat geldt niet voor zoekmachines. Transcripts van interviews en voordrachten, ondertitels ("closed captions") bij filmmateriaal en spraakherkenningssoftware kunnen de kloof tussen beeld/geluid en geschreven tekst overbruggen en het audiozoekmachines mogelijk maken video's en geluidsopnamen fulltext te ontsluiten. Honderd procent betrouwbaar zijn die bruggen niet: in geen van de drie overzettingen is de weergave doorgaans volledig exact. Niettemin betreden we hier een terrein dat weidse vergezichten opent. Nu behoort het gesproken woord nog grotendeels tot het onzichtbare Web, maar je zou je kunnen voorstellen dat uitzendingen als deze (gevonden via Audio Medica) weldra net zo gemakkelijk met een Google of Yahoo! doorzoekbaar zouden kunnen zijn gemaakt als thans tekstbestanden. Zover is het nog niet.
De verleiding is groot over het onderwerp spraakherkenning verder uit te weiden, maar aangezien deze post over zoeken naar geluid gaat, volsta ik met een verwijzing naar het Newstopic SPEECH (News Indexed by Topic - SPEECH) van de site AI Topics van de Association for the Advancement of Artificial Intelligence, en naar een artikel over hoe spraakherkenning werkt. Voor een demo zie de Wall Street Journal recognition demo.
Voor zover mij bekend zijn er momenteel vier podcastzoekmachines die gebruikmaken van spraakherkenning: AOL Search Podcast, EveryZing (voorheen Podzinger), Podscope en Pluggd. Verder doet natuurlijk ook Blinkx mee, dat ook van spraakherkenning gebruik zegt te maken en podcasts indexeert.
Om te beginnen kijken we naar wat elk van deze zoekmachines doet met een aantal standaarduitdrukkingen in Amerikaanse interviews of shows.
| Zoekmachine → Zoekvraag ↓ | Blinkx 1 | Podscope 3 | Pluggd 5 | ||
| "thank you for being with us" | | | |||
| "now let me ask" | | | |||
| "has been a very good" | | | |||
| "thanks for talking to us" | | | |||
| "tell our listeners" | | |
- In de Advanced Search van Blinkx kunnen zoekacties tot alleen Audio worden beperkt. In dat geval geeft de resultatenlijst van Blinkx aan alleen podcasts te hebben gevonden. Bij deze test is van die beperking geen gebruik gemaakt. Verder zoekt Blinkx niet alleen in de data zelf (transcripts, closed captions, spraakherkenning), maar ook in de metadata, hetgeen kan betekenen dat de opgegeven zoekphrase bij deze zoekmachine in de metadata is gevonden. Dat bleek bijvoorbeeld bij een aantal treffers uit YouTube het geval. Ten slotte zoekt Blinkx ook met EN- en OF-combinaties, hetgeen betekent dat phrases duidelijk als zodanig moeten worden aangegeven. Zoekacties met EN en OF worden zowel in de data als in de metadata uitgevoerd.
- AOL Search Podcast maakt gebruik van de spraakherkenningssoftware van Podscope. Net als Podscope zoekt het alleen in de data zelf, en kan met woorden of phrases worden gezocht, niet met EN- en OF-combinaties. Phrases hoeven niet als zodanig te worden aangegeven.
- Podscope zoekt alleen fulltext op basis van spraakherkenning. Phrases hoeven niet als zodanig te worden aangegeven.
- EveryZing, dat behalve audio ook video bevat, is de enige van de hier vermelde zoekmachines die de complete tekst van een geluidsbestand laat zien. Dat blijkt als je een van de "channels" aanklikt (daarover zo dadelijk meer) en via deze weg bij de episodes van podcasts uitkomt. Deze gaan vergezeld van de tekst zoals de spraakherkenningssoftware die "beluisterd" heeft. Helaas werkte de zoekmogelijkheid tijdens de test niet, zodat daarvan ook geen resultaten kunnen worden getoond.
- De spraakherkenningssoftware van Pluggd, Hearhere genaamd, is op de eigen site enkel nog als demo beschikbaar. Kan inmiddels ook in actie worden gezien op de Between the Lines blog van ZDNet (Search this audio). Een aardige toepassing vind je in de State of the Union Smackdown, die bij het onderwerp Health Care ook de beperkingen van zulke software demonstreert.
Zijn de zoekmogelijkheden van Blinkx dus niet optimaal, die van Podscope zijn dat ook niet. Podscope concentreert zich uitsluitend op de data, en verwaarloost de metadata. En aangezien met deze zoekmachine alleen met enkele zoektermen of phrases kan worden gezocht, moet de zoeker ofwel precies weten wat hij zoekt, ofwel heel creatief zijn met de ene zoekterm of zoekphrase die hij/zij opgeeft. Daar komt dan nog bij dat hij/zij rekening moet houden met herkenningsfouten: al te lange phrases zijn ook niet verstandig.
In feite zien we bij Podscope vrijwel het omgekeerde van wat we bij Blinkx zagen. Bij de phrase "greatest tactical masterpiece" vindt Podscope de hierboven vermelde podcastepisode en zelfs de exacte plaats in het geluidsbestand, maar de phrase "Napoleon's inexperienced army" uit de rss-feed, die door Blinkx wel wordt gevonden, wordt dat door Podscope niet.
Niet onvermeld mag blijven dat zowel Blinkx als Podscope en AOL Search Podcast de mogelijkheid bieden de resultatenlijst op relevance (of score) dan wel op date te sorteren, wat de gebruiker speciaal bij de twee laatstgenoemde iets meer houvast geeft.
Geen van de drie hier besproken zoekmachines beschikt over een directory die die naam verdient, hoewel Blinkx zijn video's verdeelt in de categorieën World News, Entertainment, Business, Sport en User Generated. Pluggd is vooralsnog eerder een directory dan een zoekmachine; hoe beide geïntegreerd gaan worden, zal moeten worden afgewacht. Interessant lijken mij de "channels" waaruit EveryZing ons laat kiezen: naat de keuze All Channels zijn dat er aanvankelijk 14. maar bij sommige van deze "channels" (zoals 2008 Presidential Elections en Technology) staan nog weer "Related Channels" opgegeven. Al de "channels" lijken automatisch te zijn samengesteld op basis van clusters van trefwoorden, die in de resultatenlijst gemarkeerd worden getoond als je de inhoud van zo'n channel bekijkt. Dat dit niet altijd goed gaat spreekt vanzelf. Zo vinden we de naam van Hillary Clinton als "Related Channel" onder het "channel" 2008 Presidential Elections, maar treffen we in dat "Related Channel" ook podcasts over de pas overleden vrouw van de vroegere president Johnson aan die op basis van het trefwoord "First Lady" in dit channel verzeild zijn geraakt.
Dekking van de podcastzoekmachines
Rest nog de vraag naar de dekking van de bovengenoemde podcastzoekmachines: in hoeverre is hun dekking van de bestaande (Engelstalige) podcasts vergelijkbaar met bijvoorbeeld die van de podcastdirectory van Yahoo!? Zelf geven ze daarover geen enkel uitsluitsel, en om daarvan toch enig idee te krijgen heb ik van tien willekeurige interessante podcasts uit de Yahoo!-directory nagegaan hoeveel daarvan ook door Blinkx en Podscope worden gedekt.
- De fulltext zoekacties in Podscope zijn enkel als voorbeeld bedoeld. In werkelijkheid is met diverse zoekacties per podcastepisode geverifieerd dat deze niet door Podscope ontsloten wordt.
- Podscope kent wel andere episodes van dezelfde podcast, maar niet deze.
Een testje als dit zegt natuurlijk weinig. De enige conclusie die eruit te trekken valt is dat de geteste podcastzoekmachines lang niet alle (Engelstalige) podcasts en hun episodes dekken.
In het algemeen moet mij van het hart dat -- zelfs in aanmerking genomen de betrekkelijke nieuwheid van het fenomeen podcast -- de kwaliteit van de bestaande podcastzoekinstrumenten nog veel te wensen overlaat.
Meer over:
- Zoeken naar geluid in het algemeen: The World Wide Web Virtual Library: Audio (onder meer repositories, nieuwsgroepen, online radio; last updat: 10 juli 2005)
- Multimedia Search: Ran Hock, Engines for Multimeda Search, Powerpoint slideshow voor Computers in Libraries 2007
- Technische aspecten: The current state of audio search (Niall Kennedy's Weblog)
- Podcastdirectories: MediaShift . Digging Deeper::Your Guide to Podcast Directories | PBS
- Tips voor het vinden van gratis muziek op het Web: Samuel van Eerden, Find free music online, American Chronicle 10 juni 2007
- Interessante reacties op een vraag over de mogelijkheden om zelf een transcript van een podcast te maken: Call for Help: Podcast to transcript?


