Een paar weken terug las ik iets over een nieuwe zoekfaciliteit, similicio.us genaamd. Omdat het idee daarachter -- kortweg gezegd: zoek naar "more like this ..." -- mij altijd wel aanspreekt, leek het me wel aardig daar eens naar te kijken, en het in breder verband met u eens te hebben over de diverse manieren om "meer van hetzelfde" op te sporen. Meer kennis verwerven op basis van kennis die je al hebt is immers een van de beste en meest toegepaste leermethoden.
Zoals de naam al suggereert heeft similicio.us iets te maken met de social bookmark manager del.icio.us, waaraan het een functie toevoegt. Een social bookmark manager is een site waar men zijn bookmarks kan opslaan met als doel dat ze gezamenlijk kunnen worden gebruikt. Door toevoeging van een 'tag' worden ze beter vindbaar gemaakt, en bij het 'taggen' van bookmarks wordt men geholpen doordat tags die door andere gebruikers van del.icio.us aan een al in de database opgenomen bookmark zijn toegekend, worden getoond.
Met del.icio.us kan via diverse ingangen worden gezocht, onder meer met zoektermen in een zoekvenster -- waarbij de door gebruikers toegekende beschrijvingen, aantekeningen en tags worden doorzocht --, via alleen de tags -- die je op allerlei manieren in lijsten of in zogeheten 'clouds' gepresenteerd krijgt --, via (de aliassen van andere) gebruikers en via 'related items'. Deze kunnen bij de 'del.icio.us history' van een bookmark worden opgeroepen en vertegenwoordigen vermoedelijk de bookmarks die door de gezamenlijke gebruikers van del.icio.us in combinatie met de betreffende bookmark in hun bookmarkbestanden zijn opgenomen. Hoe dit precies in zijn werk gaat, is
niet duidelijk. Vermoedelijk worden alleen de populairste bookmarks getoond.

Op een wat andere manier ingericht doet similicio.us iets dergelijks. Het laat je een URL opgeven en zoekt dan in de database van del.icio.us naar related items (hier 'similar sites' genoemd). Alleen is het daarbij gebruikte algoritme kennelijk anders dan dat van del.icio.us zelf, want zo'n zoekactie levert andere resultaten op.

Van similicio.us is wel ongeveer bekend hoe het werkt: volgens de
info-tekst 'it answers the question "people who tagged this site also tagged what other sites"'. Weliswaar gebruikt similicio.us de bookmarkdatabase van del.icio.us, maar eigenlijk is het een demoproject om de mogelijkheden van een andere dienst te demonstreren:
EasyUtil, een webservice die een 'Web API' biedt om aanbevelingen te doen in de trant van 'mensen die belangstelling toonden voor dit artikel hadden die belangstelling ook voor deze artikelen'.
Wie nu de resultaten van del.icio.us' 'related items' met de 'similar sites' van similicio.us voor de site www.searchability.com vergelijkt, kan met één blik constateren dat de eerste heel wat relevanter lijken dan de laatste. Searchability is een hub van geannoteerde collecties van speciale zoekmachines, en de 'related items' die del.icio.us opsomt zijn ofwel zoekmachines ofwel geannoteerde verzamelingen van zoekmachines. Daarentegen hebben de 'similar sites' van similicio.us maar heel in de verte iets met (speciale) zoekmachines te maken. Uit eigen wetenschap is mij bekend dat de pagina http://www.leidenuniv.nl/ub/biv/specials.htm een lange lijst van speciale zoekmachines bevat, maar aan de verwijzing naar de homepage van de Leidse universiteit sec heb je niets, en omdat similicio.us als 'similar sites' in dit geval kennelijk alleen homepages toont, is wat de meeste van de andere treffers betreft niet vast te stellen of ze al dan niet relevant zijn. Diverse ervan wekken in elk geval de indruk dat ze niet via de tag 'search' tot de resultatenlijst zijn doorgedrongen.
Andere zoekacties geven dezelfde indruk. Weliswaar duiken hier ook andere dan homepages op, maar als ze door dezelfde personen zijn gebookmarkt die dat met de uitgangspagina hebben gedaan, is dat in veel gevallen vrijwel zeker niet met dezelfde tag gebeurd. Ik persoonlijk zou dus aan de eigen 'related items'-faciliteit van del.icio.us de voorkeur geven boven de 'similar sites' van similicio.us. Immers, ook del.icio.us biedt ons -- zij het een beetje verstopt -- de mogelijkheid
een URL in een zoekvenster in te typen en dan 'related items' op te vragen.
Op nog weer een andere manier wordt de del.icio.us bookmarkdatabase gebruikt door een service die Tagalyzer heet. Ook deze dienst zoekt op basis van een uitgangspagina naar 'related content' bij del.irio.us, maar gebruikt daarvoor andere algoritmen. In de eerste plaats: Tagalyzer activeer je door vanaf de uitgangspagina waarbij je 'related content' wilt vinden naar het adres http://tagalyzer.com te surfen (in plaats daarvan kun je ook een browser button van Tagalyzer gebruiken of in de adresregel van je browser http://tagalyzer.com/?referer= intypen, gevolgd door de URL van de pagina die het uitgangspunt voor de zoekactie moet gaan vormen). De uitgangspagina is dan de 'referer' en wordt door Tagalyzer geanalyseerd op begrippen (zeg maar karakteristieke phrases en woorden) die de inhoud van die pagina omschrijven. Met die phrases en woorden gaat Tagalyzer vervolgens in de del.icio.us database op zoek naar 'related items'.

Het algoritme dat Tagalyzer voor de inhoudsanalyse van de uitgangspagina gebruikt is de Yahoo! content analysis API. Deze blijkt een aantal phrases uit de tekst van de uitgangspagina te selecteren, waarmee Tagalyzer vervolgens op basis van de 'del.icio.us API' de database van del.icio.us doorzoekt. Overigens kan Tagalyzer behalve del.icio.us op basis van andere API's ook nog andere databases (zoals Technorati en Yahoo! News) doorzoeken, maar dit laat ik hier verder terzijde. Belangrijker is dat hoewel de Yahoo! content analysis API met heel zinnige phrases komt om de inhoud van een pagina te beschrijven, het eindresultaat van de 'related items' toch erg tegenvalt. Dat komt doordat de phrases bij het zoeken in de del.icio.us database weer in afzonderlijke woorden worden opgedeeld. Het gevolg is dat de 'related content' erg veel ruis bevat.

Tot dusver hebben we alleen naar diensten gekeken die zich beperkten tot de bookmarkdatabase van del.icio.us. Toch zijn we daarbij al drie verschillende methodes tegengekomen om 'More like this...' te kunnen vinden: op basis van het idee 'Mensen die deze pagina hebben gebookmarkt, hebben ook de volgende pagina's gebookmarkt...', het idee 'Tags die aan deze pagina zijn toegekend, zijn ook aan de volgende pagina's toegekend...', en het idee:'Karakteristieke phrases en termen die in deze pagina voorkomen, komen ook in de volgende pagina's voor...' Nu is del.icio.us een veel gebruikte en veel genoemde social bookmark manager en op zichzelf genomen is het idee daarin naar meer van hetzelfde te zoeken best aantrekkelijk. Maar een beetje jammer dat zoekacties via de hierboven beschreven diensten zich tot maar één social bookmark manager beperken, is het natuurlijk wel, want er zijn heel wat meer. Voor twee overzichten, zie
hier en
hier. Bij mijn weten bestaat er echter geen speciale dienst die het mogelijk maakt bij al deze social bookmark managers naar related items te zoeken.
Het is nu tijd om eens in breder verband te kijken naar implementaties van de 'More like this...' gedachte. Daarnet is al even ter sprake gekomen dat Tagalyzer de Yahoo! content analyzer API gebruikte. Zoals bekend biedt Yahoo! in zijn zoekresultaten geen link naar 'Similar pages' aan, zoals Google dat doet. Maar wel heeft Yahoo! daarvoor een aparte faciliteit,
Y!Q geheten. Daarbij wordt de gebruiker in de gelegenheid gesteld stukken tekst op een pagina te markeren, waarna Y!Q die analyseert en er de karakteristieke phrases uit haalt. De manier waarop dat gebeurt herinnert mij sterk aan de 'Intelligent Concept Extraction' (ICE) waarmee de zoekmachine Excite indertijd aan de weg timmerde. Alleen gaat Y!Q nog iets verder doordat het je in de gelegenheid stelt termen of phrases aan de vraagstelling toe te voegen en/of door Y!Q geselecteerde phrases uit de vraagstelling weg te halen. Daardoor kan zoeken een echt proces worden, zoals het hoort. Een extra bonus is dat wie in plaats van met Yahoo! Web Search met Y!Q zoekt (dat kan ook met gebruikmaking van de Yahoo! toolbar), bij de zoekresultaten nu wel een link naar 'More like this' gepresenteerd krijgt.

In het blog
Thomas Hawk's Digital Connection van 8 maart jl. geeft Davis Freeberg als zijn mening dat de technologie achter similicio.us 'een veel betere lijst van sites' oplevert dan wanneer met Google naar similar sites wordt gezocht. Bij Google gebeurt dat met het prefix related: gevolgd door de URL van de uitgangspagina of door bij een treffer in een resultatenlijst op de link Similar pages te klikken. Over hoe Google die similar pages vindt verschaft
Google zelf niet veel informatie, maar volgens Nancy Blachman in haar onvolprezen
Google Guide vindt Google similar pages door 'andere sites te vinden die naar de uitgangspagina linken' . Voor enkele voorbeelden verwijs ik naar de Google Guide. Naast de drie verschillende methodes die ik hierboven heb genoemd om 'More like this...' te vinden hebben we hier dus nog een vierde methode: 'Pagina's die naar deze pagina linken doen dat ook naar de volgende pagina's...' En hoewel
Danny Sullivan zich niet zo positief over Google's methode uitlaat, moet ik bekennen dat ik zowel de theorie als de praktijk wel positief waardeer. Het voorbeeld met Searchability levert in elk geval betere resultaten op dan de andere methodes die hier tot dusver de revue zijn gepasseerd.

Bij 'Pagina's die naar deze pagina linken doen dat ook naar de volgende pagina's...' kun je aan diverse typen linkverzamelingen denken, en zoals Nancy Blachman terecht opmerkt, vormen directories zoals die van Yahoo! en het ODP of Google daarvan een van de voorbeelden. Helaas toont Google bij de treffers in zijn resultatenlijst niet meer de Category waarin een treffer eventueel in zijn directory voorkomt, maar Yahoo! doet dat nog wel, en een zoekmachine als Exalead (inmiddels ruim 4 miljard pagina's groot!) doet dat met zijn 'Related Categories' voor de ODP-directory ook.

Een ander prefix van Google dat vaak in één adem met related: wordt genoemd is link: en dit biedt een vijfde methode om 'More like this...' te vinden. De gedachte daarbij is: 'Naar deze pagina wordt gelinkt door de volgende pagina's ...' Theoretisch is dit geen erg fraaie methode om meer van hetzelfde te vinden, omdat de verbanden die links van en naar andere pagina's leggen kunnen variëren van heel sterk naar heel zijdelings; en bovendien is de implementatie van die methode bij Google niet optimaal omdat Google alleen linkende pagina's met een PageRank van boven een bepaalde limiet laat zien. Maar Yahoo! heeft die laatste beperking niet en biedt bovendien een mogelijkheid die bij Google ontbreekt: met Yahoo! kun je naar pagina's zoeken die naar meer dan één uitgangspagina linken. Het is duidelijk dat dit de precisie van een zoekactie die via deze methode wordt gedaan aanzienlijk verhoogt: iemand die één crimineel kent hoeft zelf nog geen crimineel te zijn, maar de kans dat iemand die er twee kent zelf ook een crimineel is (of politieman of advocaat) is al heel wat groter.

De zesde methode om 'More like this...' te vinden is een methode die we allemaal toepassen als we op het Web aan het surfen zijn. Ook hier is de gedachte: 'Als een pagina naar een andere pagina linkt, bestaat tussen die twee pagina's een verband en kan de pagina waarnaar gelinkt wordt More like this bieden.' Maar anders dan de vorige methode, die gebaseerd is op incoming links, maakt deze methode, die eigenijk meer te maken heeft met browsen dan met zoeken, gebruik van outgoing links: 'Door deze pagina wordt gelinkt naar de volgende pagina's...'.
De zevende en laatste methode die ik hier wil noemen om 'More like this...' te vinden is die welke door Alexa wordt toegepast. Alexa, een van de vondsten van
Brewster Kahle, de grondlegger van het Internet Archive, behoort tegenwoordig tot het Amazon-imperium en is een dienst die onder meer informatie over het surfgedrag van internetgebruikers verzamelt en verstrekt. Via Alexa vind je bij een uitgangspagina niet alleen de ODP-categorie waarbij die pagina eventueel is ingedeeld, en incoming links ('Sites linking in'), maar ook zogeheten 'related links'. De methode die hier wordt gebruikt is weer anders dan alle andere die we tot dusver hebben gezien: simpelweg 'People who visit this page also visit...'. Deze methode is erop gebaseerd dat Alexa gebruikers die software (toolbars e.d.) van het bedrijf op hun computer geïnstalleerd hebben, volgt bij hun omzwervingen op het Web door bij te houden vanaf welke pagina's ze de links naar andere pagina's volgen. Net als de vorige methode maakt deze methode dus gebruik van outgoing links, maar dan wel links die al door andere gebruikers gevolgd zijn.

Tot slot som ik de zeven hier besproken methodes om 'More like this...'te vinden nog eenmaal op:
1. 'Mensen die deze pagina hebben gebookmarkt, hebben ook de volgende pagina's gebookmarkt...'
2. 'Tags die aan deze pagina zijn toegekend, zijn ook aan de volgende pagina's toegekend...'
3. 'Karakteristieke phrases en termen die in deze pagina voorkomen, komen ook in de volgende pagina's voor...'
4. 'Pagina's die naar deze pagina linken doen dat ook naar de volgende pagina's...'
5. 'Naar deze pagina wordt gelinkt door de volgende pagina's ...'
6. 'Door deze pagina wordt gelinkt naar de volgende pagina's...'
7. 'Mensen die deze pagina bezoeken, bezoeken ook de volgende pagina's...'