Send As SMS

28.7.05

Overlap tussen zoekmachines

Een paar weken terug heb ik over metazoekmachines geschreven, en over de redenen waarom ik er nog maar zelden gebruik van maak. Intussen kan ik daar nog een reden aan toevoegen, namelijk dat metazoekers je belangrijke informatie onthouden die de achterliggende zoekmachines je wel verschaffen.
De afgelopen week deed ik voor iemand een zoekactie naar het voorkomen van de phrase "se me le canta" in het Italiaans. Hoewel de phrase ook in het Spaans zou kunnen bestaan, is hij zo zeldzaam dat het niet nodig is een taalbeperking aan de vraag mee te geven. Wie achtereenvolgens Google, Yahoo!, MSN Search en Teoma/Ask Jeeves gebruikt om ernaar te zoeken, komt maar vier treffers tegen, in feite één, omdat het steeds om dezelfde tekst gaat. Drie van die treffers komen bij Google vandaan, één bij Yahoo!. MSN Search meldt geen treffers en Ask Jeeves meldt er 711.000 maar rapporteert daarbij dat het de vraag zonder de aanhalingstekens, dus niet als phrase heeft uitgevoerd. En wat doet Dogpile, een van de metazoekmachines die Google, Yahoo! en Ask Jeeves zeggen te doorzoeken? Het meldt 10 treffers, de eerste van de 711.000 van Ask Jeeves, maar het meldt niet dat Ask Jeeves heeft gerapporteerd dat het de vraag niet als phrase heeft uitgevoerd.
Andere metazoekers, zoals Vivísimo/Clusty en Mamma brengen het er om verschillende redenen niet beter vanaf, maar de reden waarom ik hier speciaal de aandacht op Dogpile vestig is dat InfoSpace, het bedrijf dat zowel Dogpile als Webcrawler en Metacrawler bezit, onlangs samen met onderzoekers van de University of Pittsburgh en de Pennsylvania State University een onderzoek heeft gedaan naar de overlap tussen de "page one" resultaten van Google, Yahoo! en Ask Jeeves op iets meer dan 10.000 vragen. Uit dit onderzoek bleek dat slechts in 3% van de gevallen een resultaat door alle drie de zoekmachines werd gemeld, in 12% door twee van de drie, terwijl 85% van de treffers uniek voor een van de drie zoekmachines was. De conclusie van het onderzoek luidt dan ook: "Web users beware – limiting your searches to single engines means you are missing substantial pieces of information ranked highly by other engines. To efficiently access a wide array of highly ranked results in one place, use Dogpile.com."
Wie alleen uit de tweede hand kennis neemt van het twee pagina's tellende onderzoeksrapport zal deze weergave van de onderzoeksresultaten en de daaraan verbonden conclusie misschien voor zoete koek aannemen. Maar bij lezing van het rapportje zelf komen interessante vragen op.
In de eerste plaats hebben de 10.000 vragen geleid tot ruim 336.000 unieke treffers, zoals gezegd op de eerste resultatenpagina's van de drie onderzochte zoekmachines. De reden van dat hoge aantal treffers is niet dat de eerste dertig algoritmische treffers van elke zoekmachine zijn geteld, maar dat algoritmische en betaalde zoekresultaten bij elkaar zijn opgeteld. Aangezien het aantal algoritmische resultaten ruim 100.000 zal hebben bedragen, hebben de resultaten van dit onderzoek dus voor meer dan twee derde betrekking op de "sponsored results" en kan voor dat deel van de resultaten eigenlijk alleen de conclusie worden getrokken dat de overlap tussen de adverteerders bij Google, Yahoo! en Ask Jeeves klein is.
Wat voorts nogal verdacht aandoet is dat de onderzoekers wel iets melden over de algoritmische resultaten sec, maar dat hier plotseling niet meer naar de hele eerste resultatenpagina's is gekeken, maar alleen naar de eerste drie treffers, resp. de eerste treffer. Van de ruim 10.000 vragen leverde 32% geen overlappende algoritmische resultaten op de eerste drie posities bij de drie onderzochte zoekmachines, en in 86% van de gevallen bleek de eerste algoritmische treffer niet identiek te zijn voor alle drie de zoekmachines. Als we de eerste van deze twee onderzoeksresultaten omdraaien, heeft 68% van de 10.000 vragen dus resultaten opgeleverd die wel overlapten, en aangezien het daarbij om de eerste drie treffers van elke zoekmachine ging, moet de overlap voor de eerste tien resultaten nog aanzienlijk hoger hebben gelegen. Anders gezegd: bij aanzienlijk meer dan 68% van de 10.000 vragen bevatte het eerste resultatenscherm 10 algoritmische resultaten waarvan er een of meer overlapten met treffers die door de andere twee zoekmachines bij de eerste tien werden gevonden. Hoeveel van de tien, daarover zegt het onderzoek niets, maar wie het halfvolle glas substitueert voor het halflege, krijgt in elk geval al wel een heel andere indruk dan in de rapportage wordt gewekt.
Een laatste vraag die je je kunt stellen is of de onderzoekers Google zelf hebben gebruikt, of -- wat ik vermoed -- Dogpile. En dan keer ik terug naar de zoekactie die ik in het begin van dit stukje beschreef: die naar de phrase "se me le canta". Het resultatenscherm van Dogpile geeft de mogelijkheid Dogpile in drie kolommen naast elkaar de treffers voor de gebruikte zoekmachines te laten vertonen, en voor die vraag is het resultaat 0, terwijl Google zelf drie treffers heeft. Mij vertelt dat feit dat Dogpile niet de hele database van Google bevraagt, maar alleen dat deel dat bijvoorbeeld ook door A9 van Amazon wordt gebruikt.
Kortom, van dit onderzoek deugt niet veel.
Een op het eerste gezicht aardig instrument waarmee bevindingen van het onderzoek kunnen worden getest, is Dogpile Compare Missing Pieces. Hier kunt u als gebruiker uw eigen zoektermen in een zoekregel intypen, waarna Dogpile in drie concentrische cirkels de resultaten laat zien. De binnenste cirkel vertoont de treffers die volgens Dogpile bij alle drie de zoekmachines voorkomen, de tweede is ingedeeld in drie segmenten waarin treffers worden getoond die door steeds twee van de drie zoekmachines zijn gevonden, en in de buitenste cirkel, eveneens ingedeeld in drie segmenten, zijn de unieke resultaten voor elk van de drie zoekmachines te zien. Helaas blijkt bij vergelijking van deze resultaten met de resultaten die Google, Yahoo! en Ask Jeeves zelf tonen, dat Dogpile sjoemelt. Een zoekactie met de naam "Andrew Manze" (een Engelse violist en dirigent) levert in de binnenste cirkel vier treffers op. Twee daarvan -- die van zijn orkest en van zijn manager -- zijn OK, in de zin dat alle drie de zoekmachines ze bij hun eerste drie treffers hebben staan (een grote overlap dus!), maar de twee andere -- van arkivmusic.com en ez-tracks.com -- zijn als "sponsored results" alleen bij Yahoo! te vinden, en zitten niet bij de eerste honderd (!) treffers die Google en Ask Jeeves laten zien.
Ook hier moet de conclusie dus zijn dat als je jezelf een idee van de overlap van zoekmachineresultaten wilt vormen, je beter bij Thumbshots terecht kunt.

Permalink

23.7.05

Recensies

Een van de informatiebronnen die altijd een beetje ongrijpbaar blijven zijn recensies of reviews. In het pre-internettijdperk waren die vaak moeilijk te vinden, je moest bijvoorbeeld weten dat de ISI Citation Indexes ze bevatten, dat Online Contents er een heleboel uit de afgelopen twee eeuwen heeft omdat in Online Contents ook Periodical Contents Index is opgenomen (zoek in Online Contents of het tijdschriftendeel van PiCarta maar eens naar "Origin of Species" in de jaren 1860 en 1870) en dat er bestanden zijn als Internationale Bibliographie der Rezensionen (GBV), Book Review Digest, Readers' Guide Abstracts en Periodical Abstracts (de laatste drie bij OCLC). Verder herinner ik me dat ook Global Books in Print Plus uit een aantal gespecialiseerde bronnen, zoals Choice, Kirkus en New York Times Book Review recensies had die bij de boektitels konden worden bekeken. (Ongeveer net zoals de recensies van het NBLC [tot 1999?] bij de boektitels in PiCarta worden getoond.) En dan gaat het hier alleen nog maar om algemene bestanden waarin recensies te vinden zijn, voor de meer gespecialiseerde literatuur bestaan daarnaast ook gespecialiseerde reviewbronnen. Zie daarvoor bijvoorbeeld Mina Rees Library -- Finding book reviews.
Op internet is de situatie al niet veel beter. Natuurlijk, iedereen weet dat Amazon ook ("editorial" en "spotlight") reviews heeft van veel boeken die ze aanbieden, maar het bezwaar daarvan is dat de kwaliteit van de "spotlight" reviews zo wisselt. (In het algemeen doet u er goed aan met de meest negatieve te beginnen (Show lowest rated first), dan kan bijvoorbeeld blijken dat een boek geen register heeft.) Ook hier moet je dus weten waar je naar recensies moet zoeken, en gelukkig zijn er weer verzamelaars aan het werk geweest die de sites die recensies te bieden hebben op een rijtje hebben gezet. Drie daarvan zijn NewPages Guide to Review Sources, AcqWeb's Directory of Book Reviews on the Web en Complete Review - Links to Book Review sites at the Complete Review. De laatste heeft de langste lijst.
Zoals meestal op het web is alles wat Engelstalig is zwaar oververtegenwoordigd. Overzichten van recensies (van boeken) in andere talen, zoals Der Wissenschaftliche Literaturanzeiger (WLA), Literaturwissenschaftliche Rezensionen en Informationsmittel für Bibliotheken, zul je in dit soort lijsten tevergeefs zoeken.
Ik heb het tot dusver alleen nog maar over boeken gehad, en dan nog alleen over die met een tamelijk algemeen karakter. Voor recensies van meer gespecialiseerde boeken kunt u het beste terecht bij vakspecifieke "web directories", zoals die via Yahoo! (de directory) te vinden zijn. Ook hier geldt overigens weer dat de Engelse taal oververtegenwoordigd is.
Recensies, productvergelijkingen e.d. van allerlei andere zaken dan boeken zijn natuurlijk ook interessant. Denk maar aan films, muziek-CD's, geluidsapparatuur, computers enz. Een mooie site die in dat opzicht veel te bieden heeft is Andilinks Consumer Product Reviews and Consumer Advocates 2004 2005 2006, met onder meer ook een uitgebreid overzicht van Book Review Sites.
Terwijl Andilinks als een directory -- of misschien beter: een startpagina -- van recensies en productvergelijkingen kan worden beschouwd, bestaat er ook een speciale zoekmachine voor reviews: Become. Het voordeel hiervan is natuurlijk dat je meteen gericht kunt zoeken naar opinies over het specifieke product waarover je informatie wenst. Become kan bijvoorbeeld reviews zoeken over uitvoeringen van het vioolconcert van Beethoven, Lynne Cheney's boek "America: a patriotic primer" en de geluidsinstallatie van het type Sony Placido. Al is de zoektaal van deze zoekmachine erg beperkt -- phrases en de min-operator werken niet -- en bevatten de zoekresultaten nogal wat ruis, toch lijkt me deze speciale zoekmachine wel een aanwinst.
In plaats van producten -- of als vervolg op een zoekactie naar reviews -- kun je natuurlijk ook prijzen vergelijken. Hier biedt Marcus Zillmans Shoppingbots 2005 een goed startpunt, al liggen voor Nederlands gebruik Nederlandse prijsvergelijkingsmachines meer voor de hand. Wie zulke zoekmachines elders in Europa wil gebruiken, vindt een meer Europees georiënteerd overzicht bij SearchEnginesDir.com, en wie op de hoogte wil blijven van ontwikkelingen op dit terrein, kan terecht bij L'actualité des comparateurs de prix.

Permalink

17.7.05

Zoekmachines: bedrog en manipulatie?

Een paar weken geleden maakte mijn vrouw mij opmerkzaam op een interview met professor Nico van Eijk in de Staatscourant van 17 juni onder de kop "Zoekmachines bedriegen hun gebruikers". Dit naar aanleiding van een oratie die professor Van Eijk die dag had uitgesproken bij het aanvaarden van de bijzondere leerstoel Media en telecommunicatierecht. En dat de vlag, i.c. de kop van het interview, in dit geval de lading dekte, wordt duidelijk uit een citaat dat al in de eerste alinea van het interview wordt gegeven: "Zoekmachines als Google pretenderen vooral aan barmhartigheid te doen. Maar als gebruiker word je gewoon bedrogen." Even later valt de term bedrog in het interview nogmaals: "Tot slot filteren zoekmachines: sommige informatie wordt gewoonweg niet doorgegeven, soms uit commerciële overwegingen niet, soms onder druk van overheden. Als gebruiker krijg je dus niet per definitie het beste zoekresultaat. Je wordt bij je informatievergaring op alle fronten bedrogen."
"Barmhartigheid" en "bedrog": het zijn twee termen die ik in verband met Google nog niet eerder was tegengekomen, en die op z'n minst tot verder lezen noden. Maar omdat mensen zich in interviews wel eens wat ongenuanceerder (of openhartiger?) over onderwerpen uitlaten dan in geschrifte, is het beter dat aan de hand van de oratie zelf of van de bewerkte versie in Informatieprofessional van juli/augustus te doen dan op basis van het interview. De oratie is als PDF-bestand te raadplegen op de site van het Amsterdamse Instituut voor Informatierecht.
Omdat de oratie zelf helderheid verschaft over wat kort uitgevallen passages in het artikel in Informatieprofessional en omdat de oratie voor iedereen toegankelijk is, baseer ik me bij de bespreking van prof. Van Eijks opvattingen verder op de oratie.
De term bedrog komt in de oratie maar één keer voor (op p. 8), en dat is niet in verband met de activiteiten van Google en andere zoekmachines, maar in de uitdrukking "bedrogen uitkomen". In plaats van de term bedrog, die prof. Van Eijk in het interview gebruikt, bezigt hij in de oratie en ook in het artikel de term "manipulatie", en op p. 7 van de oratie legt hij uit wat hij daaronder verstaat: "Wat er echt gebeurd [sic MH] voordat een zoekresultaat beschikbaar komt, is zeer complex en wordt in belangrijke mate gekenmerkt door de vele subjectieve elementen die in het proces verweven zijn. Ik vat deze subjectieve elementen hier samen onder de term ‘manipulatie’." Dat klinkt al een stuk onschuldiger.
Waaruit bestaat nu die manipulatie? Prof. Van Eijk noemt hier drie betrokken partijen: de aanbieders van de zoekmachines zelf, aanbieders van informatie en 'hackers', de grappenmakers die de phrase "raar kapsel" met het CV van onze minister-president geli(nk)eerd hebben. De laatste twee partijen laat ik hier buiten beschouwing. Prof. Van Eijks conclusie is dat overheidsinterventie of zelfregulering bij zoekmachines geboden is, en ik ga er maar van uit dat die interventie of zelfregulering niet op die partijen gericht zal zijn. Manipulatie van zoekmachines door aanbieders van informatie is inderdaad een probleem, maar mijn indruk is dat de maatregelen waarmee de aanbieders van zoekmachines deze vorm van manipulatie bestrijden, een niet onaanzienlijk deel uitmaken van de bezwaren die prof. Van Eijk tegen zoekmachines heeft. Anders gezegd: de complexiteit van het proces dat aan een zoekresultaat voorafgaat, is voor een heel groot deel te wijten aan de maatregelen die zoekmachines moeten nemen om manipulatie van de zoekresultaten door de aanbieders van informatie tegen te gaan. Mij dunkt, als de overheid die bron van manipulatie zou willen aanpakken, zou ze daarvoor niet bij de zoekmachines moeten zijn, maar "spamdexing" strafbaar moeten stellen, net zoals dat met "spam" ook kan. En wat mij betreft mag die strafbaarstelling (en de handhaving!) zich dan ook uitstrekken tot bedrijven als FBTO en AMEV (zie p. 24 IP-artikel), die om een hoge plaats in de ranking van zoekmachines te bereiken, in zee gaan met bedrijven die zich van ongeoorloofde middelen bedienen om hun klanten voor veel geld ter wille te zijn. Maar ook bij de zoekmachines zelf, aldus prof. Van Eijk, vindt manipulatie plaats, en wel op diverse manieren. Op blz. 8-9 van de oratie worden daarvan de volgende genoemd:
  1. Spiders kunnen geprogrammeerd zijn om bepaalde informatie te negeren en -- ik voeg dat hier maar toe als verduidelijking van de kreet "To exist is to be indexed by a search engine" op p. 5 van de oratie -- bepaalde sites, delen van sites of pagina's niet te bezoeken.
  2. Aanbieders van zoekmachines kunnen gedwongen door overheden of rechterlijke uitspraken de toegang tot sites of informatie via hun zoekmachine afsluiten. Als voorbeelden noemt prof. Van Eijk het feit dat Google Chinese gebruikers geen toegang geeft tot sites die elders in de wereld wel toegankelijk zijn, en dat de nationale versies van Google met verschillende resultaten komen.
  3. Er zijn zoekmachines die plaatsen in de ranking verkopen en/of sites tegen betaling met voorrang indexeren.
  4. "Google, maar ook andere zoekmachines, laten de zoekresultaten mede bepalen door een systeem van 'page ranking' [sic MH; het algoritme is genoemd naar Larry Page, een van de grondleggers van Google]. Internetpagina's waarnaar wordt verwezen door andere pagina's krijgen een hogere plaats op de lijst van zoekresultaten." Verder wordt het gedrag van de gebruikers gevolgd om zoekresultaten te manipuleren en zijn er zoekmachines die zoekresultaten door medewerkers handmatig laten aanpassen "op basis van nader geformuleerde al dan niet subjectieve criteria".
Zoekmachines bestaan van advertenties, en dit is een factor die volgens prof. Van Eijk verdere manipulatie in de hand werkt. Twee bezwaren die hij in dit verband noemt zijn:
  1. "Google gaat er prat op dat er in haar bedrijfsmodel geen directe relatie bestaat tussen het zoekresultaat en de afgebeelde advertenties. Echter, dit is - deels zo niet grotendeels - schone schijn. Immers, er is tenminste een duidelijke indirecte relatie aanwezig. Om relevante advertenties te kunnen plaatsen dienen de resultaten van zoekopdrachten daarbij aan te sluiten. Het is dan ook aannemelijk dat het algoritme voor het zoekresultaat hiermee impliciet of expliciet rekening houdt."
  2. Het PageRank algoritme leidt ertoe "dat zoekresultaten vooral bepaald worden door de grootste gemene deler en niet door wat daadwerkelijk relevante informatie is voor degene die de zoekopdracht plaatst ... sterke marktspelers zullen beter in staat zijn de zoekresultaten te beïnvloeden. Even zozeer zal er weinig interesse zijn websites in de zoekresultaten te laten verschijnen die alleen maar interessant zijn voor een kleine groep van gebruikers." Dit bezwaar ontleent prof. Van Eijk aan een artikel van L. Introna en H. Nissenbaum, Shaping the Web: Why the politics of search engines matters, in The Information Society 16:3 (2000), p. 169-185 (als PDF-bestand onder meer te vinden op http://epl.scu.edu/~stsvalues/readings/ShapingTheWeb.pdf).
Hoewel ze niet tot het eigenlijke lijstje van manipulatievoorbeelden behoren voeg ik hier nog drie observaties van prof. Van Eijk aan toe waarop ik hieronder commentaar zal leveren, resp. op blz. 21 en 23 van zijn oratie:
  1. "Een andere relevante ontwikkeling is het gegeven dat met de beursgang van Google onomstotelijk het commerciële oogmerk van de zoekmachines vaststaat en dat het bedrijfsmodel inderdaad gebaseerd is op het genereren van inkomsten door de eerdere beschreven vormen van manipulatie."
  2. "De ontwikkeling van zoekmachines wordt daarom steeds meer met argusogen gevolgd. Op de website www.googlewatch.com wordt een bijvoorbeeld gegeven waarbij zoekopdrachten op Google geen behandelmethodes tonen die meer medisch verantwoord worden geacht, maar slechts verwijzen naar min of meer omstreden commerciële behandelmethodes waarvoor tegelijkertijd advertenties verschijnen naast de zoekresultaten."
  3. "Het ontgaat kennelijk de Nederlandse overheid dat in een beleid dat meer gericht is op ‘digitale loketten’ en het beschikbaar stellen van informatie via internet, het vinden ervan in toenemende mate bepaald wordt en afhankelijk is van (buitenlandse) zoekmachines waar men geen enkele bemoeienis mee heeft of zeggenschap over heeft. Zoekmachines lijken dus in belangrijke mate wat voor overheidsinformatie te vinden is en niet de overheid zelf."
De conclusie die prof. Van Eijk uit dit alles trekt is dat op z'n minst de werkwijze van zoekmachines transparanter zou moeten worden. Overheidsinterventie op basis van de E-commerce richtlijn of de richtlijn inzake oneerlijke handelspraktijken, of zelfregulering, lijkt hem geboden. Laat ik, voordat ik aan een bespreking van al deze bezwaren begin, eerst schetsen wat mijn eigen perspectief op de wereld van de zoekmachines is. Voor mij zijn aanbieders van zoekmachines in de eerste plaats bedrijven met een product dat concurreert op eigenschappen die het tegengestelde zijn van wat prof. Van Eijk erin schijnt te ontwaren: subjectiviteit en manipulatie. Mijn indruk is dat zoekmachines als Google en Yahoo! (de zoekmachine, niet de directory) gebruikers -- en het zij meteen erkend, potentiële lezers van de advertenties waarvan ze bestaan -- aan zich trachten te binden door zoveel mogelijk sites te spideren (voor zover die sites dat mogelijk maken), gebruikers een schat aan zoekmogelijkheden te bieden (zie mijn vorige blogitem) en hun vervolgens een (ten opzichte van de vraagstelling) zo relevant mogelijk zoekresultaat te bieden dat die gebruikers tevreden doet besluiten de volgende keer dezelfde zoekmachine te gebruiken. Naar mijn mening verschilt het bedrijfsmodel van de grote, mondiale zoekmachines in dit opzicht niet wezenlijk van dat van een goede krant, en wordt een groot deel van de manipulatie waar prof. Van Eijk bang voor is, voorkomen door de omstandigheid dat toonaangevende gebruikers van die zoekmachines manipulatie van zoekresultaten afwijzen en naar een andere zoekmachine zouden overstappen als ze de indruk zouden krijgen dat daar sprake van was. Als prof. Van Eijk, en de bronnen die hij gebruikt, mij ervan willen overtuigen dat het anders is, zullen ze dus een kritische lezer moeten overtuigen.
Ik beweer overigens niet dat er helemaal geen probleem is. Ook bij de grote mondiale zoekmachines is het eerste scherm vaak overladen met sponsored results, en het schijnt dat veel gebruikers van deze zoekmachines zulke treffers moeilijk kunnen onderscheiden van de algoritmische. Maar van manipulatie is naar mijn mening pas sprake als onder die resultaten die als algoritmisch worden gepresenteerd, tersluiks betaalde resultaten worden ingevoegd. In een interessant onderzoek van Scott Nicholson e.a., How much of it is real? Analysis of paid placement in web search engine results, werd bij acht zoekmachines (naast Google, Yahoo! en MSN Search ook drie metazoekers, te weten Mamma, Dogpile en Ixquick, en twee onverbloemd commerciële zoekmachines, Overture en FindWhat) onder meer gekeken naar het percentage "ambiguously labeled paid listings" en "inconspicuous paid listings" op het eerste resultatenscherm, resp. de eerste resultatenpagina. Ondanks de aanwezigheid van twee commerciële zoekmachines in de test en de grote vatbaarheid van metazoekmachines voor verwarring tussen algoritmische en gesponsorde resultaten, bedraagt het percentage "gemanipuleerde" treffers in dit onderzoek voor alle zoekmachines bij elkaar niet meer dan 2 voor het eerste scherm, en 1 voor de eerste bladzijde (p. 16).
Wat nu de verschillende voorbeelden van manipulatie en de andere bezwaren van prof. Van Eijk betreft:
  1. Inderdaad: er zijn sites, delen van sites, documenten en pagina's die door zoekmachines niet gespiderd worden. Voor een deel liggen daar economische of nuttigheidsoverwegingen aan ten grondslag, zoals bij het niet volledig indexeren van zeer uitgebreide sites (vgl. Geocities bij resp. Yahoo!, Google en MSN Search) of bepaalde bestandsformaten (vgl. flash bij Yahoo! en MSN Search); voor een ander deel zijn dat technische beperkingen (zoekmachines kunnen niet overweg met bepaalde typen databaserecords) of krijgen ze zelf geen toegang. Maar naar mijn smaak zijn dat geen "subjectieve" overwegingen, die de benaming "manipulatie", laat staan "bedrog" rechtvaardigen. Ik ben bang dat prof. Van Eijk hier enigszins op het verkeerde been is gezet door een van zijn bronnen, het artikel van Introna en Nissenbaum, p. 172-173, die uit een paper over "Efficient crawling through URL ordering" van Cho, Garcia-Molina en Page de indruk lijken te hebben gekregen dat zoekmachines onbelangrijk geachte pagina's verzuimen te spideren; maar in werkelijkheid gaat dit paper, zoals de titel en het abstract zeggen, niet over wel vs. niet spideren, maar over de volgorde waarin gespiderd moet worden als objectieve beperkingen van ruimte (opslag) en tijd het onmogelijk maken heel grote sites in hun geheel te spideren.
  2. Het is waar dat de Franse en Duitse versies van Google een aantal sites niet tonen die wel met de internationale Google worden gevonden. Zie: http://cyber.law.harvard.edu/filtering/google/. Zo geeft de term Stormfront bij de Duitse Google een ander resultaat dan bij de internationale, en toont noch de Duitse noch de Franse Google treffers van de site Islamic & Muslim News & Information (vgl.). Maar noch overheidsinterventie noch zelfregulering zal vrees ik veel aan deze misstand kunnen veranderen. Het zijn immers (vermoedelijk) overheden van bevriende mogendheden die de manipulatie van zoekresultaten initiëren. Wat overigens niet (meer) klopt is de mededeling in de oratie, p. 8, dat Duitse gebruikers van Google die zouden denken dat zij Google.de kunnen omzeilen door hun vraag te stellen via Google.com, naar Google.de worden teruggeleid. Dit is gemakkelijk te controleren als je een Duitse proxy server (bijvoorbeeld 195.135.155.62:8080) gebruikt. Als je dan de URL http://www.google.com intypt, kom je, zoals te verwachten op Google.de uit, en als je dan met de term Stormfront zoekt, krijg je het "Duitse" resultaat; verander vervolgens .de in de URL door .com, en je krijgt wel degelijk het Amerikaanse/internationale resultaat te zien.
  3. Inderdaad, er zijn PPI ("pay per inclusion") en PPC ("pay per click") zoekmachines zoals Overture, MIVA, Kanoodle en Sprinks, maar eigenlijk zou je die niet in één adem met Google en Yahoo! moeten noemen (hoewel Overture eigendom van Yahoo! is): juist omdat iedereen wel weet wat voor vlees men daar in de kuip heeft, is hun marktaandeel, zeker hier in Nederland, in vergelijking met de groten te verwaarlozen.
  4. Het eerste van de onder dit punt geformuleerde bezwaren komt weer bij Introna en Nissenbaum vandaan. Prof. Van Eijk verwijst in noot 20 van zijn oratie naar hun hierboven al eerder genoemde publicatie. Alleen, Introna en Nissenbaum hebben het in het betreffende deel van hun artikel niet over de ranking van zoekresultaten, maar, zoals we gezien hebben, over de selectie op grond van "importance" die spiders bij het crawlen van grote sites moeten maken. Dat maakt nogal verschil. In de door Introna en Nissenbaum (p. 173) geschetste situatie mag het zo zijn dat PageRank met zijn nadruk op aantallen backlinks sites algemene, populaire onderwerpen als "shareware computer games" voortrekt vóór specialistische, minder gangbare onderwerpen als "local community services information", maar zoekresultaten zijn het resultaat van een zoekactie van een gebruiker en zijn dus per definitie vraagafhankelijk. In die situatie is er geen sprake van dat minder gangbare onderwerpen door populaire worden verdrongen. Daarbij wijs ik er nogmaals op dat het paper van Cho c.s., dat de basis vormt voor dit gedeelte van het artikel van Introna en Nissenbaum, niet het uitsluiten van (delen of pagina's van) sites bij het spideren tot onderwerp heeft, maar de efficiency waarmee dit spideren in omstandigheden van beperkte tijd en ruimte gebeurt (zie hierboven onder 1). Dat het gedrag van gebruikers wordt gevolgd om tot betere zoekresultaten te komen, lijkt mij hoogstens een probleem van privacy (als het al een probleem is, want bij mijn weten gaat het daarbij alleen om geregistreerde gebruikers van bijvoorbeeld Gmail, die daarmee akkoord zijn gegaan), niet van "manipulatie" van zoekresultaten, en bij de zoekmachines die zoekresultaten door medewerkers handmatig laten aanpassen "op basis van nader geformuleerde al dan niet subjectieve criteria" gaat het vermoedelijk niet om zoekmachines, maar om directories zoals die van Yahoo! (Introna en Nissenbaum, p. 171), een totaal ander soort zoekinstrument.
  5. Deze redenering begrijp ik niet. Zoals prof. Van Eijk zelf stelt (p. 11 van zijn oratie) bepaalt Google "welke advertentie wanneer verschijnt en doet dat primair in relatie tot de zoekopdracht". Met andere woorden het is de gelijkenis tussen de door de zoeker ingegeven zoektermen en de termen waarvoor de adverteerder betaalt, die bepaalt of een advertentie in een resultatenlijst verschijnt. Daarin ligt de relevantie van de advertenties, niet in een manipulatie van het zoekresultaat die de adverteerder een hoge plaats in Google's (of Yahoo!'s of MSN Search') ranking geeft. En zelfs als dat "aannemelijk" zou zijn, zou daarvoor naar mijn mening bewijs voor moeten geleverd dat die stelling ondersteunt.
  6. Dit bezwaar is hierboven onder 4 al ter sprake gekomen; er is hier sprake van een dubbel misverstand, eerst bij Introna/Nissenbaum, daarna nog eens bij prof. Van Eijk.
  7. Wat de beursgang van Google te maken heeft met de manipulatie van zoekresultaten, ontgaat mij. Zoals ik herboven al schreef trekken Google en andere grote mondiale zoekmachines bezoekers niet door zoekresultaten te manipuleren, maar door dat juist niet te doen. Zeker, ze zouden extra inkomsten kunnen genereren door niet alleen advertenties te plaatsen die duidelijk als zodanig zijn aangegeven, maar die ook stiekem door de "algorithmic" results te mengen, maar de mogelijke schade die ze hun eigen reputatie daarmee zouden toebrengen als het zou worden ontdekt, is enorm, en ik denk ook niet dat ze dat doen. In elk geval vind ik daarvoor in de oratie geen schijn van bewijs.
  8. De casus van de "zoekopdrachten op Google [die] geen behandelmethodes tonen die meer medisch verantwoord worden geacht, maar slechts verwijzen naar min of meer omstreden commerciële behandelmethodes waarvoor tegelijkertijd advertenties verschijnen naast de zoekresultaten," is een curieus geval dat een algemeen bezwaar illustreert dat ik tegen de strekking van deze oratie (en dus ook het artikel in Informatieprofessional) heb. In de noot bij deze passage op p. 21 van de oratie verwijst prof. Van Eijk naar een artikel van Cheryl Woodard, getiteld Results at Google are too commercial; Google is begging for an upgrade op de site van Google Watch. (Tussen twee haakjes, dit artikel is een aan Google Watch aangepaste bewerking van een ander artikel bij AskQuestions.org dat over Google en Yahoo! gaat. Het is interessant de verschillen tussen beide artikelen te bestuderen.) Mevrouw Woodard vertelt daarin hoe ze, op zoek naar residentiële behandelprogramma's voor probleemjongeren, in de zoekregel van Google de phrase "troubled teen" heeft ingetypt en vervolgens werd bedolven onder commerciële informatie van RTC's (Residential Treatment Centers), met maar 15 niet-commerciële treffers onder de eerste honderd. Ik geloof het graag, maar waarom zoekt iemand die weet dat zij op zoek is naar niet-commerciële informatie over behandelprogramma's voor probleemjongeren op zo'n slordige manier? De simpele toevoeging van site:edu OR site:gov aan de vraagstelling zou het aantal van (momenteel) 596.000 treffers hebben teruggebracht tot slechts 676. De vraag: "troubled teens" OR "troubled teenagers" "residential treatment" site:edu OR site:gov levert 95 treffers op. Wie zijn belastingbiljet moet invullen, raadpleegt de handleiding; is het dan teveel gevraagd dat gebruikers van een zoekmachine ook eens in de Help kijken? Trouwens, wie een beetje de weg kent op internet, weet dat je voor dit soort vragen geen grote, algemene, mondiale zoekmachine moet gebruiken. De Google Directory, About.com, Magportal.com en Findarticles.com zijn er per slot van rekening ook niet voor niets.
  9. Wat hier gezegd wordt kan in elk geval niet voor de Nederlandse overheid gelden. Die heeft immers alle overheidsinformatie via eigen zoekmachines (op Overheid.nl, Wetten.nl, Rechtspraak.nl etc.) doorzoekbaar gemaakt en haar om haar moverende redenen van zoekmachines als Google en Yahoo! afgeschermd.
Met de bovenstaande selectie uit de oratie van prof. Van Eijk, en mijn commentaar daarop, doe ik hem en zijn rede natuurlijk onrecht, want een groot gedeelte van die oratie gaat over de vraag naar de plaats van zoekmachines in het recht, en de middelen die de overheid heeft om bij misstanden te interveniëren. Dat gedeelte van de rede laat ik hier onbesproken, want van dat onderwerp weet ik niets af.
De verschillende kijk die prof. van Eijk en ik op de rol van zoekmachines hebben zal voor een deel ook voortkomen uit het feit dat hij zich wat de dekking van het zichtbare Web door de zoekmachines gezamenlijk en apart betreft nog baseert op de cijfers van Lawrence & Giles, Accessibility of information on the web, Nature 400 (8 juli 1999), p. 107-109. Daarin werd de omvang van het indexeerbare web in februari 1999 op 800 miljoen pagina's geschat, waarvan 42% door de toen 11 grootste zoekmachines gezamenlijk geïndexeerd was (dat was toen aanzienlijk minder dan het percentage (60%) dat dezelfde auteurs tijdens een onderzoek in december 1997 over het toen 320 miljoen pagina's grote indexeerbare web hadden vastgesteld). De grootste zoekmachine in het onderzoek van Lawrence en Giles was in 1999 nog Northern Light, met een database van 128 miljoen pagina's, niet meer dan 16% van het totale indexeerbare web, en niet meer dan 38,3% van het door de destijds gebruikte zoekmachines gezamenlijk geïndexeerde web. Vandaar dat Lawrence en Giles een vrij somber beeld van de ontsluiting van het web geven, dat elementen bevat die de nogal pessimistische kijk op de wereld van de zoekmachines van prof. Van Eijk en auteurs zoals Introna en Nissenbaum ondersteunen.
Intussen is er nieuwer onderzoek beschikbaar, dat een geheel ander beeld geeft. In The indexable web is more than 11,5 billion pages schatten Gulli (directeur Advanced Products bij Ask Jeeves) en Signorini de huidige omvang van het indexeerbare web op ten minste 11,5 miljard pagina's. Daarvan zou 82% door de momenteel vier grootste zoekmachines, Google, Yahoo!, MSN Search en Ask Jeeves/Teoma gezamenlijk geïndexeerd zijn. De grootste zoekmachine, Google, zou daarbij 76,2% van het geïndexeerde web, en 68,2% van het indexeerbare web bestrijken.
In de zes jaar sinds de studie van Lawrence en Giles is er dus kennelijk wel het een en ander veranderd. Dat blijkt ook wel uit het feit dat Google in die studie qua grootte pas op de zevende plaats van de onderzochte zoekmachines kwam, met een dekking van slechts 7,8% van het indexeerbare web. Het lijkt mij daarom een ongelukkige gang van zaken dat prof. Van Eijk in de Staatscourant -- gelezen door gretige beleidsmakers -- over bedrog bij zoekmachines, onder andere bij Google, heeft gesproken, terwijl naar mijn indruk de term manupulatie voor wat zich bij zoekmachines zoals Google afspeelt, al een veel te sterke term is.
In de oplossing die prof. Van Eijk voorstelt voor het vermeende probleem: overheidsinterventie (inclusief media-educatie) en zelfregulering, is hij, althans in de oratie, nog tamelijk terughoudend. Een veel radicalere koers lijken Introna en Nissenbaum in hun in 2000 gepubliceerde artikel (p. 181) voor te staan, die "as a first step [...] would demand full and truthful disclosure of the underlying rules (or algorithms) governing indexing, searching, and prioritizing, stated in a way that is meaningful to the majority of Web users". Dat dit tot een ware lawine aan spam zou leiden nemen ze op de koop toe. Hoewel ik niemand het recht ontzeg vraagtekens bij het beleid van zoekmachines te plaatsen, hoop ik van harte dat men die oplossing uit zijn hoofd zal laten.

Permalink

12.7.05

Zoeken met de grote zoekmachines

In Gary Price's ResourceShelf van woensdag 22 juni stond een berichtje over nieuwe prefixen die aan de zoeksyntax van MSN Search zijn toegevoegd. Dat is een welkome verbetering, want tot dusver waren de mogelijkheden om geavanceerd met MSN Search te zoeken nogal beperkt.
Prefixen zijn gereserveerde woorden/namen die -- zoals de naam al zegt -- vóór andere woorden worden geplakt; die andere woorden zijn, in de wereld van de zoekmachines, zoektermen of URLs. De vorm is dan ook doorgaans: prefix:[term of URL]. Achter de dubbele punt komt geen spatie.

Prefixen bieden de zoeker een hoge mate van flexibiliteit als aanvulling of soms correctie op de rankingmechanismen van de zoekmachines. Het leek me daarom aardig ze voor de drie grootste zoekmachines, Google, Yahoo! en MSN Search nog eens functioneel op een rijtje te zetten, met per zoekmachine de syntax erbij. En u weet hoe dat gaat, als je eenmaal met zo'n beperkt projectje bezig bent, maakt de ambitie zich van je meester het grootschaliger aan te pakken. Vandaar dat u onder de link die ik u zo ga geven, niet alleen de prefixen, maar alle functionele mogelijkheden van de drie genoemde zoekmachines die ik kon bedenken, op een rijtje vindt. Voor functies die daar dun gezaaid of afwezig zijn, verwijs ik naar andere grote zoekmachines die ze (wel) hebben, te weten Teoma/Ask Jeeves, Gigablast en Exalead. De links onder de syntax leiden naar voorbeelden die hopelijk verduidelijken wat u met de mogelijkheden kunt doen. Enfin, hopelijk hebt u er wat aan. Het overzicht opent in een nieuw venster als u hier klikt.

Op- en aanmerkingen, aanvullingen etc. zijn van harte welkom. Enjoy!

Permalink