Send As SMS

18.12.05

Het onzichtbare Web

Nu het stof van de Krakercompetitie is neergedaald, wil ik het met u eens hebben over zoeken op het onzichtbare Web. Die twee dingen -- Krakercompetitie en onzichtbaar Web -- hebben in zoverre iets met elkaar te maken dat het antwoord op een niet onaanzienlijk aantal vragen in die competitie op het onzichtbare Web moet worden gezocht.
Onder het onzichtbare of "diepe" Web versta ik hier alle informatie die via het Web bereikbaar is maar niet door de grote zoekmachines wordt ontsloten. Daaronder vallen nogal wat uiteenlopende typen informatie, maar in het vervolg van deze post beperk ik me tot tekst in databases, inclusief (bibliotheek)catalogi. Voor een deel daarvan geldt inderdaad dat ze op zichzelf nog wel via zoekmachines te vinden zijn, maar alleen als databasebeschrijving met doorgaans een eigen zoekmogelijkheid, niet met de hele inhoud die in de database verscholen zit.
Een jaar of vijf geleden was dit onzichtbare Web heet nieuws, Gary Price en Chris Sherman wijdden er in 2001 zelfs een heel boek aan, en in een "white paper" van het bedrijf BrightPlanet, dat in juli 2001 ook in The Journal of Electronic Publishing van de University of Michigan verscheen, rekende Michael Bergman uit dat het "diepe" Web minstens 500 maal de omvang van het zichtbare (door zoekmachines ontsloten) Web had.
Daarna is het wat stiller geworden rond dit onderwerp, wat voor een deel misschien te maken zal hebben met feit dat zoekmachines zoals Google intussen ook de inhoud van veel catalogi en databases zijn gaan ontsluiten, en dus de -- al dan niet "dynamische"-- Webpagina's kunnen indexeren die door die databases worden gegenereerd. Bekende databases waarbij dat het geval is, zijn WorldCat en PubMed. Overigens biedt het feit dat een database door Google en/of Yahoo! wordt ontsloten volstrekt geen garantie dat de zoekmachine dan ook alle records vindt: de combinatie phaistos disk in alle velden levert in WorldCat zelf een ontdubbeld resultaat van 68 treffers op, in Google maar 8, en in Yahoo! maar 1. In PubMed vindt Google op de zoekphrase "posterior keratoconus" wel alle treffers die PubMed zelf ook vindt (met nog een aantal doublures). (Voor methodes waarmee dynamische content toch voor zoekmachines vindbaar kan worden gemaakt zie bijvoorbeeld het artikel van Larisa Thomason, Invite Search Engine Spiders Into Your Dynamic Web Site, in The Web Developer's Journal van 28 februari 2001.)
Niettemin overtreft het aantal databases waarvan de inhoud niet door de grote zoekmachines wordt geïndexeerd, nog altijd verre het aantal waarbij dat wel gebeurt. Van die databases krijgen we dus via de zoekmachines alleen de voordeur met het naambordje van de database te zien, niet het huis met al zijn bewoners dat erachter schuilgaat. En omdat onze vragen zich doorgaans in eerste instantie op het niveau van die bewoners -- databaserecords -- afspelen, en niet op dat van het naambordje op de voordeur -- de database waarin een feit of gegeven moet worden gezocht --, zijn wij het zelf die een vertaalslag van databaserecord (feit of gegeven) naar database moeten maken. Concreet: met een aantal zoektermen die een mogelijk antwoord op onze vraag omschrijven beginnen we in Google of Yahoo! te zoeken, merken dat we het antwoord niet vinden, en moeten ons dan afvragen of dat wellicht op het invisible Web te vinden is, en zo ja waar. De vraag: hoe heette de kapitein van het schip dat op 21 oktober 1671 van Texel naar Batavia vertrok, moet dan worden vertaald naar zoiets als VOC schepen database om in Google of Yahoo! de voordeur met het naambordje De VOCsite : inleiding VOC-schepen database te kunnen vinden.
Dat dit in de meeste gevallen geen sinecure is spreekt vanzelf. Om te beginnen is er al het probleem dat er op een zeker tijdstip in het zoekproces voor moet worden gekozen het antwoord op de vraag niet meer op het visible Web te zoeken. Gegeven het ontbreken van elke vorm van een gecontroleerd vocabulaire op het Web -- en dus het grote aantal mogelijke zoektermen waarmee kan worden gezocht -- is dat geen gemakkelijke beslissing, te meer omdat de volgende vraag: waar op het invisible Web moet het antwoord dan gevonden worden (als het al überhaupt op het Web te vinden is), meestal ook verre van eenvoudig te beantwoorden is.
Wie zo maar eens op het Web op zoek gaat naar goede raad om deze twee problemen op te lossen, komt daarbij niet veel bruikbare adviezen tegen. Aan het eerste probleem: wanneer moet ik stoppen met op het visible Web te zoeken, wordt bij mijn weten zelden of nooit aandacht besteed, en adviezen over het tweede probleem beperken zich vaak tot een opsomming van sites waar databases over uiteenlopende onderwerpen worden genoemd. Voorbeelden zijn CompletePlanet, Librarians' Internet Index en Infomine, die samen met een tamelijk willekeurige selectie van databases opduiken in Those Dark Hiding Places: The Invisible Web Revealed, dat ik hier als voorbeeld van een handleiding voor het Invisible Web neem. Hoewel ik mij er vroeger regelmatig ook aan bezondigd heb, en dat nog altijd zo nu en dan niet kan laten, word ik altijd een beetje moedeloos van dit soort opsommingen. CompletePlanet bijvoorbeeld biedt een verzameling van meer dan 70.000 databases, verdeeld over 42 onderwerpen en honderden sub-onderwerpen, waar alleen al bij het sub-onderwerp klassieke muziek 20 databases worden opgesomd, variërend van CLASSICALmanac Search, Today in CLASSICAL music SEARCH tot Global Gourmet Search. Maar welke van die 20 moet ik gebruiken, en wie garandeert mij dat er niet naast de 20 databases in de verzameling van CompletePlanet nog 50 andere zijn die ik via Google zou kunnen vinden? (Zo bevatten CompletePlanet en Librarians' Internet Index geen link naar de Beethoven Bibliography Database, InfoMine wel.)
Als de problemen waarvoor het onzichtbare Web ons stelt niet op deze manier kunnen worden opgelost, hoe dan wel. Ik noem hier een paar mogelijkheden die naar mijn mening altijd wel het onderzoeken waard zijn.
  • Een hele simpele mogelijkheid voor iemand die bij zoekmachines zweert, is natuurlijk de volgende: vat het onderwerp waarover u informatie zoekt in een paar termen samen en
    voeg daar termen als 'database', 'data', 'dataset', 'archive', 'bibliography', 'index', 'register', 'statistics' (afhankelijk van het soort informatie waarnaar u op zoek bent) aan toe, om te beginnen met de prefixen intitle: en inanchor: (voor Google) en (eveneens voor Google) eventueel met het synoniemteken ~ (intitle:~statistics) eraan toegevoegd.
  • Een andere mogelijkheid die zoekmachines bieden om databases op te sporen is via de URL van het zoekformulier; dit bevat vaak elementen als cgi, bin, search, asp, cfm, query en php, en met de limiter inurl: (Google, Yahoo! en MSN Search)of path: (Yahoo!), in combinatie met zoektermen die het onderwerp van de vraag betreffen, kan zo naar dit type informatie over dit onderwerp worden gezocht. Wat de omschrijving van het onderwerp bij deze en de hierboven genoemde mogelijkheid betreft, begin specifiek, maar niet te specifiek: een database over de Caladenia carnea R.Br. 1810 zult u niet vinden, maar met Google: database orchids maakt u een redelijke kans, terwijl database plants weer te ruim is. Overigens: verwacht via deze en de hierboven genoemde methode een hoop ruis.
  • Een derde weg naar databases voert via gespecialiseerde directories, portals of gateways. Veel daarvan hebben de intentie, en soms ook de pretentie, alle belangrijke resources over een vakgebied of onderwerp te verzamelen. Zulke directories etc. zelf vindt u onder meer via de directory van Yahoo!, waar ze te vinden zijn in subcategorieën die standaard als "Web directories" worden aangeduid, en via de zoekmachine Teoma, die bij vragen over niet al te specifieke onderwerpen in de rechter marge van een resultatenlijst onder meer Resources, Link collections from experts and enthusiasts laat zien.
  • De koninklijke weg naar databases en het invisible Web volgt echter nog een andere route, namelijk via de vraag welke persoon of instelling een database zou kunnen bijhouden. Ik geef zomaar wat voorbeelden in twee lijstjes, het eerste van Nederlandse databases, het tweede van personen en organisaties:
    • Nederlandse schilderkunst
    • Molens
    • Boetes
    • Opvarenden op VOC-schepen
    • Bedrijfsgegevens 19e eeuw
    • Te koop staande huizen
    • Nederlandse onderzoeksprojecten
    • Vertalers
    • Kosten van geneesmiddelen
    • Exportsubsidies

    • Nederlands Genootschap van Tolken en Vertalers
    • Openbaar Ministerie
    • Nederlands Verbond van Makelaars
    • College voor zorgverzekeringen
    • Nationaal Archief
    • Ministerie van Economische Zaken
    • Koninklijke Nederlandse Akademie van Wetenschappen
    • Vereniging De Hollandsche Molen
    • Rijksbureau voor Kunsthistorische Documentatie
    • Nederlands Economisch Historisch Archief
Zeker, het gaat hier alleen om Nederlandse databases, en het kan ook nog zijn dat een of meer hiervan ook door Google en/of andere grote zoekmachines worden ontsloten. Maar het patroon is wel duidelijk: als u denkt zoals Pyttersen moet het mogelijk zijn niet alleen in ons eigen land, maar ook in het buitenland grote stukken invisible Web via deze route op het spoor te komen.

Permalink