25.5.08

De Digitale Bibliografie Nederlandse Geschiedenis

Inleiding
Aan het begin van dit jaar is de Digitale Bibliografie Nederlandse Geschiedenis (DBNG) voor het grote publiek beschikbaar gekomen. Dit is een gezamenlijke onderneming van de Koninklijke Bibliotheek en het Instituut voor Nederlandse Geschiedenis, die momenteel in testversie te bekijken en te gebruiken is op de  URL http://www.dbng.nl. Dat het om een testversie gaat is onder meer af te leiden uit de helpteksten en het feit dat daarin ook nog niet beschikbare zoekmogelijkheden (bijvoorbeeld via historische kaarten en een wereldkaart) worden genoemd.
Hieronder geef ik enige eerste indrukken.

Bestandsinhoud
Het eerste wat een zoeker wil weten die een (gedrukte of digitale) bibliografie gaat gebruiken, is wat hij of zij daarin kan vinden. Die informatie biedt de DBNG onder de link informatie op de homepage, en vervolgens, meer uitgewerkt, onder de tab Bestanden op de pagina die onder de link informatie zit.
De DBNG blijkt dan te zijn samengesteld uit -- hoofdzakelijk -- titels uit het Repertorium  Geschiedenis Nederland (RGN; tot voor kort in het OBN van OCLC beschikbaar), "aangevuld met een selectie titels uit historische en boekhistorische bestanden van de KB en de UB's van Amsterdam en Utrecht". Bij deze bestanden blijkt het te gaan om achtereenvolgens de STCN en Bibliopolis van de KB, HinT van de UB Amsterdam en het Apparaat Nederlandse Geschiedenis (ANG) van de UB Utrecht. 
Zoals gezegd, vormt het RGN de hoofdmoot van de DBNG. Volgens de databases-pagina is deze in zijn geheel opgenomen. Het is daarbij wel goed te bedenken dat in de RNG alleen titels uit de delen van de oorspronkelijke gedrukte bibliografie vanaf 1940 zijn opgenomen; dit is bij de DBNG zelf niet te vinden, alleen op de pagina van het RGN waarnaar verwezen wordt.
Blijkens de homepage van de DBNG ligt het in de bedoeling in de komende drie jaar nog verdere bestanden aan de DBNG toe te voegen. Welke dat zullen zijn, is momenteel kennelijk nog onbekend.
Ik wil hierover een paar opmerkingen maken. Hoewel ik een groot voorstander ben van het digitaliseren van gedrukte bibliografieën (bij voorkeur op een manier die de zoekmogelijkheden van het gedrukte werk zoveel mogelijk intact laat), heb ik in het algemeen weinig op met het samenvoegen van ongelijksoortige bestanden. Dat geldt ook voor de DBNG. Zo is de granulariteit van bestanden als HinT en het ANG een totaal andere dan van het RGN, en hebben alle genoemde bestanden -- of de gedrukte bibliografieën waarop sommige ervan gebaseerd zijn -- uiteenlopende onderwerpsontsluitingen. Dat laatste feit stelt databasebouwers in mijn ervaring voor vrijwel altijd onderschatte problemen.
Als ik de info-pagina van de DBNG goed begrijp, is een belangrijk voordeel van de samenvoeging van databases dat men een titel die in diverse bestanden voorkomt, maar één keer hoeft te zoeken.  Dat kan waar zijn, maar het neemt niet weg dat in de testversie van de database titels nog dubbel- of driedubbelop te getoond worden. Zo vond ik met de zoekactie AUT:begheyn EN TTL:school (kortheidshalve gebruik ik maar de PiCarta-notatie) dezelfde titel in drievoud, eenmaal uit het RGN, eenmaal uit Bibliopolis en eenmaal uit een niet aangegeven bestand.
Liever dan het enigszins ronkende proza (met de obligate termen laagdrempelig en hoogwaardig) over de sterke punten van de DBNG op de info-pagina zou ik daarom een uiteenzetting van de voor- maar ook de nadelen van de toevoeging van de niet-RGN-bestanden aan de DBNG hebben gezien. Dat in Bibliopolis als gespecialiseerde boekhistorische database nog wel wat relevante publicaties ontsloten kunnen zijn die voor de boekhistorie iets aan het RGN toevoegen, wil ik op voorhand nog wel geloven; maar dat dat voor HinT en het ANG ook geldt, wil er bij mij zonder nadere verantwoording niet in.
Wat ik in de informatie over de DBNG mis, is een overzicht van alle tijdschriften, reeksen etc. die de bibliografie beslaat. En dan liefst daarbij ook nog vermeld welke deelbestanden welke publicaties dekken. Ik weet wel dat met name het RGN een zeer specifieke dekking heeft, met vermoedelijk slechts een geringe overlap met andere databases. Maar toch wil ik als zoeker aan de hand van de gedepouilleerde publicaties kunnen bepalen of raadpleging van de DBNG, of van een andere database ná de DBNG, voor mij bij een bepaalde vraag nuttig is. Per slot van rekening bevat de gedrukte uitgave zo'n lijst ook; weliswaar biedt de database de mogelijkheid in het bronveld naar de complete tijdschrift-of reekstitel door te klikken, maar daarvan is geen index die mij een overzicht biedt (zie ook onder Presentaties hieronder).
Een vraag die mij bijvoorbeeld zou bezighouden is of ik na de DBNG ook HinT nog zou moeten raadplegen om relevante titels over de Nederlandse geschiedenis te vinden. De DBNG zelf vertelt mij alleen maar dat ze een "selectie van titels" uit HinT bevat, maar niet welke selectie. Een proef op de som geeft mij niet het vertrouwen dat met de opname van die selectie raadpleging van HinT voor publicaties in bijvoorbeeld het Duits over de Nederlandse geschiedenis overbodig is geworden. Hint bevat 14730 titels met het geografisch trefwoord Nederland; daarvan zijn er 437 in het Duits.  Van de eerste 50 daarvan  ontbreken er 38, dus ruim driekwart, in de DBNG; van de 12 die wel in de DBNG zijn opgenomen, komt slechts de helft uit HinT, en dan alleen nog als verdubbeling van titels die ook al in het RGN zaten.
Een laatste opmerking die ik hier wil maken is dat zolang de DBNG alleen nog maar in testversie bestaat, het toch wel heel prettig zou zijn als je zoekresultaten uit deze database met die uit alle samenstellende databases zou kunnen vergelijken. Zoals hierboven al opgemerkt is dat voor het RGN niet (meer) het geval.

Zoeken...
De DBNG biedt een heel arsenaal aan zoekmogelijkheden. De meest prominente daarvan worden aangeboden in een zoekformulier waarin zoektermen in 3 van de in totaal 10 (ALL, AUT, TTL, TRF, PAO, SYS, PER, ISB, ISS en TAA) beschikbare zoeksleutels kunnen worden ingevuld en met EN, OF en NIET kunnen worden gecombineerd;  daarnaast biedt de extra optie scannen in het eerste van de velden de mogelijkheid de indexen van de diverse zoeksleutels te bekijken. Een overbodige luxe is dat laatste niet: het is bijvoorbeeld een mogelijkheid om erachter te komen dat voor de zoeksleutel Taal drielettercodes moeten worden gebruikt.


















Het zoekformulier van de DBNG

Behalve de zoekvakjes bevat het zoekformulier ook nog een selecteer- en een sorteervak. Van de sorteermogelijkheden werken geen voorkeur en jaar van uitgave wel, auteur en titel niet. Bij de auteursnamen doet het sorteerprogramma op zich zijn werk wel, maar omdat een deel van de records in het auteursveld de auteursnamen in de volgorde achternaam/voornamen of initalen heeft (voorbeeld), en een ander deel in de volgorde voornamen of initalen/achternaam (voorbeeld) levert dit geen zinvol gesorteerde lijst op.
Het selecteervak is bedoeld om een zoekactie tot een jaar van uitgave, materiaalsoort of periode te beperken. Hiervan werken jaar van uitgave en materiaalsoort goed, zij het dat bij de laatste selectiesleutel de materiaalsoorten nog moeten worden ingevuld. De selectiesleutel periode werkt gebrekkig.
Evenals in andere PICA-bestanden kan ook bij de DBNG de zoekgeschiedenis worden opgeroepen en kunnen sets opnieuw worden getoond door op de link onder de zoekopdracht te klikken; een mogelijkheid om sets te combineren heb ik echter niet kunnen vinden. Dat geldt ook voor een mogelijkheid die in de helptekst wel genoemd wordt, namelijk het verkleinen of vergroten van het laatste zoekresultaat.



en, of, en niet, scannen ... maar geen vergroten en verkleinen

Behalve de hierboven genoemde mogelijkheden biedt de DBNG ook nog de mogelijkheid via indexen (van rubrieken, persoonsnamen en trefwoorden), een landkaart en een tijdbalk te zoeken. Op de meeste van deze mogelijkheden ga ik hieronder onder het kopje Onderwerpsontsluiting nader in. De enige ervan die ik hier bespreek is het zoeken via de index van persoonsnamen. Omdat, zoals we hierboven hebben gezien, het ook mogelijk is op persoonsnamen te scannen, zou het zoeken naar persoonsnamen via indexen een verdubbeling van die mogelijkheid kunnen lijken. Dat is echter niet het geval: hier gaat het niet om de PAO- maar om de PRS-index, dus om de index die zowel auteursnamen (AUT) als namen van personen als onderwerp (PAO) bevat. Het is voor de gebruiker verwarrend dat in beide gevallen sprake is van persoonsnamen. De zoeksleutel zou beter Persoon als onderwerp kunnen heten.
Bladeren in de indexen is geen pretje. Het kost 21 keer klikken om bij de naam Cuypers te komen, wat, kan ik u verzekeren, in het Leidse Publieksnetwerk een tijd kan duren. De toevoeging van opties als Ca..., Ce..., Ci... etc. aan de indexschermen zou de gebruikersvriendelijkheid wat verhogen.
Een laatste zoekmogelijkheid die hier in het kort vermeld moet worden is die via een aantal gelinkte velden in de lange titelpresentatie. Auteursnaam, bronpublicatie en bronbestand zijn hier van links voorzien, wat de mogelijkheid biedt daarop verder te zoeken. Zie hieronder, onder Presentaties.

... en vinden
Een goede manier om je een oordeel over de kwaliteit van een bestand te vormen, is om in de indexen te kijken. Dan blijkt of de gebruiker van een database ook werkelijk kan vinden wat hij behoort te kunnen vinden. Bij het bekijken van de indexen van de DBNG blijkt dat bij de indexering van het bestand nogal wat mis is gegaan. Zo blijkt het gebruik van de hierboven genoemde PRS-index niet zonder problemen. Wat deze index zou moeten bevatten, zijn alle persoonsnamen (AUT en PAO), met de daaraan gerelateerde publicaties, die ook via de AUT- en de PAO-index (door scannen op de zoeksleutel Auteur en Persoonsnaam) worden gevonden. Dat blijkt niet het geval. In de PRS-index ontbreken zowel auteurs als -- zo die er wel zijn --  aan hen gerelateerde publicaties.
Een paar voorbeelden. Op de naam Duymaer van Twist is noch onder Duymaer noch onder Twist iets te vinden, terwijl de naam via scannen zowel in de AUT- als in de PAO-index kan worden gevonden. Uiteindelijk blijken in het bestand 10 publicaties van en over personen van die naam aanwezig te zijn.
Een ander voorbeeld biedt de naam Schulte Nordholt, waarvan er in de PRS-index 4 vermeld staan: Gerard (G.C.; 2 gerelateerde titels), Henk (H.G.C.; 15 gerelateerde titels), J.W. (Jan Willem; 30 gerelateerde titels) en O. (Oet) Schulte Nordholt-Zielhuis (1 gerelateerde titel). Maar de DBNG kent nog 3 Schulte Nordholts in de hoedanigheid van auteur en/of persoon als onderwerp: Hendrik (1909-1998; auteur van 2 publicaties, persoon als onderwerp in 1), Eric (auteur van 1 publicatie) en Herman Gerrit (H.G.; persoon als onderwerp van 2 publicaties). 
Niet alleen ontbreken er in de PRS-index persoonsnamen, waar die er wel zijn ontbreken ook gerelateerde titels. Zo vind je onder de naam van de vroegere Leidse archivaris Annie (A.J.) Versprille maar 5 gerelateerde titels, 3 in memoriams en twee publicaties van haar als auteur, terwijl het bestand 44 records op haar naam bevat. Beter, maar ook niet helemaal goed vergaat het de directeur van het RKD, R.E.O. Ekkart, wiens naam als indexterm 137 publicaties oplevert, terwijl je met de zoeksleutels AUT en PAO 150 publicaties van en over hem vindt.
Ook het scannen van de AUT- en de PAO-indexen via de zoeksleutels verloopt niet zonder problemen. Terwijl de PRS-index, hoewel lacuneus, dubbele namen als één achternaam behandelt, alfabetisch op de eerste naam gerangschikt, behandelen de AUT- en de PAO-index sommige van zulke namen in hun geheel als één achternaam (bij voorbeeld Regteren Altena, maar ook geïndexeerd als Altena, Regteren), en andere als achternaam plus voorvoegsel (Nordholt, Schulte, maar niet Schulte Nordholt).
Het gebruik van de eerste zoeksleutel om te scannen vereist ook in andere opzichten alertheid.  Wie met scannen naar de in 1954 geboren Leidse historicus Cor Smit zoekt, vindt diens naam in eerste instantie bovenaan een trefferlijst met de vermelding van 26 records; doorklikken op de naam levert vervolgens een lijst van 67 treffers op, die naast de naam en de publicaties van C.B.A. (Cor) Smit ook de namen en publicaties van Cornelis Smit (1899-1991), Cornelis Smit (1784-1858) en Cornelis Gerardus Maria Smit (1936-) blijkt te bevatten.
Een hinderlijk verschijnsel bij het scannen van auteursnamen is dat het je in een doodlopende straat kan doen belanden. Dat is bijvoorbeeld het geval met de naam Hoogduin-Berkhout; wie op die auteursnaam scant, komt in een indexscherm met de gezochte naam als eerste treffer. Maar klikken daarop voert je niet verder, ook al blijkt bij zoeken dat de auteur en een publicatie wel degelijk in het bestand voorkomen.
Nu is scannen een manier van zoeken die niet door heel veel gebruikers wordt toegepast, en valt het belang van de hierboven vermelde ongerechtigheden gemakkelijk te relativeren met de stelling dat alle met de zoeksleutels PRS, AUT en PAO gemiste publicaties waarschijnlijk toch wel gevonden worden door gebruikers die de zoeksleutel ALL (Alle woorden) kiezen (overigens is dat niet zo, zoals hieronder zal blijken!). Maar in sommige gevallen moét de scanmogelijkheid wel benut worden om erachter te komen wat de mogelijke zoektermen bij een zoeksleutel zijn.  Een voorbeeld is de al eerder genoemde taalsleutel (TAA). En hetzelfde zou je verwachten van de zoeksleutel PER (Periode), waar niet maar klakkeloos een door de gebruiker gewenste periode kan worden opgegeven. Wie bijvoorbeeld met Trefwoord: Leiden EN Periode: 1568-1648 naar publicaties over Leiden gedurende de Tachtigjarige Oorlog zoekt, komt van de koude kermis thuis.  Hij krijgt eerst  de  trefwoordenindex met de term Leiden te zien, en vervolgens, als hij daarop klikt, een lijst met alle 877 titels die op de diverse trefwoorden met de term Leiden erin gevonden zijn.
Kennelijk is 1568-1648 geen periode die in de DBNG als zodanig kan worden afgebakend. Wat je nu zou verwachten is dat je via de index van de zoeksleutel Periode  kunt opsporen welke periodes dat dan wel kunnen.  Maar hier wacht de gebruiker een teleurstelling: de term Periode als zoeksleutel blijkt een heel andere betekenis te hebben dan verwacht. Hij is niet bedoeld om tijdvakken af te bakenen, maar bevat naar mijn indruk enkel getallen die in -- naar ik aanneem -- kenmerkcodes voor collectieve auteur, titel en uitgever zijn gevonden. De zin van deze zoeksleutel -- die ook onder het kopje periode in de rechtermarge van de lange presentatie van titels opduikt (voorbeeld) en daar ook tot niets leidt -- ontgaat mij dan ook.


Indexscherm van de zoeksleutel Periode

Nu heeft de gebruiker die alleen in een bepaald tijdvak geïnteresseerd is, daarvoor ook de beschikking over de mogelijkheid om via de tijdbalk te zoeken. Weliswaar blijkt afbakening tot de periodes 1550-1600 (1079 records) en 1600-1650 (1379 records) hier wel mogelijk, maar nu is het weer onmogelijk (althans, ik heb die mogelijkheid niet gevonden) om die resultaten met bijvoorbeeld het trefwoord Leiden te combineren. Het resultaat van een zoekactie via de tijdbalk verschijnt niet als set in de zoekgeschiedenis, en zelfs als het dat wel zou doen zou het, zoals we gezien hebben, toch niet mogelijk zijn die set in een EN-relatie met de set van Trefwoord: Leiden te combineren.
Het gebruik van de zoeksleutel Alle Woorden (ALL) -- die (terecht) standaard wordt aangeboden en dus ook door de meeste gebruikers wel zal worden geprefereerd -- levert zo zijn eigen onaangename verrassingen op. De auteur Gied Segers heeft in de DBNG een achttal publicaties, in zes waarvan de term Boxtel in de titel voorkomt. Toch vind je er daarvan met de zoekvraag ALL=segers EN ALL=Boxtel maar één, wat vermoedelijk het gevolg is van een onjuiste indexdefinitie van de ALL-index. Deze behoort alle kmc's te bevatten die ook door de AUT-index worden gedekt, en kennelijk is dat niet zo. 
Hoewel in de helptekst vermeld staat dat de zoeksleutel ALL ook woorden uit het veld annotatie bevat, is dat maar in zeer beperkte mate het geval. Zo wordt de titel: De blokboeken en incunabelen in Haarlems Libry, met in de annotatie de mededeling "Met samenvatting in het Engels", niet met ALL=samenvatting EN ALL=Engels gevonden.
Ten slotte dient hier te worden vermeld dat ook scannen en zoeken met de zoeksleutel ISSN-nummer niet werkt; wie het probeert (zonder het liggende streepje) belandt in dezelfde index als wie met de zoeksleutel Periode zoekt.

Persoonsnamen
Hierboven heb ik al enige problemen met persoonsnamen gesignaleerd, en ook onder het kopje Onderwerpsontsluiting zal daarover nog iets worden gezegd. Los daarvan wil ik hier wijzen op een hinderlijk verschijnsel in de DBNG dat ook met persoonsnamen te maken heeft. Zoals in databases gebruikelijk zijn persoonsnamen in de DBNG gethesaureerd, wat wil zeggen dat tussen diverse variante naamsvormen voor één persoon (H.L. Wesseling, Henri Wesseling, Henk Wesseling, Henk L. Wesseling, Hendrik Lodewijk Wesseling) één naamsvorm als voorkeursnaam is gekozen, waaraan vervolgens alle bekende publicaties zijn gerelateerd. In het geval van Wesseling is die voorkeursnaam H.L. Wesseling. Dat is de eerste vorm die in het persoonsrecord vermeld wordt, en ook de naamsvorm die je in de Index van Persoonsnamen (PRS-index) vindt. Maar het persoonsrecord zelf heeft de naam Wesseling, Hendrik Lodewijk (1937-), en dat is ook de naamsvorm die je als trefwoord in de lange presentatie van een titel over deze historicus vindt. Het probleem is nu dat wie met deze naam als auteursnaam zoekt, in een index terechtkomt waarin wesseling, hendrik lodewijk wel als eerste naam vermeld staat, maar daar vervolgens niets mee kan omdat de link onder die naam alleen maar naar hetzelfde indexscherm terugvoert. Constateren (op basis van het aantal publicaties)  dat de gethesaureerde naam Wesselink, H.L. luidt, kan daar ook niet, want die naam staat op de voorgaande pagina in de auteursindex.
Het valt mij overigens op dat het in de eerste kolom van de index vermelde aantal treffers (54 voor wesseling, h l) niet overeenkomt met het aantal getoonde treffers als je op een naam klikt.
Hoe dan ook, het hanteren van twee "voorkeursnamen" voor dezelfde persoon, een voor de indexering en een om te preciseren om wie het gaat, lijkt me voor gebruikers verwarrend.

Presentaties
Voordat ik op de onderwerpsontsluiting van de DBNG inga, behandel ik hier eerst de titelpresentaties van de DBNG, omdat deze in principe nog extra zoekmogelijkheden bieden die hierboven nog niet ter sprake zijn gekomen.

Korte presentatie
In eerste instantie levert een zoekactie in de DBNG, als ze niet naar een index leidt, een trefferlijst op, waarin de treffers met icoontjes zijn onderscheiden in (onder meer) personen (persoonspictogram), artikelen (of andere onzelfstandige publicaties, artikelenpictogram), boeken (of andere zelfstandige publicaties, boekenpictogram), periodieken (periodiekenpictogram), onderwerpsgegevens(onderwerpspictogram) en online bestanden (bestandpictogram). Hiervan leiden de links onder de treffers bij boeken en artikelen vanzelfsprekend naar de lange presentatie van de betreffende publicatie, die van personen en periodieken naar een beschrijvend record met gerelateerde publicaties en die van de onderwerpsgegevens naar een record van een trefwoord, de omschrijving van een BCL-code, een organisatie of een corporatieve auteur, met daaraan gerelateerde titels.  De links naar online bestanden leiden onmiddellijk naar het bestand.
Denk erom dat de trefferlijst ook publicaties van niet gethesaureerde auteurs kan bevatten: een voorbeeld biedt de auteursnaam Knappert. Dezelfde auteursnaam biedt ook voorbeelden van publicaties die (vermoedelijk) wel van een gethesaureerde auteur (voorbeeld: L. Knappert, Mr. D. van Blom: In memoriam) zijn, maar niet aan diens naam gerelateerd.

Lange presentatie
De lange presentatie van titels bevat uiteraard de velden titel, auteur (gelinkt), jaar van uitgave en uitgever/bronpublicatie (meestal gelinkt). Daarnaast komen altijd of waar van toepassing voor: reeks (gelinkt), annotatie, omvang, toelichting, ISBN (het ISSN van tijdschriften staat in de records van artikelen in het bronpublicatieveld), bronbestand (gelinkt) en beschikbaarheid (gelinkt). Ten slotte vindt men bij de boeken etc. en in sommige gevallen bij de artikelen in de rechtermarge trefwoorden (gelinkt), rubrieken (gelinkt) en/of een periode (gelinkt).
De vele links vanuit de complete presentatie van een titel bieden natuurlijk allerlei mogelijkheden om vanuit een al gekende publicatie naar "More like this..." te zoeken.  Maar niet alle links doen wat je ervan zou verwachten. Zo leidt de link van een auteur in een publicatie die niet aan de naam van die auteur gerelateerd is (voorbeeld) naar een index waarin de gebruiker kan blijven klikken zonder dat het enig resultaat oplevert; in dat geval zal hij opnieuw met de achternaam van de auteur moeten zoeken om diens andere publicaties, gerelateerd of niet, te vinden.
De link onder de bronpublicatie en de reekstitel leidt naar een record met de beschrijving daarvan, met daarbij een link naar de gerelateerde titels. Ook hier wordt bij het aanklikken van die link weer geen set gevormd. Omdat ook zoeken naar de titel van een bronpublicatie (bijvoorbeeld met de zoeksleutel Alle woorden), of, zoals al eerder vermeld, met het ISSN, niet het gewenste resultaat oplevert is het niet mogelijk een zoekactie tot de artikelen in een bepaald tijdschrift te beperken. (Dit geldt overigens alleen als de bronpublicatie een tijdschrift is; is de bronpublicatie een bundel, dan is ze met de zoeksleutel Alle woorden weer wel te vinden; ook reekstitels zijn in de index Alle woorden geïndexeerd.)
Een apart verhaal is het gelinkte veld Bron(bestand). Hierin staat vermeld uit welk van de deelbestanden van de DBGN een record afkomstig is. In de meeste gevallen is dat natuurlijk het RGN, maar ook HinT kom je regelmatig tegen; zelfs bij records die helemaal niet uit HinT kunnen komen, omdat dat bestand niet verder teruggaat dan tot 1984. Bij een niet onaanzienlijk aantal records, zowel van boeken als van artikelen, is het bronveld oningevuld.
Een handig hulpmiddel bij het uiteindelijk verkrijgen van de gezochte publicaties biedt de link beschikbaarheid, die overigens ook weer bij sommige records ontbreekt. Wie over een IBL-account bij een van de Nederlandse bibliotheken beschikt, vindt na het klikken op de link de betreffende publicatie in de PiCarta-database, met daarbij de bibliotheken die haar in de collectie hebben en de mogelijkheid online een leenaanvraag te doen.

Onderwerpsontsluiting
Met zijn ca. 200.000 records is de DBGN een relatief kleine database, die desondanks tal van mogelijkheden biedt om op onderwerp te zoeken. Zo zijn er in het zoekformulier de zoeksleutels trefwoord, persoonsnaam, basisclassificatie en periode, terwijl hier ook nog eens op periode kan worden geselecteerd, kan met indexen naar rubrieken, trefwoorden en persoonsnamen, en verder ook via een landkaart en een tijdbalk worden gezocht en biedt de lange presentatie van veel titels een rubriek, trefwoorden en een periode waarmee naar overeenkomstige titels kan worden gezocht.

Rubrieken
De rubrieken waarvan in de DBNG gebruik wordt gemaakt zijn die van de basisclassificatie -- wat wel een beetje vreemd is, omdat hier een algemene classificatie op een vakbestand wordt toegepast.  Op zich werken ze op alle drie de plaatsen waar ze te gebruiken zijn, goed. Gebruik je de index van de rubrieken, dan wordt de hele basisclassificatie getoond, met de omschrijvingen; klik je dan op een code waar titels bij horen, dan worden die meteen getoond; gaat het om een code waar geen titels bij horen, dan wordt het indexscherm zonder de omschrijvingen getoond, waar je een andere code uit kunt aanklikken. Dit scherm bevat alleen die codes waar titels aan hangen.
Begin je met scannen van de basisclassificatie in het zoekscherm, dan gebeurt hetzelfde; alleen mis je hier het overzicht met de omschrijvingen.
Minder goed werkt de techniek die in de volledige presentatie van records de BCL-code (met omschrijving) laat zien, met een link naar andere publicaties met dezelfde code. Deze code wordt lang niet bij alle titels  waaraan hij kennelijk wel is toegekend (ze worden er immers op gevonden) ook getoond: zo zitten er in de rubriek 01.30 biografie, biografische woordenboeken: algemeen 33 titels, waarvan er maar 13 in de volledige presentatie een doorklikbare code laten zien.

Trefwoorden en persoonsnamen
Ook de index trefwoorden, het scannen van de zoeksleutel trefwoord en de in de lange presentatie van titels getoonde trefwoorden werken merendeels naar behoren. Voor zover ik heb nagegaan verschijnen alle toepasselijke trefwoorden in de lange presentatie van de titels (zie bijvoorbeeld de titels gevonden op abdij van Egmond). Wel kan er een verschil bestaan tussen de resultaten die je via het scannen of zoeken op trefwoord (bijvoorbeeld Leiden) in het zoekformulier krijgt, en die welke via de index op trefwoorden worden verkregen. In het laatste geval worden alleen records gevonden die aan het trefwoord Leiden sec gerelateerd zijn; bij scannen en zoeken via het zoekscherm vind je ook records gerelateerd aan trefwoorden waar de term Leiden (bijvoorbeeld Sint-Pieterskerk (Leiden))  in voorkomt. Dat gebeurt ook als je via de landkaart zoekt: om te beginnen kies je uit de kaart een provincie, daarna een plaats en je eindigt met die plaatsnaam als trefwoord ingevuld in het zoekformulier met daaronder de resultatenlijst.
Een van de typen trefwoorden die in de rechter marge van de lange presentatie kunnen voorkomen zijn persoonsnamen. Mij lijkt het evident dat wie op de link onder zo'n persoonsnaam klikt, de publicaties over die persoon (dus PAO=...) verwacht te vinden, niet de publicaties van die persoon.  Maar ook deze verwachting komt niet uit: wie bijvoorbeeld op het trefwoord Cornelis Fasseur (1938-) in een titel over deze persoon klikt, krijgt eerst een persoonsrecord te zien en vervolgens 81 aan dat record gerelateerde publicaties, waarvan er maar 2 over Fasseur gaan.
De trefwoorden waarvan in de DBNG gebruik wordt gemaakt zijn (GOO-)trefwoorden van de Gemeenschappelijke Onderwerpsontsluiting van een aantal wetenschappelijke bibliotheken in Nederland. Het is van belang te beseffen dat lang niet alle records in de DBNG met zulke trefwoorden verrijkt zijn, zoals ook in de helptekst vermeld staat. Zo vind je op het trefwoord abdij van Egmond 22 titels,  maar blijken met titelwoorden: abdij EN Egmond* 36 titels te worden gevonden en met alle woorden: abdij EN Egmond* zelfs 64 titels.

Landkaart
Bij het zoeken via de landkaart blijkt niet alles te gaan zoals men zou verwachten. Om te beginnen is het zeker dat er een trefwoord Alphen aan den Rijn bestaat, met daaraan gerelateerd 11 titels. Dat zijn dus de 11 titels die je verwacht te vinden als je in de landkaart de provincie Zuid-Holland aanklikt en vervolgens op de plaatsnaam Alphen aan den Rijn. Maar in werkelijkheid word je naar een index geleid waarin als eerste indexterm alphen vermeld staat. Alphen aan den Rijn staat er niet in, en klikken op alphen leidt naar een lijst van 370 treffers, waarin het trefwoord Alphen aan den Rijn nummer 80 is. Ongeduldige zielen zoals ik hebben het dan al lang opgegeven.
De oorzaak van dit probleem is in de url te zien die verschijnt als je vanuit de plaatsnamenlijst op Alphen aan den Rijn hebt geklikt: ...Query=pica.gtr%3DAlphen+aan+den+R%C4%B3n...
Kennelijk wordt op een zeker punt de zoekvraag die vanuit de landkaart aan het systeem wordt gesteld afgebroken.

Tijdbalk
Zoeken via de tijdbalk is een mogelijkheid die hierboven ook al even ter sprake is gekomen. In eerste instantie kun je daarbij kiezen voor tijdvakken van 100, 50 (vanaf 1500) of 10 (vanaf 1800) jaar, maar via Verwante trefwoorden kan uiteindelijk zelfs een tijdvak van 500 jaar worden gekozen. De hele tijdbalk beslaat de periode 0-2000, al wekt een (bij mij niet werkende) link de indruk dat in elk geval ook het tijdvak 300 v.Chr. tot het jaar 0 nog door het bestand bestreken wordt. En inderdaad blijkt na enig doorklikken aan het trefwoord 0-500 ook nog een trefwoord 800 v.C.-500 n.C. verwant te zijn. Er zijn dus meer tijdvakken dan kennelijk door de tijdbalk worden bestreken.
Wat moeten we ons bij het trefwoord Periode (want het gaat hier om trefwoorden, ook al worden die in een tijdbalk gepresenteerd) voorstellen? Als voorbeeld neem ik een bijdrage van Jan Bank aan een bundel uit 2007 over de architect Cuypers, getiteld Cuypers in zijn Nederlandse context. Hieraan is het trefwoord periode 1853-1876 toegekend. Het gevolg is dat het artikel in de tijdbalk in de drie decennia 1850-1860, 1860-1870, 1870-1880 te vinden is. Maar niet in het tijdvak 1850-1900, zoals je misschien ook zou verwachten. Evenzo heeft het artikel "Brahms was de held van de avond"  uit 1997 in het tijdschrift Oud-Utrecht als periodetrefwoord 1875-1897 en is dan ook in de tijdvakken 1870-1880, 1880-1890 en 1890-1900  te vinden, maar niet in het tijdvak 1850-1900. Anderzijds vinden we de bijdrage aan een feestbundel uit 2005, getiteld De Militaire School te Meester Cornelis : een officiersopleiding in de Oost, 1852-1896 door Wim Klinkert en Petra Groen, met als periodetrefwoord 1852-1896,  weer wel in het tijdvak 1850-1900, maar niet in het tijdvak 1850-1860. Maar in het tijdvak 1850-1900 vinden we ook een titel als Delftse Art Nouveau, dat als periodetrefwoord 1900-192X heeft gekregen, terwijl twee publicaties die blijkens hun titel over de periode 1851-1897 gaan, weer in de aan het tijdvak gerelateerde titels ontbreken omdat ze geen periodetrefwoord hebben.
Mijn indruk is dat de tijdbalk er weliswaar gelikt uitziet, maar dat je er praktisch eigenlijk weinig mee kunt. Net als bij het zoeken via de indexen en met de landkaart worden ook hier van de zoekresultaten geen sets gevormd die met andere sets kunnen worden gecombineerd. Een "klein" decennium als  1820-1830 levert al 161 gerelateerde titels op, het tijdvak 1800-1850 1119; mij dunkt dat geen enkele onderzoeker de tijd en het geduld heeft om zulke lijsten door te gaan werken, te meer omdat ze ook nog eens verre van volledig zijn.

Al met al ben ik over de onderwerpsontsluiting van de DBNG in haar huidige testversie niet erg enthousiast. Het meest positief stemmen mij de (GOO-)trefwoorden, die aan de database een ontsluitingsniveau toevoegen dat de gedrukte bibliografie miste. Een boek als De ontbrekende schakel : levensverhaal van Eugène Dubois, de Nederlander die het gelijk van Darwin bewees door Pat Shipman zou je in het gedrukte Repertorium ergens in de rubriek Cultuurgeschiedenis van Nederland -- Wetenschap -- Andere wetenschappen hebben moeten zoeken; nu vind je het gewoon samen met nog 6 andere publicaties in de titel waarvan de term evolutie* niet voorkomt, met het trefwoord Evolutietheorie.

Informatie en Help
De informatietekst is hierboven al even ter sprake gekomen. Die kan korter en zakelijker. Er zijn helpteksten over Zoeken, Resultaten en Speciaal zoeken. Over het algemeen zijn de helpteksten bondig en duidelijk, zij het niet altijd juist; hierboven noemde ik al de niet beschikbare mogelijkheden van het verkleinen en vergroten van het laatste zoekresultaat. In de helptekst over Zoeken mis ik informatie over trunceren, terwijl het advies met de auteurssleutel naar Blockmans, W? te zoeken de gebruiker 6 titels van deze auteur onthoudt die hij met Blockmans, W* wel gevonden zou hebben.

Wensenlijstje voor versie 1.0
Hier volgt een lijstje van mijn voornaamste wensen voor versie 1.0 van de DBNG, grotendeels op basis van de hierboven geschetste ervaringen:
1. Een grondige controle van de indexdefinities. Ik begin hiermee omdat dat eigenlijk had moeten gebeuren voordat de testdatabase op het Web was gezet.
2. Toevoeging van de oudere jaargangen van het Repertorium aan de DBNG en van de repertoria van Hooykaas en Hartmann over de koloniale literatuur.
3. Een uitvoeriger uitleg van de wenselijkheid titels uit HinT en het ANG in de DBNG op te nemen. Nu lijkt het alsof de loutere beschikbaarheid van die bestanden een voorname reden daarvoor is geweest. Een uitvoerige uitleg van de wenselijkheid van de toevoeging van verdere bestanden.
4. Een uitvoeriger verantwoording van de selectie van titels uit die bestanden.
5. De mogelijkheid van setcombinatie.
6. Bij gebruik van de indexen en bij het zoeken naar gerelateerde titels moeten sets worden gevormd die in de zoekgeschiedenis worden bewaard en met andere sets kunnen worden gecombineerd.
7. Toevoeging van een tijdschriftenlijst, c.q. -index.
8. Een oplossing voor alle hierboven gesignaleerde problemen met persoonsnamen.

In versie 1.1 kunnen dan de niet in dit lijstje genoemde problemen worden opgelost.
Blogged with the Flock Browser

Labels: , ,

29.2.08

Internetradio

In mijn vorige post meldde ik dat ik een paar maanden geen tijd voor dit blog zou hebben omdat ik een vertaalopdracht voor een reisgids van China had. Wel, die is klaar -- met dank aan mijn vroegere collega Alice de Jong, die speciaal wat de Chinese keuken betreft talloze verbeteringen in het bestand heeft aangebracht -- en ik heb dus weer tijd voor een paar posts.
Tijdens de afgelopen drie maanden heb ik tijdens het vertalen veel naar de radio geluisterd. Internetradio, welteverstaan, want op de gewone radio krijg ik alleen Hilversums Radio 4, en die geeft me te veel Maartje van Weegen en te weinig Bach.

Classical Live Online Radio Webcast
Tot een paar maanden terug gebruikte ik de site van Classical Live Online Radio Webcast om verbinding te maken met een van de 145 klassieke radiostations over de hele wereld waartoe de site toegang verschaft. De site bevat drie lijsten van radiostations resp. in Europa, de VS en de rest van de wereld, en elk van deze lijsten is verdeeld in drie kolommen met resp. de naam van het station en een link naar de programmagids (indien beschikbaar), een beschrijving (About), met een link naar de homepage van de zender, en een of meer AudioLinks naar de muziek zelf. Bij dit laatste heeft de gebruiker doorgaans de keuze tussen diverse bitrates, samplefrequenties en mono en stereo. Als dan via een AudioLink een verbinding met een zender wordt gemaakt start deze vanzelf de vereiste mediaplayer op (mits die op de computer aanwezig is) of biedt de keus tussen diverse spelers (bijvoorbeeld ook Videolan) als die beschikbaar zijn.

Dit gaat allemaal gesmeerd zolang de site de URLs bij de links up-to-date houdt. Zo niet, dan zal een programmagids (eerste kolom), homepage (tweede kolom) of uitzending (derde kolom) handmatig moeten worden gestart.

The Radeo Internet Player
Hoe gerieflijk deze oplossing voor de luisteraar naar klassieke muziek ook is, vergeleken bij een radio of tuner heeft ze nog een paar tekortkomingen. De belangrijkste daarvan is dat op de site van Classical Live Online Radio Webcast geen voorkeurszenders kunnen worden ingesteld. Daarom gebruik ik de laatste tijd een andere site waar dat wel kan (maximaal 48 zenders), nl. The Radeo Internet Player. Deze site pretendeert toegang te geven tot ruim 11.000 radiostations, 20.000 shows en een miljoen episodes; bij het laatste valt bijvoorbeeld te denken aan podcasts met de daartoe behorende afzonderlijke uitzendingen.

Om te midden van deze overvloed de ca. 170 radiostations, 124 shows en duizenden episodes te vinden die radeo.net de klassieke muziekliefhebber te bieden heeft, biedt de site diverse wegen. Begin met op de tab Search te klikken, dan verschijnt een Windows-achtig menu met uitklapbare mappen ( ) en verzamelingen van stations (). In de mappen vind je zowel stations () als shows ()en episodes (), dus als je ook in de laatste geïnteresseerd bent begin je met de map Music te openen en kiest uit de 19 submappen daaronder -- variërend van "Adult Contemporary" via "Country & Bluegrass" en "Jazz" tot "World Music" -- "Classical". Daaronder vind je dan 157 stations en 124 shows, beide in alfabetische volgorde, zij het dat de radiostations nog zijn onderverdeeld in Internet Only Stations (zoals Beethoven Only) en Broadcast Stations (zoals Beethoven.com, maar ook AVRO Klassiek, De Concertzender en Klara). Onder de shows zijn onder meer 112 complete uitzendingen van de Bostonse zender WGBH, met onder meer vioolsonates van Mozart door Corey Cerovsek en Jeremy Denk, en pianosonates van Beethoven door Marc-André Hamelin.

Een andere route naar de klassieke muziekzenders is via de optie Stations by Format/Genre/Style, waaronder je 170 klassieke zenders vindt, maar geen shows en episodes. Voor het verschil met de 157 stations in de map Music heb ik geen verklaring. Wel valt bij een vluchtige inspectie op dat AVRO Radio 1, 5 en 6 wel bij de 170 klassieke zenders zijn ingedeeld, maar niet bij de 157.

Alle functies van internetradio zijn op de site van radeo.net volledig geïntegreerd. Wel vereist het programma dat je de Windows Media Player, de RealPlayer en de Quicktime Player op je computer hebt, maar als dat niet zo is kunnen ze via de pagina worden gedownload. Heb je alle benodigde players op je computer staan, dan start radeo.net nadat je op het -icoontje hebt geklikt, in een apart frame een miniatuurversie van het bij elke zender vereiste programma op, waarna de uitzending begint. Keuzes tussen verschillende bitrates, samplefrequenties en spelers worden niet geboden, zij het dat de Quicktime player ook een overstap naar RealPlayer mogelijk maakt. Het laatste is heel prettig, omdat de recentste versies van die speler het ook mogelijk maken beluisterde muziek realtime op te nemen. Die mogelijkheid wordt ook bij de miniatuurversie van RealPlayer op de radeo.net-site geboden. Bij elk zendericoontje staat een korte aanklikbare beschrijving van de betreffende zender, waaronder een preview van de homepage van de zender zit, ook weer in een apart frame van de radeo.net-pagina; na klikken op deze preview opent zich een nieuwe tab van de browser waarin de luisteraar op zoek kan naar het programmaoverzicht.

Al dit heerlijks is ook al gewoon in de (standaard) demo beschikbaar, dus zonder registratie en inloggen. Wat hier ook al kan, is voorkeurszenders instellen. Klik tijdens het beluisteren van een zender op de knop Set en vervolgens op een van de nummers 1-12 (achter Presets). Op dat nummer komt vervolgens de zender terecht die je gekozen hebt. Behalve Presets zie je ook nog Bands (A, B, C en D). In elk daarvan zijn 12 potentiële Presets beschikbaar, in totaal kunnen dus 48 voorkeurszenders, vanzelfsprekend niet alleen klassieke muziekzenders, worden ingesteld. Maar omdat die instellingen in de demo alleen voor de duur van de sessie bewaard blijven, verdient het aanbeveling je bij radeo.net met een gebruikersnaam en een wachtwoord te registreren. Registratie is gratis.

Radeo.net biedt nog meer mogelijkheden dan de hier genoemde, waarop ik kortheidshalve niet inga. Wel noem ik nog even het feit dat de site natuurlijk niet alleen toegang biedt tot muziekzenders; News, Sports, Talk en TV & Video Streams zijn enkele van de andere hoofdmappen in deze uitgebreide, doorzoekbare directory van beeld en geluid. Radeo.net is zo ook een geweldig instrument om gesproken tekst over onderwerpen te vinden: op de naam Hirsi Ali vond ik zo niet minder dan 55 episodes. Daarmee is radeo.net dus ook als doorzoekbare directory voor gesproken tekst bruikbaar.

Reciva
Behalve radeo.net is er nog een aanbieder van mondiale internetradio, nl. Reciva. Dit bedrijf verkoopt ook fysieke internetradio's, waar ik geen ervaring mee heb. Naar ik begrijp werken zulke radio's alleen binnen een draadloos netwerk waar men toegang toe heeft en kunnen ze niet meer dan een laptop met toegang tot radeo.net. Combineer je zo'n laptop met een One for All draadloos zend- en ontvangstsysteem (bestaande uit een USB-stick als zender en een ontvangertje van 8 x 8 cm dat je op de AUX-ingang van je geluidsinstallatie aansluit), dan heb je ook hi-fi-weergave.

Het totale aantal stations bij Reciva is volgens de opgave van Reciva zelf ongeveer even groot als dat bij radeo.net. Eveneens volgens eigen opgave zouden daar 464 klassieke muziekzenders bij zijn, maar dat aantal is nogal geflatteerd doordat Reciva alle verschillende toegangen tot een zender apart aanbiedt, terwijl radeo.net daartussen een keuze maakt. Dat heeft onder meer tot gevolg dat het starten van een uitzending bij Reciva wat omslachtiger is, maar wel weer de keuze van een eigen mediaspeler (zoals Videolan) mogelijk maakt. Ook wordt dan de complete mediaspeler opgestart, met de daarbij behorende extra mogelijkheden.

Als ik zou moeten kiezen, zou mijn voorkeur beslist uitgaan naar radeo.net. Niet alleen werkt de site beter -- bij Reciva komt het nogal eens voor dat een zender "op slot" zit (er wordt dan geen speler opgestart) of dat je een zender niet aan je voorkeurszenders kunt toevoegen --, maar ook zijn de lijsten van stations "schoner" en beter onderhouden, en kun je bij gebruik met één venster toe. Dat neemt niet weg dat Reciva wel eens zenders heeft die bij radeo.net niet te vinden zijn (van de klassieke zenders bijvoorbeeld AVRO Klassiek: Het beste van het beste, NCRV Classic IP en 101 Ru Spivakov). Conclusie: wie niet genoeg heeft aan de 48 voorkeurszenders die bij radeo.net kunnen worden ingesteld, brengt de rest, inclusief de voor Reciva unieke, onder bij zijn voorkeurszenders bij Reciva en zet die site onder een tweede tab van zijn browser.

Een aardig extraatje van Reciva is dat zenders van een bepaald genre ook op populariteit kunnen worden gesorteerd. Zo blijkt AVRO Baroque around the Clock bij de ruim 30.000 geregistreerde gebruikers van Reciva de op vier na populairste zender te zijn, een bewonderenswaardig resultaat. Tussen twee haakjes, sorteren op populariteit is ook een goede methode om die zenders uit het Reciva-pakket te selecteren waartoe de site ook werkelijk toegang verschaft.










Blogged with Flock

Labels: ,

Permalink

26.11.07

Lessen uit krakers

Deze week ben ik 67 geworden. Dat is een leeftijd waarop anderen zich -- soms wel eens hardop -- afvragen hoe je je tijd eigenlijk besteedt. De implicatie is dan soms dat je veel tijd hebt.
Nu, in mijn geval is dat niet zo. Ik schrijf graag, en als ik meer tijd had zou ik meer voor dit blog schrijven -- maar helaas, ik moet er echt de tijd voor maken.
Momenteel ben ik bezig met de vertaling van een dikke China-reisgids, ik moet tijd vinden om een begonnen opknapbeurt in mijn huis af te maken en daarbij loopt dan ook nog de Krakercompetitie.
Over dat laatste gaat deze post.
Voor wie nog niet weet wat de Nationale Krakercompetitie is: het is een competitie die jaarlijks tussen eind oktober en eind november wordt gehouden in zoeken op internet. De deelnemers, tegenwoordig zo'n 2000 in getal, moeten gedurende vier weken in totaal 28 vragen beantwoorden die door een redactie van bibliothecarissen en andere zoekers zijn opgesteld. De competitie is een initiatief vanuit de openbare bibliotheekwereld, partners in het project zijn Overheid.nl, nrc.next en Google Nederland. Men kan individueel meedoen of als team. Voor meer info, zie: Nationale Krakercompetitie.

Zoals gezegd worden de vragen voor de Krakercompetitie opgesteld door een redactie, die momenteel uit vijf mannen en één vrouw bestaat. Zij verzinnen de vragen en testen die voor een deel ook. De samenstelling is niet constant: soms houden redactieleden het na een tijdje voor gezien, soms krijgt het team versterking van nieuw bloed. Dat is ook wel goed, want het blijkt dat elke vragensteller zo zijn voorkeuren heeft voor bepaalde typen vragen. (Die diversiteit aan voorkeuren komt overigens overeen met een diversiteit aan voorkeuren bij de deelnemers.) Zo heeft een van mijn collega-vragenstellers een voorkeur voor vragen waarvan het antwoord in Nederlandse plaatselijke of regionale archieven of databases moet worden gevonden, terwijl een andere (inmiddels ex-)redacteur zich specialiseerde in virtuoze drie- of viertrapsraketten: vragen die stukje bij beetje moeten worden opgelost door steeds verder door te gaan met een eerder gevonden stukje informatie. Weer andere collega's zoeken het in internet-cryptogrammen, waarbij niet voorop hoeft te staan waar het antwoord op een vraag moet worden gezocht, maar hoe. Bij zulke vragen doet de vraagsteller moeite de deelnemers zoveel mogelijk in het ongewisse te laten over de zoektermen die ze moeten gebruiken. Combinaties van deze typen vraagstellingen komen uiteraard ook voor.
Een element dat ik nog niet genoemd heb maar dat van meet af aan een rol in deze competitie heeft gespeeld is het openen van werelden die zij misschien nog niet kennen voor de deelnemers. Een interessant leven, een interessant boek of muziekstuk, een interessante film -- het kan allemaal onderwerp voor een vraag zijn. Ik herinner mij een vraag van een collega over een postzegel van een onmogelijk klein eilandje van de Britse kroon voor de Franse kust waar een heel geschiedenisverhaal achter school. Ikzelf heb een lichte voorkur voor het scandaleuze.
Een type vragen dat wij doorgaans proberen te vermijden zijn zogeheten "instinkers". Dat zijn vragen waarbij deelnemers opzettelijk naar een verkeerd antwoord worden geleid. Dat zou kunnen, want om praktische redenen is de competitie er een met multiple-choicevragen. Wij hebben daar echter slechte ervaringen mee. Niet met opzettelijke instinkers, want -- een enkele uitzondering daargelaten -- die proberen we te vermijden, maar met onopzettelijke; dat zijn vragen waarop, ook tot onze eigen verrassing, als je ze op een andere manier leest dan ze bedoeld zijn, een antwoord mogelijk blijkt te zijn dat ook bij de gegeven antwoordopties zit maar niet het bedoelde antwoord is.
Dat betekent dat het stellen van vragen een beetje spitsroeden lopen is: enerzijds moet de vraag zoveel identificeerbare elementen bevatten dat er niet meer dan één antwoord op mogelijk is, anderzijds kan elke toegevoegde informatie in een vraag voor misverstanden zorgen -- of de oplossing via Google c.s. stomeenvoudig maken. Op dit punt gaat het nog wel eens mis, met -- niet helemaal onbegrijpelijk -- een hoop consternatie tot gevolg

Mijn eigen voorkeur voor vragen kan ik in twee typen samenvatten: enerzijds vragen waarvan de antwoorden te vinden blijken te zijn op onverwachte plaatsen, anderzijds vragen die een correct gebruik van zoekmachines of databases vereisen. Speciaal bij dat laatste type probeer ik -- frik die ik ben -- iets leerzaams in te bouwen. Bij wijze van voorbeeld noem ik er een paar van dit jaar.

Een van mijn vragen was de volgende:
"In de nacht van 25 op 26 september -- of, volgens een andere bron, oktober -- 1829 werd uit een paleis in of bij Brussel een ware schat aan sieraden en juwelen gestolen: "honderden geslepen en duizenden ongeslepen briljanten" (aldus een nogal overdrijvende zegsman) en andere edel- en halfedelstenen, waaronder een saffier van meer dan 160 karaat. Slachtoffers van de diefstal waren prins Willem Frederik George Lodewijk, de latere koning Willem II van Nederland, en zijn vrouw, grootvorstin Anna Paulowna, dochter van de Russische tsaar Paul I. Meteen staken onder het volk allerlei geruchten de kop op: de lievelingsaap van de prinses, Sambino, zou de dader zijn; of wellicht een geheime minnaar van de prinses; of, nog erger, de door speelschulden achtervolgde prins zou zelf de misdaad hebben begaan en zou de juwelen hebben verpand. Maar de werkelijke dief bleek een 53-jarige Zwitser te zijn, die de buit in een bos bij Brussel begroef. Later verstopte hij een deel ervan in een speelgoedbeest, een invalidenkruk -- of misschien een wandelstok -- en het handvat van een paraplu. Twee jaar later werd de dader -- die inmiddels in gezelschap was van een vrouwelijke medeplichtige -- gearresteerd, en op 8 maart 1834 werd hij tot twaalf jaar gevangenisstraf veroordeeld. De buit, waaronder de saffier van 162 of 163 karaat, is dan alweer in het bezit van de rechtmatige eigenaren.
Vraag: Na de arrestatie van de dief wist diens vrouwelijke medeplichtige aanvankelijk met een deel van de buit naar Liverpool te ontsnappen. Hoe heette het schip dat haar terug naar Engeland bracht?"

De simpele les van deze vraag was dat je bij het zoeken naar informatie op tijd, plaats en type moet letten. Bij het volgen van het verhaal, waarvan ruimschoots voldoende bijzonderheden in de inleiding tot de vraag worden verstrekt, vindt men al gauw dat de dief, een zekere Constant Polari, in 1829 met de buit naar Brooklyn is geëmigreerd. Voor wie dat feit gevonden heeft, moet het duidelijk zijn dat bij de vraag "Hoe heette het schip dat haar terug naar Engeland bracht" de Brooklynconnectie sterk is. Verder gaat het om efemere informatie zoals je die in een krant vindt, en om iets dat in de 19e eeuw speelt. Alles bij elkaar een goede reden om eens naar historische kranten in de VS te kijken. En inderdaad, het antwoord is te vinden in de Brooklyn Daily Eagle, waarvan het archief 1841-1902 op internet staat.
Nu is zoiets achteraf voor de vraagsteller gemakkelijk beredeneerd; voor een deelnemer zijn er nog tal van andere meer of minder logische wegen te bewandelen. Een daarvan is Google Books (en soortgelijke projecten), waar in verband met copyrightkwesties en de scanbaarheid van drukwerk ook een onevenredig grote hoeveelheid informatie van de 19e eeuw te vinden is. En inderdaad waren er deelnemers die het antwoord daar vonden.

Deze vraag betrof een diefstal van juwelen van een Nederlandse prins en zijn echtgenote, uit een Brussels kasteel, waarbij het antwoord in een krant van de overkant van de grote plas moest worden gevonden. Nu het andere type:

"De gitaar ook in ons land een veel bespeeld en gehoord instrument. Namen van bekende gitaristen van weleer die radioluisteraars zich ongetwijfeld zullen herinneren zijn die van Eddy Christiani, ook bekend als zanger, Wim Overgaauw en Wim Sanders. Van hen -- of ensembles waarin zij speelden -- bestaan in resp. 1979, 1978 en 1973 uitgebrachte plaatopnamen waarop zij te beluisteren zijn in hetzelfde nummer van nog weer een andere gitarist.
Vraag: Hoe luidt de tweede initiaal van de zangeres in dit nummer in de Philipsopname waarin Wim Sanders de gitarist is?"

Bij deze vraag kon men met een paar voor de hand liggende zoektermen al gauw uitkomen op een database van Fonos -- het Nederlands Muziekarchief. In deze database kan op twee manieren worden gezocht, eenvoudig en geavanceerd. Een beetje onhandig is dat de geavanceerde zoekmodus pas wordt aangeboden nadat je een eenvoudige zoekactie gedaan hebt. Met twee geavanceerde zoekacties met Eddy Christiani, resp. Wim Overgaauw in het veld Artiest en 1979 resp. 1978 in het veld Releasejaar kon gemakkelijk worden opgespoord dat "hetzelfde nummer" waarvan in de vraag sprake is, het lied Snipverkouden moest zijn. Daarna kon worden geverifieerd dat de componist hiervan, Jan Mol, inderdaad een gitarist was.
Maar nu werd het moeilijker. Zoeken op Wim Sanders in het veld Artiest en 1973 in het veld Releasejaar levert niets op; de reden is dat Wim Sanders in de te vinden opname deel uitmaakte van een ensemble. Wel is het mogelijk met Philips in het veld Label en 1973 als Releasejaar te zoeken, maar dat levert 36 treffers op, in de korte beschrijving waarvan de naam Wim sanders niet voorkomt. Verder bleek dat het weliswaar mogelijk was met het veld Tracktitel te zoeken, maar dat dit door de een of andere rare fout in de databasesoftware niet kon met tracktitels die uit maar één woord bestonden. (Vreemd genoeg bleek links trunceren, hoewel niet gedocumenteerd, hier wel te werken.) Maar de oplossing volgens het boekje was: informatie ontlenen aan de al gevonden twee records om het derde te vinden. In dit geval was die informatie dat bij de opname van Eddy Christiani in het veld Genre vermeld stond dat Snipverkouden een "luisterlied" is. Met die toevoeging in de vraag met Philips in het Labelveld en 1973 als Releasejaar bleven er drie opnamen over, waaronder een met het kwintet Paul Ruys, waarin Wim Sanders de gitaar bespeelde en die ook het nummer Snipverkouden bevatte. Zangeres op deze opname is Sanny Day, van wie ten slotte via Google gemakkelijk te achterhalen is dat haar tweede voornaam Elisabeth is.

Hier betreft de les het gebruik van databases.
1. Maak gebruik van de geavanceerde zoekmogelijkheden.
2. Gebruik informatie die je tijdens het zoeken aan andere records ontleent.
3. Kijk eens of een database ook ongedocumenteerde zoekmogelijkheden biedt.

U ziet, er valt nog weinig achter de geraniums te doen. Ik heb een van de deelnemers aan de Krakercompetitie gevraagd ook eens zijn kant van het verhaal hier te vertellen. Of hij tijd en zin heeft, weet ik nog niet, maar bij mijzelf kan het weer even duren voordat er weer een post komt. Druk, druk, druk!

Permalink

25.9.07

Streepjes

Behalve uit letters en cijfers bestaan teksten ook nog uit een heleboel andere tekens. Ook met die tekens moeten zoekmachines en databasesoftware overweg kunnen; in de eerste plaats natuurlijk bij het indexeren ervan in tekstbestanden, maar ook bij de interpretatie van de verschillende alternatieve manieren waarop zulke tekens in de te indexeren (HTML- of anderszins gecodeerde) tekstbestanden kunnen zijn ingevoerd; en eigenlijk ook bij de interpretatie van de diverse manieren waarop gebruikers van zoekmachines en databases dat in de zoekregel(s) kunnen doen. Doorgaans maken we ons over zulke tekens niet druk, en doorgaans hoeft dat ook niet. Komma's en punten bijvoorbeeld worden doorgaans zowel door ons als door de zoekmachines verwaarloosd, met als gevolg dat we een phrase als "hij sliep, maar droomde niet" met en zonder de komma in de zoekregel kunnen invoeren zonder dat dat consequenties voor het zoekresultaat heeft ; hetzelfde geldt voor de punt in "Hij sliep. Maar hij droomde niet." Maar ook en juist bij deze leestekens zijn er uitzonderingen: zo hebben de drie grote internationale zoekmachines Google, Yahoo! en Live Search elk hun eigen manier om met punten en komma's in getallen om te gaan:

Voor de zoekpraktijk heeft een en ander nogal wat gevolgen. Zo is het met Google en Yahoo! wel mogelijk breuken in de Angelsaksische notatie (6.5) te vinden, maar levert het zoeken naar breuken in de continentaal-Europese notatie (6,5) ook treffers met andere tekens dan de komma op; en om met Google getallen van 1000 en meer in alle gangbare notaties (6500, 6.500 en 6,500) te vinden moet je zowel zonder als met punt zoeken.

Streepjes
Een bijzondere plaats tussen de tekens die in teksten kunnen voorkomen en waar zoekmachines iets mee moeten, nemen wat mijn Witte Boekje simpelweg de "streepjes" noemt in . Daarvan zijn er drie: twee streepjes "sec", namelijk het koppelteken (diploma-uitreiking) en het weglatingsteken (in- en uitvoer), en het afbreekstreepje, waarmee (doorgaans) langere woorden over twee regels in een tekst kunnen worden verdeeld (om een gelijkmatige witverdeling over de regels mogelijk te maken).

Het koppelteken
Laten we eerst eens kijken wat de drie grote internationale zoekmachines met het koppelteken doen. In principe kunnen we vijf mogelijkheden verwachten:

  • het koppelteken wordt letterlijk en uitsluitend als zodanig opgevat
  • het wordt verwaarloosd
  • het wordt – samen met andere niet alfanumerieke tekens – als spatie in een phrase opgevat (In dat geval is het theoretisch mogelijk dat de zoektermen ook in omgekeerde volgorde worden gevonden.)
  • het wordt als een spatie zonder meer opgevat en tussen de leden van de samenstelling wordt een EN-relatie gelegd
  • het wordt opgevat als spatie in een phrase maar vindt ook de aaneengeschreven spellingsvarianten


Zoekmachine

Google (Engels)

Google (Nederlands)

Yahoo

Live Search

1

diploma uitreiking Oegstgeest

283

283

171

106

2

diploma-uitreiking Oegstgeest

134

134

171

43

3

"diploma uitreiking" Oegstgeest

123

123

82

43

4

diplomauitreiking Oegstgeest

34

134

19

7

5

+diplomauitreiking Oegstgeest

34

34



6

"diploma uitreiking" OR diploma-uitreiking Oegstgeest

134

134

82

43

7

"diploma uitreiking" OR diploma-uitreiking OR diplomauitreiking Oegstgeest

134

134

70

50

8

diploma-uitreiking -"diploma uitreiking" Oegstgeest

11

10

88

0

9

diplomauitreiking -diploma-uitreiking Oegstgeest

34

34

18

7

10

"diploma uitreiking" -diploma-uitreiking Oegstgeest

0

0

0

0

11

diplomauitreiking -diploma-uitreiking -"diploma uitreiking" Oegstgeest

34

11

19

6


Dit testje lev