Zoektips internet
Geavanceerd zoeken op internet
Haast? Ga meteen naar de samenvatting.
We kennen het allemaal: je zoekt iets op internet en je krijgt honderden, soms zelfs duizenden resultaten. Ga je die allemaal bekijken? Nee, doorgaans beperken we ons tot de eerste tien of twintig resultaten. Maar waren dat wel de meest relevante? Om preciezer te zoeken kun je gebruikmaken van zogenoemde zoekoperatoren. Dit zijn woorden of tekens die je aan een zoekopdracht toevoegt - gewoon in de zoekregel van een zoekmachine. Dit kan in verschillende zoekmachines, maar we beperken ons hier tot Google, want die wordt nu eenmaal het meest gebruikt.
Half september 2011 publiceerde Google een lijst met ‘all of the currently documented advanced search operators’. Het is fijn dat die lijst er nu eindelijk is, maar sommige toelichtingen en voorbeelden kunnen volgens mij duidelijker. Bovendien is de lijst niet compleet. Er staan nu 22 zoekoperatoren in, terwijl er ruim 30 bekend zijn. Dat er zoekoperatoren zijn weggelaten, komt, aldus Google, omdat ze te weinig worden gebruikt (‘wereldwijd soms maar twee of drie keer per dag’). Dit lijkt mij een kwestie van de kip of het ei: die operatoren worden natuurlijk ook weinig gebruikt omdat Google ze niet algemeen bekend maakt.
Hieronder volgt een zo compleet mogelijke lijst van geavanceerde zoekoperatoren voor Google - hoewel ik ze zelf niet allemaal even nuttig vind. Het gaat hier om een uitbreiding van de lijst in Eerste Hulp Bij e-Onderzoek, een boekje over slimmer zoeken en documenteren dat ik begin september 2011 publiceerde en dat o.a. hier gratis te downloaden is. Dat gidsje bevat een selectie van de meest gebruikte en mijns inziens nuttigste zoekoperatoren.
Let wel: Google werkt met een (geheim en ingewikkeld) algoritme dat geregeld wordt aangepast. Het kan dus gebeuren dat sommige zoekoperatoren het opeens niet meer doen.
Bij iedere zoekoperator staat kort wat de functie ervan is. Voor de duidelijkheid zijn een of meer korte voorbeelden opgenomen. Langere voorbeelden, waarbij vaak zoekoperatoren wordt gecombineerd, zijn te vinden in het bovengenoemde gidsje - inclusief screenshots. Om misverstanden te voorkomen: je plaatst de zoekoperatoren in het gewone zoekvak van Google, dus niet in het formulier van Google Geavanceerd Zoeken (waarover hier iets meer).
Less is more
Sommige operatoren zien er bedrieglijk simpel uit - je zou er bijna je schouders over ophalen. In de praktijk kunnen ze echter buitengewoon krachtig zijn. Als je een beetje handig wordt met dit soort operatoren, zul je al snel zien dat je resultatenlijst krimpt, terwijl de relevantie van de resultaten met grote sprongen stijgt. Dat lukt overigens zeker niet altijd na één zoekopdracht: slim zoeken is creatief werk.
Vierkante haken
Voorbeelden van zoekopdrachten staan hieronder tussen vierkante haken (omgeven door spaties), want dat is in de literatuur over dit onderwerp een conventie aan het worden. Die haken hoef je bij de eigenlijke zoekopdracht niet te gebruiken, maar ze kunnen ook geen kwaad. Ze geven slechts het begin en eind van een zoekopdracht aan.
1. Plus, min en meer
+ = precies zo moet het er staan; dit moet voorkomen
Voorbeeld zoekopdracht: [ +advieseur ]
Hiermee zeg je: er moet echt advieseur staan. Google wil dit corrigeren (‘bedoelde u: adviseur?’), maar nee, dat bedoelde u niet. Google negeert veelvoorkomende woorden als de, het, waar en hoe (zogenoemde stopwords), maar als zo’n woord essentieel is voor je zoekopdracht, dwing je Google ernaar te zoeken door + voor het woord te zetten. In plaats van + kun je een woord ook tussen dubbele aanhalingsteken zetten, dus:
[ “advieseur” ].
Let op: voor + komt wel een spatie, erna niet.
- = sluit dit uit
Voorbeeld zoekopdracht: [ New -York ]
Hiermee vind je van alles, maar niet New York. Met het minteken kun je meer uitsluiten dan alleen woorden. Met de opdracht [ slavernij -site:nl.wikipedia.org ] sluit je, zoekend naar informatie over slavernij, Wikipedia als bron uit (over de zoekoperator site: volgt hieronder meer informatie).
Let op: voor - komt wel een spatie, erna niet. Die spatie is belangrijk, want daarmee onderscheid je het minteken van het koppelteken. Vergelijk de zoekopdrachten
[ jan-van-gent ] en [ jan-van -gent ]. Met de eerste zoekopdracht vind je jan-van-gent (een bepaalde zwemvogel). Met de tweede zoekopdracht (met een spatie voor -gent) vind je allerlei mensen die Jan van ... heten, maar niet Jan van Gent.
“ ” (dubbele aanhalingstekens) = geef precies deze woorden, in precies deze volgorde
Voorbeeld zoekopdracht: [ “domweg gelukkig in de dapperstraat” ]
Google hecht al veel gewicht aan de woordvolgorde in een zoekopdracht en wijkt hier meestal alleen om goede redenen vanaf. Zoeken met dubbele aanhalingstekens kan erg functioneel zijn, maar bedenk goed of het echt nodig is, want je kunt er ook dingen door mislopen. Met de zoekopdracht [ “Alexander Bell” ] mis je bijvoorbeeld Alexander G. Bell, terwijl dit dezelfde Amerikaanse uitvinder is.
Let op: werkt alleen met dubbele aanhalingstekens, niet met enkele.
.. (twee puntjes) = geef een waarde tussen x en y
Voorbeeld zoekopdracht: [ overstroming 1700..1750 ]
Resultaat: websites waarop sprake is van een overstroming tussen 1700 en 1750. Werkt (natuurlijk) ook met bedragen, bijvoorbeeld: [ laptop 100..150 euro ].
Let op: geen spaties voor of na de puntjes plaatsen. In de meeste publicaties over slim zoeken staat dat er drie puntjes tussen de eerste en de tweede waarde moeten staan, maar volgens Dan Russell, ‘Director of User Happiness’ bij Google, moeten het er echt twee zijn. Mijn ervaring: werkt zowel met twee als met drie puntjes.
* (asterisk of sterretje) = vul de leegte in
Voorbeeld zoekopdracht: [ zo sterk als een * ]
Resultaat: niet alleen zo sterk als een beer en zo sterk als een paard, maar ook allerlei varianten hierop. Je kunt meer dan één sterretje in een zoekopdracht gebruiken. Probeer bijvoorbeeld eens [ “slaat als ** op **” -tang -varken ]. Hiermee vind je allerlei varianten op de uitdrukking (dat) slaat als een tang op een varken. Over het * zéker niet de schouders ophalen, want bij slim zoeken is dit een machtig wapen.
Let op 1:
- Als je één sterretje gebruikt moet dit zijn omgeven door spaties.
- Als je twee of meer sterretjes direct na elkaar gebruikt, zijn er tussen de sterretjes geen spaties nodig.
- Je kunt met een sterretje ook andere dingen vervangen dan een woord. Probeer bijvoorbeeld eens: [ bezuinigingen bibliotheken 2010..* ]. Nota bene: hoewel hier slechts één sterretje wordt gebruikt, hoef je er bij deze specifieke combinatie (..*) geen spatie voor te zetten. Zo kun je ook zoeken op *@. Bijvoorbeeld [ *@minbuza.nl ]. Waarschijnlijk gaat het hier om een programmeerfout bij Google.
Let op 2:
In veel databanken kun je binnen een woord een willekeurig aantal tekens vervangen door een asterisk. Bij de grote zoekmachines op internet is dat niet het geval. Daar vervang je met een * een heel woord, niet een woorddeel. Uitzondering: Exalead. Met die zoekmachine kun je bijvoorbeeld deze zoekopdracht uitvoeren: [ fiets* ]. Daarmee vind je ook fietsen, fietsenbond, enzovoorts.
~ (tilde) = zoek ook naar synoniemen
Voorbeeld zoekopdracht: [ ~violence ]
Resultaat: naast violence ook abuse, crime stories, enzovoorts.
Werkt beter voor het Engels dan voor het Nederlands.
Let op: voor ~ komt wel een spatie, erna niet.
2. Zes paren
De onderstaande zoekoperatoren, zoals inurl: en allinurl:, worden per duo behandeld. Met inurl: zoek je naar één woord in een webadres (url). Met allinurl: geef je Google de opdracht om een url te zoeken waarin alle genoemde woorden voorkomen.
Google is een machine en reageert dus als een machine. Geef je de opdracht [ inurl:integratie allochtonen ], dan zoekt Google in principe alleen naar het eerste woord (integratie) en niet naar het tweede, want dat was je vraag niet. Als je naar meer dan één woord in een url zoekt, moet je immers de opdracht allinurl: gebruiken. Hetzelfde geldt voor de andere paren die beginnen met in en all.
Althans, dit schrijft Google. In de praktijk blijk je met de zoekopdracht [ inurl:integratie allochtonen ] wel degelijk pagina’s te vinden waarin beide woorden voorkomen, maar inurl: en allinurl: geven in dit geval heel andere resultaten, dus veiligheidshalve is het verstandig een all-operator te gebruiken als je zoekopdracht uit meer dan één woord bestaat.
Van de onderstaande operatoren gebruik ik zelf alleen de paren allintitle: / intitle: en allinurl / inurl:. Die andere vind ik niet speciaal nuttig, maar ik heb ze volledigheidshalve opgenomen. Het maakt bij deze zoekoperatoren niet uit of je na de dubbele punt een spatie plaatst of niet.
allinanchor: = alle gezochte woorden moeten in de link voorkomen
inanchor: = het gezochte woord moet in de link voorkomen
Voorbeeld zoekopdracht: [ allinanchor:overheid verspilling ict ]
Resultaat: links waarin deze woorden voorkomen. De links kunnen verwijzen naar andere webpagina’s of naar een andere plek op de gevonden pagina (bijvoorbeeld lager op de pagina).
allinblogtitle: = alle gezochte woorden moeten in de blogtitel voorkomen
inblogtitle: = het gezochte woord moet in de blogtitel voorkomen
Voorbeeld zoekopdracht: [ allinblogtitle:digitale archieven ]
allintext: = alle gezochte woorden moeten in de tekst van de webpagina voorkomen
intext: = het gezochte woord moet in de tekst van de webpagina voorkomen
Voorbeeld zoekopdracht: [ allintext:spreekwoord zegswijze ]
allinsubject: = alle gezochte woorden moeten prominent op de webpagina voorkomen
insubject: = het gezochte woord moet prominent op de webpagina voorkomen
Voorbeeld zoekopdracht: [ allinsubject:emigratie canada ]
Werken hetzelfde als de onderstaande operatoren, die wel door Google worden genoemd.
allintitle: = alle gezochte woorden moeten in de titel van de webpagina voorkomen
intitle: = het gezochte woord moet in de titel van de webpagina voorkomen
Voorbeeld zoekopdracht: [ allintitle:woordenboek latijn ]
‘In de titel van de webpagina’ betekent: prominent op de pagina, meestal ergens bovenaan en in grotere letters. Met de zoekopdracht [ belastingaangifte intitle:hulp ] staat hulp prominent op de pagina; belastingaangifte kan in de titel voorkomen, maar ook elders op de pagina staan.
allinurl: = alle gezochte woorden moeten in het adres (de url) van de webpagina voorkomen
inurl: = het gezochte woord moet in het adres (de url) van de webpagina voorkomen
Voorbeeld zoekopdracht: [ allinurl:google faq ]
3. Overige geavanceerde zoekoperatoren bij Google
woord1 AROUND(14) woord2 = zoek woord1 maximaal veertien posities van woord2
In plaats van (14) kun je een willekeurig ander getal invullen, maar getallen boven de 20 zullen zelden zinnig zijn, net als getallen onder de 3. Een gemiddelde zin telt 14 woorden en meestal zul je met deze operator zoeken naar de relatie tussen twee woorden (of namen) in een zin.
Voorbeeld zoekopdracht: [ appel AROUND(14) boom ]. En [ wilders AROUND(14) rutte ].
Met AROUND voer je dus een zogenoemde proximity search uit, je zoekt twee waarden in elkaars nabijheid. AROUND behoort tot de minst bekende zoekoperatoren van Google; in de Nederlandstalige literatuur over slimmer zoeken was deze zoekoperator tot nu toe niet te vinden en ook Google zelf heeft er eerder nauwelijks ruchtbaarheid aan gegeven. Toch kan deze operator zeer nuttig zijn.
Let op: het maakt niet uit of je voor het haakje openen na AROUND een spatie zet of niet. AROUND(3) werkt dus net zo goed als AROUND (3).
cache: = geef de bij Google opgeslagen versie van de webpagina
Voorbeeld zoekopdracht: [ cache:www.nrc.nl/woordhoek ]
Op deze manier kun je webpagina’s vinden die niet meer op internet lijken te staan, maar die nog wel aanwezig zijn in het geheugen (cache) van Google. Ook via Internet archive kun je, met enige moeite, vaak oude (versies van) webpagina’s terughalen.
Let op: geen spatie na de dubbele punt.
define: = geef een definitie van het gezochte woord
Voorbeeld zoekopdracht: [ define:operator ]
Je kunt er vaak ook de betekenis van uitdrukkingen mee vinden, bijvoorbeeld:
[ define:Hobson’s choice ].
Werkt beter voor het Engels dan voor het Nederlands.
Let op: geen spatie na de dubbele punt.
discussions: = zoek in discussiegroepen, opiniepagina’s en vraag-en-antwoordpagina’s
Voorbeeld zoekopdracht: [ discussions:privacy facebook ]
Let op: geen spatie na de dubbele punt.
filetype: = zoek dit bestandsformaat
Voorbeeld zoekopdracht: [ filetype:pdf miljoenennota 2011 ]
Als je eenmaal weet dat de meeste rapporten, boeken, scripties en proefschriften in pdf-formaat op internet worden gezet (reden: je kunt er niet makkelijk iets in wijzigen), dan is het handig om dat bestandsformaat aan je zoekopdracht toe te voegen. Je kunt op duizenden bestandsformaten zoeken (zie hier voor een overzicht). Meestal kom je al een heel eind met deze:
- doc of docx = MS Word (veelgebruikt formaat voor notulen, vergaderstukken e.d.)
- pdf = Portable Document Format
- ppt of pptx = PowerPoint (veel gebruikt voor presentaties)
- xls of xlsx = Excel (veel gebruikt voor berekeningen, begrotingen e.d.)
Let op: geen spatie na de dubbele punt, en haal de punt voor de extensie weg (dus niet filetype:.pdf, maar filetype:pdf). In plaats van filetype: kun je ook de zoekoperator ext: gebruiken (dit is een verkorting van extension).
info: = geef extra informatie over een webpagina
Voorbeeld zoekopdracht: [ info:www.ewoudsanders.nl ]
Als resultaat geeft Google dit lijstje:
- Google kan de volgende informatie weergeven voor deze URL:
- Geef Google’s cache weer van www.ewoudsanders.nl
- Zoek webpagina’s die lijken op www.ewoudsanders.nl
- Zoek webpagina’s die linken naar www.ewoudsanders.nl
- Webpagina’s zoeken binnen de site www.ewoudsanders.nl
- Zoek webpagina’s met het woord www.ewoudsanders.nl
Let op: geen spatie na de dubbele punt. In plaats van info: kun je ook de zoekoperator id: gebruiken.
link: = geef webpagina’s die verwijzen naar de opgegeven url
Voorbeeld zoekopdracht: [ link:kb.nl ]
Resultaat: een lijst met websites die verwijzen naar de website van de Koninklijke Bibliotheek (KB). Overigens krijg je slechts een representatieve selectie te zien, de lijst is niet compleet.
loc: = zoek informatie over deze locatie
Voorbeeld zoekopdracht: [ loc:haarlem ]
Zelf gebruik ik deze zoekoperator nooit, want er zijn andere manieren om veel preciezer te zoeken.
OR = zoek dit OF dat
Door OR te gebruiken kun je met één zoekopdracht zoeken naar onder andere:
- verwante begrippen [ studiefinanciering OR stufi ]
- spellingvarianten van woorden of namen [ huygens OR huijgens ]
- buitenlandse varianten van namen [ sjostakovitsj OR shostakovich OR chostakovitch ]
- bepaalde sites [ troonrede site:nrc.nl OR site:volkskrant.nl OR site:trouw.nl ]
- het enkelvoud en meervoud van een woord [ depressie OR depressies ]
Ervaring leert dat als je maar op één woordvorm zoekt (alleen enkelvoud bijvoorbeeld), je waardevolle bronnen kunt missen.
Let op: OR moet met hoofdletters.
related: = zoek websites die verwant zijn aan de opgegeven website
Voorbeeld zoekopdracht: [ related:nl.wikipedia.org ]
Resultaat: websites als encyclopedie.nl en vandale.nl - websites dus met het karakter van een naslagwerk. Met [related:nrc.nl ] vind je sites van allerlei andere kranten (de Volkskrant, De Telegraaf, Trouw), met [related:gezondheid.nl ] ook dokter.nl, medischestartpagina.nl enzovoorts. Kortom: handig om thematisch verwante sites te vinden die je nog niet kende.
site: = beperk de zoekopdracht tot deze website of dit domein
Voorbeeld zoekopdracht: [ site:nrc.nl colofon ]
Bovenste resultaat: het colofon van de redactie van NRC Handelsblad.
Je kunt ook aangeven dat je alleen in websites uit een bepaald land wilt zoeken: bijvoorbeeld alleen uit Nederland (.nl), België (.be), Duitsland (.de), Frankrijk (.fr) of het Verenigd Koninkrijk (.uk). Er bestaan honderden van dergelijke topleveldomeinen, zoals ze officieel heten. Voor een overzicht, zie de ‘Lijst van topleveldomeinen op het internet’ in Wikipedia.
Let op: geen spatie na de dubbele punt. En anders dan de helpfunctie van Google aangeeft, hoef je de topleveldomeinen niet vooraf te laten gaan door een punt. Dus niet site:.nl of site:.be, maar simpelweg site:nl of site:be
Enkele andere nuttige topleveldomeinen:
- edu = instellingen voor hoger onderwijs, o.a. Amerikaanse universiteiten
- eu = Europese Unie
- gov = Amerikaanse instellingen van de federale overheid
- int = internationale organisaties (handig voor internationale verdragen)
- museum = inderdaad, musea
- org = non-profit organisaties
Belangrijk om te weten: je vindt vaak meer op een site als je die via Google benadert, dan via het zoekvenster op zo’n site. Dat lijkt vreemd - bizar zelfs -, maar is wel te verklaren: Google kan veel meer geld en moeite stoppen in optimale indexering (hun core business) dan de meeste websites, zelfs als die groot zijn. Zo kun je bij de Digitale Bibliotheek voor de Nederlandse Letteren allerlei gegevens wél via Google vinden, maar niet rechtstreeks (zie voor een voorbeeld casestudy 4 in het gratis te downloaden gidsje Eerste Hulp Bij e-Onderzoek). Websites benaderen met de site-operator vanuit Google heeft als bijkomend voordeel dat je je niet telkens in wéér een andere gebruikersinterface hoeft te verdiepen. Overigens geven lang niet alle databanken op internet Google (en andere zoekmachines) toestemming om hun content volledig te indexeren. Het is een kwestie van uitproberen.
Zoekoperatoren combineren
Soms is het voldoende om gebruik te maken van slechts één zoekoperator, maar vaker zul je zoekoperatoren combineren en/of zoekoperatoren herhalen met een andere waarde. Ik zoek dít, maar het kan ook zo gespeld worden (OR), of zo (OR), dit moet niet in de resultaten staan (-woord), ik wil deze site uitsluiten (-site:), en voor de zekerheid laat ik binnen een formulering een paar dingen open (**).
Niet gevonden wat je zocht? Nog steeds te veel ruis of vindt Google juist helemaal niks? Dan probeer je het gewoon opnieuw, op een iets andere manier. Bij iedere poging houd je de zoekvraag overigens rechttoe rechtaan, want zoals gezegd praat je met een computer, niet met een mens. Hoofdletters doen er niet toe (behalve bij OR en AROUND) en het is handig om van tevoren te bedenken hoe iets in een document zou kunnen staan.
Google Geavanceerd Zoeken
Zoals hierboven al even werd aangestipt kun je met Google Geavanceerd Zoeken enkele dingen waar geen zoekoperatoren voor zijn. Zo kun je:
- filteren op taal (vind alleen pagina’s in Frans, Duits, Engels, Nederlands, Chinees etc.)
- filteren op tijd (24 uur, week, maand, jaar, bepaalde periode)
- en filteren op gebruiksrechten (geef teksten die vrij gebruikt en gedeeld mogen worden, etc.)
Dat soort dingen kun je hier instellen.
Tot slot: welke operatoren worden het meest gebruikt?
In een artikel in NRC Handelsblad, gepubliceerd op 19 september 2011, zei de reeds aangehaalde Dan Russell dat er slechts vier zoekoperatoren regelmatig worden gebruikt. Dit blijkt uit analyse van de logboeken die Google bijhoudt. Het gaat om filetype: (om naar een bepaald type document te zoeken), dubbele aanhalingstekens (om naar een vaste formulering te zoeken), site: en het minteken (om iets uit te sluiten). De meeste zoekopdrachten bij Google bestaan uit drie woorden, aldus Russell, en een zoekopdracht van zes woorden geldt als lang.
Russell is er, net als ikzelf, van overtuigd dat intensiever en slimmer gebruik van zoekoperatoren onmiddellijk leidt tot relevantere zoekresultaten. Hij geeft wereldwijd workshops over slim zoeken en schrijft erover in zijn blog SearchReSearch en op de website Google Search Education Evangelism.
Er valt wat dit betreft nog een hoop werk te verzetten, verzuchtte Russell in NRC Handelsblad, want uit onderzoek van Google blijkt dat 90 procent van de internetgebruikers zelfs niet weet dat je met de toetscombinatie ctrl + f (find) snel kunt nazien waar iets op een pagina staat. Russell: ‘Mensen lezen hele pagina’s door om te zien waar het gezochte woord staat. Driekwart van de docenten op middelbare scholen en de helft van de universitaire docenten blijkt die toetscombinatie niet te kennen.’
Zoeken kan dus nog een stuk slimmer en hopelijk helpt het bovenstaande overzicht daarbij.
Succes!
Opmerkingen en aanvullingen zijn welkom (graag via het tabblad contact)
Samenvatting
1. Plus, min en meer
+ = precies zo moet het er staan; dit moet voorkomen
- = sluit dit uit
“ ” (dubbele aanhalingstekens) = geef precies deze woorden, in precies deze volgorde
.. (twee puntjes) = geef een waarde tussen x en y
* (asterisk of sterretje) = vul de leegte in
~ (tilde) = zoek ook naar synoniemen
2. Zes paren
allinanchor: = alle gezochte woorden moeten in de link voorkomen
inanchor: = het gezochte woord moet in de link voorkomen
allinblogtitle: = alle gezochte woorden moeten in de blogtitel voorkomen
inblogtitle: = het gezochte woord moet in de blogtitel voorkomen
allintext: = alle gezochte woorden moeten in de tekst van de webpagina voorkomen
intext: = het gezochte woord moet in de tekst van de webpagina voorkomen
allinsubject: = alle gezochte woorden moeten prominent op de webpagina voorkomen
insubject: = het gezochte woord moet prominent op de webpagina voorkomen
allintitle: = alle gezochte woorden moeten in de titel van de webpagina voorkomen
intitle: = het gezochte woord moet in de titel van de webpagina voorkomen
allinurl: = alle gezochte woorden moeten in het adres (de url) van de webpagina voorkomen
inurl: = het gezochte woord moet in het adres (de url) van de webpagina voorkomen
3. Overige geavanceerde zoekoperatoren bij Google
woord1 AROUND(14) woord2 = zoek woord1 maximaal veertien posities van woord2
cache: = geef de bij Google opgeslagen versie van de webpagina
define: = geef de definitie van het gezochte woord
discussions: = zoek in discussiegroepen, opiniepagina’s en vraag-en-antwoordpagina’s
filetype: = zoek dit bestandsformaat
info: = geef extra informatie over een webpagina
link: = geef webpagina’s die verwijzen naar de opgegeven url
loc: = zoek informatie over deze locatie
OR = zoek dit OF dat
related: = zoek websites die verwant zijn aan de opgegeven website
site: = beperk de zoekopdracht tot deze website of dit domein
Toch meer informatie over hoe je met dit soort operatoren werkt? Ga terug naar het begin.
