Zoek op trefwoord in al mijn blogartikelen

vrijdag 22 augustus 2008

‘Keywording’









Vandaag wil ik het hebben over de metadata die je aan een foto kunt meegeven om bijvoorbeeld later terugvinden te vergemakkelijken. 
De camera zelf genereert al metadata zoals sluitertijd, diafragma, datum en tijdstip van de opname. Dit is de zogenaamde EXIF data maar er is ook data die bedoeld is om ingevuld te worden door de fotograaf zelf. Dit zijn de IPTC velden. Een van de belangrijkste IPTC velden is het Keyword (trefwoord) veld omdat die zo breed gebruikt wordt en bovendien goed uitwisselbaar is tussen verschillende applicaties.

Bij het lezen van 'The DAM Book' van Peter Krogh (een echte aanrader, zie http://www.thedambook.com/ ) was ik er direct van overtuigd dat het grondig toepassen van trefwoorden de waarde van mijn fotocollectie zou (gaan) vergroten. 

Echter bleek het in de praktijk toch lastiger dan tevoren gedacht, met name het 'grondige'. Waar ik gisteren nog het begrip 'milieu' gebruikte was dat vandaag 'natuur' en het dreigde op een rommeltje uit te lopen.

Ik vond dus dat ik een consistente lijst met trefwoorden moest aanleggen volgens de principe van 'controlled vocabularies'.  Tijdens de zoektocht naar best practices kwam ik terecht op een artikel van Dan Heller die een zeer selecte toepassing van Keywords propageert. Hoewel zijn uiteenzetting mij ook weer aan het twijfelen heeft gebracht is het artikel zeer de moeite van het lezen waard: http://www.danheller.com/blog/posts/keywording-and-future-of-stock.html


'Slim' omgaan met trefwoorden:
In het kort komt het er op neer dat hij het afraadt om vervoegingen, meervoudsvormen, vertalingen en dergelijke als trefwoord op te nemen. Een intelligente zoekmachine zou deze variaties op, wat hij de 'stam' noemt, zelf moeten kunnen distilleren (niet dat dat nu al het geval is maar toch). 

Het probleem is volgens Dan 'trefwoord-vervuiling' met als gevolg vals-positieve zoekresultaten. De foto die jij of een klant zoekt komt niet boven de rest uit waardoor je hem niet zult vinden.

Een foto is bijvoorbeeld voorzien van de trefwoorden 'vrouw' en 'oude man'. Op de zoekopdracht 'oude vrouw' zal deze foto onterecht toch getoond kunnen worden omdat beide woorden voorkomen. Een vals positief resultaat dus hoewel het afhangt van de mogelijkheden van de zoekmachine om te zoeken op verschillende woordcombinaties.


Dit probleem wordt verergerd door systemen die automatisch trefwoorden aan foto's toevoegen (zoals foto stock bureaus).

De kunst van het toekennen van trefwoorden zit hem volgens Dan dan ook niet zozeer in het accuraat beschrijven van wat er zich op de afbeelding bevindt maar met name in de conceptuele begrippen zoals toekomst, geluk, e.d. omdat alleen de menselijke geest in staat is om die te koppelen aan het betreffende beeld.

Context:

Tenslotte hanteert Dan het begrip 'Contextualisatie ', dat wil zeggen dat de relatie tussen trefwoorden onderling wordt aangegeven. Momenteel is het nog vaak zo dat alle trefwoorden dezelfde 'waarde' hebben. 

Context toekennen aan trefwoorden onderling is momenteel helaas nog niet mogelijk, de syntax daarvoor ontbreekt domweg nog. 

Een notatie als oude:man zou de context tussen oude en man duidelijk maken waardoor de afbeelding niet bij een zoekopdracht oude vrouw tevoorschijn komt. Maar zoals gezegd, deze syntax ontbreek nog en wordt dus niet herkend door zoekmachines in de markt. Individuele programma's zoals Adobe Bride en Lightroom van Adobe kennen al wel 'hierarchical keywords' waarmee context tussen keywords in de afbeelding kan worden vastgelegd. 

Uitwisselbare standaarden is wat we hier eigenlijk nodig hebben.

Wordt vervolgd…