Sessie: Bedolven onder bronnen? Text mining in historisch onderzoek

Hoe kunnen we het gedigitaliseerde archief in de KB nuttig gebruiken voor historisch onderzoek? Het NWO-Horizon project Translantis ontwikkelt een text mining tool oom de opkomst van de Verenigde Staten in het publieke discours in de 20e eeuw te analyseren. De problemen waar men in dit project tegen aanloopt dient tijdens deze sessie als een casus voor manieren waarop je als historicus met grote hoeveelheden data omgaat.

Texcavator en de moderne vrouw

De tool ‘Texcavator’ die in het project Translantis wordt gebruikt is niet openbaar toegankelijk, het doorzoekt de volledige dataset van de KB en laat hier verschillende tools op los. Wat er nu met deze tool onder andere mogelijk is, is het genereren van een woordwolk. Dit geeft een idee van frequentie van woordgebruik. De vraag is, levert dit inzicht in de hoofdvraag van het project: de perceptie van de VS in Nederland? Of spelen in dit geval contextuele interpretaties zoals ironie een grote rol. Een voorbeeld is het woord ‘modern’. Dit lijkt positief, maar in verband met vrouwen krijgt het juist vaak een negatieve lading, rokende vrouwen worden vaak bestempeld als ‘modern’ maar in een negatieve context.

Bram Mellink stelt dat het gebruik van dergelijke tools zoals een woordenwolk vaak meer oplevert wanneer je een ‘platte’ vraag stelt aan een uniform corpus. Maar zijn dit historisch relevante vragen? En kunnen we complexe vragen herleiden tot platte vragen of is dat niet altijd mogelijk?

80 miljoen artikelen gedigitaliseerd, veel maar versnipperd

Digitalisering van het KB-archief is versnipperd. Er zijn bijvoorbeeld veel meer kranten uit de Tweede Wereldoorlog gedigitaliseerd. Dit kan een verkeerd beeld opleveren bij het stellen van bepaalde vragen. Komen deze termen echt meer voor in deze periode? Of is het een gevolg van de samenstelling van het corpus?

Bronnenkritiek in de digitale wereld

Een machine laat je nooit iets zien wat je er zelf niet in hebt gestopt. Het gebruik van lijsten is lastig, ook omdat deze niet gehistoriseerd is. Belangrijk is om als historicus bewust te blijven van het corpus en dit zorgvuldig samen te stellen. Ook moet de dialoog met de instellingen die bijdragen aan digitalisering worden aangegaan. Dit geldt ook voor de dialoog met softwareontwikkelaars. De tool die voor Translantis wordt gebruikt wordt aan de UvA gemaakt in samenwerking met Informatici. Dit is veelal statistisch onderzoek (tellen), linguïstisch onderzoek opent wellicht meer mogelijkheden op het gebied van context-onderzoek. De conclusies die de Translantis onderzoeker Pim Huijnen op dit moment trekt is dat ze de tekstuele analyse vooral moeten gebruiken als ‘trigger’ die kan leiden tot een meer grondige kwalitatieve analyse.

Wensen voor de toekomst

Lex Heerma van Vos wijst op een aantal wensen die in de sessie naar voren zijn gekomen. Bijvoorbeeld het krijgen van meer grip op de samenstelling van het corpus, wat bijvoorbeeld bereikt kan worden door enkele belangrijke kranten te digitaliseren. Op het punt van historische spellingsvorming zouden historici een brug kunnen slaan naar taalkundigen, evenals op het punt van named entity recognition. Dergelijke meer ‘algemene’ wensen zijn wellicht punten waarop historici kunnen samenwerken en waar mogelijkheden liggen voor onderzoeksvaardigheden in de toekomst. Ook liggen er kansen voor samenwerking op het gebied van het verbeteren van OCR, eventueel doormiddel van crowd sourcing.

Olaf Janssen roept op de THATCamp-website op om de KB te laten weten welke wensen er leven onder gebruikers van het kB archief op het gebied van digitalisering.

Verder lezen

‘The Hermeneutics of Data and Historical Writing’- Gibbs & Owens in: Writing History in the Digital Age – Jack Dougherty and Kristen Nawrotzki Ed.

Loes van Suijlekom

Opmerkingen

Bezoek ook

Menu

Over KNHG

Contact

Ontvang onze nieuwsbrief