Sessie: datasets – een klein corpus gereed maken voor digitaal onderzoek

Uitgangspunt

Bij veel van de discussies over Digital Humanities gaat het over heel grote datasets, in sommige gevallen aangeduid als Big Data. Maar historisch onderzoek gaat lang niet altijd over grote hoeveelheden tekst, waarbij tientallen, honderden, of duizenden titels tegelijkertijd worden onderzocht. Deze sessie richt zich op de mogelijkheden die je als historicus hebt om ook met kleinere corpora te werken. Soms ben je als onderzoeker geînteresseerd in één enkele titel, één reeks, of een zelfgemaakte selectie – een klein corpus waaraan je met behulp van digitale tools vragen wilt stellen. Soms wil je een corpus alleen verkennen – daar zijn digitale tools juist geschikt voor – en soms is je corpus eenvoudigweg niet groot, en wil je de tools gebruiken als hulpmiddel voor de interpretatie van je bron(nen).

Op de site http://programminghistorian.org/ staan tips over het zelf programmeren van tools die zich goed lenen voor kleinschalig onderzoek. In de sessie van gisteren van Marijn Koolen en Jan Hein Hoogstad hebben we een korte introductie gekregen in dit onderwerp, en binnenkort zullen zij ook workshops gaan organiseren om historici die hierin geïnteresseerd zijn verder wegwijs te maken. Als jje hiermee aan de slag wil, of je wilt gebruik maken van de tools die reeds beschikbaar zijn, is het ook goed om te weten aan welke eisen je data moet voldoen.

Doel van de sessie: een all purpose stappenplan voor het gereedmaken van een dataset!

Onafhankelijk van het kennisniveau van de deelnemers kunnen we samen kijken naar het type bronbestanden, het soort vragen dat je wilt stellen en de tools die je hoopt te gaan gebruiken. Aan de hand daarvan zullen we vervolgens een lijst opstellen met vragen die je moet beantwoorden vóór je je bronnen aan queries en ander digitaal geweld gaat of kunt blootstellen.

afbeelding van somtijds Willem Prins

© KNHG 2020 Website: Code Clear