Aarhus Stadsarkiv arbejder med Transkribus

Aarhus Stadsarkiv arbejder med Transkribus

Søren Bitsch Christensen er leder af Aarhus Stadsarkiv, som har gjort erfaringer med Transkribus.

Aarhus Stadsarkiv benytter sig af indtastningsmodulet Transkribus, et EU-støttet internationalt projekt, til indtastning af arkivalier. Bloggen talte med stadsarkivar Søren Bitsch Christensen for at høre om arkivets erfaringer med platformen.

af Philip Blüdnikow

Nede på Aarhus Havn i det futuristiske kulturhus Dokk1 har Aarhus Stadsarkiv til huse. Ligesom andre arkiver og biblioteker verden over står man over for en udfordring i form af den digitale tidsalder, som giver helt nye krav til arkivering.

Arkivet har særligt fokus på få digitaliseret og indtastet sogneprotokoller. Frivillige kan melde sig til at indtaste protokollerne, og når de er færdige, bliver de gjort tilgængelige på retrodigitalisering.dk, som Organisationen Danske Arkiver står bag. Indtastningen foregår via transkriberingsplatformen Transkribus.

Bloggen har talt med Søren Bitsch Christensen, stadsarkivar ved Aarhus Stadsarkiv. Han fortæller om, hvorfor man valgte at bruge Transkribus til indtastning af sogneprotokoller:

”Vi havde gennem en række år arbejdet med brugerinddragelse i transskribering og opmærkning af billeder og dokumenter. Det var sket med systemer, vi selv havde lavet, og som var tilpasset de dokumenttyper, der blev arbejdet med. Det er klart, at det gav en del arbejde med vedligeholdelse og udvikling. Desuden er alle vores projekter mere eller mindre afhængige af eksterne midler. Transkribus så vi som en måde at komme ind i et større fællesskab omkring en fælles vision og mission. Med fællesskab mener jeg både med hensyn til økonomi og support. Med fælles vision tænker jeg på den overordnede vision om et internationalt samarbejde om at skabe Citizen Science-platforme til at digitalisere kulturarven, og med fælles mission tænker jeg på den oplagt nødvendige opgave med at udvikle maskinlæring til genkendelse af historisk håndskrift.”

Selv om Aarhus Stadsarkiv altså har valgt Transkribus, er det ikke nødvendigvis på grund af brugervenlighed. Adspurgt om Transkribus er let at arbejde med for frivillige indtastere, svarer Søren Bitsch Christensen nemlig:

”Nej, ikke umiddelbart. Transkribus er et krævende program at arbejde med og medfører, at man må stille højere krav til indtasterne. Indtasterne bliver derfor reelt delt i flere niveauer: dem, der mestrer programmet og skaber mange data, og dem, der mere er med for deltagelsens skyld. Som organisation må man gøre op med sig selv, hvad der giver mest værdi. Man skal være opmærksom på en anden ting. Brugen af Transkribus forudsætter, at al tekst forud er lagt til rette linje for linje, det vil sige segmenteret. Det skal de frivillige også gøre, eller man skal som organisation afsætte kræfter til at gøre det for på den måde at skabe et godt grundlag for de frivilliges arbejde.”

Et andet sted, hvor man har erfaring med Transkribus, er i Holland. Firmaet VeleHanden udbyder crowdsourcing-løsninger til arkiver og museer, og deres arbejde bliver også udført i Transkribus. Datakurator ved Amsterdam Stadsarkiv Jirsi Reinders fortæller, at arkivet bruger Transkribus til det VeleHanden-koordinerede projekt ”Crowd Leert Computer Lezen” (dansk: ”Folk lærer computeren at læse”), og henviser til, at man kan finde mere info på read.transkribus.eu/wp-content/uploads/2018/11/ponte-amsterdam.pdf”.

Han tilføjer, at Transkribus’ indbyggede Handwritten Text Recognition-teknologi hjælper Amsterdam Stadsarkiv med at komme igennem hidtil uoverkommelige mængder arkivalier, og at man helt generelt har haft vældigt gode erfaringer med crowdsourcing gennem de seneste 10 år. Arkivet er p.t. rigeligt beskæftiget med ”Crowd Leert Computer Lezen”-projektet, men han udelukker ikke, at der kan komme andre projekter på tale, når det engang er afsluttet.

Aarhus Stadsarkivs crowdsourcing-arbejde begrænser sig heller ikke til sogneprotokollerne, og der er også andre projekter i støbeskeen. Søren Bitsch Christensen fortæller:

”Vi har arbejdet med en række CS-projekter. Vi har haft transskriberings- og opmærkningsprojekter (”Sejrs Sedler”, byrådsreferater) og senest arbejder vi med et andet udviklingsprojekt. Det handler om kilder relateret til Den Spanske Syge. Projektets formål er på den ene side det velkendte at få en masse kilder digitaliseret ved indskrivning, vel at mærke som materiale direkte beregnet til et forskningsprojekt. På den anden side omhandler projektet at udvikle maskinlæringsbasere teknologier til acceleration af indskrivning. Det sker i samarbejde med universitetsforskere, der især arbejder med segmentering af tabeldata.”

Generelt ser Søren Bitsch Christensen en stor fremtid for borgerforskningen. Der vil være masser af arbejde at give sig i kast med, uanset hvor dygtige maskinerne måtte blive til at læse håndskrift:


”Mulighederne for [crowdsourcing] er meget store. Men skal blot være opmærksom på, at retningen i dag er en anden end for bare få år siden. I fremtiden får borgerforskerne især til opgave at kvalificere inputtet til maskinlæringssoftware, altså det der sker i Transkribus. På et tidspunkt vil markedet tage over og levere gode løsninger på f.eks. håndskriftsgenkendelse. Men indtil – og sikkert også længe efter – er det nødvendigt at transskribere kritiske mængder. En anden opgave for fremtidens borgerforskere bliver at samarbejde tæt med forskere om at verificere de sammenhænge, som big data sandsynliggør, men som alligevel i lang tid endnu kræver menneskelige øjne. Det kunne være relationer mellem entiteter og personer over tid.”

Biografier

Søren Bitsch Christensen er stadsarkivar ved Aarhus Stadsarkiv. Dertil lektor ved Institut for Historie og Områdestudier, Aarhus Universitet 2001-2011, og i dag adjungeret lektor på Dansk Center for Byhistorie og Institut for Kultur og Samfund samme sted. Cand. phil. i 1995 og ph.d. i 2001, begge dele ved Aarhus Universitet. Sekretær for Section for Local, Municipal and Regional Archives ved International Council on Archives.

Jirsi Reinders er datakurator ved Amsterdam Stadsarkiv. Uddannet ved Universiteit Leiden, Universiteit van Amsterdam  og senest ved Ernst-Moritz-Arndt Universität i Greifswald, Tyskland med kandidatgrader i søfarts- og de nordiske landes historie. Ansat ved Amsterdam Stadsarkiv siden januar 2017, hvor han står bag projektet ”Crowd Leert Computer Lezen”.

Fakta om Transkribus

  • Transkribus er en platform til transkribering ag dokumenter udviklet af det EU-støttede Research and Enrichment of Archival Documents-projekt (READ).
  • READs erklærede mål er at ”revolutionere adgangen til arkivdokumenter med hjælp fra den seneste teknologi som fx Handwritten Text Recognition og Keyword Spotting.”
  • Transkribus udbyder transkriberingsløsninger til forskere inden for hhv. humaniora og naturvidenskab, arkiver og frivillige.
Rigsarkivet

Lukket for kommentarer.