Tilbake til DIS-Norges hjemmeside

Kildetrohet og registreringsstandarder

Veiledning for DIS-medlemmer og lokallag (3)

Linje Denne siden er kanskje litt teoretisk. For mer praktisk informasjon om "dataflyten" i DIS-Norges registreringsopplegg, gå direkte til neste side. Linje

Kildetrohetsprinsippet og avvik fra dette

Den grunnleggende hovedregelen for kilderegistrering er det såkalte "kildetrohetsprinsippet". Det sier enkelt og greit at "opplysningene gitt i kilden skal registreres kildetro, dvs. gjengis tegn for tegn i felter som tilsvarer kildens rubrikker".

Er så dette prinsippet tilstrekkelig som instruks for praktisk kilderegistrering? I de aller fleste tilfeller er svaret nei. Det viser seg som regel umulig å oppfylle kildetrohetskravet 100%. Noen grafiske symboler i kilden, f.eks. klammer og piler, kan ikke gjengis som sådanne i en tekstfil eller databasefil.

Ofte er det essensielt for visse typer datamaskinell utnyttelse av datamaterialet at opplysningene registreres i flere eller andre felter enn de som direkte tilsvarer rubrikkene i kilden. F.eks. er det vanlig å registrere personnavn i separate felter for fornavn og etternavn og "stilling" i separate felter for familiestilling (kone, sønn, datter osv) og yrke/næring. Noen kilder, f.eks. kirkebøker fra 1600- og 1700-tallet, har ofte ikke rubrikkinndeling i det hele tatt, men opplysningene må allikevel etter beste evne plasseres i forhåndsdefinerte felter under registreringen for å kunne utnyttes effektivt datamaskinelt. Noen ganger har kildeføreren skrevet andre typer opplysninger i kilderubrikkene enn det de er beregnet på. For et norsk menneske er det innlysende at "Udøpt Pige" ikke er et navn, men kanskje ikke for en utlending, og definitivt ikke for en datamaskin. Slike "feilplasserte" opplysninger forstyrrer ofte den datamaskinelle bruken, og anbefales registrert i spesielle "merknadsfelter".

For å lette den videre datamaskinelle bruken av dataene anbefales det også i noen tilfeller å foreta mindre, historisk ubetydelige standardiseringer av selve opplysningene. Dette må med andre ord kun være standardisering i form, og ikke i innhold. Eksempler kan være at datoer av typen "14de Maj 1833" registreres som "14.05.1833", at "Olsdatter", "Olsdttr." og alle andre varianter registreres som "Olsd.", og at "ugift" forkortes til "ug". Det er noe diskusjon i fagmiljøet om hvilke standardiseringer av denne typen som kan og bør godtas.

I mange tilfeller er det også slik at opplysningene i kilden er så utydelige at de er vanskelige eller umulige å lese og dermed gjengi kildetro. Dette må markeres under registreringen. Det samme gjelder overstrykninger, unormale mangler og andre spesielle forhold i kilden. Som regel brukes spesialsymboler for å markere slike ting.

Det har liten hensikt å gjennomføre avvik fra kildetroheten under registreringen hvis den samme "standardiseringen" med letthet kan gjennomføres datamaskinelt etterpå. Rent datamaskinell kategorisering (fordeling på to eller flere felter) av opplysninger med utallige skrivevarianter (f.eks. "stilling") er f.eks. svært vanskelig, mens sammenslåing av to felter til ett i ettertid er meget enkelt. For en registrator (menneskehjernen!) er imidlertid fordeling av konkrete opplysninger på feltene familiestilling og yrke/næring sjelden vanskelig, og heller ikke forsinkende i arbeidet.

I Histform-standarden formuleres følgende generelle retningslinjer:   Avvik fra kildetrohetsprinsippet kan godtas i situasjoner der følgende tre forutsetninger er oppfylt (i det minste 1+2 eller 1+3):

  1. At brudd på kildetroheten ikke synes å redusere opplysningenes informasjonsverdi for noe formål.
  2. At brudd på kildetroheten høyner den maskinlesbare kildeversjonens brukskvalitet og -potensiale.
  3. At brudd på kildetroheten øker registreringshastigheten vesentlig.

Hva er en registreringsstandard?

En registreringsstandard består av to hovedelementer, nemlig registreringsformater og registreringsinstrukser.

Registreringsformatene er oversikter over de feltene som anbefales brukt ved registreringen av opplysninger fra de aktuelle kilde- og listetypene, og de posttypene (registreringsskjemaene) feltene bør fordeles på. Dette blir også ofte kalt post- og feltstruktur eller logisk format.

Registreringsinstruksene forteller hvilke felter de typisk forekommende (og de mer uvanlige) opplysningene i kildens ulike rubrikker (hvis den har slike) skal plasseres i, og i hvilken form opplysningene skal registreres. Formen er som regel "kildetro" (bokstavrett), men alle tillatte avvik fra den absolutte kildetrohet (jf. forrige avsnitt) skal være dokumentert i detalj i registreringsinstruksene. Registreringsinstruksene vil ofte være delt inn i generelle instrukser (bl.a. om bruk av usikkerhetssymboler), feltspesifikke instrukser (f.eks. om registrering av navn, datoer osv. i alle kilder) og kildespesifikke instrukser (om registrering av konkrete kilde- og listetyper).

Standard 4G og Histform

Standard 4G - edb-registrering av kirkebøker er en registreringsstandard for kirke- og klokkerbøker. Den ble utarbeidet på slutten av 1980-tallet av Samarbeidsrådet for historielaga i Oppland, og fikk sin endelige form (versjon 1.0a) i 1991. "4G" står for "fire gudbrandsdøler" og henspeiler på opphavsmennene. Ola Tovmo ved Dovre Data Arkiv var den sentrale personen i arbeidet.

Standard 4G er ikke blitt evaluert eller vedtatt i noen sentral norsk faginstans, men er i kraft av å være den hittil eneste i sitt slag, blitt en de facto standard for mesteparten av den kirkeboksregistreringen som er blitt utført det siste tiåret, først og fremst innenfor historielag, bygdebokprosjekter og noen halvoffentlige foretak. Ofte, men ikke alltid, er også det tilhørende registreringsprogrammet BD87 blitt benyttet.

Erfaringer med Standard 4G de siste ti årene har vist at den har en del svakheter. Blant innvendingene er at den opererer med et felles registreringsformat for alle skjemavarianter av hver listetype i kirkebøkene. Det vil f.eks. si at dåpsopplysninger fra sparsomme 1600-tallskilder og fyldige dåpslister etter 1877 skal registreres i det samme feltrike skjemaet på skjermen. Andre ulemper er at datoer registreres i separate felter for dag, måned og år, og at formatene har separate felter for farsnavn (f.eks. Olsen) og slektsnavn (f.eks. Müller), selv om det kan være umulig å avgjøre om et sen-navn var det ene eller det andre rundt forrige århundreskifte.

Allerede i februar 1993 ble det på et møte i Riksarkivet, der representanter for hele det norske fagmiljøet var til stede (også DIS-Norge), besluttet å utarbeide en ny registreringsstandard både for kirkebøker og folketellingslister. Folketellingsdelen av standarden ble utarbeidet av en utnevnt komité i løpet av 1993 og publisert i bokform i januar 1995. Før standarden ble ferdigstilt, var den ute til høring i hele fagmiljøet høsten 1993. Den nye standarden ble kalt Histform, og finnes nå også i nettversjon. På grunn av komitémedlemmenes andre gjøremål ble arbeidet med kirkeboksdelen av Histform utsatt og forsinket i mange år, men er kommet i gang vinteren 2001. Den faglige basisen for kirkeboksdelen vil naturlig være Standard 4G og folketellingsdelen av Histform. Målet er å eliminere svakhetene i den førstnevnte og gjøre det enklere å utnytte datamateriale fra disse viktige kildetypene sammen ved hjelp av datamaskin.

Hvorfor følge en registreringsstandard?

Hovedtyngden av det norske fagmiljøet innenfor dataregistrering og datamaskinassistert utnyttelse av personhistorisk kildemateriale anbefaler å følge registreringsstandarden for de kildetypene som har en slik. Her er de viktigste argumentene for dette:

For videre informasjon om dataflyten i registreringsprosessen, gå til neste side.

Linje
Oppdatert 30.04.2001 (LN)
Webmaster DIS-Norge