Data cleaning
De data-cleaning is in eerste instantie in november 1995 uitgevoerd door het Steinmetz-archief met behulp van twee UNIX-scripts ("SPLITS" en "CLEAN"). Deze scripts met bijbehorende documentatie zijn op de CD-ROM aanwezig. De originele databestanden uit 1994 (of 1991) zijn met het SPLITS-script ingedeeld in bestanden per provincie.
Met het script CLEAN zijn vervuilde records op de volgende criteria afgezonderd:
- Een record is minimaal 30 posities lang en maximaal 80 posities.
- Een record met 80 posities heeft in positie 80 altijd een spatie of &.
- Een record bevat uitsluitend spaties, de codes 0 t/m 9 en de bovenponsingen - en &.
- Hierop is één uitzondering: positie 22 kan elk karakter bevatten.
- De posities 1 t/m 9, 29 en 30 zijn altijd ingevuld (ongelijk spatie). Let op: positie 28 kan leeg (gelijk spatie) zijn.
- De eerste positie bevat altijd een 1.
De met CLEAN en SPLITS afgezonderde records zijn in rest-bestanden bewaard gebleven.
|