Datacleaning

Data cleaning


De data-cleaning is in eerste instantie in november 1995 uitgevoerd door het Steinmetz-archief met behulp van twee UNIX-scripts ("SPLITS" en "CLEAN"). Deze scripts met bijbehorende documentatie zijn op de CD-ROM aanwezig. De originele databestanden uit 1994 (of 1991) zijn met het SPLITS-script ingedeeld in bestanden per provincie.
Met het script CLEAN zijn vervuilde records op de volgende criteria afgezonderd:
  • Een record is minimaal 30 posities lang en maximaal 80 posities.
  • Een record met 80 posities heeft in positie 80 altijd een spatie of &.
  • Een record bevat uitsluitend spaties, de codes 0 t/m 9 en de bovenponsingen - en &.
  • Hierop is één uitzondering: positie 22 kan elk karakter bevatten.
  • De posities 1 t/m 9, 29 en 30 zijn altijd ingevuld (ongelijk spatie). Let op: positie 28 kan leeg (gelijk spatie) zijn.
  • De eerste positie bevat altijd een 1.
De met CLEAN en SPLITS afgezonderde records zijn in rest-bestanden bewaard gebleven.

 


Last modified: 09-11-2004 17:31