User Tools

Site Tools


gmpg:workflows

Workflow für die Digitalisierung von Akten für das GMPG-Projekt

Die Aufgabe der Digitalisierungsgruppe ist es, der Forschungsgruppe „Geschichte der Max-Planck-Gesellschaft“ digitale Abbilder der Sitzungsprotokolle der verschiedenen Sektionen bereitzustellen. Dazu gehören ebenso deren Anhänge und Entwürfe. Damit die Scans den Wissenschaftlern in einer gleichbleibend hohen Qualität zur Verfügung stehen und in Zukunft auch zur Verfügung gestellt werden, müssen gewisse Standards eingehalten werden.

Die Arbeitsschritte lassen sich grob in drei Schritte zusammenfassen:

  1. Digitalisierung der Akte
  2. PDF-Erstellung
  3. Ablage der Daten auf dem Sicherheits-Server

Ordnerstruktur und Namenstruktur

Basis bildet die jeweilige Sitzung, erkennbar an der Sitzungsnummer. Für die Sitzung kann es mehrere Bände geben, die verschiedene Entwürfe, Drehbücher oder Anlagen enthalten. Die Ordnerstruktur kann dann beispielsweise so aussehen:

Für die Dateinamen werden stets Kleinbuchstaben verwendet. Trennzeichen ist der Unterstrich „_“. Der Name der Ordner/Dateien setzt sich zusammen aus:

  1. Name des Archivs: ampg (Archiv der MPG)
  2. Nummer der Abteilung: 2abt
  3. Repositur: rep1a
  4. Gremium: vp (Verwaltungsratprotokoll)
  5. Protokollnummer: 134
  6. Datum: dd_mm_yyyy

Weitere Spezifikationen (Nummer des Bandes oder des Entwurfs) finden nach der Protokollnummer Platz.

Der Akten-Ordner enthält (siehe blaue Markierung):

  • pageimg-Ordner: farbige JPGs
  • (ggf. bitonal-Ordner: in bitonal umgewandelte JPGs)
  • pdf-Ordner: jeweils aus den JPGs generierte PDFs
  • index.meta: XML-Datei mit Bibliographischen Daten

Zu Schritt 1

In den Kisten aus dem Archiv befinden sich mehrere Mappen. Der Mappendeckel wird als erstes gescannt, da er wichtige Informationen (Sitzungsnummer, Datum, Abteilung, Repositur) enthält. Die Standardeinstellungen sind folgende:

  • Scanformat: A3
  • Dateityp: JPG
  • Farbe: Vollfarbe
  • Auflösung: 300 dpi
  • Einseitig

Der Scan des Mappendeckels wird im Anschluss ausgerichtet, zugeschnitten und in einen eigenen Ordner mit der Bezeichnung „titlepage“ unter dem Mappennamen (bspw. „ampg_2abt_rep1a_vp_134_bd1_22_11_1984“) abgelegt.

Anschließend werden zunächst die Akten auf dünnes Durchschlagspapier, Büroklammern, Heftklammern, zusammengeklebte oder kleinformatige Blätter, sowie beidseitigen Druck kontrolliert. Fremdkörper sind zu entfernen. Durchschlagspapiere sollten besonders schonend behandelt werden. Die Akte kann nun, beginnend mit dem Aktendeckel, gescannt werden.

Einstellungen:

  • Scanformat: A4 Hochformat
  • Dateityp: JPG
  • Farbe: Vollfarbe
  • Auflösung: 300 dpi
  • Einseitig
  • Separater Scan

Nachdem der Scan abgeschlossen ist, werden die Scans in Adobe Bridge kontrolliert. Es ist darauf zu achten, dass der Scan vollständig ist und keine Informationen verloren gegangen sind. Leere Trennblätter werden gelöscht. Danach können die Dateien umbenannt (fortlaufende Nummerierung, beginnend bei 0001) und in den pageimg-Ordner abgelegt werden.

Zu Schritt 2

Aus den JPGs können daraufhin mit Adobe Acrobat Pro farbige und bitonale PDFs erstellt werden. Folgende Vorgehensweise wird empfohlen:

  • Dateien in PDF zusammenführen (Menü Datei > Erstellen > Dateien in einem einzigen Dokument zusammenführen)
  • Dateien hinzufügen
  • Ordner hinzufügen
  • Ordner auswählen
  • Dateien zusammenführen
  • Speichern unter
    • Es wird der Name des Überordners vergeben. Im obigen Beispiel demnach „ampg_2abt_rep1a_vp_134_db_22_11_1984.pdf “
  • OCR-Erkennung: „Text in dieser Datei erkennen“: (Werkzeugefester → Texterkennung → in dieser Datei)

Zu Schritt 3

Die Index.meta-Datei wird wie folgt erstellt:

  • Öffnen der Filemaker-Datenbank „archiv_id“
  • Layout „GMPG“ auswählen
  • Reiter „GMPG“ wählen
  • Im Feld “online id“ wird der Name des Protokolls eingetragen, also im obigen Beispiel ampg_2abt_rep1a_vp_134_db_22_11_1984
  • „archiv path“ erhält den Pfad des Protokolls, in dem Beispiel oben also /archive/ampg/ampg_2abt_rep1a_gremienprotokolle/vp/ampg_2abt_rep1a_vp_134_22_11_1984/ ampg_2abt_rep1a_vp_134_bd1_22_11_1984/ ampg_2abt_rep1a_vp_134_db_22_11_1984
  • Type: Hier gibt es mehrere Möglichkeiten:
    • „Sitzungsprotokoll“ wird für das Protokoll an sich verwendet (meist m1)
    • „Sitzungsprotokoll – Bericht“ wird für Berichte, wie etwa angehängte Rechnungsprüfungen verwendet
    • „Sitzungsprotokoll – Drehbuch“ für Drehbücher
    • „Sitzungsprotokoll – Entwurf“ für alles übrige
  • Haken bei „GMPG“ setzen
  • Unter „Title“ wird der Oberbegriff, wie etwa „Verwaltungsratsprotokolle“ eingetragen
  • „Date“ erhält das Datum der Sitzung im Format yyyy-mm-dd
  • „Code“ ist grundsätzlich AMPG
  • „Collection“ erhält die Kollektion, im obigen Beispiel also II. Abt. Rep. 1A VP
  • „File no.“ Wird in der Form Nummer der Sitzung/Mappe Datum im Format dd.mm.yyyy angegeben, also zum Beispiel 134/DB 22.11.1984
  • Bei nummerierten Mappen wird nur die Nummer angegeben, das m entfällt, also z.B. 134/1 und nicht 134/m1
  • Mit einem Klick auf den ersten „Set“-Button wird daraus automatisch die „Call Number“ generiert
  • Ein Klick auf den zweiten „Set“-Button füllt die nächsten drei Felder aus, lediglich die Namen der PDFs müssen noch vom Anwender ausgefüllt werden
  • „image dir.“ ist immer pageimg, „title scan no.“ Immer 1
  • Nun wird in einem Webbrowser die Seite https://md.mpiwg-berlin.mpg.de/getPurls geöffnet, um eine id zu erhalten
  • Als „Username“ wird MPIWG eingegeben und im Feld darunter die benötigte Anzahl ids
  • Die id wird im Browserfenster kopiert und im Filemaker unter „MPIWG-ID“ eingetragen
  • Mit einem Klick auf „create index.meta“ wird die Datei erstellt

Tipp: Wenn ein bestehender Eintrag kopiert wird (cmd+d) können neue index.metas mit geringem Aufwand erstellt werden

Upload der vollständigen Ordner auf den Digitalisate-Server Da in den Akten personenbezogene Daten enthalten sind, werden die Daten auf dem gesicherten SFTP-Server „digitalisate.mpiwg-berlin.mpg.de“ abgelegt.

gmpg/workflows.txt · Last modified: 2020/10/10 14:13 by 127.0.0.1