10. August 2005 / mb

**Instructions on Digitalization**. Ausführliche Referenz


====== A. Digitalisieren von Textquellen ======


===== A.1. Erfassung der Publikation: =====


Die Publikation, die digitalisiert werden soll, muss zunächst immer in der Datenbank **VL-Literature** aufgenommen werden (vgl. auch die gesonderte Dokumentation **Literaturerfassung.doc**). Bitte dabei auch überprüfen, ob die Publikation, oder Teile davon, bereits eingetragen wurden und ggf. schon als Scan vorliegen. 

===== A.2. Herstellung der Referenz-Scans (RawScans) ===== 

==== A.2.1 Umfang ====
In der Regel werden **alle Seiten** in der durch die Veröffentlichung vorgegebenen Reihenfolge **einzeln** erfasst (keine Doppelseiten, Ausschnitte). Leerseiten, Werbung, usw. werden mitgescannt. Bei Monographien etc. wird dabei mit dem Titelblatt, in Einzelfällen (Rara, Kataloge; bitte Rücksprache) auch dem Einband begonnen. 

Zur Ablage der Scans wird ein Ordner angelegt, der nach der LiteraturID **litID** des Datensatzes in der VL-Literature Datenbank benannt wird (z.B. **lit1234**). Die Dateien werden in einem Unterordner **litID/raw** gespeichert. 

==== A.2.2 Technische Vorgaben ====
Die Seiten werden mit einer Auflösung von **300 dpi** in **Graustufen** gescannt und als **unkomprimierte tif-Dateien (IBM kompatibel) ohne Miniatur und Symbol** abgespeichert. Bitte auf eine möglichst gerade Ausrichtung der Vorlage achten! Das Epson-Scan-Programm bietet im professionellen Modus bei der Tonwertkorrektur die Kurve ´archiv´, die sich für die meisten Vorlagen bewährt hat. Bei der Histogrammanpassung kann manuell noch nachgeregelt werden, um die Seiten etwas aufzuhellen und Schatten schon beim Scan zu verringern. Es sollte darauf geachtet werden, dass die Funktion ´Automatische Belichtung´, ´Unscharfe Maske´ und `De-screening-Filter´ausgeschaltet sind (unter Konfiguration: Farbe). Sie führen zu starken Kontrasten im Scan, die u.U. die Nachbearbeitung erschweren.  Diese Einstellungen sollten zu Beginn anhand einiger typischer Seiten vorgenommen und dann für alle weiteren Seiten übernommen werden.

==== A.2.3 Benennung der Dateien ====
Alle Dateinamen beginnen mit **einem Buchstaben** (a, p oder z) gefolgt von einer **vierstelligen Nummer** und ggf. einem erläuternden, **standardisierten Zusatz**. Sie erhalten entsprechend ihres Dateiformates die Endung **.tif** und werden immer **in Kleinbuchstaben** geschrieben. Grundsätzlich sind **Ziffern, der Unterstrich, Buchstaben ohne Umlaute und Sonderzeichen** und (genau ein) Punkt erlaubt.

Die mit arabischen Ziffern paginierten Seiten werden mit **p** und der realen, durch vorangestellte Nullen auf vier Stellen erweiterten Seitenzahl benannt, also etwa **p0001.tif** bis **p0533.tif** oder **p0004.tif** bis **p1768.tif**. Falls auf einer Seite eines ansonsten arabisch paginierten Textes (Buch, Aufsatz usw.) keine Seitenzahl abgedruckt ist (Titelseite, Kapitelanfang, etc.), diese Seite in der Zählung aber berücksichtigt ist, wird diese Seitenzahl entsprechend ergänzt.

Bei Büchern, kompletten Bänden etc. werden Seiten, die dem paginierten Text vorausgehen, ohne Rücksicht auf eine evtl. vorgegebene Nummerierung (etwa römische Ziffern) mit **a** und einer durch Nullen auf vier Stellen erweiterten laufenden Nummer **(a0001.tif, a0002.tif)** benannt.

Alle Seiten, die nach dem paginierten Text kommen (Register, Tafeln, Inhaltsverzeichnis usw.) werden mit **z** und einer laufenden vierstelligen Nummer benannt: **z0001.tif, z0002.tif** usw.

Die erste Seite eines **Inhaltsverzeichnisses** wird im Dateinamen vermerkt, also zum Beispiel: **z0003contents.tif**, die folgenden Seiten des Inhaltsverzeichnisses werden nur als z0004.tif usw., also ohne den Zusatz **contents** abgespeichert.

Analog wird die erste Seite eines **Vorwortes** oder einer **Einleitung** beim Speichern mit einer Erläuterung versehen: **a0004introduction.tif**. Dabei bitte nur die Ergänzung **introduction** verwenden, auch wenn es sich um ein Geleitwort oder ähnliches handelt. Wenn mehrere Einleitungen, Vorworte o.ä. vorhanden sind, wird **nur das erste gekennzeichnet**.

**Tafeln** werden im Dateinamen durch den Zusatz **table** kenntlich gemacht; sollten sie benannt sein, werden diese Bezeichnungen ohne Titel oder Bildunterschriften möglichst exakt übernommen: **p0006tableA.tif, z0057tableX.tif**, aber Achtung: **Leerzeichen, Umlaute, Sonderzeichen, Slash, Doppelpunkt etc. sind in Dateinamen nicht erlaubt** und müssen ggf. weggelassen, umschrieben oder durch Unterstriche ersetzt werden. Unbenannte Tafeln werden mit einer auf jeder Seite neu beginnenden fortlaufenden Nummer versehen.

Falls in den Seiten eines Textes unpaginierte Beilagen (eingeheftete Photographien, Tafeln, Tabellen, Werbung, usw.) vorkommen, so werden diese unter dem Dateinamen der vorhergehenden Seite abgespeichert, ergänzt um ein **s** (für supplement) und einer vierstelligen, laufenden Nummer: also **p0078s0001.tif** oder **p0123s0001.tif**. Wenn es sich bei der Beilage um eine Tafel handelt, wird zusätzlich die Erläuterung **table** (ggf. mit der Nummer der Tafel, s.o.) angehängt: **p0097s0001table7.tif** usw.

**Beispiel**: Ein Buch (lit1234) mit insgesamt 151 Seiten, Titelblatt, einer Beilage (nach S. 144), zweiseitigem Inhaltsverzeichnis, 145 Seiten Text, abschließend 2 Tafeln. Alle Dateien befinden sich im Unterordner **raw** des Ordners **lit1234**.


  * lit1234
            * raw
                * a0001.tif
                * a0002contents.tif
                * a0003.tif
                * p0001.tif
                * p0002.tif
                * ...
                * p0144.tif
                * p0144s0001.tif
                * p0145.tif
                * z0001table1.tif
                * z0002table2.tif

 
==== A.2.4 Archivierung ====

Der vollständige Ordner wird zur Archivierung auf den File-Server **foxridge**
kopiert: **foxridge/archive_data/vlp/litID/raw/**; zu den Details siehe die gesonderte [[vlp::archive_instructions|Einführung in die Archivierung]]. In der Literaturdatenbank wird dieser Schritt im Feld **status** mit der Checkbox **rawScan** vermerkt.


==== A.2.5 Besonderheiten einzelner ReferenceTypes ====


=== Vollständige Journal Volumes, Gesammelte Werke, etc. ===

Bei Konvoluten, Zeitschriftenbänden, Sammelbänden, die **vollständig** digitalisiert werden, wird als erstes das entsprechende Objekt als eigenständiger Eintrag in VL-Literature aufgenommen. Details hierzu finden sich im Dokument zur Erfassung von sammelwerken: [[vlp:capturing_containertypes|On '(Container)' reference types]].

Für das Konvolut wird entsprechend des Datenbankeintrages ein Ordner angelegt, in dem die Scans aller Seiten abgelegt werden, die keinem speziellen Einzelbeitrag zugeordnet werden können, so etwa Umschlag, Titelblatt, Inhaltsverzeichnisse, Indizes, Werbung usw., aber auch alle ausserhalb der Artikel eingebundenen Tafeln. Die manchmal in Zeitschriftenbänden mit eingehefteten Titelblätter einzelner Hefte eines Jahrgangs gehören ebenfalls hierher, sie werden im Zweifelsfall wie Supplements benannt.

Danach werden alle Einzelbeiträge ebenfalls in die Datenbank eingetragen und zwar nicht nach dem Inhaltsverzeichnis, sondern nach der im Druck tatsächlich vorliegenden Form. Inhaltsverzeichnisse, Register, Indizes usw. erhalten keinen eigenen Datensatz, sondern werden dem Datensatz des Konvolutes zugeordnet. Alle Beiträge werden als eigenständige Quelle bearbeitet. 

=== Tafeln bei JournalArticle und BookSection ===

Zu einem Aufsatz gehörige Tafeln, die sich ausserhalb des Artikels an anderer Stelle des Bandes befinden, müssen beim Scannen unbedingt mit erfasst und dem Aufsatz beigefügt werden. Stammt der Aufsatz aus einem vollständig digitalisierten Sammelband, Volume, etc., so wird eine Kopie der Tafeln zusätzlich im Ordner des Bandes gesichert. Bei Tafeln aus dem arabisch paginierten Bereich wird der nach den üblichen Konventionen gebildete Name für den Aufsatz einfach übernommen, Tafeln der z-Seiten danach werden dem Aufsatz mit neu beginnender laufender Nummer angefügt, aus Tafel **z0005table6.tif** des Bandes wird im Aufsatz also **z0001table6.tif**. 

=== TradeCatalogues ===
Trade Catalogues werden grundsätzlich wie Bücher behandelt. In der Regel werden alle Abbildungen ausgeschnitten und in **VL-Images** erfasst.

=== Manuscript ===
Abweichend von den Vorgaben werden Manuskripte immer in Farbe gescannt. Bei der Benennung wird **p** plus laufende Nummer verwendet, Archivnummerierungen werden ggf. beibehalten.

=== Photography ===
Zur Erfassung und Digitalisierung von Photographien und Photoalben, resp. Photoserien liegt eine gesonderte, ausführliche Anleitung vor: [[photography|instructions on photographs]].

=== Audio und Film ===
Auch für diese Referenztypen liegt eine eigene Anleitung vor: [[vlp:movies|instructions on movies and audio files]].

===== A.3. Erstellung der optimierten Version (Finals), Ausschneiden der Abbildungen, Backup =====

Die Referenz-Scans werden nun in einem weiteren Schritt nachbearbeitet, dabei werden die einzelnen Seiten in Photoshop zunächst gesäubert und ggf. ausgerichtet. Die Dateien werden in der Originalgrösse unter gleichem Namen im gleichen Format wieder als **unkomprimierte tif-Dateien (IBM kompatibel)** in einen Unterordner **pages** im gleichen Ordner **(lit1234)** gesichert. Falls die Abbildungen ausgeschnitten werden, wird dafür zusätzlich ein Unterordner **images** angelegt. Abschliessend werden die Ergebnisse mit dem Ordner **litID** auf der foxridge im Bereich **archive_data/vlp/** archiviert.
 
==== A.3.1 Dateien nachbearbeiten (Photoshop) ====

(siehe hierzu: intranet/workflow/GraustufenscansTipps)

=== Seitenbild optimieren (Hinweise für Graustufenbilder!) ===
Über den Befehl //Tonwertkorrektur// und/oder //Bild:Einstellen:Gradation// (Apfel+M) das Seitenbild optimieren (Hintergrund möglichst einheitlich weiß, aber darauf achten, daß die Schrift und Abbildungen nicht wegbrechen. Dabei immer in 100% Ansicht arbeiten (Doppelklick auf Lupenwerkzeug oder Apfel-Alt-0).

=== Verschmutzungen entfernen ===
Alle Bildteile, die nicht direkt zur Seite gehören (Bibliotheksstempel, Ränder, Schatten, Verschmutzungen oder Text-Durchschlag der Rückseite), werden mit dem //Stempelwerkzeug// (nur notfalls //Radiergummi//) entfernt. Die korrekte Einstellung von Kontrast und Bildausschnitt schon beim Scan kann hierbei den Arbeitsaufwand erheblich reduzieren.

=== ggf. Lage korrigieren ===
Abschließend die Seite - falls nötig - in die richtige Lage bringen, dies sollte aber die Ausnahme sein! Bitte unbedingt schon beim Scannen auf die korrekte Ausrichtung achten. Drehen verschlechtert u. U. die Bildqualität deutlich. Zum Drehen mit dem Messwerkzeug (unten im popup-menu der Lupe) eine Linie ziehen, die hinterher exakt vertikal oder horizontal werden soll. Dann **Bild:Arbeitsfläche drehen:Per Eingabe...** wählen und bestätigen, der korrekte Wert ist durch das Messwerkzeug bereits eingetragen. Danach müssen die Scans ggf. einheitlich neu freigestellt werden.

=== Sichern ===
unter gleichem Namen und Format **ohne Miniatur und Symbol** im Ordner litID/pages.
 
 
==== A.3.2 Abbildungen (optional, je nach Auftrag) ====


=== Ausschneiden ===
Zum Ausschneiden wird der Bildausschnitt ausgewählt und über //Bild:Freistellen// ausgeschnitten; enthält die Seite mehrere Abbildungen, so werden diese **einzeln** ausgewählt und jeweils über //Bearbeiten:Kopieren// kopiert und über //Datei:Neu...// in eine neue Datei eingesetzt, bitte die korrekte dpi-Zahl beachten. [**Achtung**: bei älteren Photoshop-Versionen (< 6) müssen ggf. die durch das Einsetzen entstandenen Ebenen manuell mit //Ebene:Auf Hintergrundebene reduzieren// (Apfel-E) zusammengefasst werden, es kann sonst passieren, dass irrtümlich als Photoshop-Datei gesichert wird und die Datei dann nicht automatisch in die Bilddatenbank importiert werden kann.] 

Bildunterschriften oder –überschriften gehören //nicht// zum Bild, d.h. Unter- und Überschriften werden weggeschnitten. (Diese Unterschriften werden später aber in die Bilddatenbank aufgenommen!). Bildteile, die nicht zur Abbildung gehören, werden gelöscht. 

=== Benennungen ===
Die Abbildungen werden im Ordner **litID/images** in **Originalgrösse** gesichert und wie folgt benannt: **exakter Seitenname** (ohne extension) **der Herkunftsseite** + Abbildungsbezeichnung + **.tif**. Die Abbildungs¬bezeichnung besteht aus der Abkürzung f für figure und einer laufenden Nummer für nicht einzeln gekennzeichnete Abbildungen einer Seite oder Tafel; eine vorgegebene Nummer, Kennziffer, etc. der Abbildung im Original wird ggf. übernommen, etwa f52, f52b, fa oder auch römische Ziffern: fiv, fv, fvi. Achtung: **Sonderzeichen, Doppelpunkte, Leerzeichen oder Slash sind in Dateinamen nicht erlaubt**: stattdessen Unterstriche verwenden! Diese Angaben werden später automatisch in die Bilddatenbank als Herkunftsangabe übernommen und dienen der Verlinkung im VLP, der korrekte Name der Herkunftsseite ist daher sehr wichtig. 
Beispiele: **p0067f1.tif** = Abb. 1 auf Seite 67; aus Tafeln ausgeschnittene Abbildungen mit einer neu vergebenen Nummerierung bzw. mit bestehender Benennung: **p0067table1f4.tif** = Abb. 4 auf Tafel 1 auf Seite 67, **p0067table1fa.tif** = Abbildung a der gleichen Seite.

=== Erfassung in VL-Images ===
Die ausgeschnittenen und nachbearbeiteten Abbildungen im Ordner **images** werden zum Schluß in die Bilddatenbank **VL-Images** eingetragen. Zum Import dient das Tool **importImageFolderMulti_v4.0**, ein AppleScript: das genaue Vorgehen erläutert eine [[[vlp:imageDB_import|Kurzanleitung]]. Das Skript erstellt die Thumbnails und trägt die technischen Daten der Dateien selbständig ein. Jedes Datenblatt erhält dabei eine eindeutige Identifikationsnummer **imgID**, die in der Folge zur sicheren Identifizierung des Bildes dient. Die Abbildungen werden entsprechend automatisch in **imgID.tif** umbenannt. Danach sind die Datenblätter in FileMaker **so weit wie möglich** auszufüllen. Vor allem daran denken, die originalen Bildunterschriften genau in das Feld "original caption" zu übertragen!

==== A.3.3 Archivierung ====

Zum Abschluß werden der Unterordner **pages** mit den optimierten Text-Scans und der Unterordner **images** mit den vom Importskript bereits umbenannten Abbildungen auf die foxridge nach **archive_data/vlp/litID kopiert**. In der Literaturdatenbank wird dieser Schritt mit der Checkbox **text** (und ggf. **img**) im Feld **status** vermerkt.
 
===== A.4. Scans und Abbildungen für die VLP Website bereitstellen =====

Die fertig bearbeiteten Scans (Text und Abbildungen) werden abschliessend auf **foxridge/online_permanent/vlp** in mehreren Versionen als JPG und im Original (nur **pages**) bereitgestellt. Siehe die detailierte Dokumentation [[http://vlp.mpiwg-berlin.mpg.de/intranet/workflow/archivierung.txt/V1_archivierung.txt|archivierung.txt]]. 

Das Konvertieren der Dateien ist möglichst mit der Mehrfach¬konvertierung des Grafikkonverters oder mit Hilfe von Aktionen und Stapelverarbeitung in Photoshop zu automatisieren. Vorbereitete Batchfiles stehen zur Verfügung.

==== A.4.1. Finals ====

Auf der foxridge wird im Bereich **online_permanent/vlp** ein Ordner mit der litID angelegt (**lit1234**), der die Ordner **pages**, **pagesHi** und **pagesLo** enthält. **pages** wird dazu einfach unverändert in den Ordner litID kopiert. Die Textscans werden jeweils einmal auf 150 dpi (**pagesHi**) und einmal auf 75 dpi (**pagesLo**) heruntergerechnet, leicht geschärft (Photoshop //Filter:Scharfzeichnungsfilter: Scharfzeichnen; Bearbeiten:Scharfzeichnen// verblassen auf 75% / im Grafikkonverter //Effekt:Scharfzeichnen Diagonal 7%//) und als JPG unter gleichem Namen mit der Endung .jpg gesichert (Photoshop: Stufe 7 / Grafikkonverter 75%). 

==== A.4.2. images ====

===images===
Die ausgeschnittenen Abbildungen aus dem Ordner **images** werden wie unter A.4.1. auf **150 dpi** heruntergerechnet, geschärft und ebenfalls als JPG (Qualität 7/75%) **ohne Unterordner** im bereits bestehenden Ordner **foxridge/online_permanent/vlp/images** abgelegt. (batch: GKON_pagesHi)

===thumbnails=== 
Die Abbildungen werden zusätzlich als **thumbnail**  auf eine maximale Kantenlänge von 200 px heruntergerechnet, auf **200x200 px** mit der Hintergrundfarbe **#dddddd / RGB 221:221:221** erweitert, geschärft und ebenfalls als JPG (Qualität 7 / 75%) **ohne Unterordner** im bereits bestehenden Ordner **foxridge/online_permanent/vlp/thumbs** abgelegt. Die thumbnails der Sites-Section werden bei der Erweiterung untenbündig erstellt, alle anderen hingegen zentriert. (batch: GKON_thumbs)

==== A.4.3. Freigabe in der Datenbank ====

Die Verfügbarkeit der Seiten auf dem Server muss abschliessend unbedingt in der Literaturdatenbank eingetragen werden (Feld **status** checkbox: **server**).


====== B. Digitalisieren einzelner Abbildungen ======
 
Wird eine Publikation nicht komplett gescannt, sondern nur einzelne Abbildungen entnommen, gelten prinzipiell die gleichen Regeln wie unter A, allerdings entfallen einige der angeführten Arbeitsschritte.
 
Auch hier muss die Publikation, aus der die Abbildungen entnommen werden, als erstes in der **VL-Literature** eingetragen werden.

Danach werden die Seiten, die die Abbildungen enthalten, nach den üblichen Spezifikationen **vollständig** gescannt. Gerasterte Vorlagen sollten nach Möglichkeit mit **Entrasterung/ Descreening** erneut gescannt werden, im anderen Fall wird wie üblich ausgeschnitten. Je nach Vorlage wird in Farbe oder Graustufen gearbeitet und mit den Abbildungen wie üblich nach A.3.2 verfahren (Benennung, Nachbearbeitung, Backup auf **Foxridge/archive_data/vlp/litID**). Die Erstellung der Finals der Seiten entfällt.

Auch die Bereitstellung entspricht dem normalen Workflow, da es keine Finals gibt, entfällt aber der litID Ordner auf **foxridge/online_permanent/vlp**; es werden nur die 150 dpi JPGs und die thumbnails in **vlp/images** resp. **vlp/thumbs** abgelegt.
 ----


====== Kurzreferenz: ======


=== Digitalisieren von Textquellen ===


jede Publikation wird einzeln erfasst, siehe **Literaturerfassung.doc**

allgemein zur Benennung der Dateien: nur **Kleinbuchstaben** verwenden, laufende **Seitennummern 4-stellig, keine Sonderzeichen** (Umlaute auflösen, Slash, Punkte, Doppelpunkte etc. weglassen oder ggf. durch Binde- oder Unterstrich ersetzen).
  * 1. Erfassung in VL-Literature
  * 2. Referenz-Scans (RawScans)
scannen (alle Seiten, 300dpi, Graustufen, Kontrast, Lage überprüfen!); sichern in Originalgröße als unkomprimiertes TIF (IBM komp.) ohne Miniatur und Symbol in **litID/raw**; backup auf **foxridge/archive/data/vlp/**, status in VL-Literature vermerken (checkbox: **rawScan**), Details siehe [[http://vlp.mpiwg-berlin.mpg.de/intranet/workflow/archivierung.txt/V1_archivierung.txt|archivierung.txt]].
  * 3. Optimierte Scans (Finals) + Abbildungen
a) nachbearbeiten (Gradation, Ausflecken, ggf. Lagekorrektur); sichern in Originalgröße als unkomprimiertes TIF (IBM komp.) in **litID/pages**; 
b) ausschneiden der Abbildungen, sichern in Originalgröße als unkomprimiertes TIF (IBM komp.) ohne Miniatur und Symbol in **litID/images**; importieren und eintragen der Abbildungen in VL-Images; erst anschliessend (unbedingt beachten wegen der automatischen Umbenennung der Dateien!) backup auf **foxridge/archive_data/vlp/**; status in VL-Literature vermerken (checkbox: **text, img**)
  * 4. Bereitstellung fürs Netz
bereitstellen auf **foxridge/online_permanent/vlp/litID**
a) **pages** einmal unverändert als tif und jeweils einmal in 150 dpi und 75 dpi, Schärfen 75%, sichern als JPG Stufe 7 / 75% in **pagesHi** resp. **pagesLo**
b) **images** einmal in 150 dpi, Schärfen 75%, sichern als JPG 75% in **foxridge/online_permanent/vlp/images** und einmal als **thumbnail** 200x200 px erweitert mit Hintergrund **#dddddd**, Schärfen 75%, JPG 75% sichern in **foxridge/online_permanent/vlp/thumbs**
c) Arbeitsgang in VL-Literature eintragen (status checkbox: **server**)

=== Digitalisieren einzelner Abbildungen ===
  * 1. Erfassung der Quelle in VL-Literature
  * 2. RawScans: ganze Seite(n) scannen (300dpi, Graustufen **oder Farbe**, Kontrast, Lage überprüfen!); sichern in Originalgröße als unkomprimiertes TIF (IBM komp.) ohne Miniatur und Symbol in **archive_data/litID/litID/raw**.
  * 3. Abbildung(en) ausschneiden oder ggf. zur Entrasterung erneut scannen und nachbearbeiten (Gradation, ausflecken, löschen nicht zugehöriger Partien, ggf. Lagekorrektur); sichern in Originalgröße als unkomprimiertes TIF (IBM komp.) ohne Miniatur und Symbol in **litID/images**; importieren und eintragen der Abbildungen in **VL-Images**; anschliessend (wegen der automatischen Umbenennung der Dateien!) backup auf foxridge/archive_data/vlp/litID;  status in VL-Literature vermerken (checkbox: **img**)
* 4. Bereitstellung analog zu A.4.b/c; der litID Ordner aus A.4.a entfällt