From aa54cc4fd1a430a671cbd0c276f18c202288dc1c Mon Sep 17 00:00:00 2001 From: tboenig Date: Mon, 11 Dec 2023 17:11:24 +0100 Subject: [PATCH] add ruleset --- .gitignore | 1 + de/ocrd_ocrd.ditamap | 5 ++- de/trans/lySeitentypen2.dita | 62 ++++++++++++++++++++++++++++++++ de/trans/ruleset.dita | 41 +++++++++++++++++++++ schema/OCR-D-GT-levelSchema.json | 25 +++++++++++++ 5 files changed, 133 insertions(+), 1 deletion(-) create mode 100644 de/trans/lySeitentypen2.dita create mode 100644 de/trans/ruleset.dita create mode 100644 schema/OCR-D-GT-levelSchema.json diff --git a/.gitignore b/.gitignore index f1b43ff3..2aab068c 100644 --- a/.gitignore +++ b/.gitignore @@ -13,3 +13,4 @@ broomer.sh *_archiv.xml new/ out/ +parser/ diff --git a/de/ocrd_ocrd.ditamap b/de/ocrd_ocrd.ditamap index e1e43948..15d99951 100644 --- a/de/ocrd_ocrd.ditamap +++ b/de/ocrd_ocrd.ditamap @@ -128,7 +128,9 @@ - + + + @@ -175,6 +177,7 @@ + diff --git a/de/trans/lySeitentypen2.dita b/de/trans/lySeitentypen2.dita new file mode 100644 index 00000000..3c6b484b --- /dev/null +++ b/de/trans/lySeitentypen2.dita @@ -0,0 +1,62 @@ + + + + Titelblätter, Inhaltsverzeichnisse, Register, Indizies +
+ formale und inhaltliche Aspekte +

Diese Seitentypen können als besondere Seiten angesehen werden. Sie enthalten spezifische + Metadaten oder werden für spezifische Funktionen genutzt:

    +
  • Titelblatt → bibliographische Metadaten zur Publikation
  • +
  • Inhaltsverzeichnisse, Verzeichnisse → inhaltlich-strukturelle Metadaten zur + Publikation mit einer Auflistung aller Abschnitte, Kapitel der + Publikation
  • +
  • Register, Indizies → inhaltliche Metadaten zur Publikation in dem Register, + Indizies die Publikation zu bestimmten Aspekten den Inhalt ordnen
  • +
+

+
+
+ Transkription dieser Seitentypen

Vor allem die Segmentierung dieser Seiten sollte sich am Zweck des GTs orientieren.

+

Es wird empfohlen

+

+ + + Seitentyp + Segmentierungen + Page @typ + + + Titelblatt + +

    +
  • <TextRegion type="paragraph">
  • +
  • <TextRegion type="paragraph">
  • +
+ + title + + + Inhaltsverzeichnisse, Verzeichnisse + +
    +
  • <TextRegion type="header">
  • +
  • <TextRegion type="paragraph">
  • +
+ table-of-contents +
+ + Register, Indizies + +
    +
  • <TextRegion type="header">
  • +
  • <TextRegion type="paragraph">
  • +
+
+ index +
+ +

+
+ + +
diff --git a/de/trans/ruleset.dita b/de/trans/ruleset.dita new file mode 100644 index 00000000..015f2e56 --- /dev/null +++ b/de/trans/ruleset.dita @@ -0,0 +1,41 @@ + + + + OCR-D-GT-Ruleset + +

Das OCR-D-GT-Ruleset ist ein Regelsatz, der verschiedene Schreibweisen von Buchstaben in + verschiedenen Level der Transkription dokumentiert. Es sind drei Level vorgesehen:

    +
  • Die erste Spalte enthält die Schreibweise, die spezifische drucktechnische + Aspekte und typographischen Besonderheiten nicht beachten ().
  • +
  • die zweite Spalte enthält die Schreibweise, die Drucktechnischen + Gegebenheiten wiedergeben und eine Interpretation von Zeichen orientiert + sich am Gebrauch im Sprach- und Schriftsystem ().
  • +
  • die dritte Spalte enthält die Schreibweise, die eine Interpretation von + Graphen vollständig unterlässt. Der Graph wird als ein Codepoint unter + Nutzung von standardisierten Kodierungen (Unicode), communitynormierten + Kodierungen (MUFI) und durch das Koordinierungsgremium festgelegten Kodierungen + abgebildet ().
  • +

+

+ + {"ruleset":[ + + {"rule": ["a","a","a"], "type": "level"}, + {"rule": ["aa","ã","ã"], "type": "level"}, + {"rule": ["e","e","e"], "type": "level"} + + ] + } +

+

Das OCR-D-GT-Ruleset wird im JSON-Format gespeichert.

+

Das OCR-D-GT-Ruleset-JSON-Schema entspicht der Version 2020-12.

+
    +
  • OCR-D-GT-Ruleset-JSON-Schema
  • + +
+ +
diff --git a/schema/OCR-D-GT-levelSchema.json b/schema/OCR-D-GT-levelSchema.json new file mode 100644 index 00000000..60e2b40f --- /dev/null +++ b/schema/OCR-D-GT-levelSchema.json @@ -0,0 +1,25 @@ +{ + "$schema": "https://json-schema.org/draft/2020-12/schema", + "title": "OCR-D-GT-levelSchema", + "description": "The OCR-D-GT-LevelRuleset is a set of rules that documents different ways of writing letters at different levels of transcription. Three levels are provided.", + "type": "object", + "properties": { + "ruleset": { + "type": "array", + "items": { + "type": "object", + "properties": { + "rule": { + "type": "array", + "items": { + "type": "string" + } + }, + "type": { + "type": "string" + } + } + } + } + } +} \ No newline at end of file