From aa54cc4fd1a430a671cbd0c276f18c202288dc1c Mon Sep 17 00:00:00 2001
From: tboenig
Date: Mon, 11 Dec 2023 17:11:24 +0100
Subject: [PATCH] add ruleset
---
.gitignore | 1 +
de/ocrd_ocrd.ditamap | 5 ++-
de/trans/lySeitentypen2.dita | 62 ++++++++++++++++++++++++++++++++
de/trans/ruleset.dita | 41 +++++++++++++++++++++
schema/OCR-D-GT-levelSchema.json | 25 +++++++++++++
5 files changed, 133 insertions(+), 1 deletion(-)
create mode 100644 de/trans/lySeitentypen2.dita
create mode 100644 de/trans/ruleset.dita
create mode 100644 schema/OCR-D-GT-levelSchema.json
diff --git a/.gitignore b/.gitignore
index f1b43ff3..2aab068c 100644
--- a/.gitignore
+++ b/.gitignore
@@ -13,3 +13,4 @@ broomer.sh
*_archiv.xml
new/
out/
+parser/
diff --git a/de/ocrd_ocrd.ditamap b/de/ocrd_ocrd.ditamap
index e1e43948..15d99951 100644
--- a/de/ocrd_ocrd.ditamap
+++ b/de/ocrd_ocrd.ditamap
@@ -128,7 +128,9 @@
-
+
+
+
@@ -175,6 +177,7 @@
+
diff --git a/de/trans/lySeitentypen2.dita b/de/trans/lySeitentypen2.dita
new file mode 100644
index 00000000..3c6b484b
--- /dev/null
+++ b/de/trans/lySeitentypen2.dita
@@ -0,0 +1,62 @@
+
+
+
+ Titelblätter, Inhaltsverzeichnisse, Register, Indizies
+
+ formale und inhaltliche Aspekte
+ Diese Seitentypen können als besondere Seiten angesehen werden. Sie enthalten spezifische
+ Metadaten oder werden für spezifische Funktionen genutzt:
+ - Titelblatt → bibliographische Metadaten zur Publikation
+ - Inhaltsverzeichnisse, Verzeichnisse → inhaltlich-strukturelle Metadaten zur
+ Publikation mit einer Auflistung aller Abschnitte, Kapitel der
+ Publikation
+ - Register, Indizies → inhaltliche Metadaten zur Publikation in dem Register,
+ Indizies die Publikation zu bestimmten Aspekten den Inhalt ordnen
+
+
+
+
+ Transkription dieser SeitentypenVor allem die Segmentierung dieser Seiten sollte sich am Zweck des GTs orientieren.
+ Es wird empfohlen
+
+
+
+ Seitentyp
+ Segmentierungen
+ Page @typ
+
+
+ Titelblatt
+
+
+ - <TextRegion type="paragraph">
+ - <TextRegion type="paragraph">
+
+
+ title
+
+
+ Inhaltsverzeichnisse, Verzeichnisse
+
+
+ - <TextRegion type="header">
+ - <TextRegion type="paragraph">
+
+ table-of-contents
+
+
+ Register, Indizies
+
+
+ - <TextRegion type="header">
+ - <TextRegion type="paragraph">
+
+
+ index
+
+
+
+
+
+
+
diff --git a/de/trans/ruleset.dita b/de/trans/ruleset.dita
new file mode 100644
index 00000000..015f2e56
--- /dev/null
+++ b/de/trans/ruleset.dita
@@ -0,0 +1,41 @@
+
+
+
+ OCR-D-GT-Ruleset
+
+ Das OCR-D-GT-Ruleset ist ein Regelsatz, der verschiedene Schreibweisen von Buchstaben in
+ verschiedenen Level der Transkription dokumentiert. Es sind drei Level vorgesehen:
+ - Die erste Spalte enthält die Schreibweise, die spezifische drucktechnische
+ Aspekte und typographischen Besonderheiten nicht beachten ().
+ - die zweite Spalte enthält die Schreibweise, die Drucktechnischen
+ Gegebenheiten wiedergeben und eine Interpretation von Zeichen orientiert
+ sich am Gebrauch im Sprach- und Schriftsystem ().
+ - die dritte Spalte enthält die Schreibweise, die eine Interpretation von
+ Graphen vollständig unterlässt. Der Graph wird als ein Codepoint unter
+ Nutzung von standardisierten Kodierungen (Unicode), communitynormierten
+ Kodierungen (MUFI) und durch das Koordinierungsgremium festgelegten Kodierungen
+ abgebildet ().
+
+
+
+ {"ruleset":[
+
+ {"rule": ["a","a","a"], "type": "level"},
+ {"rule": ["aa","ã","ã"], "type": "level"},
+ {"rule": ["e","e","e"], "type": "level"}
+
+ ]
+ }
+
+ Das OCR-D-GT-Ruleset wird im JSON-Format gespeichert.
+ Das OCR-D-GT-Ruleset-JSON-Schema entspicht der Version 2020-12.
+
+ - OCR-D-GT-Ruleset-JSON-Schema
+
+
+
+
diff --git a/schema/OCR-D-GT-levelSchema.json b/schema/OCR-D-GT-levelSchema.json
new file mode 100644
index 00000000..60e2b40f
--- /dev/null
+++ b/schema/OCR-D-GT-levelSchema.json
@@ -0,0 +1,25 @@
+{
+ "$schema": "https://json-schema.org/draft/2020-12/schema",
+ "title": "OCR-D-GT-levelSchema",
+ "description": "The OCR-D-GT-LevelRuleset is a set of rules that documents different ways of writing letters at different levels of transcription. Three levels are provided.",
+ "type": "object",
+ "properties": {
+ "ruleset": {
+ "type": "array",
+ "items": {
+ "type": "object",
+ "properties": {
+ "rule": {
+ "type": "array",
+ "items": {
+ "type": "string"
+ }
+ },
+ "type": {
+ "type": "string"
+ }
+ }
+ }
+ }
+ }
+}
\ No newline at end of file