Skip to content
Matthias Schildwächter edited this page Nov 1, 2017 · 15 revisions

Description (German)

Traditionell werden in Deutschland überwiegend Entscheidungen von Obergerichten veröffentlicht, die Instanzgerichte binden. Deren Urteile werden nur veröffentlicht, wenn sie vorgeschlagen werden. Ursache hierfür ist, dass Entscheidungen, die zumeist personenbezogene Daten enthalten, zur Veröffentlichung anonymisiert werden müssen, was derzeit zu hohen Stückkosten in Handarbeit und geringer Zahl passiert. Teilautomatisierung durch Machine Learning könnte diese Kosten senken.

Die Veröffentlichung von Gerichtsentscheidungen ist außerordentlich wichtig für Rechtsanwendung und Rechtswissenschaft. Dem Rechtsanwender erlaubt sie, Prognosen über den Verfahrensausgang anzustellen oder vorher sein Verhalten anzupassen. Der Rechtswissenschaftler kann die Funktionsweise des Rechtssystems untersuchen und Verbesserungsvorschläge machen. Für beide Zwecke sind aber auch Entscheidungen der Instanzgerichte wertvoll, da viele Rechtsstreite Obergerichten nicht erreichen und regionale oder personenabhängige Unterschiede in der Rechtsanwendung möglich sind.

Mehr veröffentlichte Entscheidungen könnten auch die öffentliche Akzeptanz stärken. Zwar sind Gerichtsverfahren meist öffentlich, aber nur sporadisch besucht. Die Veröffentlichung der Entscheidungen würde hingegen jedermann transparenten Einblick in die Arbeit der Gerichte gewähren.

Eine Teilautomatisierung des Anonymisierungsprozesses wurde bei AnonML mit der Hilfe eines Named Entity Recognizer (NER) und regulären Ausdrücken realisiert. Diese beiden Verfahren werden genutzt, um die für die Identifizierung einer Person kritischen Daten zu finden und diese dem Benutzer der Software als Anonymisierung vorzuschlagen. Ein Benutzer muss diese möglichen Anonymisierungen auf Richtigkeit und Vollständigkeit überprüfen. Überflüssige können abgelehnt, korrekte angenommen und fehlende hinzugefügt werden, um am Ende ein vollständig anonymisiertes Urteil zu erhalten.

Aus jedem bearbeiteten Urteil werden die gefundenen Anonymisierungen als Trainingsdaten für das Model des NER herangezogen, um das Finden der Vorschläge immer weiter zu verbessern. Das Training des Models kann per Knopfdruck erfolgen. Außerdem ist es möglich, Trainingsdaten zu exportieren oder zu importieren, um ein Backup zu erzeugen oder einzuspielen.

Weiterhin besteht die Möglichkeit reguläre Ausrücke zu erstellen, um reguläre Dinge wie z.B. die IBAN zu erfassen.

Installation

Individual instructions are given on the module pages

Build order

To build the project locally, execute mvn clean install on the projects in this order:

  1. Core
  2. Document Management
  3. Rulebased
  4. Machine Learning
  5. Web
  6. Admin

Common prerequisites

All AnonML services need access to MongoDB instance running on port 27017. It is recommended to have at least 6GB of free RAM.

Docker

The integration repository contains a docker file which installs all components.

  1. Give docker about 6 GB of ram
  2. Clone https://github.com/anon-ml/anonml-integration/tree/release and check out the release branch
  3. cd into ‚complete‘ and run docker build . --build-arg user=yourgithubusername:yourgithubpassword --build-arg branch=release -t anonml/release --no-cache (this might take a while)
  4. start with docker run -v DIR:/data/db -p 9000:9000 -p 7000:7000 -p9333:9333 anonml/release (DIR is a path to a folder of your local file system to place the mongo db data in, takes some minutes as well)

Change server context path

To change the context paths of the admin and the web module the application.properties files have to be edited. To keep the links between the UI pages working, it is necessary to let the other module know where to link. When for example the server context path of the admin ui is changed the admin.contextPath attribute of the application.properties file of the web module has to be adapted accordingly (and vice verse).

Clone this wiki locally