TOPICS

EVENTS

Vienna Legal Innovation ´26

Legal Data Engineering und juristische Datensätze: Séan Fobbe im Interview

Mit Legal-Data-Engineer und Gründer Séan Fobbe besprechen wir, warum es nicht reicht, PDFs in die KI kippen und auf Erkenntnisse hoffen. Ohne saubere Daten und effizientes Beherrschen der Software bleibt Legal Tech zu oft nur eine teure Illusion.

Business Circle: Sehr geehrter Herr Fobbe, eingangs etwas Persönliches: Sie sind gerade in der Gründungsphase Ihres eigenen Legal Data Engineering Unternehmens. Was war der konkrete Pain Point in der juristischen Praxis, der Sie dazu gebracht hat – und welches Problem lösen Sie besser als klassische Kanzleien oder Beratungen?

Séan Fobbe: In einer Studie des MIT (Juli 2025) scheiterten 95% aller untersuchten Unternehmen mit dem Versuch durch generativer KI irgendeine Form von Mehrwert zu generieren. Das ist in der juristischen Praxis ähnlich: entweder stehen die Zeichen auf Stillstand oder es wird ohne strategische Weitsicht in teure Tools investiert, die nach außen Fortschritt signalisieren aber intern ungeliebt und ungenutzt Staub ansetzen. Hier gibt es einen ganz erheblichen strategischen Pain Point: warum brauchen wir eigentlich Data Science und KI in einem Unternehmen oder einer Kanzlei und wie unterscheiden wir zwischen Mehrwert und Sackgasse?

Das Problem ist knifflig: um Data Science und KI von Wunschtraum zu Realität werden zu lassen, braucht es ein tiefes Verständnis für alle Teile der Data Science Wertschöpfungskette. Das beginnt bei den zugrundeliegenden Daten und ihrer Qualität, über die technischen Möglichkeiten zu der Verbindung und Analyse von Daten, bis hin zur Integration und Kommunikation der Ergebnisse in juristische und wirtschaftliche Prozesse. Die meisten Expert:innen im Legal Tech-Bereich beherrschen Jura ziemlich gut und haben sich zusätzlich etwas technisches Wissen angeeignet. Einige andere kommen aus technischen Disziplinen und versuchen sich irgendwie in der verschlossenen Welt der Jurist:innen mit ihren vielen Eigenheiten zurechtzufinden, was ja bekanntlich nicht einfach ist.

Mein Anspruch ist es, sowohl Jura als auch Technik auf Spitzenniveau wissenschaftlich voranzutreiben und in der Wertschöpfungskette den vollen Überblick von Anfangsdaten bis Endprodukt zu behalten. Strategisch und technisch berate ich daher mit eine technischen Expertise, die den juristischen und unternehmerischen Mehrwert an vorderste Stelle setzt, aber auch aus der Perspektive eines strategisch denkenden Juristen, der bei allem Wunschdenken die technische Machbarkeit und regulatorische Anforderungen immer im Kopf behält.

BC: Juristische Texte sind hochkomplex und kleine Fehler können gravierende Auswirkungen haben. Welche spezifischen Herausforderungen ergeben sich daraus für Data Engineering und Datenmodellierung?

Fobbe: Wir kennen alle die Beispiele, bei denen ein einzelnes Komma oder die Doppeldeutigkeit eines “Oder” das gesamte rechtliche Ergebnis umkrempeln. Auf Ebene das Data Engineerings fangen die Herausforderungen schon mit den Rohdaten an, die noch viel zu oft aus unsauber gescannten PDFs stammen. Moderne Lösungen zur optischen Zeichenerkennung sind durch neuronale Netzwerke enorm gut geworden, aber vor schlechten Scans rettet einen auch das nicht. Schmutzflecken im Scan werden schnell zu zusätzlichen Satzzeichen oder ändern die Bedeutung von Wörtern. Das hat je nach Umfang erhebliche Konsequenzen in der späteren Analyse.

Juristische Dokumente sind zudem meist streng im Inhalt und hierarchisch strukturiert. Selbst bei digital vorliegenden Daten fehlen diese Annotationen in der Regel, da sie entweder einen sauberen Herstellungsprozess oder eine aufwändige und spezialisierte nachträgliche Annotation erfordern. Man denke nur an den bürokratischen Zeitaufwand, den die manuelle Eingabe von Rechnungsdaten verursacht, der aber zunehmend durch automatisierte Analyse von Scans und die elektronische Rechnungsstellung reduziert wird.

Drei Prinzpien bei Legal-Data Projekten

BC: Welche praktischen Tipps haben Sie für junge Data Scientists, die ein Legal-Data-Projekt starten möchten?

Fobbe: Es gibt drei wichtige Prinzipien, die einem sowohl im Softare Engineering als auch im Data Engineering mittel- und langfristig das Leben einfacher machen, selbst wenn sie am Anfang einiges an Einarbeitungszeit und Aufwand erfordern:

1) Versionskontrolle

2) Reproduzierbarkeit und

3) Modularität

Versionskontrolle von Code dient der sicheren Entwicklung von neuen Features, dem Ausprobieren von Alternativen, dem Zurücksetzen von Fehlern und ermöglicht überhaupt erst die Skalierung eines Projekts durch die Zusammenarbeit von mehreren Entwickler:innen. Git ist der moderne Standard für Versionskontrollsysteme (VCS), auch wenn vereinzelt noch ältere VCS im Einsatz sind.

Reproduzierbarkeit klingt zunächst nach einem trockenen akademischen Prinzip, ist aber in Wahrheit überlebensnotwendig für jedes Business. Vereinfacht gesagt heißt Reproduzierbarkeit: wenn meine Software heute funktioniert, dann funktioniert sie morgen auch noch, selbst wenn das Team wechselt oder sie auf neuer Infrastruktur ausgeführt wird. Besonders kritisch sind hier externe Software-Abhängigkeiten, bei denen Änderungen zu erheblichen Folgeeffekten führen können. Man bekommt dieser aber mit dem sauberen Einsatz von Docker gut unter Kontrolle. Anfänger:innen können auch mit der Freeze-Funktionalität von pip für Python oder mit {renv} für R solide Ergebnisse erzielen.

Modularität in Projekten reduziert Komplexität und Entwicklungsaufwand, erhöht die Ausfallsicherheit und ermöglicht gezielte Tests von Funktionalität. Beispielsweise trenne ich gerne das Web Scraping in drei Teile: ein Modul erstellt die Liste zu scrapender Seiten, ein Modul lädt die HTML-Dateien runter, ein Modul wertet die Dateien aus (Parser). Parser für fremde Webseiten sind sehr fragil, da schon kleinste Änderungen an der fremden Website zu Fehlern führen. Durch Modularität bleiben die Ergebnisse der ersten beiden Module nützlich, selbst wenn das dritte Modul Fehler erzeugt.

BC: Daran anschließend: Wo sehen Sie in Zukunft die größten Marktchancen im Bereich Legal Data Engineering?

Fobbe: Nach über drei Jahren des KI-Hypes sind im Grunde alle öffentlichen Datenquellen abgegrast. Das Internet füllt sich aber zunehmend mit KI-generierten Wegwerftexten. Ich gehe davon aus, dass in Zukunft weniger qualitative hochwertige Daten veröffentlicht werden.

Die großen KI-Anbieter versuchen Kund:innen an die eigenen Chatbots zu binden und leiten immer weniger Traffic und Umsatz an kleinere Unternehmen, non-profits und private Projekte weiter. Beispielsweise meldete das Unternehmen Tailwind Labs (bekannt für Tailwind CSS) vor ein paar Wochen den Verlust von 80% seines Umsatzes und musste 75% seines Teams entlassen. Chatbots geben zwar Code und Daten von Tailwind wieder, aber behalten den Traffic für sich. Tailwinds kommerzielle Angebote werden so nicht mehr gefunden und gebucht.

Mehr dazu

Es wird daher immer wichtiger, eigene hochwertige Daten herzustellen, bereits vorhandene interne Daten zu reinigen und aufzubereiten, sowie daraus sauber nutzbare Datenprodukte zu erstellen. Legal Data Engineering ist darauf spezialisiert diesen Prozess anzustoßen, strategisch zu begleiten, technisch umzusetzen und organisatorisch zu institutionalisieren. Marktchancen ergeben sich, wenn diese Datenprodukte intern kompetent genutzt werden und einen Informationsvorsprung bzw. Wettbewerbsvorteil bieten oder extern im Rahmen von Kooperationen wirtschaftlich verwertet werden können, wie es bereits einige juristische Fachverlage tun.

BC: Auf der Vienna Legal Innovation 26 werden wir viel über juristische KI-Lösungen sprechen. Was sind typische Fehler, die Teams in Legal-Tech-Projekten bei der Datenerstellung machen?

Fobbe: Der erste Fehler ist schon gar nicht erst an die Datenerstellung zu denken und zu hoffen, dass man alle im Unternehmen vorhandenen PDFs einfach in die KI werfen kann und alles gut wird. Wenn kein Budget für Datenreinigung und -annotation vorhanden ist und der Umfang des Problems später erst bei der Analyse klar wird, dann muss man wieder zurück auf Los, mit erheblichen Verzögerungen, Irritationen bei den Stakeholdern und mit der Möglichkeit, dass das Projekt nach vielen Wochen und Monaten überraschend scheitert.

Ein Klassiker ist auch die mangelhafte Dokumentation von Daten. Gerade bei größeren Organisationen gibt es viele unterschiedliche Teams, die Datenprodukte erstellen, Datenprodukte analysieren und Analyseprodukte konsumieren. Wenn da die Dokumentation nicht stimmt, gleicht der ganze Prozess einem Spiel der Flüsterpost und am Ende der Kette kommt ein völlig falscher Eindruck an. Daten können auch verwaisen. Wenn niemand aus der ursprünglichen Datenproduktion mehr in der Organisation arbeitet, können teure Terabytes zu einfachem Datenmüll werden.

BC: Das Wichtigste für Data Engineering ist es, saubere Rohdaten zu haben. Was sind in Ihrer Arbeit die größten Hürden: Komplexe Rechtssprache und verschachtelte Sätze / unterschiedliche Schreibstile von Gerichten und Behörden / Urheberrechtliche Beschränkungen oder etwas ganz Anderes?

Fobbe: Die Rechtssprache ist im Grunde ein sehr dankbarer Gegenstand für die maschinelle Analyse von Texten, eben weil sie so förmlich, rigide und Buzzword-orientiert ist. Dadurch lassen sich gut Regelmäßigkeiten aufdecken. Schwierig ist die unzureichende Versionskontrolle bei Gesetzen (Altfassungen von Bundesgesetzen und -verordnungen werden in Deutschland nur durch mich und wenige andere Projekte veröffentlicht), die fehlende öffentliche Verfügbarkeit von älterer Rechtsprechung aus staatlichen Quellen und der Mangel an strukturierten Annotationen für gezielte Arbeit.

Ich würde mir deutlich mehr staatliches Engagement bei der originären Bereitstellung strukturierter und maschinenlesbarer Rechtsdaten wünschen, weil dadurch der Wettbewerb im Legal Tech-Markt gefördert wird und nicht von einigen Daten-Oligopolisten gebremst wird.

BC: Abschließend: Das wird Ihr erster Auftritt bei uns – Glückwunsch dazu! Warum ist es aus Ihrer Sicht wichtig, dass sich die Legal-Tech Szene auch irl vernetzt und worauf freuen Sie sich am meisten?

Fobbe: Herzlichen Dank! Corona hat uns allen gezeigt, wie wichtig persönlicher Kontakt ist, selbst im Zeitalter der Digitalisierung. Am meisten freue ich mich auf die Gespräche am Buffet, am Desserttisch treffe ich immer die spannendsten Leute!

BC: Sehr geehrter Herr Fobbe, herzlichen Dank für das offene Gespräch und die konkreten Perspektiven auf Hype vs echtem Mehrwert. Wir freuen uns schon, bei der Vienna Legal Innovation mehr davon zu hören.

Text Link
Finance, Legal & Tax
Text Link
Innovation