Leitfaden 5 Min. Lesezeit

Saubere Daten durch KI – nicht saubere Daten für KI

Daten zuerst bereinigen, dann KI einsetzen – das war lange der richtige Ansatz. Aber moderne KI dreht die Reihenfolge um: Sie strukturiert die Daten selbst und schafft damit die Grundlage für Automatisierung.

MB

Kurz gesagt

Jahrelang galt: erst die Daten bereinigen, dann KI einsetzen. Moderne KI dreht diese Reihenfolge um. Sie liest unstrukturierte Belege, Tabellen und Texte und strukturiert sie selbst – saubere Daten sind also das Ergebnis, nicht die Voraussetzung. Damit entfällt das monatelange Aufräumen, das viele Datenprojekte im Finanzbereich blockiert, bevor sie überhaupt Nutzen stiften.

Wer schon einmal ein Datenprojekt im Finanzbereich gestartet hat, kennt den Satz: „Erst müssen wir die Daten aufräumen.“ Sechs Monate später wird immer noch bereinigt. Der Kontenrahmen ist halb migriert, das Data-Warehouse-Projekt steckt in der Abstimmung, und von KI ist keine Rede mehr.

Regelbasierte Systeme brauchten tatsächlich exakte Eingaben – wenn in einem Datumsfeld „15.03.2024“, „March 15, 2024“ und „2024-03-15“ standen, scheiterte jede Automatisierung an Zeile eins.

Moderne KI arbeitet fundamental anders. Sie versteht Kontext, erkennt Muster und interpretiert Daten semantisch. Sie erkennt, dass „Reisek.“, „Reisekosten“ und „Travel Expenses“ dieselbe Kategorie beschreiben. Und sie kann aus einer unstrukturierten E-Mail mit Rechnungsanhang die relevanten Felder extrahieren – ohne dass jemand vorher ein Schema definiert hat.

Eine aktuelle Übersichtsstudie (Can LLMs Clean Up Your Mess?, arXiv 2025) zeigt: LLM-basierte Datenaufbereitung kann die Kosten gegenüber manueller Bereinigung um ein Vielfaches senken – weil das Modell Abkürzungen, Synonyme und branchenspezifische Begriffe semantisch auflöst, statt auf exakte Zeichenketten angewiesen zu sein.

Der neue Ansatz: KI als Strukturierungsschicht

Die entscheidende Verschiebung: KI sitzt nicht mehr am Ende einer sauberen Datenpipeline. Sie sitzt am Anfang – als Strukturierungsschicht zwischen den Rohdaten und der Datenbank.

1

Datenquellen anbinden

Vorhandene Systeme werden verbunden – ERP, Excel-Dateien, E-Mails, Bankportale. Kein Export, keine Migration, keine Formatanpassung.

2

KI liest, interpretiert und strukturiert

Die KI versteht den Inhalt – unabhängig von Format, Sprache oder Konvention. Sie extrahiert die relevanten Informationen und bringt sie in eine einheitliche Struktur.

3

Saubere Daten landen in einer Datenbank

Das Ergebnis: strukturierte, normalisierte Daten – abfragbar mit SQL, BI-Tools, Dashboards oder erneut mit KI.

4

Bestehende Infrastruktur bleibt

Das ERP wird nicht ersetzt, die Excel-Listen nicht migriert. Die KI-Schicht dockt an das an, was da ist – auch an Legacy-Systeme.

McKinsey beschreibt genau diesen Ansatz in einer Studie von 2025: Ein Fortune-500-Handelsunternehmen stoppte ein 780-Millionen-Dollar-ERP-Migrationsprojekt und setzte stattdessen auf eine KI-Schicht über den bestehenden Systemen. Schnellere Ergebnisse, geringere Kosten, kein Betriebsstillstand. Das Prinzip funktioniert im Mittelstand genauso – nur eben mit Excel und DATEV statt mit SAP.

Was das für Finanzteams bedeutet

Legacy-Buchhaltung

Ihr Buchhaltungssystem ist zehn Jahre alt? Anbinden, nicht ersetzen. KI liest die Daten so, wie sie sind.

Excel-Historien

Jahrelange Finanzdaten in Excel? KI strukturiert sie automatisch – auch wenn jedes Jahr ein anderes Format hatte.

Kontenrahmen-Mapping

Unterschiedliche Kontenrahmen über Gesellschaften hinweg? KI mappt sie automatisch – auch bei abweichenden Bezeichnungen.

E-Mail-Belege

Rechnungen kommen als PDF per E-Mail? KI extrahiert Absender, Betrag, Kostenstelle – ohne manuelle Vorsortierung.

Fazit

Datenqualität ist immer noch relevant – aber der Ort, an dem sie sichergestellt wird, hat sich verschoben. Früher mussten die Quelldaten perfekt sein, bevor ein System damit arbeiten konnte. Heute kann KI die Strukturierung übernehmen und saubere Daten produzieren, statt sie nur zu konsumieren.

Und sobald die Daten strukturiert in einer Datenbank liegen, wird der nächste Schritt möglich: automatisierte Abstimmungen, Echtzeit-Reporting, regelbasierte Freigaben – alles, was bisher an der Datenqualität scheiterte, läuft jetzt auf einer sauberen Grundlage.

Die eigentliche Frage ist also nicht, ob die Daten sauber genug für KI sind. Sondern ob wir KI nutzen, um die Daten sauber zu bekommen – und dann darauf aufzubauen. Ohne ERP-Wechsel, ohne monatelanges Bereinigungsprojekt, mit der Infrastruktur, die schon da ist.

Quellen

  1. arXiv – Can LLMs Clean Up Your Mess? Survey on LLM-Enhanced Data Preparation (2025). arxiv.org
  2. McKinsey – Bridging the Great AI Agent and ERP Divide (2025). mckinsey.com

Bei Orcha: Nach genau diesem Prinzip arbeitet der Dokumenten-Agent: Er liest unstrukturierte Belege, klassifiziert sie und macht daraus strukturierte, GoBD-konform abgelegte Daten – saubere Daten entstehen also unterwegs, nicht als Vorbedingung.

Häufige Fragen

Müssen wir unsere Daten erst bereinigen, bevor wir KI einsetzen können?

Nicht mehr zwingend. Regelbasierte Systeme brauchten exakte Eingaben, moderne KI dagegen versteht Kontext und interpretiert Daten semantisch. Saubere Daten werden so zum Ergebnis der KI-Verarbeitung, nicht zur Voraussetzung – das monatelange Aufräumen vorab entfällt.

Wie unterscheidet sich moderne KI von früheren regelbasierten Systemen?

Regelbasierte Systeme scheiterten schon an unterschiedlichen Datumsformaten oder Schreibweisen. Moderne KI erkennt, dass „Reisek.“, „Reisekosten“ und „Travel Expenses“ dieselbe Kategorie meinen, und extrahiert relevante Felder auch aus unstrukturierten E-Mails – ohne dass vorher ein Schema definiert wurde.

Was bedeutet es, dass KI als Strukturierungsschicht arbeitet?

Die KI sitzt nicht mehr am Ende einer sauberen Datenpipeline, sondern am Anfang – zwischen Rohdaten und Datenbank. Sie liest die angebundenen Quellen, interpretiert und strukturiert die Inhalte und legt das Ergebnis als normalisierte, abfragbare Daten ab.

Muss dafür unser ERP oder Buchhaltungssystem ersetzt werden?

Nein. Die KI-Schicht dockt an die bestehende Infrastruktur an, auch an Legacy-Systeme und Excel-Historien. Das ERP wird nicht ersetzt und die Listen werden nicht migriert – die Daten werden so gelesen, wie sie sind.

Neue Tipps direkt in Ihren Posteingang

Abonnieren Sie unseren Newsletter und erhalten Sie praktische KI-Tipps für Ihren Arbeitsalltag.