Saubere Daten durch KI – nicht saubere Daten für KI
Daten zuerst bereinigen, dann KI einsetzen – das war lange der richtige Ansatz. Aber moderne KI dreht die Reihenfolge um: Sie strukturiert die Daten selbst und schafft damit die Grundlage für Automatisierung.
Orcha Team
April 2026
Wer schon einmal ein Datenprojekt im Finanzbereich gestartet hat, kennt den Satz: „Erst müssen wir die Daten aufräumen.“ Sechs Monate später wird immer noch bereinigt. Der Kontenrahmen ist halb migriert, das Data-Warehouse-Projekt steckt in der Abstimmung, und von KI ist keine Rede mehr.
Regelbasierte Systeme brauchten tatsächlich exakte Eingaben – wenn in einem Datumsfeld „15.03.2024“, „March 15, 2024“ und „2024-03-15“ standen, scheiterte jede Automatisierung an Zeile eins.
Moderne KI arbeitet fundamental anders. Sie versteht Kontext, erkennt Muster und interpretiert Daten semantisch. Sie erkennt, dass „Reisek.“, „Reisekosten“ und „Travel Expenses“ dieselbe Kategorie beschreiben. Und sie kann aus einer unstrukturierten E-Mail mit Rechnungsanhang die relevanten Felder extrahieren – ohne dass jemand vorher ein Schema definiert hat.
Eine aktuelle Übersichtsstudie (Can LLMs Clean Up Your Mess?, arXiv 2025) zeigt: LLM-basierte Datenaufbereitung kann die Kosten gegenüber manueller Bereinigung um ein Vielfaches senken – weil das Modell Abkürzungen, Synonyme und branchenspezifische Begriffe semantisch auflöst, statt auf exakte Zeichenketten angewiesen zu sein.
Der neue Ansatz: KI als Strukturierungsschicht
Die entscheidende Verschiebung: KI sitzt nicht mehr am Ende einer sauberen Datenpipeline. Sie sitzt am Anfang – als Strukturierungsschicht zwischen den Rohdaten und der Datenbank.
Datenquellen anbinden
Vorhandene Systeme werden verbunden – ERP, Excel-Dateien, E-Mails, Bankportale. Kein Export, keine Migration, keine Formatanpassung.
KI liest, interpretiert und strukturiert
Die KI versteht den Inhalt – unabhängig von Format, Sprache oder Konvention. Sie extrahiert die relevanten Informationen und bringt sie in eine einheitliche Struktur.
Saubere Daten landen in einer Datenbank
Das Ergebnis: strukturierte, normalisierte Daten – abfragbar mit SQL, BI-Tools, Dashboards oder erneut mit KI.
Bestehende Infrastruktur bleibt
Das ERP wird nicht ersetzt, die Excel-Listen nicht migriert. Die KI-Schicht dockt an das an, was da ist – auch an Legacy-Systeme.
McKinsey beschreibt genau diesen Ansatz in einer Studie von 2025: Ein Fortune-500-Handelsunternehmen stoppte ein 780-Millionen-Dollar-ERP-Migrationsprojekt und setzte stattdessen auf eine KI-Schicht über den bestehenden Systemen. Schnellere Ergebnisse, geringere Kosten, kein Betriebsstillstand. Das Prinzip funktioniert im Mittelstand genauso – nur eben mit Excel und DATEV statt mit SAP.
Was das für Finanzteams bedeutet
Legacy-Buchhaltung
Ihr Buchhaltungssystem ist zehn Jahre alt? Anbinden, nicht ersetzen. KI liest die Daten so, wie sie sind.
Excel-Historien
Jahrelange Finanzdaten in Excel? KI strukturiert sie automatisch – auch wenn jedes Jahr ein anderes Format hatte.
Kontenrahmen-Mapping
Unterschiedliche Kontenrahmen über Gesellschaften hinweg? KI mappt sie automatisch – auch bei abweichenden Bezeichnungen.
E-Mail-Belege
Rechnungen kommen als PDF per E-Mail? KI extrahiert Absender, Betrag, Kostenstelle – ohne manuelle Vorsortierung.
Fazit
Datenqualität ist immer noch relevant – aber der Ort, an dem sie sichergestellt wird, hat sich verschoben. Früher mussten die Quelldaten perfekt sein, bevor ein System damit arbeiten konnte. Heute kann KI die Strukturierung übernehmen und saubere Daten produzieren, statt sie nur zu konsumieren.
Und sobald die Daten strukturiert in einer Datenbank liegen, wird der nächste Schritt möglich: automatisierte Abstimmungen, Echtzeit-Reporting, regelbasierte Freigaben – alles, was bisher an der Datenqualität scheiterte, läuft jetzt auf einer sauberen Grundlage.
Die eigentliche Frage ist also nicht, ob die Daten sauber genug für KI sind. Sondern ob wir KI nutzen, um die Daten sauber zu bekommen – und dann darauf aufzubauen. Ohne ERP-Wechsel, ohne monatelanges Bereinigungsprojekt, mit der Infrastruktur, die schon da ist.
Quellen
- arXiv – Can LLMs Clean Up Your Mess? Survey on LLM-Enhanced Data Preparation (2025). arxiv.org
- McKinsey – Bridging the Great AI Agent and ERP Divide (2025). mckinsey.com
Ähnliche Artikel
Neue Tipps direkt in Ihren Posteingang
Abonnieren Sie unseren Newsletter und erhalten Sie praktische KI-Tipps für Ihren Arbeitsalltag.