KI-Glossar für Fortgeschrittene: Subagenten, Vision, Python & Co.

Agenten & Automatisierung

Im ersten Teil haben wir erklärt, was ein Agent ist. Hier geht es um die Konzepte, die Agenten in der Praxis erst richtig nützlich machen.

Subagent (Unter-Agent)

Ein spezialisierter Agent, der von einem übergeordneten Agenten für eine bestimmte Teilaufgabe aufgerufen wird. Der Hauptagent koordiniert – die Subagenten sind die Spezialisten.

Finanzbeispiel: Der Hauptagent verarbeitet eine Rechnung. Für die steuerliche Prüfung ruft er einen Steuer-Subagenten, für die Kontierung einen Buchhaltungs-Subagenten. Wie in einem Team, in dem die Teamleitung Aufgaben an Fachleute delegiert.

Human-in-the-Loop

Ein Workflow-Design, bei dem die KI Routinefälle selbstständig bearbeitet, aber unsichere oder kritische Fälle an einen Menschen eskaliert. Der Goldstandard für KI im Finanzbereich.

Finanzbeispiel: Die KI kontiert 90% der Rechnungen automatisch. Bei den restlichen 10% – unklare Kontozuordnung, ungewöhnlicher Betrag – legt sie den Fall einem Menschen vor.

Konfidenzwert (Confidence Score)

Ein Maß dafür, wie sicher sich die KI bei ihrer Ausgabe ist – ausgedrückt als Zahl zwischen 0 und 1 (oder 0–100%). Liegt der Wert unter einem definierten Schwellenwert, wird der Fall an einen Menschen weitergeleitet.

Finanzbeispiel: Die KI erkennt einen Lieferanten mit 98% Konfidenz → automatische Verarbeitung. Bei nur 65% → manueller Review. So steuern wir Qualität und Risiko.

Sehen & Verstehen: Wie KI Dokumente liest

KI kann nicht nur Text verarbeiten – sie kann auch Bilder, PDFs und Scans „sehen“. Das verändert, wie wir mit Dokumenten arbeiten.

Multimodal

Ein Modell, das nicht nur Text, sondern auch Bilder, PDFs oder Audio verarbeiten kann. Moderne LLMs (Large Language Models, siehe Teil 1) wie Claude und ChatGPT sind multimodal – wir können ihnen ein Foto einer Rechnung schicken, und sie lesen den Inhalt.

Finanzbeispiel: Statt eine Rechnung erst zu scannen und umzuwandeln, laden wir das PDF direkt hoch – die KI liest Betrag, Lieferant und Positionen direkt aus dem Bild.

OCR (Optical Character Recognition)

Texterkennung: Eine Technologie, die Text aus Bildern oder gescannten Dokumenten in maschinenlesbaren Text umwandelt. Die klassische Methode, um Papierdokumente digital verarbeitbar zu machen.

Finanzbeispiel: Der Scanner auf dem Schreibtisch macht ein Bild – OCR macht daraus durchsuchbaren Text. Aber: OCR erkennt nur Zeichen, es versteht nicht, was sie bedeuten. (Mehr dazu in unserem Vergleich OCR vs. KI-Extraktion.)

Vision (Computer Vision / Bilderkennung)

Die Fähigkeit eines LLM, Bilder nicht nur zu lesen, sondern zu verstehen. Während klassische OCR nur einzelne Zeichen erkennt, versteht ein Vision-Modell den gesamten Kontext: Es weiß, dass „12.500,00“ neben „Nettobetrag“ auf einer deutschen Rechnung der Nettobetrag ist – egal wie das Layout aussieht.

Finanzbeispiel: Wir fotografieren einen Stapel Papierrechnungen mit dem Handy – verschiedene Lieferanten, verschiedene Länder, verschiedene Sprachen. Das Vision-Modell erkennt bei jeder Rechnung Lieferant, Betrag, Positionen und Steuersätze – ohne dass wir für jedes Layout eine Vorlage anlegen müssen.

OCR vs. Vision – der entscheidende Unterschied

OCR erkennt Buchstaben. Vision versteht Bedeutung. Ein Vision-Modell kann sagen: „Diese Rechnung hat eine fehlerhafte Steuerberechnung“ – weil es den Kontext versteht und Unstimmigkeiten erkennen kann. Klassische OCR-Systeme brauchen oft Vorlagen pro Lieferant für strukturierte Extraktion – Vision-Modelle nicht.

Wichtig: Auch wenn Vision-Modelle „out of the box“ beeindruckend gut funktionieren – für einen skalierbaren Prozess mit hoher Qualität braucht es trotzdem viel Engineering. Fehlerbehandlung, Kostenoptimierung, Validierung und Geschwindigkeit sind Herausforderungen, die erst bei größeren Mengen sichtbar werden. (Mehr dazu: OCR vs. KI-Extraktion.)

Wie KI im Hintergrund arbeitet

Wenn wir mit KI-Tools arbeiten, passiert hinter den Kulissen mehr, als wir sehen. Diese Begriffe helfen uns, das Ergebnis besser einzuordnen.

Python

Eine Programmiersprache, die in der Datenanalyse weit verbreitet ist. LLMs können Python-Code im Hintergrund schreiben und ausführen, wenn wir Daten analysieren lassen. Bei ChatGPT und Claude wird der Code automatisch im Hintergrund ausgeführt. Wir sehen ihn nie – nur das Ergebnis.

Finanzbeispiel: Wir laden eine Excel-Datei mit Kreditorenbuchhaltungs-Daten hoch und fragen: „Wie oft haben wir innerhalb der Zahlungsfrist bezahlt, aufgeschlüsselt nach Lieferantenkategorie?“ Die KI schreibt im Hintergrund ein Python-Skript, das die Daten auswertet und ein Diagramm erstellt – wir bekommen nur das fertige Ergebnis.

HTML (Hypertext Markup Language)

Die Sprache, in der Webseiten geschrieben sind. Moderne LLMs können komplette, interaktive HTML-Seiten generieren – mit Diagrammen, Dashboards und Filtern. Bei Claude heißen diese Live-Vorschauen „Artifacts“. Wir müssen dafür keinen Code verstehen.

Finanzbeispiel: Wir laden eine CSV-Datei (eine einfache Tabellendatei) mit Monatszahlen hoch und sagen: „Erstelle ein interaktives Dashboard mit Ausgaben nach Kategorie.“ Claude generiert eine fertige HTML-Seite mit Tortendiagramm, Balkendiagramm und Dropdown-Filtern – in Sekunden, ohne Entwickler.

Markdown

Eine einfache Textformatierung mit Symbolen: # für Überschriften, **fett** für Fettschrift, - für Aufzählungen. Fast jedes KI-Tool gibt seine Antworten in Markdown aus.

# Monatsabschluss Januar Die Kosten liegen **12% über Plan**. - Personal: 45.000 € - Miete: 12.000 € - IT: 8.500 €

Warum relevant: Wenn Claude eine Analyse erstellt, kommt sie in Markdown. Wer die Zeichen kennt, versteht sofort die Struktur – auch im Rohformat.

Python vs. HTML – wann nutzt die KI was?

Wenn wir die KI bitten, Daten zu berechnen (Summen, Vergleiche, statistische Auswertungen), schreibt sie Python. Wenn wir eine Visualisierung brauchen (Dashboard, interaktives Diagramm), generiert sie HTML. Oft nutzt sie beides: Python für die Berechnung, HTML für die Darstellung.

Infrastruktur & Betrieb

Begriffe, die auftauchen, wenn es um die Frage geht: Wo und wie läuft die KI eigentlich?

Cloud vs. On-Premise

Cloud = die KI läuft auf Servern des Anbieters (z. B. bei Anthropic oder OpenAI). On-Premise = die KI läuft auf eigener Infrastruktur im Unternehmen. Die meisten KI-Tools nutzen die Cloud, aber für sensible Daten gibt es auch On-Premise-Lösungen.

Wichtig zu wissen: Cloud bedeutet nicht automatisch unsicher – Anbieter wie Anthropic und OpenAI bieten strenge Datenschutzvereinbarungen. On-Premise bietet maximale Kontrolle, ist aber deutlich aufwendiger in Einrichtung und Betrieb.

Open Source vs. Open Weight – was ist der Unterschied?

Zwei Begriffe, die oft verwechselt werden. „Open Source“ bedeutet: der vollständige Quellcode ist veröffentlicht – jeder kann ihn lesen, ändern und weiterverbreiten. „Open Weight“ bedeutet bei KI-Modellen: die trainierten Gewichtungen sind verfügbar, aber nicht unbedingt der Trainingscode oder die Trainingsdaten. (Mehr zu Open-Weight-Modellen im Grundlagen-Glossar.)

Warum relevant: Wenn ein Anbieter „Open Source“ sagt, lohnt sich ein genauer Blick. Llama von Meta ist Open Weight – wir können das Modell nutzen, aber nicht nachvollziehen, wie es trainiert wurde.

Terminal (Kommandozeile)

Eine textbasierte Oberfläche, über die wir Befehle direkt an den Computer eingeben – ohne grafische Knöpfe oder Menüs. Manche KI-Tools – z. B. Claude Code, ein KI-Entwicklertool von Anthropic – laufen im Terminal statt im Browser.

Das Terminal ist mächtiger, weil es Befehle kombinieren, automatisieren und auf alles zugreifen kann, was der Computer kann. Der Nachteil: Wir müssen die Befehle kennen – es gibt keine Knöpfe zum Klicken.

cd Dokumente → Ordner öffnen (cd = change directory) ls → Dateien im Ordner auflisten (ls = list) mkdir Rechnungen → Neuen Ordner anlegen (mkdir = make directory)

Die gute Nachricht: Die meisten Finanzteams brauchen das Terminal nie. Und falls doch – einfach die KI fragen: „Welchen Befehl muss ich eingeben, um X zu tun?“

Damit kennen wir die wichtigsten Begriffe

Mit dem Grundlagen-Glossar und diesem zweiten Teil haben wir die Begriffe abgedeckt, die uns im Arbeitsalltag mit KI-Tools am häufigsten begegnen. Das heißt nicht, dass wir alles im Detail verstehen müssen – aber wir können mitreden, wenn es um Subagenten, Vision-Modelle oder Python-Auswertungen geht.

Das Glossar wächst. Wir freuen uns über Hinweise und ergänzen neue Begriffe laufend.

Agenten & Automatisierung

Sehen & Verstehen: Wie KI Dokumente liest

Wie KI im Hintergrund arbeitet

Infrastruktur & Betrieb

Damit kennen wir die wichtigsten Begriffe

Neue Tipps direkt in Ihren Posteingang