Warum AI-Kosten linear skalieren – und nicht wie klassisches SaaS

Die KI-Rechnung für März liegt auf dem Tisch und ist fast dreimal so hoch wie die im Januar. Niemand hat einen neuen Vertrag unterschrieben, niemand hat zusätzliche Lizenzen bestellt – und trotzdem steht da eine Zahl, die in keiner Forecast-Spalte vorgesehen war. Solche Sprünge sind kein Abrechnungsfehler, sondern die direkte Folge davon, wie KI-Dienste technisch und kaufmännisch funktionieren.

Bei klassischer Software verhält sich die Kostenseite wie eine Fixkostenposition: ein Abo pro Nutzer, eine Flatrate für das Team, ein Rahmenvertrag für das Unternehmen. Bei KI greift diese Logik nicht mehr, und der Grund hat wenig mit Pricing-Strategie und viel mit Physik zu tun. Es lohnt sich, einmal genauer auf die Mechanik zu schauen.

Die alte Welt: SaaS als Margen-Maschine

Klassisches SaaS ist wirtschaftlich eine der attraktivsten Geschäftsformen, die es je gab. Der Grund ist einfach: Sobald die Software einmal entwickelt ist, kostet jeder zusätzliche Nutzer fast nichts. Ein bisschen Speicher, ein wenig Rechenzeit, etwas Bandbreite – alles Größen, die man in Cent misst, nicht in Euro.

Die Folge sind Bruttomargen, die in kaum einer anderen Branche erreicht werden. Etablierte SaaS-Anbieter operieren typischerweise mit 80 bis 90%, reine Software-Marktführer kratzen an der 90-Prozent-Marke. Der tausendste Nutzer kostet fast so wenig wie der zehnte. Deshalb funktionieren Flatrates, unbegrenzte Seats und Konzern-Deals mit Mengenrabatt: Eine Mischkalkulation über viele Kunden trägt die wenigen Power-User problemlos mit.

Für das Controlling bedeutete das jahrelang: Software-Kosten verhalten sich wie Miete. Einmal verhandelt, zwölf Monate stabil, jährliche Anpassung, fertig.

Die neue Welt: Jede Anfrage kostet echtes Geld

KI funktioniert anders. Jede einzelne Anfrage an ein Modell löst einen Rechenvorgang auf einer GPU aus – eine Inferenz. Die verarbeitete Eingabe wird in Tokens zerlegt, das Modell berechnet die Antwort Token für Token, und am Ende werden beide Richtungen in Rechnung gestellt: Eingabe-Tokens und Ausgabe-Tokens.

Der entscheidende Punkt: Diese Kosten verschwinden nicht, wenn mehr Nutzer dazukommen. Sie wachsen mit. Ein Mitarbeiter, der pro Tag zehn kurze Fragen stellt, verursacht einen Bruchteil dessen, was ein Power-User verursacht, der täglich tausend Anfragen mit langen Dokumenten abschickt. Der Unterschied ist nicht Faktor zwei oder drei, sondern leicht Faktor hundert.

Entsprechend sehen die Margen der KI-first-Anbieter anders aus als bei klassischem SaaS. Analysen aus dem Markt zeigen Bruttomargen eher im Bereich von 50 bis 60% – auch für etablierte Namen. Das ist immer noch ein gesundes Geschäft, aber es ist kein SaaS-Geschäft mehr. Es ist ein Geschäft, in dem variable Rechenkosten einen substanziellen Anteil des Umsatzes auffressen.

Klassisches SaaS

Grenzkosten nahe null

Einmal entwickelt, beliebig oft verkauft. Bruttomargen von 80 bis 90%. Flatrates und unbegrenzte Seats funktionieren, weil Power-User die Kalkulation kaum belasten.

KI-Dienste

Kosten pro Abfrage

Jede Anfrage erzeugt Rechenlast auf einer GPU. Tokens rein, Tokens raus – beide werden abgerechnet. Bruttomargen eher 50 bis 60%. Nutzung und Kosten korrelieren direkt.

Klassisches SaaS flacht mit wachsender Nutzung ab – KI-Kosten steigen linear mit jeder Anfrage.

Warum Flatrates nicht mehr aufgehen

Solange Kosten und Nutzung entkoppelt sind, ist eine Flatrate für den Anbieter ein handhabbares Risiko. Sobald beides direkt aneinanderhängt, kippt die Mischkalkulation. Ein einzelner Kunde, der seine Seats wirklich ausschöpft und ein paar interne Agenten im Dauerbetrieb hat, verwandelt einen Monatsbeitrag von ein paar hundert Euro schnell in vierstellige Kosten auf Anbieterseite.

Im Markt zeigt sich daraus ein wiederkehrendes Muster. Entweder werden Flatrates stillschweigend gedeckelt – mit Fair-Use-Klauseln, Drosselungen oder nachträglich eingeführten Limits. Oder das Preismodell wird offen auf Verbrauch umgestellt. Oder der Anbieter schreibt bei genau diesen Kunden Verlust und gleicht das über andere Segmente aus. Genau diese Dynamik beobachten Analysten und Branchenmedien seit Anfang 2026 sehr deutlich.

Wie sich der Markt darauf einstellt

In den aktuellen KI-Verträgen, die durch unsere Hände gehen, tauchen drei Muster immer wieder auf. Sie zeigen, wohin sich die Pricing-Landschaft gerade bewegt.

Flatrates verschwinden oder werden still gedeckelt

Was heute als „unbegrenzt“ verkauft wird, ist es selten wirklich. Fair-Use-Klauseln, Rate Limits oder nachträglich eingeführte Obergrenzen tauchen in fast jedem aktuellen Vertrag auf – mal deutlich ausformuliert, mal tief in den Nebenbedingungen.

Hybrid-Modelle werden Standard

Die meisten neuen KI-Verträge kombinieren einen Basispreis mit einem Verbrauchsanteil. Ein fixer Grundbetrag deckt eine definierte Menge ab, alles darüber hinaus wird zusätzlich abgerechnet. Das macht die Kalkulation komplexer, aber ehrlicher.

Transparenz wird zum Verhandlungsthema

Wenn Kosten mit Nutzung atmen, rücken Echtzeit-Dashboards, Schwellenwert-Alarme und nachvollziehbare Verbrauchsberichte in den Mittelpunkt der Verhandlung. Auf Anbieterseite sind sie längst nicht selbstverständlich – und genau deshalb werden sie gerade zu einem der Hauptstreitpunkte im Vertragsgespräch.

Wie sich das in der GuV zeigt

Aus Sicht der GuV sehen KI-Kosten auf den ersten Blick wie Software aus: ein SaaS-Posten unter den sonstigen betrieblichen Aufwendungen. Im Verlauf über die Monate verhalten sie sich aber eher wie Materialaufwand – direkt abhängig davon, wie viel im Unternehmen tatsächlich verarbeitet wird.

Daraus ergeben sich zwei Effekte, die im Controlling schnell sichtbar werden. Erstens wird monatliche Varianz zum Normalzustand: Die KI-Zeile wackelt von Monat zu Monat, ohne dass sich an Nutzerzahlen oder Verträgen etwas geändert hätte. Zweitens verschiebt sich die Abgrenzung zwischen Fix- und variablen Kosten. Ein Teil der KI-Ausgaben bleibt echter Fixkostenblock – Basispakete, Seat-Minima, Grundgebühren –, ein anderer Teil skaliert direkt mit Aktivität.

Das schlägt bis in den Forecast durch. Eine reine Fortschreibung der Vorjahresposition liefert bei variabler Kostenbasis systematisch die falsche Zahl. Forecasts, die näher an der Realität liegen, basieren auf Treibern: Wie viele Rechnungen werden verarbeitet, wie viele Analysen, wie viele Dokumente pro Monat – und wie übersetzt sich das in Tokens und Euro?

Was in den Preismodellen tatsächlich drinsteht

Ein KI-Vertrag lässt sich im Kern auf drei Angaben reduzieren. Zusammen zeigen sie, wie sich die Kosten im Alltag verhalten werden – unabhängig davon, wie der Tarif auf dem Deckblatt genannt wird.

Die Preismetrik

Seat, Token, Request oder Outcome – jede Metrik verhält sich anders im Forecast. Seat-Preise sind planbar, Token-Preise bewegen sich mit der Nutzung, Outcome-Preise koppeln direkt an Geschäftsergebnisse.

Obergrenzen und Alarmschwellen

Harte Caps, weiche Warnungen, Benachrichtigungen per E-Mail – was davon steht im Vertrag, was ist nur als Option vermerkt? Ohne Schwellen wird aus Flexibilität auf dem Papier im Alltag schnell ein Kontrollverlust.

Sichtbarkeit über den Verbrauch

Bei variablen Kosten entsteht der Unterschied zwischen einer Monatsabrechnung im Nachhinein und einem Echtzeit-Dashboard, das Verbrauch und Kosten über den Monat zeigt – pro Team, pro Anwendungsfall, idealerweise pro Nutzer. Welche Variante der Anbieter bietet, entscheidet mit, wie gut sich die Kostenzeile steuern lässt.

Cost-per-Transaction als neue Kennzahl

Viele Finanzteams rechnen inzwischen in Cost-per-Transaction, weil der reine Monatspreis bei variabler Kostenbasis wenig Aussagekraft hat. Interessant ist, was eine einzelne Transaktion kostet – eine verarbeitete Eingangsrechnung, eine Vertragsanalyse, eine Management-Zusammenfassung. Diese Sichtweise macht transparent, wo sich KI-Nutzung wirklich rechnet, und liefert einen belastbaren Vergleichswert für Make-or-Buy-Entscheidungen.

KI als gemessener Verbrauch

Im Kern verhält sich KI weniger wie klassische Software und mehr wie gemessener Verbrauch – näher an Strom oder Cloud-Rechenzeit als an einer Lizenz. Die Kostenseite folgt der Nutzung, nicht der Kopfzahl. Das ist der eigentliche Unterschied zum SaaS-Modell, und er erklärt die meisten der aktuellen Pricing-Bewegungen im Markt.

Die gute Nachricht: Finanzteams kennen den Umgang mit variablen Kosten seit jeher. Material, Energie, Transport – das sind keine neuen Konzepte, nur neue Nachbarn in der Software-Zeile. Die dreifach höhere März-Rechnung ist aus dieser Perspektive keine Anomalie, sondern das erwartbare Ergebnis einer Kostenart, die mit der Aktivität mitwandert.