Lösungen/KI & Intelligente Automatisierung§ 05 von 06 Disziplinen

KI in der Produktion —
nicht auf einer Folie.

Wir bauen Automatisierung auf Entscheidungsniveau für die Arbeit, die tatsächlich das Geschäft vorantreibt. Kein Demo-Theater. Keine Autonomie, wo sie nicht hingehört. Immer hinter einer Vertrauensschwelle, die ein Mensch genehmigt hat.

Buch eine Bereitschaftsprüfung Sieh, wo KI passt — und wo nicht

Erstes Modell live

4–6 Wochen

hinter der Schwelle

Mensch im Prozess

Immer

wo es darauf ankommt

Vendor-Lock-in

modular

Klassifizierer · Unterstützungsanfragev 8

LESE-TICKET #48.221

Eingehend · E-Mail-Text

Hallo Team, ich habe letzte Nacht versucht, mein Abonnement zu verlängern, aber die Zahlung wurde abgelehnt — die Karte funktioniert anderswo. Ich habe eine zweite Karte ausprobiert, dasselbe Ergebnis. Frustriert — ich brauche eine Lösung heute.

→ Klassifizierung

87 ms

Kategorie

Abrechnung · Fehlgeschlagene Zahlung

Abrechnung · Fehlgeschlagene Zahlung94 %

Konto · Kartenproblem5 %

Andere1 %

EINSCHÄTZUNGfrustriert

DRINGENDhoch · "heute"

SCHWELLE≥ 90 % automatisiert

→ geroutet · Abrechnungsebene 2 · Entwurf geplanter Antwort

↳ Live-Klassifizierer aus einer Kundenimplementierung. Tickets unterhalb der Schwelle landen in einer menschlichen Warteschlange, nicht im Nichts.

§ 01 / Thesis

Benchmarking stoppen
Modelle.
Benchmarking beginnen
Entscheidungen.

Die meisten KI-Projekte scheitern nicht, weil das Modell falsch war, sondern weil es in die falsche Entscheidung integriert wurde. Der richtige Test ist nicht die Genauigkeit — es ist, ob die Kosten für Falschentscheidungen akzeptabel gegenüber der Zeit bis zur richtigen Entscheidung sind.

Einige Entscheidungen tolerieren eine Fehlerquote von 5% bei 200 ms. Einige Entscheidungen tolerieren überhaupt keine Fehlerquote. Die Arbeit besteht nicht darin, das Modell auszuwählen — es geht darum, die Entscheidung zu skizzieren, bevor das Modell überhaupt läuft.

Was wir bauen werden

Klassifizierer mit Vertrauensschwellen
RAG über deine eigenen strukturierten + unstrukturierten Daten
Extraktion aus unordentlichen Dokumenten in großem Maßstab
Entwurf, den ein Mensch vor dem Versand überprüft

Was wir nicht tun werden

Autonome Agenten, die irreversible Entscheidungen treffen
Chatbots, die Menschen in regulierten Arbeiten ersetzen
"KI-Funktionen", die für die Pressemitteilung hinzugefügt wurden
Pipelines ohne eine Offline-Bewertungsumgebung

§ 02 / Entscheidungsrahmen

Wo KI hingehört —
und wo nicht.

Plotte die Entscheidung auf zwei Achsen: Kosten für Falschentscheidungen und Anzahl der Entscheidungen pro Tag. Die Diagonale gibt dir die Antwort.

← Kosten für falsch →

Q · 01 / Nichthohe Kosten · niedriges Volumen

Reine menschliche Urteilskraft

Einstellungsentscheidungen, M&A, rechtliche Risikobewertungen, medizinische Diagnosen ohne Aufsicht von Fachleuten.

Setze kein Modell vor eine Entscheidung, die eine hochrangige Person zehnmal im Jahr trifft.

Q · 02 / Assistierenhohe Kosten · hohes Volumen

KI-unterstützter Mensch

Risikobewertung, Betrugsprüfung, Ansprüche triagieren, medizinische Vorprüfung, Inhalt-Moderation-Überprüfungen.

Modell erstellen, bewerten, markieren. Mensch signiert. Immer.

Q · 03 / Überspringenniedrige Kosten · niedriges Volumen

Wahrscheinlich nicht wert

Gelegentliche Verwaltungsaufgaben, einmalige interne Abfragen, Aufgaben, die weniger als wöchentlich erledigt werden.

Die Kosten für den Aufbau werden die eingesparte Zeit übersteigen. Verwende eine Checkliste.

Q · 04 / Automatisierenniedrige Kosten · hohes Volumen

Der richtige Punkt

Ticketklassifizierung, Dokumentextraktion, Lead-Anreicherung, Entwurfsgenerierung, intelligente Weiterleitung.

↪ Hier geschieht der Großteil unserer KI-Arbeit.

Niedriges Volumen →↑ Kosten für falsch→ Hohes Volumen

NichtEinen Menschen unterstützenÜberspringenHinter der Schwelle automatisieren

↪ Die erste Sache, die wir bei jeder KI-Engagement entsprechend tun, ist, deine Kandidatenentscheidungen auf diesem Raster zu plotten. Ungefähr ein Drittel landet in Q4.

§ 03 / Muster

Sechs KI-Muster,
in die Produktion geliefert.

Kein Modellmenü. Die Formen von Systemen, die wir tatsächlich bauen, mit der nahtlosen Verbindung zu einem Menschen immer in den Spezifikationen.

A · Klassifizieren

Routing & Triage

Eingehende Elemente — Tickets, E-Mails, Leads, Ansprüche — werden mit Vertrauen in die richtige Warteschlange einsortiert. Unterhalb der Schwelle gelangt es in Sekundenschnelle zu einem Menschen.

EINGABE → unstrukturierter Text AUSGABE → beschriftet · Vertrauen · geroutet

B · Extrahieren

Dokumentextraktion

Rechnungen, Verträge, Ausweise, KYC — in strukturierte Felder eingefügt, validiert und in deine Systeme übertragen. Fehlgeschlagene Extraktionen werden zur Überprüfung vorgeschlagen.

EINGABE → PDF · Scan · E-Mail AUSGABE → JSON · kreuzvalidiert

C · Abrufen

Fundierte Antwortsysteme

RAG über dein eigenes Wissen — Handbücher, Richtlinien, Verträge, Produktdaten. Zitationen sind obligatorisch. Ohne Zitation keine Antwort.

EINGABE → Frage + Textsammlung AUSGABE → Antwort + zitierte Quellen

D · Entwurf

Erste Entwurfsgenerierung

Antworten, Berichte, Zusammenfassungen, RFP-Antworten — in deiner Stimme verfasst, in einer menschlichen Warteschlange für einen Klick zur Genehmigung, einen zur Bearbeitung.

EINGABE → Kontext + Absicht AUSGABE → bearbeitbarer Entwurf (nie gesendet)

E · Vorhersage

Prädiktive Bewertung

Abwanderung, Nachfrage, Ausfälle, Lead-Konversion — bewertete Wahrscheinlichkeiten, die die Abläufe steuern. Oft ist die richtige Antwort Gradient Boosting, nicht ein Transformer.

EINGABE → historische + Merkmale AUSGABE → bewertete Wahrscheinlichkeiten

F · Erkennen

Anomalie- und Driftüberwachung

Das System bemerkt, wenn etwas nicht mehr wie sich selbst aussieht — Betrugsmuster, Ablaufrichtung, Datenqualitätsverfall — bevor das Dashboard es anzeigt.

EINGABE → kontinuierliche Telemetrie AUSGABE → markiert + erklärt

§ 04 / Modellauswahl

Das richtige Modell
ist selten das
größte.

Wir sind modellagnostisch von Design. Die Architektur entscheidet, was jede Entscheidung ausführt; du erhältst das kostengünstigste, schnellste und tragbarste, das die Schwelle erreicht.

Entscheidungsform

Standardwahl

Latenz

Kosten / 1k

Warum dieses, nicht das größere

Klassifizieren (kurz)

Feinabgestimmtes BERT · DistilBERT

~ 25 ms

€ 0.01

Spezifische Labels, in deinen Daten, schnell und selbst gehostet. Ein LLM ist überdimensioniert.

Klassifizieren (nuanciert)

Claude Haiku · GPT-4o-mini

~ 800 ms

€ 0.30

Wenn Labels zwischen den Zeilen gelesen werden müssen. Kleine Grenzmodelle, keine großen.

Extrahieren

Claude Sonnet · GPT-4o

~ 2 s

€ 1.50

Starker JSON-Modus + Schema-Validierung. Gegen Regeln überprüft, bevor sie festgeschrieben werden.

RAG · abrufen

pgvector · BM25 hybrid

~ 80 ms

€ 0.00

Postgres-Erweiterung. Hybrides Abrufen schlägt reines Vektor. Keine eigenständige Vektor-DB erforderlich.

RAG · generieren

Claude Sonnet · mit Zitationen

~ 1.5 s

€ 1.20

Zitation standardmäßig. Wenn das Modell nicht zitieren kann, gibt es "unbekannt" zurück — erfunden wird nie.

Vorhersage

XGBoost · LightGBM · Prophet

~ 5 ms

€ 0.00

Tabellarische Daten mit starken Merkmalen schlagen LLMs bei Vorhersagen nahezu immer.

Sensibel · PII

Selbst gehostet · Llama · Mistral

~ 1 s

infra

Datenhoheit. Läuft in deinem VPC oder unserer EU-Region. Nichts verlässt die Grenze.

↪ Die Architektur ist tragbar: jedes Modell ist hinter einem Adapter, der innerhalb eines Tages ausgetauscht werden kann. Deine Geschäftslogik interessiert nicht, welches Modell gelaufen ist.

§ 05 / Sicherheitsvorkehrungen

Das langweilige Gerüst
das KI
produktionsreif macht.

Keines davon ist glamourös. Alles davon ist unverhandelbar. Es ist der Unterschied zwischen einer Demo, die beeindruckt, und einem System, das nicht aus den falschen Gründen in die Nachrichten kommt.

G · 01unverhandelbar

Vertrauensschwellen

Jede Modellausgabe trägt eine Vertrauensbewertung. Unterhalb der Schwelle gelangt es in eine menschliche Warteschlange. Kalibriert pro Entscheidung, nicht pro Modell.

G · 02unverhandelbar

Offline-Bewertungsharness

Ein festes Testset, das bei jeder Änderung bewertet wird. Kein Modell geht in die Produktion, ohne die vorherige Version anhand der von dir genehmigten Metriken zu übertreffen.

G · 03unverhandelbar

Schattenmodus

Modelle laufen leise gegen echten Verkehr, bevor sie je handeln. Vorhersagen protokolliert, mit Menschen verglichen, wöchentlich überprüft, bis sie vertrauenswürdig sind.

G · 04unverhandelbar

Driftüberwachung

Modelle verfallen still, wenn sich die Welt ändert. Wir überwachen die Eingabeverteilung und die Ausgabe-Kalibrierung — Warnungen werden ausgelöst, bevor die Leistung sinkt.

G · 05unverhandelbar

Audit-Dokumentation

Jede Vorhersage wird mit Eingabe, Modellversion, Vertrauen und dem endgültigen Ergebnis aufgezeichnet. Auf Abruf wiederholbar, vor einem Regulator verteidigbar.

G · 06unverhandelbar

Not-Aus-Schalter

Jedes Modell kann innerhalb von Sekunden deaktiviert werden und fällt zurück auf den vorherigen KI-Fluss. Vierteljährlich getestet. Hoffentlich nie verwendet. Immer da.

§ 06 / Bereitschaft

Zwei Wochen, um zu wissen
ob KI die Antwort ist.

Bevor irgendein Modell gebaut wird, führen wir eine strukturierte Bereitschaftsprüfung durch. Ausgabe: ein schriftlicher Bericht, der die richtigen Kandidaten — und die falschen — namentlich aufführt.

R · 01Tage 1–2

Bestandsaufnahme der Entscheidungen

Jede wiederkehrende Entscheidung in deinem Betrieb, auf dem Spektrum abgebildet. Die ehrliche Liste, nicht die Demoliste.

R · 02Tage 3–5

Audit der Daten

Grundwahrheitslabels, Verteilung, Drift, Randfälle. Die meisten Projekte scheitern hier, bevor ein Modell berührt wird.

R · 03Tage 6–8

Führe eine Baseline durch

Ein kleines Grenzmodell, fertig, sorgfältig angefordert — gemessen gegen deine Daten. Setzt den Boden, bevor individuelle Arbeiten durchgeführt werden.

R · 04Tage 9–10

Bewerten & Rangieren

Jede Kandidatenentscheidung gewichtet nach Volumen, Einsparungen, Risiken und Machbarkeit. Du gehst mit einem nummerierten Fahrplan.

R · 05Übertragung

Der schriftliche Bericht

Ein 14–20-seitiges Dokument mit benannten Kandidaten, Basiszahlen und einem Bauplan. Deins zu behalten, unabhängig davon, was als nächstes kommt.

FIXE GEBÜHR —Ungefähr 30% der Prüfungen enden damit, dass wir davon abraten, KI für die potenzielle Arbeitslast zu verwenden. Damit sind wir einverstanden.

§ 07 / Engagement

Drei Wege
zu beginnen.

Schicht 01Fixed fee

Bereitschaftsprüfung

Zwei Wochen, um zu wissen, was es wert ist, gebaut zu werden, was nicht, und wo man anfangen soll. Schriftlicher Bericht zur Übertragung.

DAUER2 Wochen

TEAM2 Senior

PREISGESTALTUNGFixed fee

Entscheidungsspektrum abgebildet
Fertige Basislinie gemessen
Rangierter Fahrplan, schriftlicher Bericht

Bericht an eine Prüfung →

Schicht 02 · am häufigsten

Bauen

End-to-End-Bau eines oder mehrerer KI-Funktionen in deinem Betrieb. Schattenmodus → Schwelle → live.

DAUER3–6 Monate

TEAM2–3 Senior

PREISGESTALTUNGT&M mit Cap

Bewertungsinstrument am ersten Tag
Alle sechs Sicherheitsvorkehrungen integriert
Wissenstransfer an dein Team

Ein Bauumfang →

Schicht 03Langfristig

Verwalter

Wir übernehmen den Lebenszyklus deiner KI-Flotte — Drift, Nachschulung, Bewertungen, Schwellenanpassung — bis dein Team die Schlüssel übergibt.

DAUER6+ Monate

TEAMEingebettet

PREISGESTALTUNGMonatliche Honorare

Drift- und Kalibrierungsüberwachung
Vierteljährlicher Modellwechsel
Übergabeplan ab dem ersten Tag

Verwalter diskutieren →

↪ Hinweis. Jedes Engagement ist aus einem schriftlichen Bericht abgeleitet — keine Modellüberraschungen, kein Nutzungsspiel.

§ 08 / Nachweis

Support-Anfrage
ging von 11min
zu 22 Sekunden —
und die Genauigkeit wurde besser.

Routing-Genauigkeit

96.2 %

▲ von 89 % (menschlich)

Automatischer Routing-Rate

81 %

≥ 90 % Vertrauen

Erste Antwortzeit

22 s

▼ von 11 Min

"Das Modell liegt öfter richtig als unser bester Agent — und wir wissen genau, wann es nicht so ist."

— Leiter der Kundenbetriebs · SaaS · NDA

Lies den gesamten Fall Alle Fallstudien

§ 09 / Einwände

Die Fragen
die wir bei
jedem ersten Anruf hören.

Meist Variationen von "Ist das sicher?", "Wird das halluzinieren?", und "Was ist mit unseren Daten?" Faire Fragen.

Q · 01

"Was ist mit Halluzinationen?"

Wir planen strand gegen sie, nicht um sie herum. RAG-Systeme müssen zitieren. Extraktionen müssen gegen Schemata validiert werden. Klassifizierer müssen Unsicherheiten über die Schwelle gestehen. Und nichts Irreversibles wird ohne menschliche Kontrolle betrieben. Das Modell darf falsch liegen; das System darf nicht still sein.

Q · 02

"Wo gehen unsere Daten hin?"

Standard: EU-Regionen, kein Training an deinen Daten, Verschlüsselung während der Übertragung und im Ruhezustand. Für regulierte Arbeitslasten, vollständig selbst gehostete Modelle in deinem VPC — nichts verlässt den Bereich. Die Architektur entscheidet über das Modell; Datenhoheit ist eines der Eingaben.

Q · 03

"Was, wenn das Modell sich im Laufe der Zeit verschlechtert?"

Wir überwachen die Drift der Eingabeverteilung und die Ausgabe-Kalibrierung kontinuierlich. Die Leistung verschlechtert sich um ein paar Prozentpunkte, bevor es im praktischen Einsatz bemerkbar ist — Warnungen werden lange vorher ausgelöst. Bei einem Steward-Engagement sind Nachschulung oder Threshold-Anpassung Teil des Honorars.

Q · 04

"Sind KI-Agenten die Zukunft der Automatisierung?"

Für einige enge Bereiche, irgendwann. Heute sind "agentische" Systeme typischerweise Pipelines von Klassifizierern, Extraktoren und Entwerfern, die in deterministische Kleber integriert sind — genau so bauen wir. Die interessante Frage ist nicht "Ist es ein Agent?"; es ist "Wo in der Pipeline signiert der Mensch?"

Q · 05

"Wird uns das an einen Modellanbieter binden?"

Nein. Jedes Modell sitzt hinter einem Adapter — deine Geschäftslogik weiß nicht, ob es Anthropic, OpenAI oder ein selbst gehostetes Llama aufgerufen hat. Der Wechsel dauert einen Tag, nicht ein Vierteljahr. Das Risiko eines Anbieters wird genauso behandelt, wie wir jede andere Abhängigkeit behandeln: minimiert beim Einstieg.

Aktuell Q3-Engagements annehmen

Wo in deinem
Betrieb
skaliert
das Urteil schlechter als das Volumen?

Dort verdient KI ihren Platz. Bring es zu einem 30-minütigen Anruf — wir sagen dir ehrlich, ob es sich lohnt, es zu bauen und was nötig wäre.

Primär

Buch eine Bereitschaftsprüfung

30 Min · Video · EN/PT/ES

Oder — schriftlich

hello@giroteam.com

Antwort innerhalb eines Arbeitstags.

KI in der Produktion —nicht auf einer Folie.

Benchmarking stoppenModelle.Benchmarking beginnenEntscheidungen.

Wo KI hingehört —und wo nicht.