# Wie kann ich den KI-Punkte-Verbrauch reduzieren?

Bereits mit wenigen gezielten Einstellungen und einer angepassten Arbeitsweise lässt sich der Verbrauch von KI-Punkten deutlich senken. Die aufgeführten Tipps unterstützen dabei, Ressourcen zu sparen und gleichzeitig eine hohe Antwortqualität aufrechtzuerhalten.

Jede Maßnahme ist mit einem Hinweis versehen, der deutlich macht, ob ein geringes, mittleres oder hohes Einsparpotenzial besteht.

# Konfiguration optimal nutzen:

# Informationssuche

  • Verringerung der Anzahl auszuwählender Chunks: hoch Eine geringere Anzahl auszuwählender Chunks führt zu einem geringeren KI-Punkte-Verbrauch. Der Standardwert sollte nur angepasst werden, wenn sich beim Testing Bedarf zeigt. Generell ist eine größere Chunk-Anzahl nur notwendig, wenn die Chunks sehr klein sind; bei großen Chunks kann der Standardwert reduziert werden.
  • Suchmethode: mittel Die hybride Suche erhöht die Präzision. Bei optimaler Einstellung müssen weniger Chunks übermittelt werden, wodurch KI-Punkte eingespart werden können. Beim Testing sollte gezielt geprüft und der Wert der Suchmethode angepasst werden, um den optimalen Wert für die hybride Suche zu ermitteln.

# Antwortgenerierung (Auswahlmethode der Anhänge) gering

Durch die Auswahl der Methoden „Anhänge aller relevanten Antwortquellen hinzufügen“ oder „Anhänge der besten Antwortquellen hinzufügen“ lässt sich der KI-Punkte-Verbrauch im Vergleich zu „LLM eine semantische Entscheidung treffen lassen“ reduzieren. Allerdings verursacht "LLM eine semantische Entscheidung treffen lassen" zwar einen höheren Verbrauch, diese Auswahlmethode stellt aber auch die beste Auswahlmethode dar. Dank des kostengünstigen Gemini-Modells bleibt der Mehraufwand dabei vergleichsweise gering.

Mehr Informationen zu den Konfigurationsmöglichkeiten finden Sie hier .

# Agenten

# Auswahl des richtigen LLMs hoch

Teurere LLMs (Large Language Models) sollten nur dann verwendet werden, wenn es unbedingt notwendig ist; ansonsten empfiehlt sich die automatische Modellauswahl oder die Wahl eines günstigeren Modells. Die automatische Modellauswahl ist standardmäßig aktiviert und wählt je nach Anfrage das optimale Modell aus. Bei manueller Auswahl sollte zunächst das Modell 4.1-mini verwendet werden, während größere Modelle wie 4.1, Claude 3.5, Claude 4 oder Claude 4.5 nur bei unzureichender Antwortqualität zum Einsatz kommen.

Für besondere Anforderungen einzelner Agenten kann ein besseres Modell eingestellt werden, wobei der erhöhte Ressourcenverbrauch gerechtfertigt sein sollte. Gemini-Modelle bieten eine kostengünstige und schnelle Alternative, erfordern jedoch ein angepasstes Prompting.

Eine Übersicht über die verfügbaren LLMs ist hier zu finden.

# Anzahl der Agenten mittel

Es sollten nur so viele Agenten erstellt werden, wie unbedingt notwendig sind. Eine hohe Anzahl an Agenten führt zu einem höheren Verbrauch von KI-Punkten, da die Agentenauswahl mit größerem Aufwand verbunden ist.

# Auswahl des Agenten-Typs mittel

Bei der Auswahl des Agenten-Typs ist der konkrete Bedarf und die geplante Nutzung entscheidend. Beim Einsatz von Custom-Agenten sollte darauf geachtet werden, nur kleine Dokumente zu verwenden, da bei jeder Anfrage alle hochgeladenen Daten, der Kontext und der Prompt vollständig mitgesendet werden. Große Datenmengen führen dadurch zu einem deutlich höheren KI-Punkte-Verbrauch. Wenn große Datenmengen vorliegen und es nicht zwingend ein Custom-Agent sein muss, sollte stattdessen der RAG-Agent verwendet werden. Der Data Collection Agent gehört zu den günstigsten Agenten-Typen. Allerdings kommen bei komplexem Prompt-Design und aufwändigem Agenten-Aufbau häufig Thinking-Modelle zum Einsatz, die einen höheren Verbrauch verursachen.

Mehr Informationen zu Agenten finden Sie hier .

# Prompting mittel

Prompts sollten so kurz wie möglich gehalten werden. Zu lange Prompts verbessern die Antwortqualität nicht zwingend, vergrößern aber den übermittelten Kontext und erhöhen damit den KI-Punkte-Verbrauch. Ergänzungen oder Änderungen an bestehenden Prompts sollten nur erfolgen, wenn das Testing zeigt, dass sie notwendig sind. Die folgenden Prompts sollten nie hinzugefügt werden:

# Anweisungen, die im Systemprompt bereits enthalten sind

Einige Anweisungen sind bereits im Systemprompt enthalten:

  • Die Antworten sollen in der Sprache des Nutzers ausgegeben werden.
  • Bei Telefonnummern soll ein Link gesetzt werden.
  • Es dürfen ausschließlich Informationen aus der Wissensbasis genommen werden.
  • Das heutige Datum ist ...
  • Die Chat History muss miteinbezogen werden.

Sollten diese Anweisungen nicht wie erwartet umgesetzt werden, sollte geprüft werden, was die Ursache ist, z. B. ob widersprüchliche oder überlagernde Prompts vorliegen.

# Höflichkeitsfloskeln

Höflichkeitsfloskeln wie "bitte", "danke" oder "Könntest du ...?" sollten weggelassen werden. Durch das Weglassen verkürzt sich der Prompt und führt zu besseren Ergebnissen.

# Weitere unnötige Prompts

Außerdem unnötig sind folgende Prompts, da diese nicht umgesetzt werden:

  • "Überprüfe deine Antwort ob [XXX] enthalten ist."
  • "Stelle sicher, dass alle Informationen richtig sind."
  • "Stelle keine Vermutungen an."
  • "Sage deine Meinung nicht."
  • "Mache keine politischen Aussagen."
  • "Sei immer freundlich."
# Prompts für Rolle und Funktion

Die Prompts für die Rolle und die Funktion sollten nur die wichtigsten Informationen enthalten. Zur Orientierung gilt: aufgenommen werden ausschließlich Informationen, die in der Antwort des Chatbots auf „Wer bist du?“ stehen sollen.

Prompt-Beispiele finden Sie hier .

# Crawling und Recrawling

Hinweis: Der KI-Punkte-Verbrauch beim Crawling und Recrawling wird derzeit noch nicht in der Verbrauchsübersicht berücksichtigt

# Crawling von Webseiten gering

Beim Aufbau der Wissensbasis sollte stets geprüft werden, ob alle Inhalte einer Website für den Chatbot tatsächlich sinnvoll und relevant sind. Ist dies nicht der Fall, empfiehlt sich eine gezielte Auswahl der zu crawlenden Seiten, um sowohl den KI-Punkte-Verbrauch zu reduzieren als auch die Qualität der Antworten des Chatbots zu verbessern. Hierfür haben sich Methoden wie Black- und Whitelisting sowie die Begrenzung der Crawling-Tiefe bewährt. Zusätzlich ist zu beachten, ob auf der Website Dokumente vorliegen, die in den Chatbot integriert werden sollen. Sind diese nicht relevant, sollte die Option „Dokumente einbeziehen“ in den Crawling-Einstellungen deaktiviert werden.

Mehr Informationen zu Crawling-Strategien finden Sie hier .

# Recrawling gering

Recrawling sollte nur in dem Umfang durchgeführt werden, wie es zur Aktualisierung der Wissensbasis notwendig ist. Ein häufiges und vollständiges Neucrawlen aller Inhalte kann den KI-Punkte-Verbrauch unnötig erhöhen. Wenn auf bestimmten Seiten jedoch häufiger Inhalte ergänzt oder geändert werden, was ein häufigeres Recrawling erfordern würde, sollte dies bereits beim Anlegen der Wissensbasis berücksichtigt werden. In solchen Fällen empfiehlt es sich, diese Seiten separat zu crawlen, um gezieltes Recrawling und damit eine ressourcenschonende Aktualisierung zu ermöglichen.

Mehr Informationen zum Recrawling finden Sie hier .

# Crawling- und Chunking von Dokumenten hoch

Beim Hinzufügen von Dokumenten und Dokumentensammlungen sollten die Chunks möglichst klein und thematisch gebunden gehalten werden. Je gezielter und kompakter die Chunks sind, desto weniger Tokens werden verbraucht. Die Einstellung „Ein Chunk pro Dokument“ bei PDFs sollte nur verwendet werden, wenn das Dokument keine klaren thematischen Abschnitte aufweist und nicht sinnvoll geteilt werden kann.

Auch bei der Bilder-Analyse empfiehlt sich eine gezielte Auswahl: Werden in einem Dokument beispielsweise zehn Bilder bereitgestellt, aber nur eines davon benötigt, sollte dieses bevorzugt separat hochgeladen werden. Die Option „Eine Seite als Bild analysieren“ ist nur in den Fällen sinnvoll, in denen sich auf einer Seite mehrere Bilder befinden, die zusammen mit dem Text betrachtet werden müssen; andernfalls sollte sie deaktiviert bleiben.

Generell sollte vor dem Einbinden von Daten stets geprüft werden, ob diese für den Chatbot relevant sind, um den KI-Punkte-Verbrauch möglichst gering zu halten.

Informationen zum Crawling und Chunking von Dokumenten finden Sie hier .

# Testing hoch

Hinweis: Der KI-Punkte-Verbrauch beim Testing wird derzeit noch nicht in der Verbrauchsübersicht berücksichtigt

Um den KI-Punkte-Verbrauch effizient zu reduzieren, ist ein gezieltes und strukturiertes Testing der Wissensbasis entscheidend. Die Auswahl und Organisation von Testfragen sowie der angemessene Zeitpunkt und Umfang des Testings tragen wesentlich dazu bei, unnötigen Ressourcenverbrauch zu vermeiden und gleichzeitig die Qualität der Antworten sicherzustellen. Die wichtigsten Aspekte dabei sind:

  • Synonyme und syntaktische Varianten nicht testen: Synonyme und syntaktische Varianten müssen nicht getestet werden, da dies den KI-Punkte-Verbrauch unnötig erhöht, ohne die Testqualität signifikant zu verbessern.
  • Testfragen in thematische Sets aufteilen: Testfragen sollten in thematisch zusammengehörende Testsets gegliedert werden. Es ist ratsam, nur das Testset auszuführen, das tatsächlich getestet werden soll, um den KI-Punkte-Verbrauch gering zu halten.
  • Anzahl der Testfragen begrenzen: Eine Begrenzung der Testfragen auf rund 50 Kernfragen, verteilt auf 10 Testsets mit maximal 10 Fragen pro Set, hilft, den KI-Punkte-Verbrauch zu steuern und Ressourcen effizient zu nutzen.
  • Testing vor allem bei größeren Änderungen einsetzen: Testing sollte insbesondere bei größeren Änderungen der Wissensbasis erfolgen. Bei kleineren Anpassungen empfiehlt sich das Testen einzelner Fragen direkt im Chatbot, um den KI-Punkte-Verbrauch zu minimieren.
  • Evaluierung gezielt und situationsabhängig nutzen: Alle oder einzelne Evaluierungskategorien sollten deaktiviert werden, wenn sie nicht benötigt werden. Beispielsweise ist eine Evaluierung oft nicht notwendig, wenn lediglich der Antworttext überprüft werden soll oder bei kleineren Änderungen an der Wissensbasis.

Mehr Informationen zum Testing finden Sie hier .

# Conversation-Labeler hoch

Hinweis: Der KI-Punkte-Verbrauch beim Labelling wird derzeit noch nicht in der Verbrauchsübersicht berücksichtigt

Labelling-Prozess nur bei Bedarf starten: hoch Der Labelling-Prozess sollte nur mit konkretem Anlass gestartet werden. Ein gezielter Einsatz setzt voraus, dass tatsächlich ein Analysebedarf besteht – etwa zur Identifikation von Schwachstellen oder zur Qualitätskontrolle. Ein Labelling ohne klare Zielsetzung führt zu unnötigem KI-Punkte-Verbrauch und verarbeitet Konversationen, deren Analyse keinen direkten Mehrwert bietet.

Zeitspanne gezielt auswählen: hoch Bei der Auswahl der Zeitspanne ist es wichtig, nur den tatsächlich relevanten Zeitraum einzubeziehen. Eine pauschale Auswahl aller Konversationen der letzten Monate führt zu einem unnötig hohen Verbrauch. Stattdessen sollte die Zeitspanne gezielt auf den Zeitraum beschränkt werden, in dem die zu analysierenden Konversationen stattgefunden haben oder relevante Änderungen am Chatbot vorgenommen wurden.

Anzahl der Labels begrenzen: gering Die Anzahl der angelegten Labels sollte auf das Notwendigste beschränkt werden. Jedes zusätzliche Label verlängert den Analyseprompt, der bei jeder Konversation verarbeitet wird, und erhöht damit den KI-Punkte-Verbrauch proportional zur Anzahl der analysierten Konversationen. Eine durchdachte Label-Struktur hält den Ressourcenaufwand gering und sorgt gleichzeitig für aussagekräftige Ergebnisse.

Label-Beschreibungen prägnant halten: gering Die Beschreibungen der Labels sollten prägnant und ausschließlich mit notwendigen Anweisungen formuliert werden. Lange oder redundante Prompts vergrößern den Kontext bei jeder Analyse unnötig und erhöhen den Verbrauch. Aussagekräftige und knappe Beschreibungen erzielen das gleiche Ergebnis mit deutlich geringerem Ressourceneinsatz. Überflüssige Höflichkeitsfloskeln, redundante Erklärungen oder bereits im Systemprompt enthaltene Anweisungen sollten vermieden werden.

Mehr Informationen zum Conversation-Labeler finden Sie hier