#
Testkatalog
Diese Dokumentation beschreibt das neue Testing-Framework, das sich aktuell in der Beta-Phase befindet. Die Anzahl der Testfragen ist vorerst auf maximal 500 pro Kalendermonat und Chatbot begrenzt. Bitte beachten Sie, dass ein Testlauf Auswirkungen auf den produktiven Chatbot haben kann.
#
Erstellung von Testsets
Neues Testset anlegen
Klicken Sie auf + Neues Testset, um eine neue Test-Kategorie anzulegen. Diese erscheint dann in der Liste der bestehenden Test-Kategorien.
Testfragen hinzufügen
Neue Testfragen können Sie einer Kategorie hinzufügen, indem Sie auf das Plussymbol, das beim Hovern links erscheint, klicken und dort die Fragen bearbeiten.
Testsets hochladen
Anstatt Testfragen manuell einzugeben, können Sie bestehende Testsets hochladen. Klicken Sie dazu auf Tests hochladen. Im sich öffnenden Fenster können Sie eine Datei per Drag & Drop ablegen oder durch Klicken auswählen.
Unterstützte Formate:
TXT-Dateien: Nur Fragen, eine Frage pro Zeile
CSV/XLSX-Dateien: Fragen, erwartete Antworten (optional) und Kategorien (optional)
Fragespalte:
Question,question(erforderlich)Antwortspalte:
ExpectedAnswer,expectedAnswer,Expected Answer(optional)Kategorien-Spalte:
Category,category(optional, erstellt Kategorien automatisch)
Max. Dateigröße: 500KB, max. Fragen pro Datei: 100
Kategorie wählen beim Upload
Sie können
eine bestehende Kategorie auswählen, um die Fragen dort hinzuzufügen,
eine neue Kategorie erstellen, indem Sie einen neuen Namen eingeben oder
die Kategorien automatisch erkennen lassen, wenn Ihre Datei eine "category"-Spalte enthält.
Klicken Sie auf Fragen hochladen, um den Upload abzuschließen.
#
Testsets exportieren
Sie können Ihre Testsets exportieren, indem Sie auf Testsets exportieren klicken. Wählen Sie das Trennzeichen für den Export aus: Komma, Semikolon oder Tab. Klicken Sie anschließend auf Export.
#
Testlauf-Konfiguration und Durchführung der Tests
Um Tests durchzuführen, klicken Sie auf Testsets ausführen. Im sich öffnenden Dialog können Sie die Testkategorien auswählen, die getestet werden sollen (mit Anzahl der enthaltenen Testfälle in Klammern), die Option Direkt nach dem Testlauf bewerten aktivieren, um eine automatische Bewertung zu erhalten, und die Evaluierungskategorien auswählen: Correctness, Relevancy, Faithfulness.
Hinweis: Die Korrektheit (Correctness) kann nur bewertet werden, wenn Sie erwartete Antworten hinterlegt haben.
Mit Klick auf Testsets ausführen starten Sie den Testlauf.
#
Bewertungskategorien
#
Korrektheit
Die Korrektheit bewertet, ob die tatsächliche Antwort der erwarteten Antwort entspricht. Dabei wird die faktische Genauigkeit geprüft, wobei die erwartete Antwort als Grundwahrheit dient. Das Maß der Korrektheit gibt Auskunft darüber, inwiefern der KI-Assistent korrekte und verlässliche Informationen liefert, was für die Benutzerzufriedenheit und die Vertrauensbildung entscheidend ist.
Labels und Bewertungen:
#
Treue
Die Treue bewertet, ob die Antwort dem abgerufenen Kontext (also den gefundenen Inhalten aus der Datenbasis) entspricht. Dabei wird geprüft, ob alle Behauptungen in der Antwort durch den Kontext unterstützt werden. Die Bewertung basiert darauf, wie gut die Antwort mit den Fakten aus dem Kontext übereinstimmt. Das Maß der Treue gibt Auskunft darüber, inwiefern der KI-Assistent nur durch die zugrunde liegenden Daten gestützte Antworten liefert, was Fehlinformationen und Falschbehauptungen minimiert.
Labels und Bewertungen:
#
Relevanz
Die Relevanz bewertet, ob der Kontext (also die gefundenen Inhalte aus der Datenbasis) für die Eingabe relevant ist. Dabei wird geprüft, wie relevant jeder Satz im Kontext für die Frage ist. Die Relevanzbewertung erfolgt pro Satz und wird anschließend über den gesamten Kontext gemittelt. Das Maß der Relevanz gibt Auskunft darüber, inwiefern der KI-Assistent kontextuell relevante Informationen nutzt, um die Nützlichkeit und Angemessenheit der Antworten für die jeweilige Anfrage sicherzustellen.
Labels und Bewertungen: