# Testkatalog

Diese Dokumentation beschreibt das neue Testing-Framework, das sich aktuell in der Beta-Phase befindet. Die Anzahl der Testfragen ist vorerst auf maximal 500 pro Kalendermonat und Chatbot begrenzt. Bitte beachten Sie, dass ein Testlauf Auswirkungen auf den produktiven Chatbot haben kann.

# Erstellung von Testsets

Neues Testset anlegen

Klicken Sie auf + Neues Testset, um eine neue Test-Kategorie anzulegen. Diese erscheint dann in der Liste der bestehenden Test-Kategorien.

Testfragen hinzufügen

Neue Testfragen können Sie einer Kategorie hinzufügen, indem Sie auf das Plussymbol, das beim Hovern links erscheint, klicken und dort die Fragen bearbeiten.

Testsets hochladen

Anstatt Testfragen manuell einzugeben, können Sie bestehende Testsets hochladen. Klicken Sie dazu auf Tests hochladen. Im sich öffnenden Fenster können Sie eine Datei per Drag & Drop ablegen oder durch Klicken auswählen.

Unterstützte Formate:

TXT-Dateien: Nur Fragen, eine Frage pro Zeile
CSV/XLSX-Dateien: Fragen, erwartete Antworten (optional) und Kategorien (optional)
- Fragespalte: Question, question (erforderlich)
- Antwortspalte: ExpectedAnswer, expectedAnswer, Expected Answer (optional)
- Kategorien-Spalte: Category, category (optional, erstellt Kategorien automatisch)

Max. Dateigröße: 500KB, max. Fragen pro Datei: 100

Kategorie wählen beim Upload

Sie können

eine bestehende Kategorie auswählen, um die Fragen dort hinzuzufügen,
eine neue Kategorie erstellen, indem Sie einen neuen Namen eingeben oder
die Kategorien automatisch erkennen lassen, wenn Ihre Datei eine "category"-Spalte enthält.

Klicken Sie auf Fragen hochladen, um den Upload abzuschließen.

# Testsets exportieren

Sie können Ihre Testsets exportieren, indem Sie auf Testsets exportieren klicken. Wählen Sie das Trennzeichen für den Export aus: Komma, Semikolon oder Tab. Klicken Sie anschließend auf Export.

# Testlauf-Konfiguration und Durchführung der Tests

Um Tests durchzuführen, klicken Sie auf Testsets ausführen. Im sich öffnenden Dialog können Sie die Testkategorien auswählen, die getestet werden sollen (mit Anzahl der enthaltenen Testfälle in Klammern), die Option Direkt nach dem Testlauf bewerten aktivieren, um eine automatische Bewertung zu erhalten, und die Evaluierungskategorien auswählen: Correctness, Relevancy, Faithfulness. Hinweis: Die Korrektheit (Correctness) kann nur bewertet werden, wenn Sie erwartete Antworten hinterlegt haben.

Mit Klick auf Testsets ausführen starten Sie den Testlauf.

# Bewertungskategorien

# Korrektheit

Die Korrektheit bewertet, ob die tatsächliche Antwort der erwarteten Antwort entspricht. Dabei wird die faktische Genauigkeit geprüft, wobei die erwartete Antwort als Grundwahrheit dient. Das Maß der Korrektheit gibt Auskunft darüber, inwiefern der KI-Assistent korrekte und verlässliche Informationen liefert, was für die Benutzerzufriedenheit und die Vertrauensbildung entscheidend ist.

Labels und Bewertungen:

Label	Bedeutung	Bewertung
Correct	Entspricht vollständig der erwarteten Antwort	100%
Correct+	Korrekt + zusätzliche Informationen	90%
Correct-	Größtenteils korrekt, aber es fehlen einige Informationen	75%
Don't know	Nicht sicher	None
Incorrect	Falsche oder nicht übereinstimmende Antwort	0%

# Treue

Die Treue bewertet, ob die Antwort dem abgerufenen Kontext (also den gefundenen Inhalten aus der Datenbasis) entspricht. Dabei wird geprüft, ob alle Behauptungen in der Antwort durch den Kontext unterstützt werden. Die Bewertung basiert darauf, wie gut die Antwort mit den Fakten aus dem Kontext übereinstimmt. Das Maß der Treue gibt Auskunft darüber, inwiefern der KI-Assistent nur durch die zugrunde liegenden Daten gestützte Antworten liefert, was Fehlinformationen und Falschbehauptungen minimiert.

Labels und Bewertungen:

Label	Bedeutung	Bewertung
Faithful	Alle Behauptungen werden vollständig durch den Kontext unterstützt	100%
Partially Faithful	Einige Behauptungen werden unterstützt, andere fehlen oder werden nicht unterstützt	50%
Unfaithful	Die meisten oder alle Behauptungen werden nicht unterstützt oder widersprechen dem Kontext	0%

# Relevanz

Die Relevanz bewertet, ob der Kontext (also die gefundenen Inhalte aus der Datenbasis) für die Eingabe relevant ist. Dabei wird geprüft, wie relevant jeder Satz im Kontext für die Frage ist. Die Relevanzbewertung erfolgt pro Satz und wird anschließend über den gesamten Kontext gemittelt. Das Maß der Relevanz gibt Auskunft darüber, inwiefern der KI-Assistent kontextuell relevante Informationen nutzt, um die Nützlichkeit und Angemessenheit der Antworten für die jeweilige Anfrage sicherzustellen.

Labels und Bewertungen:

Label	Bedeutung	Bewertung
Relevant	Hochgradig nützlich für die Beantwortung der Frage	100%
Partially Relevant	Etwas nützlich, aber nicht vollständig relevant	50%
Irrelevant	Nicht nützlich für die Beantwortung der Frage	0%