# Testkatalog

# Erstellung von Testsets

Neues Testset anlegen

Klicken Sie auf + Neues Testset, um eine neue Test-Kategorie anzulegen. Diese erscheint dann in der Liste der bestehenden Test-Kategorien.

Testfragen hinzufügen

Neue Testfragen können Sie einer Kategorie hinzufügen, indem Sie auf das Plussymbol, das beim Hovern links erscheint, klicken und dort die Fragen bearbeiten.

Testsets hochladen

Anstatt Testfragen manuell einzugeben, können Sie bestehende Testsets hochladen. Klicken Sie dazu auf Tests hochladen. Im sich öffnenden Fenster können Sie eine Datei per Drag & Drop ablegen oder durch Klicken auswählen.

Unterstützte Formate:

  • TXT-Dateien: Nur Fragen, eine Frage pro Zeile

  • CSV/XLSX-Dateien: Fragen, erwartete Antworten (optional) und Kategorien (optional)

    • Fragespalte: Question, question (erforderlich)

    • Antwortspalte: ExpectedAnswer, expectedAnswer, Expected Answer (optional)

    • Kategorien-Spalte: Category, category (optional, erstellt Kategorien automatisch)

Max. Dateigröße: 500KB, max. Fragen pro Datei: 100

Kategorie wählen beim Upload

Sie können

  • eine bestehende Kategorie auswählen, um die Fragen dort hinzuzufügen,

  • eine neue Kategorie erstellen, indem Sie einen neuen Namen eingeben oder

  • die Kategorien automatisch erkennen lassen, wenn Ihre Datei eine "category"-Spalte enthält.

Klicken Sie auf Fragen hochladen, um den Upload abzuschließen.

# Testsets exportieren

Sie können Ihre Testsets exportieren, indem Sie auf Testsets exportieren klicken. Wählen Sie das Trennzeichen für den Export aus: Komma, Semikolon oder Tab. Klicken Sie anschließend auf Export.

# Testlauf-Konfiguration und Durchführung der Tests

Um Tests durchzuführen, klicken Sie auf Testsets ausführen. Im sich öffnenden Dialog können Sie die Testkategorien auswählen, die getestet werden sollen (mit Anzahl der enthaltenen Testfälle in Klammern), die Option Direkt nach dem Testlauf bewerten aktivieren, um eine automatische Bewertung zu erhalten, und die Evaluierungskategorien auswählen: Correctness, Relevancy, Faithfulness. Hinweis: Die Korrektheit (Correctness) kann nur bewertet werden, wenn Sie erwartete Antworten hinterlegt haben.

Mit Klick auf Testsets ausführen starten Sie den Testlauf.

# Bewertungskategorien

# Korrektheit

Die Korrektheit bewertet, ob die tatsächliche Antwort der erwarteten Antwort entspricht. Dabei wird die faktische Genauigkeit geprüft, wobei die erwartete Antwort als Grundwahrheit dient. Das Maß der Korrektheit gibt Auskunft darüber, inwiefern der KI-Assistent korrekte und verlässliche Informationen liefert, was für die Benutzerzufriedenheit und die Vertrauensbildung entscheidend ist.

Labels und Bewertungen:

Label Bedeutung Bewertung
Correct Entspricht vollständig der erwarteten Antwort 100%
Correct+ Korrekt + zusätzliche Informationen 90%
Correct- Größtenteils korrekt, aber es fehlen einige Informationen 75%
Don't know Nicht sicher None
Incorrect Falsche oder nicht übereinstimmende Antwort 0%

# Treue

Die Treue bewertet, ob die Antwort dem abgerufenen Kontext (also den gefundenen Inhalten aus der Datenbasis) entspricht. Dabei wird geprüft, ob alle Behauptungen in der Antwort durch den Kontext unterstützt werden. Die Bewertung basiert darauf, wie gut die Antwort mit den Fakten aus dem Kontext übereinstimmt. Das Maß der Treue gibt Auskunft darüber, inwiefern der KI-Assistent nur durch die zugrunde liegenden Daten gestützte Antworten liefert, was Fehlinformationen und Falschbehauptungen minimiert.

Labels und Bewertungen:

Label Bedeutung Bewertung
Faithful Alle Behauptungen werden vollständig durch den Kontext unterstützt 100%
Partially Faithful Einige Behauptungen werden unterstützt, andere fehlen oder werden nicht unterstützt 50%
Unfaithful Die meisten oder alle Behauptungen werden nicht unterstützt oder widersprechen dem Kontext 0%

# Relevanz

Die Relevanz bewertet, ob der Kontext (also die gefundenen Inhalte aus der Datenbasis) für die Eingabe relevant ist. Dabei wird geprüft, wie relevant jeder Satz im Kontext für die Frage ist. Die Relevanzbewertung erfolgt pro Satz und wird anschließend über den gesamten Kontext gemittelt. Das Maß der Relevanz gibt Auskunft darüber, inwiefern der KI-Assistent kontextuell relevante Informationen nutzt, um die Nützlichkeit und Angemessenheit der Antworten für die jeweilige Anfrage sicherzustellen.

Labels und Bewertungen:

Label Bedeutung Bewertung
Relevant Hochgradig nützlich für die Beantwortung der Frage 100%
Partially Relevant Etwas nützlich, aber nicht vollständig relevant 50%
Irrelevant Nicht nützlich für die Beantwortung der Frage 0%