# Suchmethoden im Detail

# Vektorsuche

Die Vektorsuche (auch semantische Suche genannt) basiert auf der Umwandlung von Texten in numerische Vektoren (Zahlenreihen), die die Bedeutung des Inhalts repräsentieren.

Funktionsweise: Texte werden in einen hochdimensionalen Vektorraum eingebettet (Embeddings). Ähnliche Bedeutungen liegen im Vektorraum nahe beieinander.

💡 Hinweis: Eigennamen wie Produktnamen, Firmennamen oder spezifische Bezeichnungen haben oft keine aussagekräftigen Vektoren, da sie keine allgemeinsprachliche Bedeutung besitzen und im Training der Modelle selten oder gar nicht vorkommen.

Vorteile Nachteile
Semantisches Verstehen: Erkennt Synonyme, Umschreibungen und verwandte Konzepte Kann bei sehr spezifischen Fachbegriffen ungenau sein
Sprachflexibilität: Funktioniert auch bei unterschiedlicher Formulierung Ergebnisse sind manchmal schwerer nachvollziehbar
Kontextverständnis: Berücksichtigt die Bedeutung im Zusammenhang
Mehrsprachigkeit: Kann sprachübergreifend arbeiten

➡️ Beispiel: Suche nach "Wie kann ich Geld sparen?" findet auch "Spartipps", "Kosten reduzieren" oder "finanzielle Optimierung".


# Keywordsuche

Die Keywordsuche (lexikalische Suche) ist die klassische Suchmethode, die auf exakten Wortübereinstimmungen basiert.

Funktionsweise: Direkte Suche nach Wörtern oder Wortteilen im Text. Chunks werden nach Häufigkeit und Relevanz der Suchbegriffe bewertet.

Vorteile Nachteile
Präzise bei spezifischen Begriffen, Codes, IDs Keine semantische Interpretation
Transparent: Nutzer verstehen besser, warum Ergebnisse angezeigt werden Übersieht Synonyme und Variationen, Rechtschreibfehler können hinderlich sein
Irrelevante Treffer bei mehrdeutigen Begriffen

➡️ Beispiel: Suche nach "Artikelnummer A-12345" findet exakt Dokumente mit dieser Bestellnummer, aber nicht "das neue Modell" oder "die verbesserte Version".


# Hybride Suche

Die hybride Suche kombiniert Vektor- und Keywordsuche, um die Stärken beider Ansätze zu nutzen und ihre Schwächen auszugleichen.

Funktionsweise: Beide Suchmethoden werden parallel ausgeführt und die Ergebnisse gewichtet kombiniert. Ein Gewichtungsparameter bestimmt das Verhältnis: 0% = reine Keywordsuche, 50% = ausgeglichen, 100% = reine Vektorsuche.

Vorteile Nachteile
Best of both worlds: Semantik + exakte Treffer Komplexere Konfiguration
Robuster durch Kompensation von Schwächen Erfordert Feinabstimmung der Gewichtung
Höhere Trefferquote

➡️ Beispiel: Suche nach "Nachhaltigkeit im Unternehmen" – Keyword-Anteil findet exakt "Nachhaltigkeit" und "Unternehmen", Vektor-Anteil findet auch "Corporate Social Responsibility", "umweltfreundliche Geschäftspraktiken" oder "ökologische Firmenstrategien".

# Rechenbeispiel: Wie funktioniert die Gewichtung?

Suchanfrage: "Reisekosten Richtlinie"

Zwei Chunks werden gefunden:

Chunk Vektorscore Keyword-Score
A – "Richtlinie für Dienstreisen 2024" 0.9 0.3
B – "Reisekosten Richtlinie Inland" 0.7 0.9

Die Berechnung des Gesamtscores erfolgt mit: Gesamt-Score = α × Vektorscore + (1-α) × Keyword-Score

# Bei α = 0.8 (80% Vektorsuche, 20% Keywordsuche):

  • Chunk A: 0.8 \times 0.90 + 0.2 \times 0.30 = 0.72 + 0.06 = \textbf{0.78}
  • Chunk B: 0.8 \times 0.70 + 0.2 \times 0.90 = 0.56 + 0.18 = 0.74

→ Chunk A wird höher gerankt, da die semantische Ähnlichkeit stärker gewichtet wird.

# Bei α = 0.4 (40% Vektorsuche, 60% Keywordsuche):

  • Chunk A: 0.4 \times 0.90 + 0.6 \times 0.30 = 0.36 + 0.18 = 0.54
  • Chunk B: 0.4 \times 0.70 + 0.6 \times 0.90 = 0.28 + 0.54 = \textbf{0.82}

→ Chunk B wird höher gerankt, da die exakte Keyword-Übereinstimmung stärker gewichtet wird.


# Wann welche Methode?

Situation Empfohlene Methode
Fragen in natürlicher Sprache, Umgangssprache höherer Anteil der Vektorsuche
Explorative Suche, Themenrecherche höherer Anteil der Vektorsuche
Mehrsprachige Anfragen höherer Anteil der Vektorsuche
Fragen nach Produktnamen, IDs, exakten Begriffen höherer Anteil der Keywordsuche
Fachliche Recherche mit Begriffen höherer Anteil der Keywordsuche