# Suchmethoden im Detail

# Vektorsuche

Die Vektorsuche (auch semantische Suche genannt) basiert auf der Umwandlung von Texten in numerische Vektoren (Zahlenreihen), die die Bedeutung des Inhalts repräsentieren.

Funktionsweise: Texte werden in einen hochdimensionalen Vektorraum eingebettet (Embeddings). Ähnliche Bedeutungen liegen im Vektorraum nahe beieinander.

💡 Hinweis: Eigennamen wie Produktnamen, Firmennamen oder spezifische Bezeichnungen haben oft keine aussagekräftigen Vektoren, da sie keine allgemeinsprachliche Bedeutung besitzen und im Training der Modelle selten oder gar nicht vorkommen.

Vorteile	Nachteile
✅ Semantisches Verstehen: Erkennt Synonyme, Umschreibungen und verwandte Konzepte	❌ Kann bei sehr spezifischen Fachbegriffen ungenau sein
✅ Sprachflexibilität: Funktioniert auch bei unterschiedlicher Formulierung	❌ Ergebnisse sind manchmal schwerer nachvollziehbar
✅ Kontextverständnis: Berücksichtigt die Bedeutung im Zusammenhang
✅ Mehrsprachigkeit: Kann sprachübergreifend arbeiten

➡️ Beispiel: Suche nach "Wie kann ich Geld sparen?" findet auch "Spartipps", "Kosten reduzieren" oder "finanzielle Optimierung".

# Keywordsuche

Die Keywordsuche (lexikalische Suche) ist die klassische Suchmethode, die auf exakten Wortübereinstimmungen basiert.

Funktionsweise: Direkte Suche nach Wörtern oder Wortteilen im Text. Chunks werden nach Häufigkeit und Relevanz der Suchbegriffe bewertet.

Vorteile	Nachteile
✅ Präzise bei spezifischen Begriffen, Codes, IDs	❌ Keine semantische Interpretation
✅ Transparent: Nutzer verstehen besser, warum Ergebnisse angezeigt werden	❌ Übersieht Synonyme und Variationen, Rechtschreibfehler können hinderlich sein
	❌ Irrelevante Treffer bei mehrdeutigen Begriffen

➡️ Beispiel: Suche nach "Artikelnummer A-12345" findet exakt Dokumente mit dieser Bestellnummer, aber nicht "das neue Modell" oder "die verbesserte Version".

# Hybride Suche

Die hybride Suche kombiniert Vektor- und Keywordsuche, um die Stärken beider Ansätze zu nutzen und ihre Schwächen auszugleichen.

Funktionsweise: Beide Suchmethoden werden parallel ausgeführt und die Ergebnisse gewichtet kombiniert. Ein Gewichtungsparameter bestimmt das Verhältnis: 0% = reine Keywordsuche, 50% = ausgeglichen, 100% = reine Vektorsuche.

Vorteile	Nachteile
✅ Best of both worlds: Semantik + exakte Treffer	❌ Komplexere Konfiguration
✅ Robuster durch Kompensation von Schwächen	❌ Erfordert Feinabstimmung der Gewichtung
✅ Höhere Trefferquote

➡️ Beispiel: Suche nach "Nachhaltigkeit im Unternehmen" – Keyword-Anteil findet exakt "Nachhaltigkeit" und "Unternehmen", Vektor-Anteil findet auch "Corporate Social Responsibility", "umweltfreundliche Geschäftspraktiken" oder "ökologische Firmenstrategien".

# Rechenbeispiel: Wie funktioniert die Gewichtung?

Suchanfrage: "Reisekosten Richtlinie"

Zwei Chunks werden gefunden:

Chunk	Vektorscore	Keyword-Score
A – "Richtlinie für Dienstreisen 2024"	0.9	0.3
B – "Reisekosten Richtlinie Inland"	0.7	0.9

Die Berechnung des Gesamtscores erfolgt mit: Gesamt-Score = α × Vektorscore + (1-α) × Keyword-Score

# Bei α = 0.8 (80% Vektorsuche, 20% Keywordsuche):

Chunk A: 0.8 \times 0.90 + 0.2 \times 0.30 = 0.72 + 0.06 = \textbf{0.78} ✅
Chunk B: 0.8 \times 0.70 + 0.2 \times 0.90 = 0.56 + 0.18 = 0.74

→ Chunk A wird höher gerankt, da die semantische Ähnlichkeit stärker gewichtet wird.

# Bei α = 0.4 (40% Vektorsuche, 60% Keywordsuche):

Chunk A: 0.4 \times 0.90 + 0.6 \times 0.30 = 0.36 + 0.18 = 0.54
Chunk B: 0.4 \times 0.70 + 0.6 \times 0.90 = 0.28 + 0.54 = \textbf{0.82} ✅

→ Chunk B wird höher gerankt, da die exakte Keyword-Übereinstimmung stärker gewichtet wird.

# Wann welche Methode?

Situation	Empfohlene Methode
Fragen in natürlicher Sprache, Umgangssprache	höherer Anteil der Vektorsuche
Explorative Suche, Themenrecherche	höherer Anteil der Vektorsuche
Mehrsprachige Anfragen	höherer Anteil der Vektorsuche
Fragen nach Produktnamen, IDs, exakten Begriffen	höherer Anteil der Keywordsuche
Fachliche Recherche mit Begriffen	höherer Anteil der Keywordsuche