# Best Practices für gut crawlbare Websites

1. Klare und sinnvolle URL-Struktur

Verwenden Sie saubere, sprechende URLs mit Keywords (z.B. www.beispiel.de/produktname).
Vermeiden Sie unnötige Parameter und Sonderzeichen.
Nutzen Sie Datumsangaben innerhalb der URL (z. B. für Pressemitteilungen, damit alte Pressemitteilungen über Blacklisting aussortiert werden können).

2. Robots.txt richtig konfigurieren

Erlauben Sie den Zugriff auf wichtige Bereiche der Website.
Sperren Sie nur sensible oder irrelevante Bereiche.
Hinweis: Eine von der robots.txt ausgeschlossene URL kann beim Crawling nicht als Seed-URL genutzt werden.

3. XML-Sitemap bereitstellen

4. Konsistente interne Verlinkung

5. Vermeidung von Duplicate Content

6. Inhalte in HTML bereitstellen

7. Besonderheiten bei großem Seitenumfang und dynamischem Laden

Vermeiden Sie unendliche Scrolls, da diese für Crawler problematisch sein können.
Falls Sie "Mehr laden"-Buttons verwenden, sollte die CSS-Benennung dieses Elements auf allen Unterseiten einheitlich sein.
Bei sehr großen Websites (über 500 Unterseiten) sollten keine Bot-Scraping-Protection-Mechanismen aktiv sein, die den Crawler nach einer bestimmten Zeit blockieren. Alternativ: Stellen Sie sicher, dass der Kauz-Crawler nicht blockiert wird.