# Best Practices für gut crawlbare Websites

1. Klare und sinnvolle URL-Struktur

  • Verwenden Sie saubere, sprechende URLs mit Keywords (z.B. www.beispiel.de/produktname).
  • Vermeiden Sie unnötige Parameter und Sonderzeichen.
  • Nutzen Sie Datumsangaben innerhalb der URL (z. B. für Pressemitteilungen, damit alte Pressemitteilungen über Blacklisting aussortiert werden können).

2. Robots.txt richtig konfigurieren

  • Erlauben Sie den Zugriff auf wichtige Bereiche der Website.
  • Sperren Sie nur sensible oder irrelevante Bereiche.
  • Hinweis: Eine von der robots.txt ausgeschlossene URL kann beim Crawling nicht als Seed-URL genutzt werden.

3. XML-Sitemap bereitstellen

  • Erstellen und verlinken Sie eine aktuelle Sitemap.xml.

4. Konsistente interne Verlinkung

  • Verlinken Sie innerhalb der Seite logisch und thematisch passend.
  • Nutzen Sie aussagekräftige Ankertexte.

5. Vermeidung von Duplicate Content

  • Sorgen Sie dafür, dass jede URL eindeutige Inhalte hat.
  • Nutzen Sie Canonical-Tags für ähnliche Seiten.

6. Inhalte in HTML bereitstellen

  • Wichtige Inhalte sollten nicht nur via JavaScript geladen werden.
  • Bieten Sie textbasierten Content an, der leicht erkennbar ist.

7. Besonderheiten bei großem Seitenumfang und dynamischem Laden

  • Vermeiden Sie unendliche Scrolls, da diese für Crawler problematisch sein können.
  • Falls Sie "Mehr laden"-Buttons verwenden, sollte die CSS-Benennung dieses Elements auf allen Unterseiten einheitlich sein.
  • Bei sehr großen Websites (über 500 Unterseiten) sollten keine Bot-Scraping-Protection-Mechanismen aktiv sein, die den Crawler nach einer bestimmten Zeit blockieren. Alternativ: Stellen Sie sicher, dass der Kauz-Crawler nicht blockiert wird.