#
Best Practices für gut crawlbare Websites
1. Klare und sinnvolle URL-Struktur
- Verwenden Sie saubere, sprechende URLs mit Keywords (z.B. www.beispiel.de/produktname).
- Vermeiden Sie unnötige Parameter und Sonderzeichen.
- Nutzen Sie Datumsangaben innerhalb der URL (z. B. für Pressemitteilungen, damit alte Pressemitteilungen über Blacklisting aussortiert werden können).
2. Robots.txt richtig konfigurieren
- Erlauben Sie den Zugriff auf wichtige Bereiche der Website.
- Sperren Sie nur sensible oder irrelevante Bereiche.
- Hinweis: Eine von der robots.txt ausgeschlossene URL kann beim Crawling nicht als Seed-URL genutzt werden.
3. XML-Sitemap bereitstellen
- Erstellen und verlinken Sie eine aktuelle Sitemap.xml.
4. Konsistente interne Verlinkung
- Verlinken Sie innerhalb der Seite logisch und thematisch passend.
- Nutzen Sie aussagekräftige Ankertexte.
5. Vermeidung von Duplicate Content
- Sorgen Sie dafür, dass jede URL eindeutige Inhalte hat.
- Nutzen Sie Canonical-Tags für ähnliche Seiten.
6. Inhalte in HTML bereitstellen
- Wichtige Inhalte sollten nicht nur via JavaScript geladen werden.
- Bieten Sie textbasierten Content an, der leicht erkennbar ist.
7. Besonderheiten bei großem Seitenumfang und dynamischem Laden
- Vermeiden Sie unendliche Scrolls, da diese für Crawler problematisch sein können.
- Falls Sie "Mehr laden"-Buttons verwenden, sollte die CSS-Benennung dieses Elements auf allen Unterseiten einheitlich sein.
- Bei sehr großen Websites (über 500 Unterseiten) sollten keine Bot-Scraping-Protection-Mechanismen aktiv sein, die den Crawler nach einer bestimmten Zeit blockieren. Alternativ: Stellen Sie sicher, dass der Kauz-Crawler nicht blockiert wird.