#
Recrawling einer Website
Mit Kauz aiStudio können Sie eine Website erneut crawlen, um die Inhalte Ihres Chatbots aktuell zu halten. Das Recrawling kann als einmalige Aktion oder regelmäßig (z. B. wöchentlich oder monatlich) geplant werden.
#
Ablauf des Recrawlings
#
1. Recrawling starten
Gehen Sie auf die Datenimport-Seite im aiStudio und wählen Sie ein bestehendes Korpus aus, das durch Webscraping erstellt wurde.
Sie haben die Wahl zwischen einem einmaligen und einem periodischen Recrawling.
#
2. Recrawling-Konfiguration
Für beide Arten von Recrawling können Sie folgende Einstellungen vornehmen:
- Passen Sie bei Bedarf die Crawling- und Chunking-Einstellungen an. Standardmäßig werden die aktuellen Einstellungen übernommen.
- Sie können festlegen, ob das neue Korpus nach erfolgreichem Recrawling automatisch veröffentlicht werden soll oder ob Sie die Änderungen manuell prüfen und freigeben wollen.
- Aktivieren Sie optional E-Mail-Benachrichtigungen (empfohlen).
Bei einem periodischen Recrawling legen Sie den Zeitpunkt und das Intervall des Recrawlings fest. Bei einem einmaligen Recrawling können Sie wählen, ob dieses sofort oder zu einem späteren Zeitpunkt starten soll. Es ist nicht möglich, zwei Recrawlings zur gleichen Zeit zu planen. Geplante Recrawlings müssen mind. 30min in der Zukunft liegen.
Sie können die Einstellungen für ein geplantes Recrawling auch zu einem späteren Zeitpunkt ändern.
#
3. Durchführung des Recrawlings
Während des Recrawlings werden alle Seiten der Website überprüft. Seiten, die sich nicht geändert haben (basierend auf Checksumme und Chunking-Einstellungen), werden samt Metadaten und manuellen Änderungen übernommen. Geänderte oder neue Seiten werden neu gecrawlt und verarbeitet. Das bestehende Korpus bleibt bis zur Freigabe der neuen Version aktiv und verfügbar.
#
4. Zusammenfassung und Validierung
Nach Abschluss des Recrawlings erhalten Sie eine E-Mail mit dem Ergebnis und einem Link zur Zusammenfassung, sofern Benachrichtigungen aktiviert sind.
Die Zusammenfassung mit folgenden Informationen:
- Anzahl der hinzugefügten, aktualisierten und gelöschten Dokumente
- Warnungen, falls ungewöhnlich viele Änderungen erkannt wurden
- Status der Veröffentlichung (automatisch oder manuell)
Wenn die automatische Veröffentlichung nicht aktiv ist, bekommen Sie diese auch im aiStudio angezeigt. Der Status des Recrawlings wird Ihnen am Korpus angezeigt.
#
5. Veröffentlichung des neuen Korpus
Bei erfolgreichem Recrawling und aktivierter automatischer Veröffentlichung wird das neue Korpus sofort übernommen.
Bei Warnungen oder deaktivierter automatischer Veröffentlichung entscheiden Sie manuell, ob das neue Korpus übernommen oder verworfen wird.
#
Recrawling abbrechen
Sie können einen laufenden Recrawling-Prozess jederzeit abbrechen. Beim Abbruch wird das neue Korpus gelöscht. Eine Übernahme der Daten ist nicht möglich. Das bestehende Korpus bleibt dabei erhalten.