Crawl-delay o non crawl-delay?

Il controllo dei bot – affinché non consumassero una vasta quantità di risorse di hosting – è stato, da parte nostra, un impegno continuo. Dopo aver lanciato con successo il nuovo sistema IA Anti-bot, che ha già bloccato più di un miliardo di hit provenienti soltanto da bot maligni, vorremmo far luce su un'altra misura in questo ambito: l'impostazione del crawl-delay. Continua a leggere per scoprire cos'è, perchè dovresti prenderla in considerazione e perché non applichiamo più di default un'impostazione di crawl-delay nei nostri server.

Che cosa sono la frequenza di crawling e il crawl-delay?

Per definizione, la frequenza di crawling (con crawling si intende la scansione di un sito web per la sua indicizzazione sui motori di ricerca) definisce l'intervallo tra le differenti richieste che i crawl eseguono sul tuo sito web. Fondamentalmente, definisce la frequenza con cui un bot effettuerà la scansione del tuo sito web. L'impostazione di crawl-delay indica ai bot che scelgono di rispettarla (ad esempio Yahoo!, Bing, Yandex, ecc.) di attendere un determinato periodo di tempo tra le singole richieste.

Perché utilizzare l'impostazione di crawl-delay?

Se il tuo sito web contiene molte pagine, e molte di esse sono linkate dalla tua pagina index, un bot che inizia il crawling potrebbe generare troppe richieste al tuo sito web in un periodo di tempo molto breve. La conseguenza di questo picco di traffico potrebbe essere l'esaurimento delle tue risorse di hosting, monitorate su base oraria. Così, se incontri tali problemi, è una buona idea impostare il crawl-delay a 1-2 secondi in modo che i bot eseguano il crawling del tuo sito web in maniera più moderata, senza causare picchi nel caricamento.

È importante dire che il bot di Google non prende in considerazione l'impostazione di crawl-delay. Ecco perché non dovresti preoccuparti che tale direttiva possa avere influenza sulla tua posizione su Google: puoi quindi usarla tranquillamente nel caso desiderassi arrestare altri bot aggressivi. È estremamente improbabile che si verifichino problemi a causa del crawling del bot di Google, ma se desideri abbassare la frequenza di crawling, puoi eseguire questa operazione solo dalla Google Search Console (precedentemente denominata Strumenti di Google per i webmaster).

Non è presente di default nessun crawl-delay sui server SiteGround

Fino a poco tempo fa era presente di default un'impostazione di crawl-delay, applicata universalmente sui server condivisi SiteGround. Poteva essere sovrascritta da ogni utente impostando un valore personalizzato differente nel file robot.txt. Usavamo questa direttiva per evitare che i nostri clienti perdessero le loro risorse di server a causa dei bot. Tuttavia, i bot moderni dei motori di ricerca sono abbastanza sofisticati per effettuare il crawling senza causare problemi e i bot maligni sono bloccati dal nostro sistema AI, quindi non c'era semplicemente alcun motivo per mantenere tale impostazione. Così, l'abbiamo rimossa.

Sviluppo del prodotto - Tecnico

Entusiasta di tutte le applicazioni Open Source che ti possono venire in mente, ma principalmente di WordPress. Aggiungi un pizzico di amore per il web-design, nuove tecnologie, ottimizzazione per i motori di ricerca e ci sei quasi!

Risposta

* (Richiesto)