Che cos’è l’AhrefsBot?
Non è altro che un crawler web con il compito di esplorare il World Wide Web metodicamente e in modo automatico.
Altri termini per i crawler web sono
- indicizzatori automatici
- bot
- spider
- robot Web
Questo processo è chiamato Web crawling o spidering.
Un Web crawler è un tipo di bot, o un agente software.
Il processo inizia con un elenco di URL da visitare.
Come il crawler visita questi URL, identifica tutti i collegamenti ipertestuali nella pagina e li aggiunge alla lista di URL da visitare.
Questi URL sono ricorsivamente visitati.
Chi è solito guardare i log di un sito web ogni tanto lo incontra 😀 e a te è capitato di leggere AhrefsBot?
Se vuoi eliminarlo perchè pensi possa consumare la tua banda dati ti basta mettere queste due righe nel file robots.txt :
user-agent: AhrefsBot
disallow: /
ed il problema è risolto 🙂
4 commenti
[…] AhrefsBot […]
Magari.
Ciao Giacomo,
ho letto il tuo post su Google+ :
https://plus.google.com/u/0/116990739437091947602/posts/i2xnUcv7zGu
Leggendo in giro ho visto la possibilità di consentire accesso ad una lista di motori di ricerca :
SetEnvIfNoCase User-Agent .*google.* search_robot
SetEnvIfNoCase User-Agent .*yahoo.* search_robot
SetEnvIfNoCase User-Agent .*bot.* search_robot
SetEnvIfNoCase User-Agent .*ask.* search_robot
Order Deny,Allow
Deny from All
Allow from env=search_robot
Consigli di fare un mix tra le varie direttive o di specificare solo le restrizioni?
Grazie
La seconda che hai detto: consiglio di andare per esclusione (“permetti tutti tranne…”), e non per inclusione (“blocca tutti tranne…”). Peraltro le righe di .htaccess che hai postato sopra impedirebbero l’accesso al sito agli utenti in carne ed ossa, perciò non le raccomanderei.