Come Funziona il Robots.txt?
Robots.txt utilizza un formato di file di testo normale e viene posizionato nella directory principale del tuo sito web. Robots.txt è un file di informazioni/impostazioni e contiene i comandi da impartire contro i bot. I BOT danno a noi assistenza per la scansione il nostro sito web e assicurano che queste pagine vengano aggiunte ai motori di ricerca quando trovano nuovi contenuti.
Un bot quando arrivano sul nostro sito Web, per primo guarda se è presente il file “robot.txt”. Agiranno in base ai comandi per completare il processo di scansione. Se non disponiamo di un file robot.txt, questi bot di scansione cercheranno di eseguire la scansione di tutto l’interno sito web, cose utili e cose inutile. Cosi che potrebbe portare a scansionare le parti importanti, ed aumentare la vulnerabilità del server.
Ad esempio, Il pannello di amministrazione del nostro sito sono pagine che viene utilizzano solo dai amministratori e non hanno bisogno di essere indicizzati affatto. Quindi diremo a Robot.txt che i bot non dovrebbe scansionare quel posto. Ciò significa che la scansione del nostro sito richiederà meno tempo se non diamo direttive attive. Avere un file robots.txt esattamente come lo desideri farà leva sulla funzionalità e aiuta i processi SEO.
L’uso di robots.txt è di grande importanza in termini di SEO. I siti Web che desiderano posizionarsi in alto nei risultati dei motori di ricerca dovrebbero organizzare perfettamente gli script del file robots.txt. Se ci sono errori in questi comandi, potrebbero sorgere grossi problemi in termini di SEO. In questo caso, il sito web non potrà emergere nei risultati dei motori di ricerca e diventare più accessibile.
Robots.txt ha due caratteri jolly:
- Asterisco * che rappresenta qualsiasi istanza di un personaggio valido, come un Jolly in un mazzo di carte.
- Simbolo del dollaro $ che indica la fine di un URL, consentendo di applicare le regole solo alla parte finale dell’URL, come l’estensione del tipo di file.
È ragionevole adottare un approccio minimalista all’utilizzo dei caratteri jolly, poiché hanno il potenziale di applicare restrizioni a una parte molto più ampia del tuo sito web.
Come dovrebbe essere Robots.txt?
Come sarà un file robots.txt è sotto l’iniziativa dell’amministratore. Perché ogni sito web ha una struttura diversa e può servire a uno scopo diverso.
User-agent: *
Disallow: /
Il comando si sopra blocchera qualsiasi bot, quindi il tuo sito web Non Verrà indicizzato.
Se il tuo sito Web utilizza WordPress, per evitare che wpadmin non venga scansionata;
User-agent: *
Disallow: /wp-admin
Utilizza il stringa si sopra.
Il file robot.txt dovrebbe contenere tutte le directory principali non necessarie e dovrebbe tenere i motori di ricerca lontani da queste pagine. Pertanto, i robot faranno il loro lavoro in un tempo più breve e inizierai a vedere risultati più rapidi.
Comandi Robots.txt
User-agent: questo è il campo in cui dobbiamo scrivere il nome del bot del motore di ricerca che vogliamo indirizzare nel nostro file. Se intendiamo bloccare un bot di Google, dovremo utilizzare qualcosa come “User-agent: Googlebot“. Se vuoi che copra tutti i bot dei motori di ricerca, sarà sufficiente mettere un * ;
User-agent: *
Se intendi scegliere come target un solo bot di Google o un bot diverso, dovrai digitare il nome del bot pertinente. I bot più utilizzati sono:
- Googlebot – Solo Google bot ( User-agent: Googlebot )
- Googlebot-Image – Solo Google Immagini bot ( User-agent: Googlebot-Image )
- Googlebot-News – Solo bot di Google News ( User-agent: Googlebot-News )
- DeepCrawl – Copre DeepCrawl, un bot di Google ( User-agent: DeepCrawl )
- Bingbot – Solo Bing bot ( User-agent: Bingbot )
Non Consentire “Disallow“
il comando Disallow è un comando che non consenti l’accesso ai robot di Google. La directory che scrivi accanto ad essa non può essere indicizzata dai bot di Google. Per esempio;
User-agent: *
Disallow: /
Il comando precedente chiude tutte le directory del sito a tutti i bot. Se crei un file contenente questo comando, nessuna delle tue pagine sarà acceduta e indicizzata dai bot. Per disabilitare qualsiasi directory o pagina dai bot, devi solo digitare questa directory accanto al comando Disallow. Per esempio;
User-agent: *
Disallow: /wp-content/
Disallow: /directory/cartella/
Disallow: /seo/errori-comuni-robot-txt/
Consenti “Allow”
il comando Consenti viene utilizzato per consentire ai bot di accedere a un file/directory in una directory in cui sono stati disabilitati i bot. Ad esempio, come nell’esempio sopra, abbiamo chiuso la directory “/directory/cartella/” ai bot di Google, ma vogliamo rendere una pagina nella directory “cartella” accessibile ai bot di Google. Lo facciamo con il comando Consenti. Per esempio;
User-agent: *
Disallow: /wp-content/
Disallow: /cartella/file/
Allow: /directory/cartella/file.html
Cosa succede se non hai un file Robots.txt?
Senza un file robots.txt, i motori di ricerca eseguiranno un lavoro gratuito di scansione e indicizzazione di tutto ciò che trovano sul sito web. Questo va bene per la maggior parte dei siti Web, ma dovresti almeno specificare dove si trova la tua mappa del sito XML. In questo modo i motori di ricerca possono trovare rapidamente nuovi contenuti sul tuo sito Web e ottimizzare il budget di scansione.
Riassumendo:
- Il file robots.txt è una guida che indica ai robot quali pagine devono e non devono essere sottoposte a scansione.
- Il file robots.txt non può essere configurato per impedire l’indicizzazione, ma puoi aumentare le possibilità che un robot esegua la scansione o ignori determinati documenti o file.
- Nascondere i contenuti inutili del sito Web con la direttiva disallow consente di risparmiare budget di navigazione. Questo vale sia per i siti multipagina che per quelli di piccole dimensioni.
- Per creare un file robots.txt, sono sufficienti un semplice editor di testo e Google Search Console per il controllo.
- Il nome del file robots.txt deve essere scritto in lettere minuscole e non deve superare i 500 KB.