Che cos’è Crawl Budget?
Crawl Budget è il nome dato al numero massimo di pagine che un motore di ricerca desidera e può scansionare su qualsiasi sito web entro un certo periodo di tempo. Il motivo principale per cui si chiama budget è che i motori di ricerca impongono determinate restrizioni per utilizzare in modo ottimale le proprie risorse durante la scansione di miliardi di siti e pagine nel mondo di Internet e stabiliscono limiti di scansione per i siti in base a diversi fattori. Crawl Budget è il termine che esprime quante delle tue pagine esistenti vengono visitate quotidianamente dai bot di Google. Sebbene si tratti generalmente di una cifra media, è dinamica e può variare di giorno in giorno a causa di alcuni fattori.
Crawl Budget è il termine che esprime quante delle tue pagine esistenti vengono visitate quotidianamente dai bot di Google. Sebbene si tratti generalmente di una cifra media, è dinamica e può variare di giorno in giorno a causa di alcuni fattori.
Come funzionano i spider di Google?
Quando gli spider di Google arrivano su un sito, la prima cosa che fanno è cercare un file robots.txt, se disponibile. Esamina il file robots.txt e avvia la scansione dei collegamenti ad eccezione delle sottodirectory bloccate. Esegue la scansione di ogni pagina una per una ed esegue tutti gli script e i file di stile sulla pagina che esegue la scansione. Quindi mette in coda gli altri collegamenti rilevati sulla pagina e li scansiona rispettivamente. I bot scansionano anche i collegamenti che hanno precedentemente scansionato più e più volte. Potrebbero esserci molte ragioni per questo. È possibile che la tua mappa del sito rilevi che il contenuto è stato aggiornato con il parametro lastmod, oppure che qualcuno si sia collegato alla tua pagina. Sembra che non ci sia modo di comprenderlo appieno in questo momento. In breve, Google arriva alla tua pagina, scansiona tutto, quindi aggiunge i collegamenti rilevati alla coda ed esegue rispettivamente la scansione di tali collegamenti. Qui sorge la seguente domanda: poiché tutte le nostre pagine sono collegate tra loro, perché Google non esegue la scansione dell’intero sito ogni volta che arriva?
Che cos’è un Crawl Budget?
È il numero di pagine visitate in base all’importanza data ad una pagina da Google. Quando scende al di sotto di un certo tasso, l’indice del tuo sito non sarà aggiornato nei risultati di ricerca e il valore del tuo sito/pagine diminuirà di giorno in giorno.
Il budget di scansione è essenziale per i processi SEO e per la salute tecnica del SEO come fattore alla base della scansione del sito web. Siti con strutture tecniche difettose, molte catene di reindirizzamento, contenuti duplicati e collegamenti che richiedono molto budget come i collegamenti HTTP 404 senza reindirizzamenti aggiunti possono consumare negativamente i budget di scansione e potrebbero riscontrare problemi di indicizzazione a medio e lungo termine.
Fondamentalmente, i bot dei motori di ricerca, in particolare Google, che scansionano le pagine del tuo sito senza incontrare alcuna negatività, influenzeranno indirettamente il tuo budget di scansione, aumentando il budget di scansione, consentendo agli spider dei motori di ricerca di visualizzare le tue pagine senza problemi, monitorando le modifiche e gli aggiornamenti apportati su il tuo sito e, in definitiva, il posizionamento del tuo sito nei risultati di ricerca.
La scansionabilità, che è al centro della qualità di un sito web e della scoperta e valutazione dei suoi contenuti da parte dei bot dei motori di ricerca, è estremamente importante per i processi SEO con il suo impatto diretto e indiretto sul posizionamento dei risultati di ricerca.
Inoltre, considerando che le risorse allocate per i limiti di scansione sono limitate, è estremamente importante gestire le risorse in modo efficiente trasferendo le risorse di scansione che verrebbero allocate a siti non necessari, soprattutto per i motori di ricerca con algoritmi core altamente sviluppati come Google, a siti web logici, affidabili e di qualità.
In sintesi; È possibile spiegare l’importanza del crawl budget per il traffico organico semplicemente con una logica molto semplice. Se non c’è scansione, non è nell’indice. Se non c’è indice, non è nell’utente. Possiamo riassumere in questo modo l’importanza del budget per lo screening nel senso più elementare.
Quali sono i fattori che influiscono sul budget per la scansione?
La qualità dei contenuti è uno dei principali fattori che influiscono negativamente sul budget di scansione. I motori di ricerca con algoritmi avanzati, come Google, hanno iniziato a distinguere i contenuti deboli in modo più efficace, a utilizzare i budget di scansione in modo efficace ed a escludere i contenuti deboli dai risultati di ricerca con gli algoritmi che sviluppano ogni anno. Per questo motivo, produrre contenuti di qualità, originali e affidabili è uno dei fattori importanti per mantenere il budget di scansione a livelli sani.
Errori soft (HTTP 404).
Le pagine denominate Soft 404 sono pagine che generalmente non contengono contenuto correlato alla pagina a cui il client invia la richiesta e, in questo caso, restituiscono un codice di stato HTTP 200 invece di restituire un codice di stato HTTP 404. Ad esempio: se una pagina di prodotto che viene eliminata dal sito perché esaurita restituisce il messaggio “Impossibile raggiungere la pagina, visitare” come contenuto, ma restituisce HTTP 200 anziché 404 come codice di stato HTTP, questa pagina è contrassegnata come Soft 404.
Il budget di scansione dei siti Web con un gran numero di pagine Soft 404 viene sprecato, proprio come le pagine con codici HTTP 404. Perché sebbene la pagina in questione non significhi nulla contestualmente, poiché restituisce http 200 come codice di risposta, riceve richieste non necessarie dai bot dei motori di ricerca e non offre un valore reale sia ai bot che agli utenti. Tali pagine devono essere aggiornate al codice di stato HTTP 410 (Gone) o reindirizzate alla pagina pertinente con un reindirizzamento 301.
Pagine compromesse
Le pagine compromesse, come suggerisce il nome, non offrono alcun valore né ai motori di ricerca né agli utenti, poiché si tratta di pagine il cui contenuto è stato modificato e è stato attaccato. Soprattutto da quando il valore di fiducia dei siti e delle pagine hackerate agli occhi dei motori di ricerca come Google è stato notevolmente scosso, la frequenza di scansione (budget) dei siti web con tali pagine sarà influenzata negativamente dalla situazione in questione.
Menu di navigazione a faccette e ID di sessione (parametri)
I menu di navigazione sfaccettati, utilizzati su molti siti Web, in particolare siti di e-commerce, per consentire agli utenti di trovare più facilmente ciò che stanno cercando sul sito, possono consumare negativamente i budget di navigazione se non utilizzati correttamente. Poiché, a causa della loro struttura di utilizzo, i menu di navigazione direzionale, che possono filtrare diverse versioni ristrette di una pagina e presentarle agli utenti tramite URL diversi, possono creare molte copie di pagine diverse di una pagina se non vengono prese le disposizioni corrette, causando risultati negativi. consumo del crawling budget del sito e errata trasmissione di segnali contestuali.
Per prevenire tali situazioni, le pagine che assomigliano alla pagina del contenuto principale sui siti che utilizzano menu di navigazione direzionale e non offrono alcun contenuto unico dovrebbero essere chiuse ai bot dei motori di ricerca e contrassegnate come senza indice.
Per prevenire il problema dei contenuti duplicati sui siti web che creano versioni duplicate di una pagina di contenuto tramite ID e parametri di sessione, è necessario impedire che le pagine duplicate costituite da parametri come gli ID utente vengano scansionate dai bot dei motori di ricerca e le pagine pertinenti dovrebbero essere contrassegnato come senza indice. (Se sono attualmente scansionate e indicizzate da bot, le pagine dovrebbero prima essere rimosse dall’indice e poi chiuse per la scansione).
Contenuto duplicato
Quando le versioni duplicate di un contenuto vengono sottoposte a scansione dai bot dei motori di ricerca, i motori di ricerca con algoritmi potenti come Google possono ridurre il numero di richieste di scansione per il sito. Per evitare tali situazioni, gli indirizzi URL che sono duplicati l’uno dell’altro dovrebbero essere chiusi dalla scansione e i contenuti duplicati non dovrebbero essere inclusi nel sito.
Collegamento interno
Il collegamento interno, che è uno dei fattori che incide positivamente sul budget di scansione, è un lavoro svolto collegando da una pagina all’altra all’interno del sito. Poiché sappiamo che i robot dei motori di ricerca scoprono nuove pagine seguendo i collegamenti, possiamo indicare le nostre pagine importanti ai bot dei motori di ricerca tramite collegamenti interni e migliorare positivamente il budget di scansione del nostro sito.
Contenuti deboli e contenenti spam
Quando i siti Web con molti contenuti deboli e contenenti spam vengono scansionati dai bot dei motori di ricerca e contrassegnati come siti di scarsa qualità, i budget per la scansione possono essere ridotti parallelamente alla qualità dei contenuti. Per prevenire tali situazioni, i contenuti deboli, privi di valore per l’utente e, soprattutto, spam, dovrebbero essere eliminati dal sito.
Catena di reindirizzamento
Le catene di reindirizzamento sono strutture che iniziano da un URL e si formano come risultato del reindirizzamento sequenziale degli indirizzi URL a un altro indirizzo URL. La presenza di una catena di reindirizzamento su una pagina web può causare l’esaurimento inutilmente della quota di bot dei motori di ricerca che inviano richieste a quella pagina. Pertanto, i budget di scansione dei siti Web con un gran numero di catene di reindirizzamento possono essere ridotti dai motori di ricerca.
Collegamenti HTTP 404
Alle pagine Web eliminate dal sito Web o richieste tramite un URL errato viene risposto con un codice di stato HTTP 404 (Errore client). A questo punto, se per i contenuti eliminati non viene restituito un codice di stato simile a HTTP 410 (Gone), che indica se il contenuto in questione è stato completamente eliminato, i bot dei motori di ricerca potrebbero rivisitare l’URL in questione, considerando la possibilità che il contenuto in questione venga pubblicato Ancora. Se non elimini consapevolmente le pagine completamente eliminate dal tuo sito e non esegui reindirizzamenti 301 o aggiornamenti pertinenti dei codici di stato, gli URL con codici di stato HTTP 404 potrebbero consumare negativamente il tuo budget di scansione.
I collegamenti agli indirizzi URL con codici di stato HTTP 404 dalla mappa del sito o alle pagine di contenuti utilizzate attivamente consumano negativamente il budget di scansione. Per evitare di sprecare richieste di navigazione nei collegamenti interni ai siti e nella mappa del sito, non devono essere forniti collegamenti a indirizzi URL con codici di stato HTTP 301 e HTTP 404.
Qualità dei contenuti
La qualità dei contenuti, di cui abbiamo parlato più volte nell’articolo, è un fattore estremamente importante poiché influisce direttamente sia sul budget di scansione che sui risultati di ricerca. Il budget di scansione dei siti web che hanno contenuti di qualità, sono autorevoli nella categoria in cui pubblicano e hanno dimostrato competenza e qualità per il loro settore aumenterà parallelamente alla qualità dei contenuti del sito.
Velocità del sito web
Come gli utenti, i motori di ricerca preferiscono i siti Web che rispondono rapidamente e si aprono rapidamente. A questo punto, ci sarà un aumento del numero di richieste di scansione e della velocità di scansione, soprattutto per i siti Web che dispongono di un server sano e veloce e le cui velocità di apertura sono ottimizzate.
Integrità del server
È estremamente possibile riscontrare codici di errore come HTTP 500 ecc. più del necessario su siti web la cui struttura tecnica del server non è organizzata correttamente, le cui configurazioni e direttive non sono corrette, o la cui capacità del server non è sufficiente a soddisfare le richieste che arrivano al sito . Le pagine Web con codici di errore HTTP 500 ecc. (5xx) generati dal server possono sprecare le richieste di scansione dei motori di ricerca e causare segnali di qualità negativi per il sito. In questi casi, i bot dei motori di ricerca potrebbero pensare che la struttura del server del sito non sia sana e ridurre il numero e la velocità delle richieste di scansione.