Noiise Définitions SEO Crawl Budget

Crawl Budget

Qu’est ce que le crawl budget et comment le gérer ?

Si votre site est composé de plus de 1000 pages, vous devez vous poser la question du budget crawl. L’idée du budget crawl est simple: Google a pour objectif de limiter l’encombrement de son index avec des contenus (donc des pages HTML) qui n’ont pas d’intérêt spécifique. Pour cela, il va limiter le crawl, c’est à dire la copie de vos contenus dans ses data centers, en faisant passer une partie d’entre eux dans un index « secondaire », ou pire, en refusant de les indexer.

Le problème posé par cette limite est que, parfois, Google va refuser d’indexer, au nom de cette limitation du crawl budget, des contenus qui ont une grande importance SEO, alors que son index est par ailleurs encombré de pages à faible valeur ajoutée.

Il vous faut donc avoir une stratégie pour choisir vous-même quelles pages conserver dans l’index, et celles qu’il faut exclure.

Par exemple, si Google index soigneusement vos CGV et 12 versions d’un même produit (par exemple, la version bleue, rouge, vert etc…), il y a des chances que par ailleurs quelques pages catégorielles importantes à vos yeux puisse connaître des problèmes d’indexation.. Dommage, non?

 

Comment Google choisit-il les contenus à indexer et ceux qu’il « recale »?

Les règles suivies par le moteur à ce sujet ne sont pas toujours limpides, mais l’on peut dégager 3 grandes catégories de pages qui sont susceptibles d’encombrer l’index et qu’il convient de faire de désindexer:

les pages comprenant du contenu dupliqué du type « canonical »(en général, une variation d’un même produit ou service). Pour reprendre l’exemple ci-dessus, si vous disposez sur un site e-commerce de plusieurs versions d’un même produit, vous devez indiquer à Google une URL « canonique », c’est-à dire l’URL où se situe la version « principale » ou « par défaut » de ce produit. Pour cela, sur chaque page correspondant à une variation du produit, vous allez ajouter un lien dit « canonique » vers cette page « principale ».

les pages comprenant du contenu dupliqué du type « variation secondaire ». C’est par exemple le cas si vous proposez un produit ou service lié à une géolocalisation spécifique (cours de piano lyon, cour de piano paris, cours de piano marseille…). Bien souvent un seul mot va varier d’une page à l’autre, si aucun contenu textuel majeur n’est proposé. Si 1 seul mot varie dans votre balise title et votre H1 et que le reste de la page est composé d’images, vous allez vous retrouver dans une situation de contenu dupliqué aux yeux de Google. Dans ce type de cas, la solution consiste à créer des contenus uniques pour chaque version, et pour cela, il faut fair épreuve de créactivité, et, probablement, faire appel à des rédacteurs très différents, qui auront tous leur façon de s’exprimer et pourront ainsi créer de vraies variations sémantiques.

les pages « vides ». Dans la plupart des cas, les propriétaires de sites n’imaginent pas qu’il puisse y avoir un grand nombre de page vides ou quasi vides sur un site. Pourtant, de multiples cas peuvent aboutir à ce type de résultat. Prenons un exemple: si vous utilisez wordpress, il se peut que chaque image que vous allez charger dans votre CMS génère la création d’une page (une URL propre) comportant simplement l’image, le reste étant vide, avec simplement votre menu et vos éléments de navigation. Cela crée un engorgement inutile de votre budget crawl, et n’aide même pas spécifiquement pour le positionnement dans Google image.