NOIISE Ressources SEO SEO et Google Sheets : collecter les données avec ImportXML

SEO et Google Sheets : collecter les données avec ImportXML

15 octobre 2024 – Noiise
Date de mise à jour : 15 octobre 2024

Dans le monde du SEO, l’analyse et la gestion des données jouent un rôle primordial. Même au sein d’une agence SEO, Google Sheets s’avère être un outil d’une efficacité redoutable. Non seulement il permet de gérer facilement des volumes importants de données, mais il offre aussi une grande flexibilité grâce à ses nombreuses fonctions. Parmi celles-ci, la fonction ImportXML se distingue particulièrement, offrant la possibilité de collecter et d’analyser automatiquement des informations provenant du web. Si vous souhaitez améliorer vos processus de veille SEO, l’utilisation de Google Sheets et d’ImportXML peut véritablement transformer votre approche.

Xml Interieur

Pourquoi Google Sheets est indispensable pour un consultant SEO

Google Sheets est l’un des outils les plus polyvalents pour les consultants SEO. Il permet de centraliser les données, d’automatiser certaines tâches, et de partager les résultats avec des collègues ou des clients de manière collaborative. De plus, il s’intègre facilement avec des extensions et API qui enrichissent encore ses fonctionnalités. Vous pouvez l’utiliser pour :

  • Suivi de positionnement : créer des tableaux de bord pour suivre le classement des mots-clés.
  • Audit SEO : collecter et structurer les données relatives aux pages d’un site (balises H1, meta title, etc.).
  • Analyse de backlinks : recenser et suivre les backlinks d’un site ou de ses concurrents.
  • Veille concurrentielle : automatiser la collecte de données sur les concurrents pour surveiller leurs performances et stratégies.

Cependant, une des fonctionnalités les plus puissantes est sans conteste la fonction ImportXML qui, lorsqu’elle est utilisée correctement, permet de récupérer de façon automatisée des informations directement depuis des pages web.

Qu’est-ce que la fonction ImportXML de Google Sheets ?

La fonction ImportXML de Google Sheets permet d’extraire des données d’une page web en s’appuyant sur des requêtes XPath. Elle se révèle très utile pour collecter du contenu structuré comme les titres, les descriptions, les dates de publication ou encore les balises spécifiques d’un site. Vous pouvez l’utiliser pour analyser n’importe quelle donnée visible dans le code HTML d’une page, ce qui en fait un allié précieux pour les consultants SEO.

Utilisation d’ImportXML pour le SEO : cas concrets

Voyons maintenant comment vous pouvez utiliser ImportXML dans votre quotidien SEO avec des exemples concrets qui démontrent toute sa puissance de scraping.

Récupérer les balises meta title et meta description

L’analyse des meta titles et des meta descriptions est un incontournable pour le SEO. Ces balises jouent un rôle crucial dans le positionnement des pages et l’optimisation des taux de clics dans les résultats de recherche.

Pour récupérer les meta title d’une page, voici la formule à utiliser :

=IMPORTXML(“https://www.noiise.com”;”//title”)

  • Remplacez URL_DE_LA_PAGE par l’URL du site que vous analysez.
  • Le sélecteur //title permet de récupérer le contenu de la balise <title>, qui correspond au meta title.
scraper balise title avec ImportXML

Pour les meta descriptions, la formule est similaire :

=IMPORTXML(“https://www.noiise.com”;”//meta[@name=’description’]/@content”)

 

Cette requête permet d’extraire le contenu de l’attribut content de la balise meta description.

scraper meta description avec ImportXML

Récupérer le H1 d’une page

Le H1 est l’une des balises les plus importantes pour l’optimisation SEO, car elle aide les moteurs de recherche à comprendre le sujet principal de la page.

Pour récupérer le H1 d’une page, voici la formule à utiliser :

=IMPORTXML(“https://www.noiise.com”; “//h1”)

 

Cette requête XPath va chercher le contenu de la balise <h1>, qui est souvent le titre principal d’un article ou d’une page.

scraper balise h1 avec ImportXML

Vous souhaitez évaluer la pertinence du SEO dans votre stratégie ?

Profitez de 30 minutes de consulting stratégique avec un consultant expert de l'agence SEO NOIISE !

Clotilde Bernet, Manager SEO

Extraire la date de publication d’un article de blog

Si vous souhaitez analyser la date de publication d’un article pour évaluer la fraîcheur du contenu, vous pouvez également utiliser ImportXML. La méthode dépend de la structure HTML du site, mais souvent, les dates de publication sont stockées dans des balises <time> ou <meta>.

Voici un exemple de formule qui peut fonctionner :

=IMPORTXML(“https://www.noiise.com/ressources/seo/refonte-seo-wordpress-rien-oublier/”; “//meta[@property=’article:published_time’]/@content”)

 

Cette requête cible l’attribut content de la balise meta property « ‘article:published », précisément utilisée pour indiquer la date de publication.

scraper meta property avec ImportXML

Dans l’exemple ci-dessus, le résultat devra être nettoyé, par exemple avec la fonction GAUCHE qui permet de récupérer un nombre défini de caractères d’une cellule, en partant de la gauche. Nous aurions donc ici :

=GAUCHE(IMPORTXML(“https://www.noiise.com/ressources/seo/refonte-seo-wordpress-rien-oublier/”; “//meta[@property=’article:published_time’]/@content”);10)

 

Ce qui nous donnera ici : 2024-06-25

Ce résultat peut encore être optimisé pour en faire une date exploitable dans des filtres, mais gardons cela pour un prochain article dédié 😊.

Récupérer les prix ou les données structurées (rich snippets)

Si vous gérez un e-commerce ou effectuez des analyses de prix chez vos concurrents, ImportXML peut être utilisé pour récupérer des informations sur les prix de produits via les données structurées ou directement depuis les éléments HTML affichant les prix.

Voici un exemple pour récupérer le prix d’un produit (basé sur la balise span avec la classe price dans ce cas) :

=IMPORTXML(“URL_DE__LA_PAGE” ; “//span[@class=’price’]”)

 

Cette requête sélectionne le contenu de la balise span qui contient le prix affiché sur la page.

Sur le même principe les possibilités sont nombreuses : récupérer le nombre d’avis d’un produis, la note moyenne des avis renseignés par les clients…

Conseils pratiques pour utiliser ImportXML efficacement

  • Mise à jour automatique : Google Sheets permet de rafraîchir automatiquement les données importées via ImportXML. Cela est très utile pour une veille SEO en temps réel.
  • Limiter les erreurs de requête : Parfois, certaines pages bloquent les requêtes automatiques comme ImportXML. Pour contourner cela, vérifiez que la page n’est pas protégée par des systèmes comme le CAPTCHA.
  • Nettoyage des données importées : Utilisez des fonctions additionnelles comme REGEXEXTRACT ou SPLIT pour affiner les données extraites et les rendre plus lisibles dans vos feuilles de calcul.

 

Grâce à la fonction ImportXML, Google Sheets devient un outil puissant pour automatiser la collecte et l’analyse des données SEO. Qu’il s’agisse de récupérer des meta titles, des descriptions, des balises H1, ou encore de suivre la date de publication des articles de vos concurrents, ImportXML vous permet de centraliser rapidement ces informations dans un tableur. En tant que consultant SEO, maîtriser cette fonction vous fait gagner un temps précieux tout en offrant des résultats complets et précis.

Alors, qu’attendez-vous pour l’essayer dans vos prochaines analyses SEO ?

Vous souhaitez en savoir plus les services de
NOIISE en référencement naturel ?

Découvrez notre agence SEO !