Avant qu’une page soit affichée en ligne dans les résultats de recherche, elle doit parcourir un chemin long et passionnant. Tout d’abord, il est contourné par les web-crawler (Robot d’indexation) d’exploration que possède chaque moteur de recherche. Ensuite, si le contenu est de qualité et de valeurs suffisantes, la page entre dans le SERP (est l’acronyme de “search engine result page” ou page de résultats des moteurs de recherche). Tout paraît simple, rapide et pratique, n’est-ce pas?

« L’exploration web (ang. crawling) dans la terminologie SEO (référencement naturel) est l’exploration des pages du site par un robot de recherche, les indexant pour former des résultats de recherche. »

Mais, le processus d’indexation lui-même, ses algorithmes et ses mécanismes restent cachés. Y a-t-il quelque chose d’intéressant et d’utile pour nous? Oui, il y en a, et beaucoup! Dans cet article nous allons décortiquer le processus d’indexation. Nous découvrirons ensemble ce que c’est, comment cela se passe, et comprendrons également s’il est possible d’influencer la vitesse d’ajout de nouvelles pages à Google.

 

Quelle est la différence entre l’indexation et le Ranking Google

Les webmasters et les référenceurs débutants confondent souvent l’indexation avec le Ranking Google. Les deux concepts sont interdépendants, mais présentent des phénomènes et des processus différents.

    La mise en place de l’indexation du site Web est le niveau de base du travail de SEO (référencement naturel).


Ranking en français signifie classement. Le Ranking Google fait référence ainsi, au positionnement d’un site sur Internet dans les pages de résultats des moteurs de recherche. Le classement est le tri final des sites Internet qui figurent dans les résultats de la recherche et leur attribue certaines positions ou certains rangs. Donc, un classement spécifique peut être attribué à une page spécifique lorsqu’elle est dans l’index, et uniquement au moment où l’utilisateur saisit certaines phrases. Cet ordre a été mis en place pour garantir que les pages les plus pertinentes apparaissent en première position dans les résultats de recherche.

Qu’est-ce que l’indexation d’un site Web?

L’indexation est le processus par lequel un moteur de recherche recueille des informations sur le contenu de votre site. Aussi bien qu’une addition ou une mise à jour des données sur une ou plusieurs pages de site sur Internet.

Comment fonctionne l’indexation Google

Le fonctionnement d’un robot de recherche Google est basé sur les mêmes principes qu’un navigateur (Browser). Le robot (le spider, web-crawler) explore les sites, évalue le contenu des pages (images, vidéos, PDF, etc.), les transfère à la base du moteur de recherche, puis suit les liens vers une autre ressource, en répétant l’algorithme d’actions appris. Le résultat de ces voyages est l’énumération des ressources Web dans un ordre strict, l’indexation de nouvelles pages, l’inclusion de plateformes inconnus dans la base de données du moteur de recherche.

Cela s’appelle un index. À l’avenir, les données collectées sont utilisées de différentes manières. D’une part pour établir un classement et former les résultats de recherche d’expressions de recherche les plus pertinents. D’autre part à d’autres fins, par exemple à des fins commerciales.

Le moteur de recherche ne peut indiquer que les données des pages disponibles qui ont déjà été indexées par lui. Tant que l’indexation initiale n’aurait pas lieu, elle n’existera pas pour Google. Mais après que Google trouvera rapidement des informations dans ses bases de données, une recherche sur plusieurs millions de pages peut prendre quelques millisecondes.

Il est à noter que même si le web-crawler a déjà «exploré» la page, cela ne garantit pas qu’il sera instantanément inclus dans les résultats. Oui, le robot d’exploration examine minutieusement toutes les pages, mais seules les pages avec un contenu utile et unique passent dans le SERP.

Il ne sera certainement pas possible de tricher avec le moteur de recherche, et même si c’est le cas, ce ne sera pas pour longtemps. Pour reconnaître des contenus de mauvaise qualité, Google a développé ses propres outils, protégés par des brevets.

    Index E-A-T, évaluation de la Page Quality et algorithme BERT – tous ces développements vous permettent de déterminer avec précision l’utilité du contenu de la page et de reconnaître automatiquement sa qualité. Ils sont basés sur l’interaction de l’apprentissage automatique et d’autres développements de Google liés à la mesure de l’expérience utilisateur.
EAT_n_YMYL_Google_definition
E-A-T et YMYL proviennent d’un document très important de Google connu sous le nom de “Google Search Quality Evaluator Guidelines”.

Qu’est-ce que l’index Google

Comme nous l’avons abordé plus haut, un index est une grande base de présentation des données qui se compose de plusieurs sections clés. Nous n’avons pas besoin de nous attarder là-dessus parce que ce n’est pas très important. Permettez-nous simplement de dire que la base de données dont il s’agit ici contient des informations sur plusieurs millions de pages. Lors de la numérisation, les robots “ressentent” non seulement les informations textuelles de la page visibles par l’utilisateur, mais également d’autres données : les attributs du document, les informations des balises (alt, titre, description) et d’autres aspects techniques.

«L’une des dernières mises à jour majeures de Google est Mobile-First-Indexing, l’indexation mobile de tous les sites Web nouveaux et inconnus par Google, à compter depuis 1er juillet 2019.»

Comment un index Google est créé: toutes les étapes

Si l’on imagine la formation de l’indice par étapes, elle comprendra essentiellement quatre étapes.

  • Le premier est l’extraction de texte. À ce stade, la page est convertie et tous les éléments auxiliaires en sont “supprimés”: le texte est séparé du reste des composants, y compris les images, le balisage et les éléments structurels.
  • Le second est la formation d’une liste des lexèmes. Le robot Googlebot  forme l’ensemble sélectif. Ceci est fait afin de mettre davantage en évidence ce que l’on appelle le lexème. En linguistique le terme «lexème» véhicule un certain mot ou expression, qui est considéré comme une unité. En fait, des lexèmes similaires sont alloués à la deuxième étape de l’indexation des pages. Les lexèmes sont collectés à partir de tous les textes (plus précisément, ils sont attribués à partir de tous les mots) qui se trouvent sur votre page.
  • Le troisième est la commande et le traitement. À ce stade, tous les lexèmes formés sont classés par ordre alphabétique, numérotés. Cela donne à chaque lexème son propre numéro de page (indiquant source d’origine de la lexème) et un numéro d’occurrence.
  • Quatrièmement – la formation d’un enregistrement d’index. Il se présente schématiquement comme suit:
Lexème/№page+№occurrences/№page+№occurrences/

Les robots d’exploration peuvent former un enregistrement plus complexe, mais sa syntaxe sera toujours basé sur le schéma ci-dessus.

Est-il possible d’accélérer l’indexation des nouvelles pages

C’est possible, mais pas directement. Si une nouvelle page n’apparaît pas mieux dans les résultats de recherche pendant une longue période, vous devez vous assurer qu’elle n’est pas fermée aux robots.
Pour ce faire, ouvrez le fichier système robots.txt (il se trouve dans dossier principal). Par exemple, pour le site vkweb.fr, le fichier robots.txt sera situé à vkweb.fr/robots.txt. Nous recherchons une balise de blocage pour notre url. Cela peut ressembler à ceci:

Indexation de nouvelles pages
Indexation de nouvelles pages

Pour vérifier l’indexation d’une page sur Google, ouvrez les outils pour les webmasters. (Bien sûr, pour commencer à travailler sur Google Search Console, il faut créer un compte).

Ensuite, entrez l’url de la page et obtenez un rapport sur son indexation.

Google Search Console
Entrez, simplement, dans le champ l’adresse de la page qui vous intéresse.

Si nécessaire, ici vous pouvez créer une nouvelle requête d’indexation (si la page n’est pas saisie dans l’index Google).
En créant une nouvelle file d’attente d’exploration, Googlebot, comme les autres robots de recherche, examine le plan du site (sitemap) et ajoute des liens de cette carte à la file d’attente. Pour améliorer l’indexation, créez un plan du site – sitemap.xml et signalez-le au moteur de recherche. Sitemap.xml est le moyen le plus simple lors de la soumission des pages de votre domaine pour l’indexation de la page de votre entreprise.

    Un budget de crawl dans la terminologie SEO est le nombre de pages d’un site qu’une araignée de recherche peut explorer dans une unité de temps donnée. Parfois, un robot n’est tout simplement pas capable d’explorer toutes les pages à la fois, vous devez donc prendre des mesures pour vous permettre d’optimiser cet indicateur.

Pour suivre au mieux votre budget de crawl. Bloquez les pages indésirables dans le fichier robots.txt, ne les laissez pas entrer dans votre sitemap. Seules les pages utiles doivent entrer dans le plan du site, le libérer des déchets, des URL avec des redirections, des erreurs canoniques et d’exploration.

Dans la section “Sitemaps” indiquez le lien vers le sitemap.xml. Après cela, le plan du site sera envoyé pour vérification.

Sitemap Index
Lors de l’exploration d’une ressource Web, le fichier sitemap.xml est la navigation du Googlebot, indiquant les pages à indexer.

Pour que les nouvelles pages soient indexées rapidement et sans problème, vous devez proposer un contenu de qualité. Tous les tools de la page doivent être à leur place, y compris les balises, les images, les titres et les descriptions.

Comment fermer une page de site Web de l’indexation / la supprimer de Google

Vous souhaitez masquer une page spécifique des robots d’exploration (par exemple, des pages d’accueil techniques ou des pages contenant les conditions et termes d’utilisation, des informations confidentielles comme vos mots de passe LinkedIn, bing etc.)? Voici trois méthodes : soit utiliser la balise robots, soit ajouter une directive complémentaire d’interdiction au fichier système robots.txt, soit utiliser les outils Google. Examinons ces trois méthodes plus en détail.

Pour fermer la page de l’indexation à l’aide de la balise meta Robots, ajoutez simplement le code suivant à l’en-tête de page ( <‘head’>):

<‘meta name=”robots” content=”noindex, follow”/’>

Maintenant, à propos de la directive d’interdiction dans robots.txt.

Ce fichier contient nos “souhaits” pour les robots de recherche, mais ils seront exécutés à leur discrétion. Pour “demander” au web crawlers de ne pas explorer la page, ajoutez simplement l’entrée suivante aux robots:

User-agent: Googlebot
Disallow: /catalog/ lien vers votre page

Maintenant sur les outils pour les webmasters. Ouvrez l’outil de suppression d’url, dans le menu sélectionnez le domaine et l’élément “Créer une demande”. Spécifiez le lien et cliquez “Removals”. Continuez et suivez les invites de l’outil pour supprimer un url des résultats de recherche. Une fois les données soumises, les pages seront supprimées de l’index Google mais pas avant quelques jours.

Google Search Console removal
Si vous avez un besoin urgent de supprimer du contenu de la recherche Google.

Comment savoir si une page est indexée

Il existe plusieurs façons de vérifier l’état d’une page dans l’index des moteurs de recherche. Le plus simple est de saisir un opérateur site:+url (exemple : site:vkweb.fr/creer-une-page-facebook-professionnelle/) de la page dans la barre de recherche Google. Si la page a déjà été indexée, elle apparaîtra dans les résultats de recherche. Sinon, vous ne pourrez lire aucun message dans les réponses affichées.

Exemple de la page non indexee
Exemple de la page non indexée

Pour ce faire, dans la zone de recherche, entrez un opérateur comme site: l’adresse de votre site.fr, par exemple: site:vkweb.fr.
Dans les résultats de recherche, nous verrons toutes les pages qui sont actuellement dans l’index Google:

Un exemple du nombre de pages indexees sur SERP
Comparez le nombre de pages indexées avec le nombre réel de pages sur votre site. Cela vous aidera à évaluer rapidement si votre site web présente des problèmes d’indexation.

Vous pouvez également voir le nombre de pages indexées dans Google Search Console. Sélectionnez l’élément «Coverage». Le nombre total de pages indexées sera affiché ici:

Nombre total de pages indexees dans le Google Search Console
Nombre total de pages indexées dans Google Search Console.

Pourquoi la page indexée peut quitter le SERP

Il existe de nombreuses raisons pour abandonner l’index. Nous vous citons les plus courants que nous rencontrons nous-même régulièrement :

1. La page donne le 301e code – si une redirection est configurée, une telle page ne restera pas longtemps dans les résultats de la recherche;

2. L’interdiction d’indexation est configurée dans le fichier système robots.txt;

3. Duplication de contenu;

4. Attribut canonique configuré qui mène à une autre page Web;

5. Le site a été pénalisé par Google;

6. La page donne les codes quatre centième ou cinq centième – le Google crawler ne comptera pas du tout ces pages Web.

Conclusion

L’indexation est l’étape la plus importante dans la collecte de données sur des sites Internet dans les moteurs de recherche. Sans indexation, les nouvelles pages Web n’apparaîtront jamais aux moteurs de recherche. L’indexation ne peut être influencée qu’indirectement: si nous vous spécifions des commandes dans le fichier robots.txt, nous ne donnons qu’aux robots des recommandations.
Il convient de noter que les grands moteurs de recherche suivent sans aucun doute ces recommandations. Si vos pages sont majoritairement indexées, mais il n’est pas seulement sur la 1ère page de Google, ou bien la page est presque invisible dans les recherches, notre conseil: travailler sur la qualité du contenu.
Toutes les pages seront indexées, mais le contenu inutile et le spam des moteurs de recherche ne seront jamais classés à égalité avec les plateformes de qualité dans les résultats de recherche.

Vous avez besoin d’un audit de site ou d’une évaluation de son potentiel pour attirer du trafic des moteurs de recherche? Contactez VK Web pour des solutions efficaces !

Articles similaires :
https://vkweb.fr/nouveau-google-analytics-oct-2020
https://vkweb.fr/14-parametres-cles-affectant-pagespeed

Margot Cailleau

Spécialiste du Marketing Digital, employé de l'agence VKWeb. Spécialiste certifié Google AdWords. Auteur d'articles sur le référencement, le PPC et le marketing des médias sociaux chez VKweb.fr ©.

Afficher tous les articles

Cet article a été créé uniquement pour vkweb.fr ©. Pour référencer cet article, qu'il soit complet ou partiel, un lien vers cette page est nécessaire.
Toute erreur constatée dans l'article, merci de nous contacter.

Margot Cailleau

Spécialiste du Marketing Digital, employé de l'agence VKWeb. Spécialiste certifié Google AdWords. Auteur d'articles sur le référencement, le PPC et le marketing des médias sociaux chez VKweb.fr ©.

Abonnez à notre blog

Restez à jour avec nos derniers blogs. Nous ne spamons pas.

Published by Margot Cailleau

Spécialiste du Marketing Digital, employé de l'agence VKWeb. Spécialiste certifié Google AdWords. Auteur d'articles sur le référencement, le PPC et le marketing des médias sociaux chez VKweb.fr ©.

Leave a comment

Your email address will not be published. Required fields are marked *

shares