Visualiser le maillage interne d’un site avec les tables de Fusion Google Drive

Je vais vous montrer comment créer un graphe qui permet de visualiser le maillage interne d’un site. Ma technique repose sur l’utilisation d’un Scraper comme Screaming Frog, des tables de Fusion Google (sur Google Drive) et d’Excel. Cette méthode ne fonctionne cependant pas bien avec les gros sites ou les sites qui ont une partie blog. De toute façon, la majorité des logiciels qui permettent de représenter le maillage d’un site ne peuvent pas bien le représenter dans ces cas de figures. A titre d’exemple, pour un site d’environ 200 pages et un blog, il y aurait plus de 15000 interconnections à représenter (c’est du vécu).

L’objectif est donc d’isoler les pages importantes du site. Pour un site vitrine de type WordPress, nous pouvons imaginer ne prendre que les pages et laisser de côté les catégories, articles, archives et autre. Pour un site e-commerce de type Prestashop, je prendrais plutôt les catégories et je filtrerais le reste (produits, pages CMS,..).

Une fois la liste des pages récupérée, lancez Screaming Frog (la version gratuite suffit). Mettez-le en mode liste (Mode > List). Importez votre liste de pages et lancez le crawl.

C’est tout ce que vous aurez à faire sur Screaming Frog. Allez dans Bulk Export > All Out Links pour récupérer tout le maillage.

bulk-export

Ouvrez maintenant Excel et importez l’export de Screaming Frog (Données > A partir du texte)

import-excel

Dans la colonne destination, se trouve tout un tas d’urls. Il va falloir nettoyer les déchets. Les déchets sont les liens externes, les images, les css, les js, etc. Je vais donc appliquer un filtre sur la colonne Destination. Sélectionnez la ou les colonnes (perso, j’ai tout sélectionné), puis cliquez sur Filtrer.

filtre-url

Cliquez sur la petite flèche qui est apparue, puis Filtres textuels > Filtre personnalisé. Toutes mes urls se terminent par un slash. Je n’ai ni .html, ni .php mais cela ne complique pas tellement la chose. Voici mon filtre qui permet de ne garder que les liens internes vers des pages HTML.

filtre-liens-internes

Dans mon cas, j’avais pas mal de doublons. Pour les supprimer, sélectionnez les colonnes Source et Destination, puis cliquez sur Supprimer les doublons.

supprimer-doublons

Pour améliorer la lisibilité du graphe final, vous pouvez maintenant supprimer le domaine de toutes les urls, pour ne garder que l’URI. Pensez aussi à supprimer le plan du site, qui fausse le graphe.

rempalcer-chaine

Rendez-vous maintenant dans votre Drive. Créez un nouveau Google Sheets et collez-y les urls des colonnes sources et destination. Cela me fait un peu plus de 1000 lignes.

Puis dans Google Drive à nouveau, faites Nouveau > Plus > Google Fusion tables. Si vous ne l’avez pas, faites Nouveau > Plus > Associer Plus d’applications. Tapez Fusion et ça sera le premier.

Au premier écran, sélectionnez Google Spreadsheet puis votre fichier nouvellement créé. Il se peut que Google Drive vous demande une autorisation à ce stade. Cela ne s’affichera qu’une seule fois.

spreadsheet

Vous pouvez laisser le reste par défaut. Pour créer le graphique de maillage, cliquez sur la croix rouge > add chart.

ajouter-graphique-fusion

Prenez le network graphe, tout en bas à gauche. Le tour est joué. Vous pouvez afficher plus ou moins de nodes à cet endroit avant de le publier (permet de le partager).

Voici le résultat :

Pour les utilisateurs de WordPress, j’ai développé un plugin très simple qui permet de récupérer toutes les urls nécessaires pour générer le graphe. Il permet notamment de concentrer vos ressources uniquement sur les pages statiques de votre site ou sur l’ensemble de toutes les pages (catégories, CPT, articles, etc).

extension-wp

Comment optimiser une page 404 ?
SEO : Optimiser Magento pour le référencement

17 Comments on “Visualiser le maillage interne d’un site avec les tables de Fusion Google Drive”

  1. Bravo pour le tuto : c’est une excellente idée.

    As-tu essayé de réaliser la même chose sur des sites ayant de gros volumes de pages (1000, 10 000, 100 000 ou plus) pour voir si le graphique généré était toujours aussi visible ou non ?

  2. C’est un outil que je devrai essayer pour le comparer à Gephi.
    On a des petites habitudes :)
    Par contre le pense qu’avec cet outil, il y a un meilleur rendu moins fouillis que Gephi. :)

  3. Joliiiiiiii! tres bon le tuto, Meme question que Daniel, tu sais ce que ca donne avec un site plutot gros site – de mon coté j’ai dans les 10k/12k pages

    1. Pour répondre à vos questions, j’ai testé sur un site e-commerce de 1298 pages, 180k liens après filtre. J’ai l’impression qu’il a du mal quand on dépasse une certaine quantité de pages. Non seulement pour importer des gros fichiers (Google Drive galère), mais aussi pour afficher les interactions.
      Il n’est pas non plus possible de colorer certaines bulles du réseaux pour les mettre en valeur.

      Pour le site de Daniel, c’est un peu plus lisible mais comme je ne peux pas bouger les grappes, la lecture reste assez difficile :

      On arrive cependant à voir les silos (pages qui reçoivent un paquet de liens).

  4. Salut, question sans doute très con, mais pourquoi tu supprimes les doublons ?
    En tout cas merci pour ce tuto très simple à réaliser grace à tes explications ;)

    1. Hello Sylvain,
      ça ne m’intéresse pas de savoir que la page A fait x liens vers la page B du moment que j’ai une représentation graphique de leur liaison.
      Le trait sera juste un peu plus gros et le graphe moins lisible.

      PS : je supprime les dupliqués sur 2 colonnes, par sur une seule.

      1. Pas con :) Ca fait parfaitement sens. Autre question débile : pourquoi dans SF tous les outlinks plutot que les inlinks, y’a une différence ?

        Sinon pour les gros sites, c’est sympa de pouvoir réduire le nombre de noeuds et ainsi consulter les 10/20/30 plus importants.

        Enfin, ton tuto se transpose très bien dans Gephi pour peu que l’on connaisse un peu l’outil, encore merci ;)

      2. A priori, les in links sont les liens qui pointent vers la page courante et les out links sont les liens qui en sortent. Pour moi ça paraissait logique de regarder dans ce sens là.

  5. Bonsoir,
    Merci pour ce tuto très utile !
    Quand tu dis « Pensez aussi à supprimer le plan du site » tu parles dans la source ou dans la destination ? Tu pars du principe que tu as mis ton plan du site en nofollow ? D’ailleurs comment fais-tu pour donner moins d’importance à une page sans lui retirer le lien dans le contenu pour que l’internaute puisse toujours y accéder ? Tu places un nofollow ?

    Merci pour ton retour,
    Jonathan

    1. Salut Jonathan,
      La page plan du site fait des liens vers toutes les pages du site. La représentation graphique de cette page ne m’intéresse pas spécialement car elle ne fait pas vraiment partie d’un silo ou d’un ensemble de page.
      Je ne met jamais de nofollow vers la page plan du site.
      Concernant ta dernière question, une page pour laquelle je souhaite donner moins d’importance est une page dont le contenu est trop faible ou de mauvaise qualité selon moi. Comme Google ne les aime pas spécialement non plus, je leur colle une meta noindex, follow. J’utilise le nofollow interne sur les liens que dans de très rares cas.

  6. Bonjour,

    Une dernière petite question quand tu dis « Supprimer les doublons », tu sélectionnes la colonne Source et tu supprimes puis tu sélectionnes la colonne Destination et tu supprimes aussi les doublons ? Ou alors tu fais Supprimer les doublons et tu coches que la 2 colonnes Source et Destination ?

    Pour la moment mes sites ressemblent à des grosses boules donc je me demande si j’ai pas merdé à ce niveau là :)

    Merci

    1. Bonjour,
      Tu dois sélectionner les deux colonnes et supprimer les doublons en terme de line
      Page 1 – Page 2
      Page 1 – Page 2
      est un doublon

  7. Génial, l’année dernière à la même époque sur les conseils de Daniel, on passait nos nuits sur Gelphi avec le tuto de htitipi.

    :)

  8. Excellent tutoriel ! La représentation graphique avec Fusion Table est beaucoup plus souple et pratique qu’avec Gephi, c’est certain. Par contre, dès qu’on dépasse les dix milles lignes, Google Sheets commence sérieusement à patiner. C’est dommage parce que ça freine l’analyse du maillage interne au niveau des sites volumineux donc, le plus souvent, pour les sites ecommerce.
    En tout cas, ce type de graphique est très parlant selon moi et c’est toujours agréable de pouvoir illustrer une optimisation ou, inversement, un frein au référencement de cette manière. C’est beaucoup plus tangible et facile à comprendre pour un client.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *