Récupérer le nombre de pages indexées avec Google Drive (Spreadsheet)

Pour faire simple, il faut aller dans https://drive.google.com/?hl=fr#my-drive et créer une feuille de calcul.

Je n’ai pas trouvé de fonction de base qui puisse récupérer facilement le nombre de pages indexées d’un site, j’ai donc créé un petit script qui va pouvoir le faire. Je conçois qu’on peut mieux faire mais il fonctionne bien comme ça (je n’avais que 5 minutes de pause ;).

Une fois dans votre feuille de calcul, faites Outils > Éditeur de scripts puis créer le script avec le code ci-dessous :

function indexedPages(myUrl) {
 var q = "http://www.google.fr/search?q=site:" + unescape(myUrl);
 var data = UrlFetchApp.fetch(q).getContentText();
 var string1 = '<div id="resultStats">Environ ';
 var string2 = 'sultats<';
 var res = data.substring(data.indexOf(string1)+string1.length, data.indexOf(string2)-3);
 if (isNaN(res)) {
 return 0;
 }else {
 return res;
 }
}

 

Enregistrez et retourner dans votre feuille de calcul. Utilisez la fonction comme ceci :

pages-indexees

 

PS : attention aux captchas -> #Error

N’hésitez pas à partager l’astuce si ce script fonctionne pour vous ;)

iMacro et Oscaar : inscriptions d'annuaires semi-automatisées
Système Responsive pour les images

5 Comments on “Récupérer le nombre de pages indexées avec Google Drive (Spreadsheet)”

  1. Vraiment utile ce genre de code pour drive. Par défaut il y a certains trucs sympa proposés comme fonction par GG, mais je pense que les fonctionnalités ont été retirées car elles ne fonctionnent pas ;(

      1. mmm…
        les premiers essais j’avais 0 résultats.
        Mais je devrai essayer de modifier un peu ton script car je ne fais pas que des requetes sur gg.fr.
        J’ai essayé de modifier la fonction pour prendre en compte le pays (basiquement, en faisant indexedPages(url, tld), et
        var q = « http://www.google. » + unescape(tld) + « /search?q=site: » + unescape(myUrl);

        (je debute en script…)
        mais je viens de me prendre un captcha… à suivre.

        Mais pour le moment, mon imporxml marche pas trop mal non plus ;-)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *