copiepresse vs google [fr]

Le niveau de connaissance d’internet de la presse francophone est au niveau du caniveau. Et j’apporte la preuve.

Je me suis livré à une petite expérience: sur le site de copiepresse, ils mettent une liste de sites web membres au format .pdf. Ce fichier est très vite converti au format texte pour ensuite être traité par les outils Unix classiques. On commence par convertir les espaces en retour ligne pour pouvoir éliminer plus facilement tout ce qui ne ressemble pas à une URL:

cat repertoire_copiepresse_01_01_2011.txt |tr -s ' ' "\n"|grep -i -e http -e www|sort|uniq> copiepresse-members.txt

On a un fichier contenant une URL par ligne. Comme le fichier résultat n’est pas très propre (il contient des points et des virgules en trop), un petit nettoyage s’impose. Faisable à la main sans trop se fatiguer.

La commande suivante va récupérer tous les robots.txt de cette liste:
for i in $(cat copiepresse-members.txt ); do wget -O $(echo $i|tr '/' '-')robot.txt $i/robots.txt; done

Après quelques minutes, votre répertoire de travail sera rempli de petits fichiers. On va utiliser la commande file pour les identifier:

http:--blog.sudpresse.berobot.txt: empty
http:--centre.nouvellegazette.be,robot.txt: empty
http:--charleroi.lanouvellegazette.berobot.txt: HTML document text
http:--chat.sudpresse.berobot.txt: empty
http:--huy.lameuse.berobot.txt: HTML document text
http:--liege.lameuse.berobot.txt: HTML document text
http:--luxembourg.lameuse.berobot.txt: HTML document text
http:--sambre-meuse.lanouvellegazette.berobot.txt: HTML document text
http:--verviers.lameuse.berobot.txt: HTML document text
http:--www.4424.berobot.txt: empty
http:--www.actu24.berobot.txt: ASCII text, with CRLF line terminators
http:--www.alamer.berobot.txt: empty
http:--www.avenirluxembourg.berobot.txt: ASCII text, with CRLF line terminators
http:--www.bebasket.berobot.txt: empty
http:--www.belmail.comrobot.txt: ASCII text
http:--www.bel-sport.comrobot.txt: HTML document text
http:--www.cejour.berobot.txt: empty
http:--www.centralvillage.berobot.txt: HTML document text
http:--www.chronologie.berobot.txt: HTML document text
http:--www.chronologiquement.berobot.txt: empty
http:--www.cinebel.bewww.dhnet.berobot.txt: HTML document text
http:--www.correspondants.berobot.txt: empty
http:--www.coupdoeil.berobot.txt: empty
http:--www.courrierescaut.berobot.txt: ASCII text, with CRLF line terminators
http:--www.dh.berobot.txt: ASCII text
http:--www.dhnet-accessible.berobot.txt: empty
http:--www.diables-rouges.berobot.txt: HTML document text
http:--www.editionsdelavenir.berobot.txt: ASCII text, with CRLF line terminators
http:--www.e-sports.berobot.txt: ASCII text, with CRLF line terminators
http:--www.essentielle.berobot.txt: ASCII C program text
http:--www.filinfo.berobot.txt: HTML document text
http:--www.gazettedessports-dimanche.berobot.txt: HTML document text
http:--www.gazettedessportsdimanche.berobot.txt: HTML document text
http:--www.grenzecho.berobot.txt: empty
http:--www.grenzecho.netrobot.txt: ASCII text, with CRLF line terminators
http:--www.immodusoir.berobot.txt: empty
http:--www.immodusoir.comrobot.txt: empty
http:--www.immosoir.berobot.txt: empty
http:--www.immosoir.comrobot.txt: empty
http:--www.interprof.berobot.txt: HTML document text
http:--www.j1j.berobot.txt: empty
http:--www.jobstoday.berobot.txt: empty
http:--www.lacapitale.berobot.txt: HTML document text
http:--www.ladh.berobot.txt: ASCII text
http:--www.lagazettedessports.berobot.txt: HTML document text
http:--www.lalibre-accessible.berobot.txt: empty
http:--www.lalibre.berobot.txt: ASCII text
http:--www.lalibreessentielle.berobot.txt: empty
http:--www.lameuse.berobot.txt: HTML document text
http:--www.lanouvellegazette.berobot.txt: HTML document text
http:--www.laprovince.berobot.txt: HTML document text
http:--www.lavenirduluxembourg.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lavenir.netrobot.txt: ASCII text, with CRLF line terminators
http:--www.laviedunet.berobot.txt: HTML document text
http:--www.lebalfroid.berobot.txt: empty
http:--www.lecho.berobot.txt: ASCII text
http:--www.lecourrier.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lecourrierdelescaut.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lefilinfo.berobot.txt: HTML document text
http:--www.leguide.berobot.txt: empty
http:--www.lejour.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lejourlecourrier.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lejournaldesenfants.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lequotidien.berobot.txt: HTML document text
http:--www.lequotidiendenamur.berobot.txt: HTML document text
http:--www.lequotidienducoin.berobot.txt: HTML document text
http:--www.lerappel.berobot.txt: ASCII text, with CRLF line terminators
http:--www.lesnuitsdusoir.berobot.txt: HTML document text
http:--www.lesoir.berobot.txt: empty
http:--www.lesoir.comrobot.txt: empty
http:--www.lesoirenligne.berobot.txt: HTML document text
http:--www.lesoir.eurobot.txt: empty
http:--www.lesportenligne.berobot.txt: HTML document text
http:--www.liege-04.netrobot.txt: HTML document text
http:--www.llb.berobot.txt: ASCII text
http:--www.marchedelart.berobot.txt: empty
http:--www.mediabel.comrobot.txt: empty
http:--www.mediabel.netrobot.txt: empty
http:--www.monargent.berobot.txt: ASCII text
http:--www.monquotidien.berobot.txt: ASCII text, with CRLF line terminators
http:--www.necrologies.netrobot.txt: empty
http:--www.netecho.berobot.txt: ASCII text, with CRLF line terminators
http:--www.netecho.inforobot.txt: ASCII text, with CRLF line terminators
http:--www.nma.berobot.txt: empty
http:--www.nord-eclair.berobot.txt: HTML document text
http:--www.nordeclair.berobot.txt: HTML document text
http:--www.nordeclair.eurobot.txt: HTML document text
http:--www.petite-gazette.berobot.txt: HTML document text
http:--www.petitegazette.berobot.txt: HTML document text
http:--www.plustardjeserai.berobot.txt: HTML document text
http:--www.references.berobot.txt: ASCII English text
http:--www.regierossel.berobot.txt: empty
http:--www.regions.berobot.txt: HTML document text
http:--www.souvenez-vous.berobot.txt: HTML document text
http:--www.souvenezvous.berobot.txt: HTML document text
http:--www.souviens-toi.berobot.txt: HTML document text
http:--www.sportenligne.berobot.txt: HTML document text
http:--www.sud-peps.berobot.txt: HTML document text
http:--www.sudpeps.berobot.txt: HTML document text
http:--www.sudpresse.berobot.txt: HTML document text
http:--www.sudpresse.comrobot.txt: HTML document text
http:--www.sudpresse.eurobot.txt: HTML document text
http:--www.sudpresse.netrobot.txt: empty
http:--www.sudpresse.orgrobot.txt: empty
http:--www.sudspressesports.berobot.txt: HTML document text
http:--www.swarado.berobot.txt: HTML document text
http:--www.telekila.berobot.txt: ASCII text, with CRLF line terminators
http:--www.va.berobot.txt: empty
http:--www.verslavenir.berobot.txt: ASCII text, with CRLF line terminators
http:--www.viarossel.berobot.txt: empty
http:--www.victoiremag.berobot.txt: xHTML document text
http:--www.viedunet.berobot.txt: HTML document text
http:--www.votrejournal.berobot.txt: ASCII text, with CRLF line terminators
http:--www.zaclola.berobot.txt: empty

On peut remarquer plusieurs choses:

  • Beaucoup d’erreurs 404 -> sur les serveurs concernés, le fichier robots.txt est simplement absent.
  • Des fichiers au format HTML -> le fichier n’existe pas mais vous êtes redirigé sur une autre page.
  • Des fichiers vides -> le webmaster du site n’a pas jugé utile de remplir ce fichier.

On va se concentrer sur les fichiers qui ressemblent à du texte brut: on supprime tous ceux qui n’ont rien à voir:

rm $(file http*.txt|grep -v ASCII|cut -f 1,2 -d ':')

A ce point, les sites restant ont un fichier robots.txt qui semble valide. Il y a plein de fichiers qui semblent identiques: on lance la commande md5sum http*.txt|sort pour trouver les doublons:

04a8c170169f5a8e38ff7117240c81ee http:--www.monargent.berobot.txt
48ca1fcf2991ae97ec177881b59af083 http:--www.belmail.comrobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.actu24.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.avenirluxembourg.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.courrierescaut.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.editionsdelavenir.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.e-sports.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lavenirduluxembourg.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lavenir.netrobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lecourrier.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lecourrierdelescaut.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lejour.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lejourlecourrier.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lejournaldesenfants.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.lerappel.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.monquotidien.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.telekila.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.verslavenir.berobot.txt
735ab4f94fbcd57074377afca324c813 http:--www.votrejournal.berobot.txt
9c5cb77fd253d8b0ce744dd09199ea2c http:--www.dh.berobot.txt
9c5cb77fd253d8b0ce744dd09199ea2c http:--www.ladh.berobot.txt
9e3a1ac4304f2fd5253f33ea42853838 http:--www.references.berobot.txt
bc38975872c44090ac8f8de3032b5cf2 http:--www.lalibre.berobot.txt
bc38975872c44090ac8f8de3032b5cf2 http:--www.llb.berobot.txt
d0308f59825bf1df62680dea7ef17f17 http:--www.essentielle.berobot.txt
e999dd6a3f8c3256dc88eaad4068c4fb http:--www.lecho.berobot.txt
ee4d1bb9e219f56ef6fed5592d7e0c23 http:--www.grenzecho.netrobot.txt
ee4d1bb9e219f56ef6fed5592d7e0c23 http:--www.netecho.berobot.txt
ee4d1bb9e219f56ef6fed5592d7e0c23 http:--www.netecho.inforobot.txt

Il y a un fichier qui revient 17 fois, voyons ce qu’il contient:

User-agent: *
Disallow:

D’après Robotstxt.org, cette configuration autorise explicitement les robots à visiter et indexer les pages. A ce point, sur les 111 entrées répertoriées par copiepresse, il ne reste plus que 12 configurations qui sortent du lot et méritent d’être étudiées:

  • References.be tourne vraisemblablement sous Drupal 6.14 et utilise le robots.txt de base. Comme il s’agit d’une ancienne version (la version actuelle est 6.22), ce site est potentiellement vunérable et pourrait être une cible facile pour des script kiddies.
  • Les webmasters de La Dernière Heure et de la Libre Belgique sortent étonnamment du lot: leurs robots.txt est bien fourni et semblent extrêmement compétent lorsqu’il s’agit de maintenir un serveur web.
  • essentielle.be tourne sous WordPress et est maintenu par la même équipe que La Libre/La DH. Rien à dire ici, les gars ont l’air de connaître leur boulot.
  • Les autres résultats interdisent le moteur de recherche intégré au site d’être abusé par le robot de Google. Rien concernant le contenu proprement dit.

Conclusion

Copiepresse et les quotidiens francophones avaient (et ont toujours) les moyens techniques pour empêcher le robot Google de visiter et indexer leur contenu, mais pour une raison qui m’échappe, ils ont préféré l’option tribunal et mauvaise publicité qui leur sera bien plus coûteuse qu’un zeste de bon sens, une heure à s’instruire avec une documentation et un bête fichier texte bien placé. Google a retiré les références aux quotidiens francophones à cause de leur propre incapacité à utiliser le fichier robots.txt

Bon voyage en enfer !!

Mise à jour 2015-02-24

Les commentaires ont été fermés pour cause de spam excessif.

Tags: , , ,

Comments are closed.