Article:
"Les
techniques de SPAMDEXING"
|
|
Introduire
l’article sur le spamdexing par une anecdote sur
l’origine de cette expression permettra d’appréhender
ce sujet sérieux avec une touche d’humour.
|
|
L’expression
"spamdexing" vient de l’expression
"spamming" qui elle-même tire son origine du mot
"spam". "Spam" est une marque de
jambonneau ; ce produit est considéré par les américains
comme étant de valeur nutritionnelle pauvre.
Les "Monty Python" ont utilisé cette référence
à l’image de la marque dans la chanson du populaire
sketch "Monty Python’s famous spam-loving
Vikings" : l’action se déroule dans un restaurant
dont la clientèle, des Vikings, sont littéralement
"adorateurs" de ce type de jambonneau, à un point
tel que lorsqu’un client demande à être servi d’un met
autre que ce jambonneau, tous les autres clients entonnent
le fameux refrain "spam, spam, spam, spam... spam"
avec tant de force que le client ne peut faire entendre ses
protestations.
|
|
De là donc,
l’origine de l’expression "spamming" employée
pour définir l’action d’inonder les réseaux Internet
avec un même message, provoquant ainsi une véritable
pollution.
|
|
Le
"spamming" peut se manifester sur 3 ressources
d’Internet, les groupes de discussion Usenet, le courrier
électronique, et les outils de recherche.
|
|
En ce qui
concerne les moteurs de recherche, l’expression
"spamming" a tout d’abord qualifié
l’indexation abusive de sites effectuée par des créateurs
de sites ; motivés par la volonté de faire connaître
leurs informations, leurs créations, leurs biens ou leurs
services, ces créateurs ont réussi à profiter des défaillances
des robots pour hisser leurs sites au sommet du classement
des moteurs de recherche. C’est ce type de comportement
que le professeur David E Sorkin, auteur d’une compilation
sur le droit du Cyberespace, a nommé le
"SPAMDEXING".
|
|
Le terme
"spamdexing" s’applique désormais aux
techniques illicites ou à la lisière du licite utilisées
pour promouvoir un site auprès des moteurs de recherche. Le
caractère licite n’a pas ici de dimension juridique, il
s’agit simplement de ce qui est accepté ou non par les
moteurs ou plutôt par les ingénieurs responsables de leur
fonctionnement. Une pratique peut être considérée comme
du "spamdexing" par un moteur alors qu’un autre
peut la trouver acceptable.
|
|
Voici quelques
unes des techniques qui peuvent être appliquées :
"Harcèlement"
du robot par des soumissions répétées d’un même site.
Certains outils de soumission automatique sont désormais
souvent repérés par les robots qui n’acceptent plus que
le référencement manuel.
|
|
Utilisation
abusives des balises META: <TITLE><DESCRIPTION><KEYWORDS>
|
Répétition de mots:
Répéter le plus possible un mot pour en faire grimper l’Indice
de Densité (IDM) :
- soit la répétition d’un mot clé significatif lié
directement au site,
- soit implémentation d’un mot n’ayant aucun lien avec
le site et son secteur d’activité mais utilisé fréquemment
par les internautes lors de leur requête auprès des
moteurs ( c’est par exemple le cas du mot
"sexe").
|
|
Répétition du titre en multipliant le nombre des balises
<TITLE>.
|
|
Surcharge
de la page avec des mots clés:
|
Utilisation abusive de l’attribut
<ALT> des balises d’images <IMG> qui sert à
afficher un texte si l’image n’est pas chargée sur le
navigateur.
|
|
Intégration de mots invisibles , c’est-à-dire de mots écrits
dans la même couleur que celle du fond de la page.
|
|
Charger les zones de commentaires du code HTML de mots clés.
|
|
"Abuser"
le robot:
|
Soumission d’une adresse URL avec une page "spammée"c’est-à-dire
écrite pour le robot, puis remplacement par la page
"normale" après passage du robot que l’on détecte
par l’analyse des "logs" du serveur.
Comme les robots ne viennent pas visiter un site dès sa
soumission, il faut exercer un travail considérable de
suivi.
|
|
Réponse spécifique à la visite du robot : le programme du
serveur intercepte la demande du robot et lui renvoie une
page "spammée". Cette technique est appelée
"cloaking" en anglais.
|