Le référencement des fichiers externes
Le principe des liens est de permettre de lier des pages HTML entre elles, et c’est d’ailleurs ce qui donne toute sa richesse au web.
Les internautes y trouvent un moyen ergonomique de poursuivre la lecture de l’information et les robots qui visitent nos pages pour en référencer le contenu, sont habitués à rencontrer ces mécanismes et savent les suivre pour continuer à aspirer l’intégralité du web.
Mais qu’en est-il lorsque ces liens pointent vers des fichiers qui ne sont pas au format HTML ?
En effet, certains liens de nos pages web peuvent pointer vers divers types de documents textuels comme des documents au format PDF, Texte ou encore tableur pour ne citer que les plus courants.
S’il est compréhensible que le robot puissent indexer du contenu texte extrait du format HTML, quid du contenu texte contenu dans un autre format de fichier ?
Par ailleurs, l’ensemble de ces fichiers liés peut contenir toute une source de mots clés qui ne seraient pas répercutés dans la page HTML d’où pointe le lien.
Imaginons la charte qualité d’une entreprise au format PDF, une grille horaires contenue dans un tableur, un mode d’emploi ou de montage en format diapositives, un fascicule d’inscription et de participation au format word… bref la liste est longue !
Devons nous systématiquement optimiser les pages HTML pour référencer un tel contenu, ou pouvons nous faire confiance à la pugnacité des robots ? Pouvons nous être sûr que les robots vont entrer dans le document et récupérer le texte seul, de la même manière qu’il le ferait pour une page HTML ?
Alors, qu’en est-il ?
Voyons voir cette fois-ci ce que donne la discussion qui s’engage entre les moteurs de recherche et les fichiers de type textuels. Pour le tester, créons autant de documents que de formats de fichiers cités précédemment.
Plaçons un mot clé unique à l’intérieur de chacun, et ajoutons un lien respectif sur chacune des extensions suivantes : TXT, RTF, DOC, CSV, XLS, PDF et PPT.
Une fois encore, afin de rester dans des conditions de tests optimales, les mots clés utilisés dans les fichiers liés ne sont pas utilisés dans cette page web, ni dans la partie visible des liens, ils ne sont contenus uniquement que dans les documents.
Pour faciliter l’utilisation du test, une image JPG* présente chacun des mots clés utilisés en fonction des formats. Il ne vous reste plus qu’à les saisir alternativement dans google et dans bing pour les rechercher et vérifier si les moteurs ont pu les indexer.
Note : Les mots clés saisis sous forme d’image, ne devraient pas être lus par les robots, dans la mesure où les moteurs n’usent pas de reconnaissance picturale ou autres algorythmes quantique.
Optimisation des documents PDF
Allons plus loin dans la démarche et travaillons avec un PDF optimisé pour le web. Les principales opérations d’optimisation vont uniquement se porter sur la réduction de taille du document, et le ré-échantillonnage des images.
Vous pouvez user d’un script personnel ou utiliser la fonction Document > Réduire la taille des fichiers depuis Acrobat. Ensuite depuis le menu Fichier > Propriétés… il vous sera possible de renseigner un certain nombre de métadonnées telle que le titre, le sujet, l’auteur, mots clés….
Voici un document PDF optimisé, vous pouvez le visualiser en cliquant sur le lien suivant pdf-optimise.pdf. En vous aidant de la carte image ci-contre, vous pourrez directement consulter les mots clés qu’il contient et voir si les moteurs les ont référencés.
Au fait, le PNG est-il perméable ?
Les images utilisées dans nos documents sont également des fichiers liés, donc poussons le délire un peu plus loin, en plaçant dans l’article une image PNG* qui contient un élément de texte présentant un mot clé… Histoire de vérifier l’éventuelle perméabilité du format.
Notons au passage qu’aucune métadonnée XMP ou autre n’a été précisée sur ce fichier.
L’image utilisée pour cette expérience est au format PNG. Mais attention, le PNG Natif de Fireworks, c’est à dire un format de fichier non aplati et préservant le texte dans un format éditable, donc non image.