Taxonomie, Thésaurus et vocabulaire contrôlé
Taxonomie, étiquetage et catégories
Taxonomie, le mot est apparu en relation avec la taxinomie et est devenu un mot à la mode dans l’architecture de site Web… on parle de Taxonomie comme d’une science de classification qui, au sein des systèmes d’informations des entreprises, va permettre de définir une liste d’index facilitant la recherche d’informations.
Bien que cela puisse paraître évident, il n’est pas facile de regrouper les pages d’un site sous des menus et sous menus…. Arriver à trouver une clarté dans l’arborescence est une tâche qui demande réflexion. La navigation dans l’arborescence du site va devoir passer par l’utilisation d’étiquettes pour définir les libellés de menus et sous menus.
Puis, chacun de ses menus donnera lieu à des catégories regroupant plusieurs pages (méthode du tri de carte).Bien sûr, tout ceci afin de faciliter la navigation de l’internaute, le référencement des pages ou l’utilisation des moteurs de recherche interne et/ou externe.
Prenons quelques exemples très caricaturaux, mais qui peuvent démontrer ce qu’il faut entendre, par une erreur d’étiquetage ou de classement, dans une mauvaise catégorie.
Imaginons que dans un titre d’article il soit mentionné le mot fer. Qu’évoque donc pour vous ce mot fer… s’agit-il du métal ? de la lame d’une épée ? du fer à repasser ? de fer à cheval ? des entraves qui enchaînent un prisonnier ? du nom commun donné aux forceps ? bref… le choix ne manque pas.
Optons pour le métal, alors, si vous devriez classer ce mot, dans quelle catégorie le mettriez-vous : en tant que minéral, objet métallique ou en tant qu’élément chimique de numéro atomique 26? En ce sens, il est bien d’utiliser un vocabulaire contrôlé, qui permet d’une part de classer un élément dans l’ensemble de sa signification et ainsi d’éviter toute les ambiguïtés ou les restrictions liées à l’utilisation du langage naturel.
Prenons un autre exemple, lorsqu’on parle d’un avocat, si nous suivons la définition du dictionnaire Larousse il s’agit d’un fruit , bien qu’il soit consommé comme un légume et classé en tant que tel par cuisineaz ou l’atelier des chefs, mais la botanique chez Universalis, elle, le classe comme une baie à un seul pépin…. youps… donc fruit, légume, ou baie ? ou est-ce une profession libérale ? L’essentiel quand même est que l’utilisateur puisse s’y retrouver.
Par ailleurs, hormis certaines appellations spécifiques à un site et à son contenu, le nommage de rubriques classiques ne doit pas venir perturber les habitudes prisent par les internautes, et donc il est très courant de pouvoir trouver des catégories bateaux comme : contactez-nous, qui sommes nous?, accueil, panier, à propos de … etc…
Vocabulaires contrôlés
Dès lors que l’on parle de vocabulaires contrôlés, on parle alors du résultat d’un travail collégial et collaboratif entre divers profils d’utilisateurs ou divers groupes de travail. L’idée étant de cerner les mots et des expressions réellement employés, de leurs relations entre eux et de voir comment ils peuvent s’articuler entre eux.
Il existe plusieurs formes de vocabulaires contrôlés, qui s’étendent de leur présentation la plus simple, la définition des mots et expressions clés, à leur représentation la plus complexe, l’ontologie, en passant donc par les synonymes et autres appellations, les contrôles d’autorités, les schémas de classification et les Thésaurus. Prenons quelques exemples afin d’illustrer chacune de ces catégories;
Quelques soit leur niveau d’expertise, tout les catégories qui vont suivre, Taxonomie, Thésaurus et Ontologies se composent des sous catégories suivantes
Les mots et expressions clés
Il parait simple de définir des mots ou des expressions clés pour le contenu d’une page et pourtant à bien y regarder cela peut s’avérer être une tâche des plus complexes à réaliser, car le bon choix fera que les mots clé devront forcement refléter le contenu de la page. On peut s’aider lors de l’écriture de plug in SEO mais aussi consulter google trends pour avoir quelques idées de recherche et utilisation.
Les synonymes et autres appellations
Il s’agit là de lister l’ensemble des mots qui soient synonymes ou employés par les utilisateurs… par exemple nous employons tous le mot frigidaire qui est en fait une marque pour indiquer un réfrigérateur. Il peut être intéressant à ce niveau de lister également les fautes de frappe ou des mots équivalents souvent employés à la place du mot cible, comme par exemple réfrégirateur, ou frigo. Pour travailler les synonymes le site Synonymo.fr, ou encore Bestsynonym sont assez sympas.
Les contrôles d’autorités
Ce type de fichiers permet de définir sans ambiguïté une personne, un titre, une appellation. Cela évite qu’une description cible deux entités différente. Voir un exemple fictif d’une notice d’autorité nom de personne sur le site de la BNF.
Schémas de classification, ou Taxonomie
Ces divers types de schémas permettent de créer des groupes d’entités en relation et de leur donner une arborescence hiérarchique en catégories et sous catégories. On peut également parler là de Taxonomie. Lire l’excellent article Structuration du savoir et organisation des collections dans les répertoires du web.
Distinguons cependant une autre catégorie de classification, les classifications à facettes qui permettent comme son nom l’indique de définir des éléments selon divers angles de perception. Si nous reprennons l’exemple de l’avocat, cela nous permettrait dans un site de recettes de cuisine d’accéder à l’exemple précédent, d’accéder aux recettes d’avocats aussi bien par les légumes, les fruits ou les baies.
Thésaurus
Un thésaurus, est un ensemble de termes structurés de manière à faire ressortir des catégories. À la différence de la Taxonomie, le Thésaurus fonctionne dans les deux sens en s’ouvrant à des sujets liés ou afférents. Voyons en détails les points particuliers du Thésaurus.
- Il permet de regrouper les termes d’un même domaine à l’intérieur d’une hiérarchie, et de les mettre en relation avec des termes d’autres domaines ;
- La relation hiérarchique permet d’accéder à des concepts plus larges ou plus étroits à l’intérieur d’un même domaine ; être à la fois un élément d’une catégorie supérieure, mais aussi ouvrant vers « voir également » ou « en relation avec » qui n’aurait pas forcement de relation directe avec l’arborescence en cours
- Lorsque plusieurs termes peuvent rendre compte d’un même concept, l’utilisateur est guidé vers le terme préférentiel choisi par l’indication, des autres termes possibles dans le champ « employé pour » ;
- le thesaurus est un outil dynamique qui peut être mis à jour par ajout, modification ou suppression de termes ou relations entre termes.
Les termes du thésaurus peuvent avoir divers types de relations entre eux, de ces relations peuvent découler des multitudes d’utilisations d’aide à la navigation ou à la recherche d’informations, dans un index de sites ou dans l’aide d’un moteur de recherche :
Équivalence :
La relation d’équivalence pousse au delà la notion de synonyme, jusqu’à des significations équivalentes, telle que pour le mot pneu, nous pourrions avoir tube, gomme, boyau, slik…
Hiérarchique :
La relation hiérarchique peut être générique comme : mammifères , canidés, chien, ou définir des parties ou ensembles comme, jambe , genoux, tibia, pied, ou encore d’instance : pneu, firestone, good year, michelin…
Associatives :
Enfin la relation associative permet quant à elle de pouvoir ouvrir également vers les produits dérivés ou les accessoires, dans un site e-commerce : voiture, route, station essence, carte, gps … ou pied, chaussettes, basket, …
Au delà du thésaurus, les ontologies
Commençons déjà par préciser que nous parlons là d’ontologies et non pas d’Ontologie!
En ce sens et en complément du RDF, le w3c améliore la grammaire de liaison entre les éléments et recommende l’OWL qui va permettre de formaliser la relation entre les termes poussant de plus en plus vers un véritable web semantique.
Voir par exemple le schéma sur l’ontologie de logement qui sera très parlant.
Quelques liens intéressants
- Controlled Vocabularies: A Glosso-Thesaurus
- Glossary of terms relating to thesauri and other forms of structured vocabulary for information retrieval
- Thesauri online
- Qu’est-ce qu’une ontologie ? Entretien avec Bruno Bachimont, directeur scientifique à l’INA et enseignant-chercheur contractuel (HdR) à l’Université de Compiègne.
- Les normes de conception, gestion et maintenance de thésaurus
- Where are the Semantics in the Semantic Web?
- What’s the difference between an ontology and a taxonomy?