Accueil > Bases de données relationnelles et indexation du contenu > InfoCodex et Indri

InfoCodex et Indri

Deux logiciels récents pour la gestion des documents d’entreprise

lundi 12 juillet 2010, par Hue Emmanuel, ldorget

Réflexion sur les indexations de fichiers XML par Info codex et par Indri.

  1. Introduction
  2. Le XML
  3. L’indexation de fichiers XML
  4. Présentation Infocodex EHE
  5. Présentation Indri LDT
  6. Positionnement sur les deux solutions dans une application documentaire pour PME.

1. Introduction

Il devient de plus en plus difficile pour les consommateurs de relier leurs interfaces avec les mécanismes et les logiques de construction des logiciels. Ainsi la performance, la stabilité et l’évolutivité qui constituent les bases de l’informatique sont négligées au détriment du marketing. La venue du XML révolutionne l’internet d’aujourd’hui et encore plus celui de demain par l’utilisation et l’application de nouveaux systèmes. L’exercice qui suit a pour but de montrer que, même pour des novices de l’informatique, les notions de langage XML ou d’indexation peuvent trouver un sens dans une réalité informatique éloignée des fondamentaux fonctionnels.

2. Le XML

Suite aux recommandations du W3C en 1998 le XML (eXtensible Marquet Language) est un langage reconnu et destiné à succéder au HTML sur le World Wilde Web. C’est un langage markup de balisage générique de description : c’est-à-dire un langage qui présente de l’information encadrée par des balises. L’inclusion de celles-ci permet de transférer à la fois la structure du document ainsi que son contenu tout en permettant d’isoler indépendamment des informations élémentaires.
Contrairement au HTML, pour qui le nombre de balises orientées (titre, paragraphe, image,…) est limité et dont leurs utilisations ne sont relatives qu’au contenant de la page web, le métalangage qu’est XML est à contrario continuellement évolutif.
Ce métalangage permet à volonté d’inventer de nouvelles balises et d’enrichir en permanence, et par addition de nouvelles balises, les pages web sans rendre les versions précédentes obsolètes. Ces balises décrivent plutôt le contenu d’une page en permettant de donner des informations sur le contenu auto descriptif du XML (comme la structure et le type des noms des données) tout en permettant d’afficher et de rattacher, sur des applications ou des périphériques différents, un document en une seule programmation. Mais rassurons nous, le langage XML est lisible par l’être humain et ne nécessite pas de grandes connaissances informatiques. Son universalité et sa portabilité (jeux de caractère et d’accents) le rendent facilement accessible à tous et dans toutes les langues. Sa structure arborescente, du fait de sa codification en Unicode, lui permet de modéliser la majorité des problèmes informatiques. Autre atout indéniable, il est aisément clonable : possibilité de cloner en XML les fichiers HTML et inversement.

3. L’indexation des fichiers XML

L’indexation d’un texte consiste à repérer dans celui-ci certains mots ou expressions particulièrement significatifs appelés termes dans un contexte donné, afin de créer un indexe terminologique.
L’indexation automatique va par des méthodes logicielles établir, pour un ensemble de documents, un index pertinent sous une forme normalisée et réduite. Cette méthodologie bibliographique a pour but de faciliter l’accès ultérieur des documents, de leurs contenus et des précédentes recherches lexicales. Cette indexation, que nous pouvons qualifier d’assistée, revient à une simple validation des propositions algorithmiques d’indexations du logiciel par l’homme.
Cette indexation peut se résumer par le schéma suivant :
Caractères linguistiques + Caractères Statistiques + Caractères Informatiques = Indexation automatique

Dans le cas d’indexation de textes, la première approche consiste à déterminer les mots représentatifs par leur fréquence d’utilisation en filtrant avec les « stoplist » les mots outils du type articles (de, un, les,…). Ensuite, une analyse lexicale (lemmatisation ou stemming) retrouve la racine des mots pour les intégrer dans la table d’indexation.
Il existe quatre modèles d’indexation :
-  L’indexation à plat : Absence de pondération et de calcul de fréquence, chaque élément XML est unique, il n’y pas de hiérarchie normalisée.
-  L’indexation pondérée : on considère que le système créé une échelle de pertinence en fonction de la fréquence d’apparition des termes suivant différentes méthodes mathématique de pondération. (fréquence inverse, consinus de Salton, calcul du rapport signal / bruit).
-  L’indexation à rôle ou à facette : Prend en compte les relations entre les termes.
-  L’indexation structurée : extension du modèle à rôle qui prend en compte les notions de dates, genres, ordre alphabétique, secteur, service…

4. Présentation d’Infocodex

Créée en 2005 par les Docteurs Wälti et Trugenberger, le logiciel éponyme a remporté le prix de la Veille et de l’Intelligence Economique de l’édition 2006 de l’i-expo.
Infocodex est un moteur de recherche d’entreprise, intéropérable, intelligent et basé sur 3 technologies : linguistique, statistique, réseaux neuronaux auto organisants en liaison avec des bases de données linguales.
Exemple de réseaux neuronaux

Qui dit moteur de recherche dit bases de données et informations. Ces méta fichiers qui enrichissent la base informative, sont issus des applications multi-applicatives du réseau interne de l’entreprise (messageries, répertoires de fichiers, intranet …). Lors de votre requête, le logiciel va extraire automatiquement et dans un premier temps les concepts, les mots-clefs, les métas données voire même un texte complet et dans un deuxième temps va dresser une carte thématique de l’information.

Sur un mode de fonctionnement « cross linguale » ou interlinguale, Infocodex va détecter et indexer automatiquement la langue du document pour permettre une recherche en texte intégral. Cette requête peut se faire dans l’une des cinq langues génériques programmées (Allemand, Anglais, Espagnols, Français et Italiens) lui permettant une utilisation transeuropéenne et transfrontalière.
Une fois les métas données repérées (auteur, titre, date, prix …) et extraites, les concepts sont classés « à la volée » sur deux niveaux. Une base de données sera réalisée et présentée à l’utilisateur selon le degré de pertinence des résultats :

Une carte de chaleur peut aussi être générée pour indiquer la proximité entre les thèmes principaux et la requête. Dès que vous approcherez votre souris des cases pertinentes, mises en évidence, les mots clefs, les résumés ainsi que le contenu de chacune des catégories s’affichent.
Autre atout indéniable, le partage de l’information aussi bien en interne qu’en externe. Les fonctionnalités d’Infocodex permettent de créer des tables de mots clefs dans la constitution d’une nouvelle collection mais aussi de générer et de partager les bibliothèques thématiques par l’intranet du logiciel. Cette performance (étude de 1999 sur le benchmarking) face à ses concurrents ne se fait pas sans un défaut de sécurité puisque les concepteurs ont prévu pas moins de 6 niveaux de sécurités.
Véritable outil original et rapide, Infocodex se fera l’allier fonctionnel de vos innombrables requêtes.

5. Présentation d’INDRI :

Indri est un module qui fait partie du projet LEMUR mené par un laboratoire d’université par the university of Massachusetts et the school of computer science at Carnegie Mellon University. Cette application est existante depuis 2004 et poursuit aujourd’hui sont évolution. C’est une solution totalement libre et non commerciale.
« La solution de Indri sépare le stockage des données de l’indexation fulltext, ce qui pourrait permettre des modifications et évolutions sans devoir tout changer » http://daniel.iut.univ-metz.fr/~idapa/spip.php?article50
INDRI avec des fichiers XML est un outil d’indexations qui permet de référencer des mots, des dates, des ordinaux et des balises XML. Les requêtes permettent ensuite de retrouver des documents ou des sous documents contenants ces mots ou intervalles de valeurs ou date… Enfin, un modèle de langage permet de rechercher des documents proches.
Les formats de document pouvant être indexés par Indri sont :
TREC Text, TREC Web, HTML, Plain Text, XML, PDF, MBox, Microsoft Word and PowerPoint.
Indexation des méta data stockés, prise en compte de la hiérarchisation des documents, cumul des indexations.
Les requêtes peuvent tenir compte des langages.
Indri se défini comme étant un outil très stable et très rapide pouvant traiter sans souci un Téra de document. Il est également simple d’utilisation même si il n’est pour l’instant pas doté d’une interface « tout publique ». Certaines requêtes peuvent êtres complexes et viser à répondre à une question du type « ou est né Mr X ? ».
Le principe d’indexation Indri permet de multiplier de petits index autonomes qui pourront être répartis et interrogés simultanément. Le document indexé est enregistré en conservant l’intégralité des données de sorte qu’aucune copie n’est nécessaire après indexation.
En résumé, Indri est une solution libre, rapide, fiable, évolutive, qui peut tout à fait être utilisée pour l’indexation et le traitement de requêtes de très nombreux type de document notamment les XML. Il ne manque qu’une interface utilisateur adaptée au grand publique pour que cette solution devienne « LA » référence.

Sources :
- www.quelsoft.com
- www.sylbarth.com
- www.infocodex.fr
- www.xml.chez.com
- www.commentcamarche.net
- http://fr.wikipedia.org/wiki/XML