Projet IDAPA

Accueil > Bases de données relationnelles et indexation du contenu > Espace disque d’un index Indri

Espace disque d’un index Indri

mercredi 9 septembre 2009, par Yoann Moreau

Utilisation de Indri avec le langage Ruby pour effectuer des tests et analyser la taille des index produits.

Indexation de balises

Ce test a pour but de voir l’importance du nom des balises dans l’indexation utilisant les balises. Pour cela on crée 2 corpus avec un même nombre de paires de balises, contenant le même texte, mais avec des noms de balises différents. Dans le premier corpus (le plus important) les noms des balises sont des mots entiers, tandis que dans le second les noms des balises sont des lettres uniques. Après avoir indexé ces deux corpus avec Indri, on compare à la fois les tailles des corpus et les tailles des index. Pour comparer la taille de l’index relativement à la taille du corpus, on calcule le rapport corpus 1 / corpus 2, pour la taille de corpus, et pour la taille d’index.

On exécute le script ruby TestIndriIndexSize.rb

Pour le premier corpus on utilise ces noms de balise "main-tag" et "sub-tag", et respectivement dans le second corpus "m" et "s". On observe alors que le premier corpus fait environ 150% du second corpus, alors que les index ont une taille très proche.

Conclusion : la taille des noms de balise d’un corpus n’a pas d’influence sur l’indexation simple de ces balises avec Indri (rappel : cette indexation des balises permet de les utiliser dans les requêtes Indri).

On remarque que l’index fait environ 50% de la taille du plus petit corpus (c’est à dire approximativement le corpus sans compter les balises XML).
Note : la taille des dossiers est en Mo, alors que la taille des corpus est en octet.