Accueil > Bases de données relationnelles et indexation du contenu > Utilisation de ressources linguistiques pour le recherche d’information (...)

Utilisation de ressources linguistiques pour le recherche d’information ciblée (Focused Information Retrieval)

mardi 22 septembre 2009, par Eric Sanjuan

Les ressources disponibles pour l’Anglais du dictionnaire sémantique WordNet et du Wikipedia rendent possible l’enrichissement d’un texte avec de nombreuses annotations sémantiques. Ces annotations définissent des relations transversales entre textes que l’on peut facilement intégrer dans un modèle de langage. Par ailleurs, l’analyse syntaxique à la volée des textes ou passages extraits permet l’extraction de termes spécifiques et la construction de réponses textuelles.

Ressources pédagogiques

L’approche décrite ici peut être expérimentée sur le serveur daniel.iut.univ-metz.fr. Une interface publique d’expérimentation est disponible ici. Vous devez pour cela accepter le certificat ci-joint. Pour accéder directement aux programmes il est nécessaire de se connecter au serveur par ssh avec un login personnel et le certificat aussi joint.

Approche NLP (Natural Language Processing) de la recherche d’information

Des recherches intensives ont été menées dans les années 90 pour exploiter les ressources linguistiques dans la recherche d’information. Ces recherches sont décrites dans les extraits de l’article ci-joint.

Les conclusions ont été mitigés malgré les énormes moyens investit à l’époque. Il est apparu que dans une recherche d’information totalement automatisée, ces ressources, au mieux, ne perturbaient le classement des documents. Cependant, quand le système était assisté par un humain dont le rôle se limitait à valider ou à rejeter des extraits des documents, alors les ressources pouvaient être pleinement utilisées et semblaient apporter une incontestable amélioration. L’ampleur des ressources utilisées, la difficulté de leur mise en œuvre à l’époque semble avoir limité le développement de cette approche.

La recherche d’information (IR) s’est alors plutôt orientée vers la découverte de fonctions optimales de pondération des documents en fonction d’une requête et des progrès significatifs ont été réalisés autant sur les modèles vectoriels que les modèles probabilistes. Des modèles qui réduisent le texte à des paquets d’items (présence d’un mot ou d’une forme plus complexe).

Nouvelles ressources généralistes lexicales et sémantiques

Parallèlement au développement des modèles numériques pour l’IR et de manière indépendante, les ressources NLP se sont multiplié et popularisées, surtout pour l’anglais ainsi que pour l’espagnol et le portugais. On dispose maintenant d’outils d’analyse syntaxique du texte avec des ressources d’apprentissage suffisamment importantes pour qu’ils puissent donner la catégorie d’un mot en fonction de son contexte avec de très faibles taux d’erreurs, on parle alors de PoS tagger (Part of Speech tagger). Le TreeTagger issu d’un projet européen est parmi les plus utilisés en Europe même si sa licence d’utilisation est restrictive. Un autre projet mené par l’Université Polytechnique de Barcelone (UPC) maintient Freeling, un outil totalement libre qui permet de combiner un tagger par apprentissage avec des HMM et un moteur de grammaire hors contexte (Context Free Grammar - CFG) tel que utilisé en programmation logique. Si le tagger de Freeling semble moins efficace que le TreeTagger, l’utilisation des CFG permet détendre sa portée à l’identification de groupes grammaticaux, même si il est connu que les CGF ne peuvent être qu’une approximation. Pour tenir compte de cette approximation, les CFG probabilistes ont été introduites. Ces grammaires sont vis à vis des CFG, ce que sont les HMM aux automates finis. Elles permettent d’approcher l’analyse discursive qui suit l’analyse syntaxique.

Une fois la structure de la phrase comprise on essaye de dégager une structure de thèmes et prédicats. Une projet canadien SLSeg est cours ici sur ce thème pour l’anglais, il utilise comme analyseur syntaxique de Charniak. C’est analyseur est écrit en C et ses sources sont disponibles ici en libre même s’il n’est plus maintenu par ses auteurs.

L’autre grande ressource qui est apparue pour l’Anglais est le WordNet, un dictionnaire sémantique où les mots sont regroupés par groupe de synonymie et ces groupes sont insérés dans une arborescence. Les regroupements et les relations ont été établies de manière manuelle, on y trouve des incohérences, mais la ressource existe, est largement rependue et ne cesse de se développer.

Troisième ressource incontestable, le WikiPedia. Cette ressource libre et auto-structurée en court articles encyclopédiques, chaque article étant désigné par un pluri-terme unique et partagent de multiples liens avec des articles connexes permet de développer d’autres ressources sémantiques tel que NLGbase.

Quand on combine WordNet et Wikipedia on obtient un système d’annotation sémantique tel que YAGO.

Un corpus libre pour expérimenter l’exploitation des annotations en recherche d’information

L’idée a été de retourner YAGO sur l’une de ses sources (le wikipedia) on obtient la collection INEX 2009 pour l’évaluation de la recherche d’information par extraction de passages ou d’éléments XML. Les documents XML de cette collection partagent alors un grand nombre de liens hérités directement du Wikipedia ou induits par les annotations sémantiques. La question d’un modèle de IR adapté reste ouverte. Pour y répondre le système TopX permettant une interrogation avec référence à l’ensemble des annotations XML a été rendu disponible par son interface Web. Le système repose sur un puissant SGBDR pour accéder à l’ensemble de la arborescence XML.

Moins puissante puisque ne disposant que d’une indexation partielle, le système "baseline" de QA@INEX offre cependant la possibilité de réitérer la recherche d’information assistée par enrichissement de la requête avec multi-terms extraits du texte. Ce système utilise :

  1. Le moteur IR Indri qui dispose d’un puissant modèle de langage pour des requêtes complexes.
  2. TreeTagger pour étiqueter à la volée, segmenter le texte en phrases et extraire les pluritermes.
  3. Les résumés sont générés à la volée par extraction de phrases.

Un petit corpus d’essai est disponible ici. Il contient une sélection de sujets INEX de la campagne 2009. Pour chaque sujet, on donne les 100 premiers documents trouvés par la fonction Okapi BM25.

Pour chaque document XML, le contenu texte a été extrait en utilisant le programme awk ici. Les texte a ensuite été étiqueté avec le tree-tagger pour l’anglais, puis l’entropie des phrases a été calculée avec ce programme perl qui prend en entrée une sortie du tree tagger.