Blame view

test/functional/data.txt 8.23 KB
44c17c423   Killian   Accents Ok
1
2
  Nous proposons dans cet article une méthode non supervisée pour l identification et
  la modélisation de concepts associés à une recherche d information. Nous utilisons l alloca-
9ffd72ac1   Killian   ajout du test
3
4
5
6
7
8
9
10
11
  tion de Dirichlet latente (LDA), un modèle génératif probabiliste, pour détecter les concepts
  implicites de la requête en utilisant les documents obtenus par un processus de retour de perti-
  nence simulé (ou documents de
  feedback
  ). Notre approche estime automatiquement le nombre
  de concepts ainsi que le nombre de documents de
  feedback
  sans aucun apprentissage préalable
  ni paramétrage. Les concepts implicites sont pondérés afin de refléter leur importance relative
44c17c423   Killian   Accents Ok
12
13
  par rapport à la requête et sont utilisés pour modifier l ordre des documents renvoyés à l utili-
  sateur. Nous utilisons quatre sources d information générales de natures différentes (web, jour-
9ffd72ac1   Killian   ajout du test
14
15
16
  nalistique, encyclopédique) à partir desquelles les documents de
  feedback
  sont extraits. Nous
44c17c423   Killian   Accents Ok
17
  comparons différentes approches état-de-l art sur deux collections
9ffd72ac1   Killian   ajout du test
18
19
  ad-hoc
  de TREC, et les ré-
44c17c423   Killian   Accents Ok
20
  sultats montrent que l utilisation de concepts implicites identifiés par notre méthode améliore
9ffd72ac1   Killian   ajout du test
21
22
23
24
25
26
27
28
29
30
31
32
33
34
  significativement les performances de recherche documentaire.
  ABSTRACT.
  In this paper we introduce an unsupervised method for mining and modeling la-
  tent search concepts. We use Latent Dirichlet Allocation (LDA), a generative probabilistic
  topic model, to exhibit highly-specific query-related topics from pseudo-relevant feedback doc-
  uments. Our approach automatically estimates the number of latent concepts as well as the
  needed amount of feedback documents, without any prior training step. Latent concepts are
  then weighted to reflect their relative adequacy and are further used to automatically reformu-
  late the initial user query. We also explore the use of different types of sources of information for
  modeling the latent concepts. For this purpose, we use four general sources of information of
  various nature (web, news, encyclopedic) from which the feedback documents are extracted. We
  evaluate our approach over two large ad-hoc TREC collections, and results show that it signif-
  icantly improves document retrieval effectiveness while best results are achieved by combining
  latent concepts modeled from all available sources.
44c17c423   Killian   Accents Ok
35
36
37
38
  Le but de la Recherche d Information (RI) est de satisfaire le besoin d information
  d un utilisateur, généralement en proposant des documents ou des passages provenant
  d une collection cible. Ce besoin est habituellement représenté par une requête com-
  posée de quelques mots-clés, qui est soumise au système de recherche d information.
9ffd72ac1   Killian   ajout du test
39
  Le système cherche alors les documents qui contiennent les mots-clés, afin de fournir
44c17c423   Killian   Accents Ok
40
41
42
  à l utilisateur une liste de documents ordonnée en fonction de leur pertinence esti-
  mée par rapport à la requête. Seulement, un besoin d information complet peut être
  trop complexe pour être exprimé en quelques mots, ou l utilisateur peut ne pas avoir
9ffd72ac1   Killian   ajout du test
43
  le vocabulaire ou les compétences nécessaires pour formuler efficacement la requête.
44c17c423   Killian   Accents Ok
44
45
46
47
48
49
50
51
  Ingwersen (1994) dit en effet que la formulation d une requête par un utilisateur est la
  représentation de son état cognitif actuel concernant un besoin d information. Une re-
  quête peut ne pas être correctement formulée si l utilisateur cherche des informations
  sur une thématique pour laquelle il n a pas de connaissances. Ainsi, sans contexte ad-
  ditionnel, le système de recherche d information peut manquer des nuances ou des
  détails que l utilisateur n a pas fourni dans la requête. Ce contexte peut prendre la
  forme d un modèle des intérêts de l utilisateur basé sur son historique personnel (ou
  ses interactions sociales), ou peut être composé d éléments extraits de documents si-
9ffd72ac1   Killian   ajout du test
52
53
  milaires représentant les thèmes de la recherche (Finkelstein
  Ce deuxième type de contexte est plus généralement connu sous le nom de « re-
44c17c423   Killian   Accents Ok
54
55
  cherche d information conceptuelle » et a reçu beaucoup d attention au cours de ces
  dernières années L idée générale est d étendre les requêtes avec des
9ffd72ac1   Killian   ajout du test
56
  ensembles de mots ou de multi-mots extraits de documents de
44c17c423   Killian   Accents Ok
57
  feedback. L ensemble de feedback est composé de documents qui sont pertinents ou pseudo-pertinents par
9ffd72ac1   Killian   ajout du test
58
  rapport à la requête initiale, et qui sont à même de contenir des informations impor-
44c17c423   Killian   Accents Ok
59
  tantes sur le contexte de la recherche. Les mots exprimant le plus d information par
9ffd72ac1   Killian   ajout du test
60
61
62
63
  rapport à la requête sont traités comme des concepts implicites. Ils sont alors utilisés
  pour reformuler la requête. Le problème avec cette approche est que chaque mot re-
  présente un concept spécifique. Seulement un concept représente une notion et peut
  être vu comme un ensemble de connaissances. Stock (2010) donne une définition qui
44c17c423   Killian   Accents Ok
64
  suit cette direction en affirmant qu un concept est défini comme une classe contenant
9ffd72ac1   Killian   ajout du test
65
  des objets possédant certaines propriétés et attributs.
44c17c423   Killian   Accents Ok
66
  L objectif du travail présenté dans cet article est de représenter avec précision les
9ffd72ac1   Killian   ajout du test
67
68
69
  concepts sous-jacents associés à une requête, améliorant indirectement les informa-
  tions contextuelles liées à la recherche documentaire. Nous introduisons ainsi une
  méthode entièrement non supervisée qui permet de détecter les concepts implicites
44c17c423   Killian   Accents Ok
70
  liés à une requête donnée et d améliorer les performances d un système de recherche
9ffd72ac1   Killian   ajout du test
71
  documentaire en incorporant ces concepts à la requête initiale. Pour chaque requête,
44c17c423   Killian   Accents Ok
72
  les concepts implicites sont extraits d un ensemble réduit de documents de
9ffd72ac1   Killian   ajout du test
73
74
75
76
77
  initialement récupérés par le système. Ces documents de
  ous estimons la similarité entre deux modèles conceptuels en calculant les simi-
  larités entre toutes les paires de concepts des deux modèles. Seulement, deux modèles
  différents sont générés à partir de documents différents, ils ne partagent donc pas le
  même espace probabiliste. Les distributions de probabilités ne sont donc pas compa-
44c17c423   Killian   Accents Ok
78
  rables, le calcul de similarité ne peut se faire qu en prenant en compte les mots des
9ffd72ac1   Killian   ajout du test
79
80
81
82
83
84
85
86
87
  concepts. Les concepts sont donc ramenés à de simples sacs de mots, et nous utilisons
  une mesure de similarité basée sur la fréquence inverse des mots dans les documents
  de la collection.
  La figure 1 présente des histogrammes traçant le nombre de requêtes en fonction
  du nombre de concepts implicites estimé et du nombre de documents de
  feedback
  ,et
  ce pour les deux collections. On voit que le comportement est relativement identique
  sur les deux collections. Entre deux et trois concepts sont identifiés pour la grande
44c17c423   Killian   Accents Ok
88
  majorité des requêtes. De même ces concepts sont généralement identifiés au sein d un
9ffd72ac1   Killian   ajout du test
89
90
  nombre assez réduit de documents, entre deux et quatre pour les deux collections.
  Il est toutefois intéressant de noter la différence entre le nombre de documents de utilisés par les ressources Web et Wikipédia. On peut voir en effet que 2
44c17c423   Killian   Accents Ok
91
  ou 3 articles Wikipédia suffisent pour un très grand nombre de requêtes, alors qu un
9ffd72ac1   Killian   ajout du test
92
93
  plus grand nombre est nécessaire pour la ressource Web. Ce comportement est très
  cohérent avec la nature même de Wikipédia, où les articles sont rédigés dans le but
44c17c423   Killian   Accents Ok
94
  d être très précis et de ne pas trop s éparpiller. Il est d ailleurs fréquent qu un article
9ffd72ac1   Killian   ajout du test
95
96
97
  devenu trop conséquent soit coupé en plusieurs autres articles traitant chacun un sujet
  très spécifique.
  Des idées empruntées à la physique ont déjà été utilisées dan
44c17c423   Killian   Accents Ok
98
99
  s l analyse de textes. Les exemples
  plus notables sont l approche entropique de (Shannon, 1948
9ffd72ac1   Killian   ajout du test
100
101
  ), les travaux de (Zipf, 1935; Zipf,
  1949) et de (Mandelbrot, 1953) où les auteurs font des consid
44c17c423   Killian   Accents Ok
102
  érations thermodynamiques d éner-
9ffd72ac1   Killian   ajout du test
103
104
105
106
  gie et de température dans leurs études sur la Statistique Te
  xtuelle. Dernièrement se sont servi des notions de polarisation des système
  orientations sémantiques des mots (désirable ou indésirable) à partir de mots amorce. La sortie
  de ce système est une liste de mots indiquant leurs orientati
44c17c423   Killian   Accents Ok
107
  ons estimés selon l approximation
9ffd72ac1   Killian   ajout du test
108
109
110
  du champ moyen. Dans notre travail, nous avons utilisé diffé
  remment la notion de spin des mots dans les documents. À
  partir de cet image, on aperçoit le document comme un matéria
44c17c423   Killian   Accents Ok
111
112
  ux composé d un ensemble de
  unités en interaction dont l énergie peut être calculée. No
9ffd72ac1   Killian   ajout du test
113
114
  us avons étudié les problèmes du Trai-
  tement Automatique de la Langue Naturelle (TALN) en utilisa
44c17c423   Killian   Accents Ok
115
  nt la notion d énergie textuelle.