Killian / liaWebServices

Blame view

test/functional/data.txt 8.23 KB

44c17c423 Killian Accents Ok	1 2	Nous proposons dans cet article une méthode non supervisée pour l identification et la modélisation de concepts associés à une recherche d information. Nous utilisons l alloca-
9ffd72ac1 Killian ajout du test	3 4 5 6 7 8 9 10 11	tion de Dirichlet latente (LDA), un modèle génératif probabiliste, pour détecter les concepts implicites de la requête en utilisant les documents obtenus par un processus de retour de perti- nence simulé (ou documents de feedback ). Notre approche estime automatiquement le nombre de concepts ainsi que le nombre de documents de feedback sans aucun apprentissage préalable ni paramétrage. Les concepts implicites sont pondérés afin de refléter leur importance relative
44c17c423 Killian Accents Ok	12 13	par rapport à la requête et sont utilisés pour modifier l ordre des documents renvoyés à l utili- sateur. Nous utilisons quatre sources d information générales de natures différentes (web, jour-
9ffd72ac1 Killian ajout du test	14 15 16	nalistique, encyclopédique) à partir desquelles les documents de feedback sont extraits. Nous
44c17c423 Killian Accents Ok	17	comparons différentes approches état-de-l art sur deux collections
9ffd72ac1 Killian ajout du test	18 19	ad-hoc de TREC, et les ré-
44c17c423 Killian Accents Ok	20	sultats montrent que l utilisation de concepts implicites identifiés par notre méthode améliore
9ffd72ac1 Killian ajout du test	21 22 23 24 25 26 27 28 29 30 31 32 33 34	significativement les performances de recherche documentaire. ABSTRACT. In this paper we introduce an unsupervised method for mining and modeling la- tent search concepts. We use Latent Dirichlet Allocation (LDA), a generative probabilistic topic model, to exhibit highly-specific query-related topics from pseudo-relevant feedback doc- uments. Our approach automatically estimates the number of latent concepts as well as the needed amount of feedback documents, without any prior training step. Latent concepts are then weighted to reflect their relative adequacy and are further used to automatically reformu- late the initial user query. We also explore the use of different types of sources of information for modeling the latent concepts. For this purpose, we use four general sources of information of various nature (web, news, encyclopedic) from which the feedback documents are extracted. We evaluate our approach over two large ad-hoc TREC collections, and results show that it signif- icantly improves document retrieval effectiveness while best results are achieved by combining latent concepts modeled from all available sources.
44c17c423 Killian Accents Ok	35 36 37 38	Le but de la Recherche d Information (RI) est de satisfaire le besoin d information d un utilisateur, généralement en proposant des documents ou des passages provenant d une collection cible. Ce besoin est habituellement représenté par une requête com- posée de quelques mots-clés, qui est soumise au système de recherche d information.
9ffd72ac1 Killian ajout du test	39	Le système cherche alors les documents qui contiennent les mots-clés, afin de fournir
44c17c423 Killian Accents Ok	40 41 42	à l utilisateur une liste de documents ordonnée en fonction de leur pertinence esti- mée par rapport à la requête. Seulement, un besoin d information complet peut être trop complexe pour être exprimé en quelques mots, ou l utilisateur peut ne pas avoir
9ffd72ac1 Killian ajout du test	43	le vocabulaire ou les compétences nécessaires pour formuler efficacement la requête.
44c17c423 Killian Accents Ok	44 45 46 47 48 49 50 51	Ingwersen (1994) dit en effet que la formulation d une requête par un utilisateur est la représentation de son état cognitif actuel concernant un besoin d information. Une re- quête peut ne pas être correctement formulée si l utilisateur cherche des informations sur une thématique pour laquelle il n a pas de connaissances. Ainsi, sans contexte ad- ditionnel, le système de recherche d information peut manquer des nuances ou des détails que l utilisateur n a pas fourni dans la requête. Ce contexte peut prendre la forme d un modèle des intérêts de l utilisateur basé sur son historique personnel (ou ses interactions sociales), ou peut être composé d éléments extraits de documents si-
9ffd72ac1 Killian ajout du test	52 53	milaires représentant les thèmes de la recherche (Finkelstein Ce deuxième type de contexte est plus généralement connu sous le nom de « re-
44c17c423 Killian Accents Ok	54 55	cherche d information conceptuelle » et a reçu beaucoup d attention au cours de ces dernières années L idée générale est d étendre les requêtes avec des
9ffd72ac1 Killian ajout du test	56	ensembles de mots ou de multi-mots extraits de documents de
44c17c423 Killian Accents Ok	57	feedback. L ensemble de feedback est composé de documents qui sont pertinents ou pseudo-pertinents par
9ffd72ac1 Killian ajout du test	58	rapport à la requête initiale, et qui sont à même de contenir des informations impor-
44c17c423 Killian Accents Ok	59	tantes sur le contexte de la recherche. Les mots exprimant le plus d information par
9ffd72ac1 Killian ajout du test	60 61 62 63	rapport à la requête sont traités comme des concepts implicites. Ils sont alors utilisés pour reformuler la requête. Le problème avec cette approche est que chaque mot re- présente un concept spécifique. Seulement un concept représente une notion et peut être vu comme un ensemble de connaissances. Stock (2010) donne une définition qui
44c17c423 Killian Accents Ok	64	suit cette direction en affirmant qu un concept est défini comme une classe contenant
9ffd72ac1 Killian ajout du test	65	des objets possédant certaines propriétés et attributs.
44c17c423 Killian Accents Ok	66	L objectif du travail présenté dans cet article est de représenter avec précision les
9ffd72ac1 Killian ajout du test	67 68 69	concepts sous-jacents associés à une requête, améliorant indirectement les informa- tions contextuelles liées à la recherche documentaire. Nous introduisons ainsi une méthode entièrement non supervisée qui permet de détecter les concepts implicites
44c17c423 Killian Accents Ok	70	liés à une requête donnée et d améliorer les performances d un système de recherche
9ffd72ac1 Killian ajout du test	71	documentaire en incorporant ces concepts à la requête initiale. Pour chaque requête,
44c17c423 Killian Accents Ok	72	les concepts implicites sont extraits d un ensemble réduit de documents de
9ffd72ac1 Killian ajout du test	73 74 75 76 77	initialement récupérés par le système. Ces documents de ous estimons la similarité entre deux modèles conceptuels en calculant les simi- larités entre toutes les paires de concepts des deux modèles. Seulement, deux modèles différents sont générés à partir de documents différents, ils ne partagent donc pas le même espace probabiliste. Les distributions de probabilités ne sont donc pas compa-
44c17c423 Killian Accents Ok	78	rables, le calcul de similarité ne peut se faire qu en prenant en compte les mots des
9ffd72ac1 Killian ajout du test	79 80 81 82 83 84 85 86 87	concepts. Les concepts sont donc ramenés à de simples sacs de mots, et nous utilisons une mesure de similarité basée sur la fréquence inverse des mots dans les documents de la collection. La figure 1 présente des histogrammes traçant le nombre de requêtes en fonction du nombre de concepts implicites estimé et du nombre de documents de feedback ,et ce pour les deux collections. On voit que le comportement est relativement identique sur les deux collections. Entre deux et trois concepts sont identifiés pour la grande
44c17c423 Killian Accents Ok	88	majorité des requêtes. De même ces concepts sont généralement identifiés au sein d un
9ffd72ac1 Killian ajout du test	89 90	nombre assez réduit de documents, entre deux et quatre pour les deux collections. Il est toutefois intéressant de noter la différence entre le nombre de documents de utilisés par les ressources Web et Wikipédia. On peut voir en effet que 2
44c17c423 Killian Accents Ok	91	ou 3 articles Wikipédia suffisent pour un très grand nombre de requêtes, alors qu un
9ffd72ac1 Killian ajout du test	92 93	plus grand nombre est nécessaire pour la ressource Web. Ce comportement est très cohérent avec la nature même de Wikipédia, où les articles sont rédigés dans le but
44c17c423 Killian Accents Ok	94	d être très précis et de ne pas trop s éparpiller. Il est d ailleurs fréquent qu un article
9ffd72ac1 Killian ajout du test	95 96 97	devenu trop conséquent soit coupé en plusieurs autres articles traitant chacun un sujet très spécifique. Des idées empruntées à la physique ont déjà été utilisées dan
44c17c423 Killian Accents Ok	98 99	s l analyse de textes. Les exemples plus notables sont l approche entropique de (Shannon, 1948
9ffd72ac1 Killian ajout du test	100 101	), les travaux de (Zipf, 1935; Zipf, 1949) et de (Mandelbrot, 1953) où les auteurs font des consid
44c17c423 Killian Accents Ok	102	érations thermodynamiques d éner-
9ffd72ac1 Killian ajout du test	103 104 105 106	gie et de température dans leurs études sur la Statistique Te xtuelle. Dernièrement se sont servi des notions de polarisation des système orientations sémantiques des mots (désirable ou indésirable) à partir de mots amorce. La sortie de ce système est une liste de mots indiquant leurs orientati
44c17c423 Killian Accents Ok	107	ons estimés selon l approximation
9ffd72ac1 Killian ajout du test	108 109 110	du champ moyen. Dans notre travail, nous avons utilisé diffé remment la notion de spin des mots dans les documents. À partir de cet image, on aperçoit le document comme un matéria
44c17c423 Killian Accents Ok	111 112	ux composé d un ensemble de unités en interaction dont l énergie peut être calculée. No
9ffd72ac1 Killian ajout du test	113 114	us avons étudié les problèmes du Trai- tement Automatique de la Langue Naturelle (TALN) en utilisa
44c17c423 Killian Accents Ok	115	nt la notion d énergie textuelle.