lia_phon.htm 95.1 KB
edit raw blame history

<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1252">
<META NAME="Generator" CONTENT="Microsoft Word 97">
<TITLE>LIA_PHON : UN SYSTÈME COMPLET DE PHONÉTISATION DE TEXTES</TITLE>
</HEAD>
<BODY>

<B><FONT FACE="Helvetica-Bold"><P ALIGN="CENTER">LIA_PHON : UN SYST&Egrave;ME COMPLET DE PHON&Eacute;TISATION DE TEXTES</P>
<P ALIGN="CENTER"><BR>
</P>
<P ALIGN="CENTER">Fr&eacute;d&eacute;ric BECHET </P>
<P ALIGN="CENTER"></P>
</B></FONT><P ALIGN="CENTER">LIA, Universit&eacute; d'Avignon</P>
<P ALIGN="CENTER">frederic.bechet@lia.univ-avignon.fr</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
</B></FONT><P ALIGN="JUSTIFY">R&eacute;sum&eacute;&#9;<A HREF="#_Toc507586957">*</A>
<P ALIGN="JUSTIFY">Abstract&#9;<A HREF="#_Toc507586958">*</A></P>
<P ALIGN="JUSTIFY">Mots Clefs – Keywords&#9;<A HREF="#_Toc507586959">*</A></P>
<P ALIGN="JUSTIFY">INTRODUCTION&#9;<A HREF="#_Toc507586960">*</A></P>
<P ALIGN="JUSTIFY">1.&#9;MOTIVATIONS&#9;<A HREF="#_Toc507586961">*</A></P><DIR>

<P ALIGN="JUSTIFY">1.1.&#9;Phon&eacute;tisation et Reconnaissance Automatique de la Parole&#9;<A HREF="#_Toc507586962">*</A></P>
<P ALIGN="JUSTIFY">1.2. Phon&eacute;tisation et TALN&#9;<A HREF="#_Toc507586963">*</A></P>
<P ALIGN="JUSTIFY">1.3. La phon&eacute;tisation au LIA&#9;<A HREF="#_Toc507586964">*</A></P></DIR>

<P ALIGN="JUSTIFY">2.&#9;FORMATAGE ET &Eacute;TIQUETAGE DE TEXTE&#9;<A HREF="#_Toc507586965">*</A></P><DIR>

<P ALIGN="JUSTIFY">2.1. Formatage&#9;<A HREF="#_Toc507586966">*</A></P>
<P ALIGN="JUSTIFY">2.2. Etiquetage morpho-syntaxique&#9;<A HREF="#_Toc507586967">*</A></P>
<P ALIGN="JUSTIFY">2.2.1. R&eacute;accentuation du texte&#9;<A HREF="#_Toc507586968">*</A></P>
<P ALIGN="JUSTIFY">2.2.2. Homographes-h&eacute;t&eacute;rophones&#9;<A HREF="#_Toc507586969">*</A></P>
<P ALIGN="JUSTIFY">2.3. Etiquetage s&eacute;mantique&#9;<A HREF="#_Toc507586970">*</A></P>
<P ALIGN="JUSTIFY">2.3.1. Expressions chiffr&eacute;es&#9;<A HREF="#_Toc507586971">*</A></P>
<P ALIGN="JUSTIFY">2.3.2. Les abr&eacute;viations&#9;<A HREF="#_Toc507586972">*</A></P>
<P ALIGN="JUSTIFY">2.3.3. Les sigles&#9;<A HREF="#_Toc507586973">*</A></P>
<P ALIGN="JUSTIFY">2.3.4. Les noms propres&#9;<A HREF="#_Toc507586974">*</A></P>
<P ALIGN="JUSTIFY">2.3.5. Formalisme des r&egrave;gles d'&eacute;tiquetage&#9;<A HREF="#_Toc507586975">*</A></P></DIR>

<P ALIGN="JUSTIFY">3. PHON&Eacute;TISATION&#9;<A HREF="#_Toc507586976">*</A></P><DIR>

<P ALIGN="JUSTIFY">3.1. Gestion des liaisons&#9;<A HREF="#_Toc507586977">*</A></P>
<P ALIGN="JUSTIFY">3.2. R&egrave;gles de phon&eacute;tisation&#9;<A HREF="#_Toc507586978">*</A></P>
<P ALIGN="JUSTIFY">3.2.1. Bases de r&egrave;gles&#9;<A HREF="#_Toc507586979">*</A></P>
<P ALIGN="JUSTIFY">3.2.2. Format des r&egrave;gles&#9;<A HREF="#_Toc507586980">*</A></P>
<P ALIGN="JUSTIFY">3.2.3. Stockage des r&egrave;gles&#9;<A HREF="#_Toc507586981">*</A></P>
<P ALIGN="JUSTIFY">3.2.4. Application des r&egrave;gles&#9;<A HREF="#_Toc507586982">*</A></P>
<P ALIGN="JUSTIFY">3.3. Gestion des exceptions&#9;<A HREF="#_Toc507586983">*</A></P>
<P ALIGN="JUSTIFY">3.4. Exemple&#9;<A HREF="#_Toc507586984">*</A></P></DIR>

<P ALIGN="JUSTIFY">4. EXPLOITATION DES PHON&Eacute;TISATIONS&#9;<A HREF="#_Toc507586985">*</A></P><DIR>

<P ALIGN="JUSTIFY">4.1. Obtention de lexiques phon&eacute;tiques&#9;<A HREF="#_Toc507586986">*</A></P>
<P ALIGN="JUSTIFY">4.2. Phon&eacute;tisation de textes pour l'alignement&#9;<A HREF="#_Toc507586987">*</A></P>
<P ALIGN="JUSTIFY">4.3. Synth&egrave;se de parole &agrave; partir du texte&#9;<A HREF="#_Toc507586988">*</A></P>
<P ALIGN="JUSTIFY">4.3.1. Modification des transcriptions phon&eacute;tiques&#9;<A HREF="#_Toc507586989">*</A></P>
<P ALIGN="JUSTIFY">4.3.2. Param&egrave;tres prosodiques&#9;<A HREF="#_Toc507586990">*</A></P></DIR>

<P ALIGN="JUSTIFY">5. EVALUATION DU SYST&Egrave;ME&#9;<A HREF="#_Toc507586991">*</A></P>
<P ALIGN="JUSTIFY">CONCLUSION&#9;<A HREF="#_Toc507586992">*</A></P>
<P ALIGN="JUSTIFY">R&Eacute;F&Eacute;RENCES&#9;<A HREF="#_Toc507586993">*</A></P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"></P></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<P ALIGN="JUSTIFY"><A NAME="_Toc507586957">R&eacute;sum&eacute;</A></P>
<P ALIGN="JUSTIFY"><BR>
</B></FONT>La phon&eacute;tisation automatique de documents est un domaine de recherche toujours actif permettant de tester et valider efficacement diff&eacute;rents mod&egrave;les issus du Traitement Automatique du Langage Naturel (TALN). Les motivations qui ont conduit le Laboratoire Informatique d'Avignon (LIA) &agrave; d&eacute;velopper un syst&egrave;me complet de phon&eacute;tisation de textes sont doubles : d'une part disposer d'un outil ouvert et param&eacute;trable permettant d'obtenir les ressources n&eacute;cessaires &agrave; la construction de Syst&egrave;mes de Reconnaissance Automatique de la Parole (SRAP) ; d'autre part tester et valider diff&eacute;rentes techniques utilis&eacute;es en TALN, notamment concernant le traitement des mots inconnus. Les diff&eacute;rents modules de notre cha&icirc;ne de traitement int&egrave;grent des approches diverses utilisant des informations graphiques, phon&eacute;tiques, morphologiques, syntaxiques et s&eacute;mantiques.</P>
<P ALIGN="JUSTIFY"></P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586958">Abstract</A></P>
</B></FONT><P ALIGN="JUSTIFY"><BR>
The processes involved in Grapheme-To-Phoneme transcription of documents are a good application field for several techniques and methods used in Natural Language Processing (NLP). The two main reasons which led the computer laboratory of the University of Avignon (LIA) to develop its own Grapheme-to-Phoneme transcription system are: on one hand, we need a flexible tool which allows us to obtain all the necessary resources involved in the building of Automatic Speech Recognition (ASR) systems ; on the other hand, developing a Grapheme-to-Phoneme transcription system was an opportunity to test and validate various NLP methods and tools such as Out-of-Vocabulary word processing.</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><BR>
<A NAME="_Toc507586959">Mots Clefs – Keywords</A></P>
<P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">Synth&egrave;se de la Parole, Transcription Graph&egrave;me-Phon&egrave;me, Etiquetage morpho-syntaxique, Reconnaissance Automatique de la Parole, Noms Propres</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Speech Synthesis, Grapheme-to-Phoneme Transcription, Part-of-Speech Tagging, Automatic Speech Recognition,  Proper Names</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586760"><A NAME="_Toc507586960">INTRODUCTION</A></A></P>
<P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">La phon&eacute;tisation automatique de documents est un domaine de recherche toujours actif permettant de tester et valider efficacement diff&eacute;rents mod&egrave;les issus du Traitement Automatique du Langage Naturel (TALN). En dehors de l'&eacute;tape de transcription graph&egrave;me-phon&egrave;me, g&eacute;n&eacute;ralement trait&eacute;e par une approche &agrave; base de r&egrave;gles (Prouts B. 1980; Divay M. &amp; Vitale A. J. 1997; Boula de Mare&uuml;il P. 1997), de nombreux traitements linguistiques sont n&eacute;cessaires afin de lever les ambigu&iuml;t&eacute;s d'oralisation du texte &eacute;crit. Parmi celles-ci, citons les probl&egrave;mes li&eacute;s au formatage du texte, aux homographes h&eacute;t&eacute;rophones, aux liaisons, &agrave; la phon&eacute;tisation des noms propres, des sigles ou des emprunts &agrave; des langues &eacute;trang&egrave;res.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">La disponibilit&eacute; de grandes bases de donn&eacute;es d'exemples (telles que des lexiques phon&eacute;tis&eacute;s ou des corpus &eacute;crits et oraux) ont conduit la communaut&eacute; scientifique &agrave; s'int&eacute;resser &agrave; des techniques d'apprentissage automatique pour prendre en compte ces probl&egrave;mes particuliers. Ces techniques regroupent l'apprentissage symbolique (Dietterich T. <FONT SIZE=4>et al. </FONT>1995), les r&eacute;seaux neuronaux (Sejnowski T. &amp; Rosenberg C. 1987) ou encore les mod&egrave;les markoviens (Parfitt S. &amp; Sharman R. 1991). Ces m&eacute;thodes d'apprentissage automatique, identiques celles utilis&eacute;es dans les Syst&egrave;mes de Reconnaissance Automatique de la Parole (SRAP), peuvent &ecirc;tre employ&eacute;es &agrave; divers niveaux dans le processus de phon&eacute;tisation d'un texte, depuis la phase d'&eacute;tiquetage lexical jusqu'&agrave; la transcription graph&egrave;me-phon&egrave;me elle-m&ecirc;me (voir (Yvon F. 1996) pour une revue des diff&eacute;rentes m&eacute;thodes automatiques employ&eacute;es dans ce cadre).</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Profitant de l'expertise que le LIA avait acquise dans le d&eacute;veloppement de SRAP, nous avons d&eacute;velopp&eacute; un syst&egrave;me complet de phon&eacute;tisation de textes qui, tout en gardant une approche par r&egrave;gles pour la phase de transcription graph&egrave;me-phon&egrave;me, fait collaborer diff&eacute;rents agents utilisant des informations graphiques, phon&eacute;tiques, morphologiques, syntaxiques et s&eacute;mantiques.</P>
<P ALIGN="JUSTIFY"></P>
<OL>

<P ALIGN="JUSTIFY"><LI><A NAME="_Toc507586761"><A NAME="_Toc507586961"><B><FONT FACE="Helvetica-Bold">MOTIVATIONS</A></A></LI></P>
</B></FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les motivations qui ont conduit le LIA &agrave; d&eacute;velopper un syst&egrave;me complet de phon&eacute;tisation de textes sont doubles : d'une part disposer d'un outil ouvert et param&eacute;trable permettant d'obtenir les ressources n&eacute;cessaires &agrave; la construction de SRAP ; d'autre part tester et valider diff&eacute;rentes techniques utilis&eacute;es en TALN, notamment concernant le traitement des mots inconnus. Nous allons justifier ici ces deux motivations.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<OL>

<P ALIGN="JUSTIFY"><LI><A NAME="_Toc507586762"><A NAME="_Toc507586962"><B><FONT FACE="Arial">Phon&eacute;tisation et Reconnaissance Automatique de la Parole</A></A></LI></P></OL>

</B></FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les syst&egrave;mes de transcription graph&egrave;me-phon&egrave;me sont des outils indispensables aux SRAP &agrave; travers deux aspects : D'une part les lexiques utilis&eacute;s lors de la reconnaissance doivent associer &agrave; chaque graphie une ou plusieurs formes phon&eacute;tiques afin d'autoriser une certaine variabilit&eacute; dans la prononciation d'un mot par un locuteur. D'autre part les mod&egrave;les acoustiques repr&eacute;sentant les unit&eacute;s de base de la reconnaissance ont besoin, durant la phase d'entra&icirc;nement, de corpus de parole de taille importante retranscrit phon&eacute;tiquement. Or, les transcriptions disponibles pour ces corpus oraux (tel que le corpus BREF (Gauvain J. <FONT SIZE=4>et al. </FONT>1991)) sont g&eacute;n&eacute;ralement des transcriptions en mots et non pas en phon&egrave;me.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Une phase de phon&eacute;tisation s'av&egrave;re donc n&eacute;cessaire afin de calculer un alignement phon&eacute;tique optimal entre les phrases prononc&eacute;es et le corpus de parole. Cet alignement conditionne la qualit&eacute; des mod&egrave;les appris et en cons&eacute;quence les performances globales de la reconnaissance. Il est donc primordial de fournir &agrave; l'aligneur, pour une phrase donn&eacute;e, non pas une seule prononciation canonique mais plut&ocirc;t un espace de phon&eacute;tisation susceptible de contenir la r&eacute;alisation du locuteur. Les textes trait&eacute;s &eacute;tant le plus souvent des textes journalistiques, une attention particuli&egrave;re doit &ecirc;tre port&eacute;e au probl&egrave;me de la prononciation des noms propres et des acronymes, particuli&egrave;rement fr&eacute;quents dans ce type de corpus.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586763"><A NAME="_Toc507586963">1.2. Phon&eacute;tisation et TALN</A></A></P>
</FONT><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">Bien souvent, il est difficile d'&eacute;valuer une technique de traitement automatique de texte en dehors de tout contexte applicatif. Notamment en ce qui concerne les techniques d'&eacute;tiquetage automatique (syntaxique ou s&eacute;mantique),la pertinence d'une m&eacute;thode est &agrave; juger en fonction de son utilisation dans un contexte particulier : traduction, indexation de documents, filtrage, etc.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">La phon&eacute;tisation automatique de texte est un domaine int&eacute;ressant de ce point de vue : les phases de traitements pr&eacute;liminaires au processus de phon&eacute;tisation ont pour but de rendre le texte aussi peu ambigu&euml; que possible du point de vue de son oralisation. Les ambigu&iuml;t&eacute;s susceptibles d'&ecirc;tre lev&eacute;es se situent &agrave; divers niveaux : morphologique, lexical, syntaxique et s&eacute;mantique.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ainsi, des syst&egrave;mes de TALN tels que des r&eacute;accentueurs (pour les graphies en majuscule, g&eacute;n&eacute;ralement d&eacute;saccentu&eacute;es), des &eacute;tiqueteurs morpho-syntaxiques (pour les homographes-h&eacute;t&eacute;rophones), des analyseurs morphologiques (pour le traitement de flexions ambigu&euml;s), des correcteurs orthographiques ou des &eacute;tiqueteurs s&eacute;mantiques (pour le traitement particulier des noms propres) peuvent &ecirc;tre &eacute;valu&eacute;s de mani&egrave;re pertinente &agrave; travers une t&acirc;che de phon&eacute;tisation.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586764"><A NAME="_Toc507586964">1.3. La phon&eacute;tisation au LIA</A></A></P>
</FONT><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">Nos travaux se placent dans la cadre de l'analyse de textes, processus indispensable &agrave; la phon&eacute;tisation de corpus (Tzoukermann E. 1998). A travers les deux aspects mentionn&eacute;s auparavant, nous avons d&eacute;velopp&eacute; une s&eacute;rie d'outils permettant d'une part de produire les ressources n&eacute;cessaires &agrave; la construction de syst&egrave;mes de RAP ; d'autre part de valider les approches d&eacute;velopp&eacute;es dans le domaine de l'&eacute;tiquetage lexical et plus particuli&egrave;rement dans le traitement des mots hors-vocabulaires. Ces outils peuvent se d&eacute;composer en trois modules: les outils de formatage et d'&eacute;tiquetage, les outils de phon&eacute;tisation et les outils d'exploitation des textes phon&eacute;tis&eacute;s.<FONT FACE="Arial" SIZE=1>_ </FONT>Les outils de formatage et d'&eacute;tiquetage permettent de traiter le texte <FONT SIZE=4>brut </FONT>&agrave; phon&eacute;tiser.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Cet ensemble d'outils regroupe des modules de d&eacute;coupage(en mots et en phrases), de correction (traitement des capitalisations, des formes d&eacute;saccentu&eacute;es et des abr&eacute;viations) et d'&eacute;tiquetage (morphologique et syntaxique). A la suite de ces traitements, la plupart des ambigu&iuml;t&eacute;s de prononciation sont lev&eacute;es.<FONT FACE="Arial" SIZE=1>_ </FONT>Le module de phon&eacute;tisation regroupe d'une part un ensemble de bases de r&egrave;gles de phon&eacute;tisation relatives aux &eacute;tiquettes pr&eacute;alablement pos&eacute;es et d'autre part un module de traitement des liaisons g&eacute;rant les liaisons interdites, facultatives et obligatoires.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Enfin, le module d'exploitation des phon&eacute;tisations permet d'adapter la sortie du syst&egrave;me &agrave; l'application vis&eacute;e : gestion des schwas et des pauses pour servir d'entr&eacute;e &agrave; un synth&eacute;tiseur de parole, g&eacute;n&eacute;ration de prononciations multiples pour la phon&eacute;tisation de lexiques utilis&eacute;s dans des SRAP, etc. Nous allons pr&eacute;senter chacun de ces modules &agrave; travers une br&egrave;ve description des m&eacute;thodes utilis&eacute;es et en illustrant chaque &eacute;tape par des exemples concrets des sorties de notre syst&egrave;me.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<P ALIGN="JUSTIFY"><LI><A NAME="_Toc507586765"><A NAME="_Toc507586965"><B><FONT FACE="Helvetica-Bold">FORMATAGE ET &Eacute;TIQUETAGE DE TEXTE</A></A></LI></P></OL>

<P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">Ce module contient l'ensemble des outils permettant de lever les ambigu&iuml;t&eacute;s de prononciation d'un texte <FONT SIZE=4>brut</FONT>, &agrave; l'exception des ambigu&iuml;t&eacute;s phonologiques graph&eacute;miques ou morphologiques qui seront trait&eacute;es par le module de phon&eacute;tisation. Les traitements effectu&eacute;s peuvent se d&eacute;composer en deux cat&eacute;gories : d'une part les outils permettant de nettoyer et formater le texte &agrave; phon&eacute;tiser ; d'autre part les outils d'&eacute;tiquetage rajoutant aux graphies ambigu&euml;s une &eacute;tiquette utilis&eacute;e par les r&egrave;gles de phon&eacute;tisation.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586766"><A NAME="_Toc507586966">2.1. Formatage</A></A></P>
</FONT><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">La premi&egrave;re &eacute;tape consiste &agrave; nettoyer et segmenter le corpus. Le nettoyage produit en sortie un texte compos&eacute; uniquement de caract&egrave;res alphab&eacute;tiques repr&eacute;sentant du texte et des ponctuations. Il s'agit donc de filtrer les caract&egrave;res de contr&ocirc;le, les balises de formatage, les insertions d'images ou de macro-commandes, etc. Cette &eacute;tape est intimement li&eacute;e au type de fichier trait&eacute;. Nous nous sommes int&eacute;ress&eacute;, dans notre syst&egrave;me, au traitement des fichiers au format ASCII et HTML.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">La segmentation du corpus &agrave; pour but de d&eacute;couper le texte en unit&eacute;s logiques : paragraphes, phrases et mots. M&ecirc;me si cette &eacute;tape ne fait pas appel &agrave; des th&eacute;ories linguistiques tr&egrave;s sophistiqu&eacute;es, elles conditionnent tr&egrave;s fortement les r&eacute;sultats finaux de l'&eacute;tiquetage (Habert B. <FONT SIZE=4>et al. </FONT>1997; Grefenstette G. &amp; Tapanainen P. 1994). La segmentation en paragraphes permet d'une part de garder une structure logique au document et d'autre part d'isoler les titres du corps du texte.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ce dernier aspect est particuli&egrave;rement important afin d'&eacute;viter de coller un titre &agrave; la phrase suivante (les titres ne comportant g&eacute;n&eacute;ralement pas de marque de fin de phrase). Lorsque le titre est enti&egrave;rement en majuscule, le fait de l'isoler permettra de le traiter de mani&egrave;re sp&eacute;cifique comme nous le verrons ult&eacute;rieurement. Le d&eacute;coupage en phrases est indispensable, dans une application de synth&egrave;se de parole &agrave; partir du texte, au module de g&eacute;n&eacute;ration prosodique. Il s'av&egrave;re &eacute;galement obligatoire pour traiter le cas des majuscules de d&eacute;but de phrase.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Enfin l'&eacute;tape de <FONT SIZE=4>tokenisation</FONT>, c'est &agrave; dire de d&eacute;coupage en mots, permet de rep&eacute;rer les formes inconnues du lexique de r&eacute;f&eacute;rence. D&eacute;tecter ces formes va nous permettre d'appliquer, dans certains cas, des outils de correction. Ces diverses segmentations sont effectu&eacute;es, dans notre syst&egrave;me, avec d'une part un ensemble de r&egrave;gles codant des heuristiques et d'autre part un lexique de r&eacute;f&eacute;rence (extrait des ressources <FONT SIZE=4>BDLEX</FONT>(P&eacute;rennou G. 1988) et <FONT SIZE=4>MULTEXT</FONT>) par rapport auquel sera effectu&eacute; le d&eacute;coupage en mots. Ces heuristiques sont assez g&eacute;n&eacute;rales pour pouvoir traiter la majorit&eacute; des cas de mani&egrave;re satisfaisante. Les principales ambigu&iuml;t&eacute;s se situent dans l'utilisation des marqueurs habituels de fin de phrase (point, point d'exclamation et point d'interrogation).</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">En effet, ces marqueurs peuvent &ecirc;tre absent ou bien appara&icirc;tre &agrave; l'int&eacute;rieur d'une phrase comme dans l'exemple suivant :</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">Dans la coll. Dupond, l'ouvrage "Pourquoi moi ?" &agrave; pour code : IV.12.14</P>
</FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Nos r&egrave;gles permettent de traiter la majorit&eacute; des cas, n&eacute;anmoins il est n&eacute;cessaire de les adapter &agrave; chaque traitement de nouveaux corpus afin de prendre en compte les sp&eacute;cificit&eacute;s de chacun d'eux. Une fois le nettoyage termin&eacute;, l'&eacute;tape suivante du formatage va consister &agrave; traiter les probl&egrave;mes li&eacute;s &agrave; l'&eacute;ventuelle capitalisation du texte. En effet, la pr&eacute;sence d'un ou plusieurs mots en majuscule &agrave; l'int&eacute;rieur d'une phrase peut avoir des cons&eacute;quences importantes sur la prononciation de ceux-ci.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ces cons&eacute;quences se situent &agrave; deux niveaux : d'une part les accents sont omis dans la majorit&eacute; des mots en majuscule, ce qui pose des probl&egrave;mes &eacute;vidents d'oralisation. D'autre part, la capitalisation d'un mot peut &ecirc;tre un signe distinctif indiquant qu'il s'agit d'un sigle, d'un acronyme ou m&ecirc;me d'un simple nom propre. Enlever abusivement cette capitalisation peut avoir des cons&eacute;quences f&acirc;cheuses.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par exemple, dans la phrase <I>le LIA est &agrave; Avignon</I>, il est important de conserver les majuscules &agrave; <I><FONT SIZE=4>LIA</I> </FONT>pour &eacute;viter de le prononcer comme une flexion du verbe <FONT SIZE=4>lier</FONT>. Nous avons adopt&eacute;, dans notre syst&egrave;me, la d&eacute;marche suivante :</P>
<P ALIGN="JUSTIFY"></P>

<UL>
<P ALIGN="JUSTIFY"><LI>lorsqu'une phrase enti&egrave;re est en majuscule, elle est traduite en minuscule en utilisant notre module de r&eacute;accentuation (pr&eacute;sent&eacute; dans le paragraphe 2.2) ;</LI></P>
<P ALIGN="JUSTIFY"><LI>lorsqu'un mot est en majuscule ou bien s'il commence par une majuscule dans un phrase en minuscule, il est inchang&eacute; ;</LI></P>
<P ALIGN="JUSTIFY"><LI>enfin, les majuscules des mots de d&eacute;but de phrase sont traduite en minuscule et &eacute;ventuellement r&eacute;accentu&eacute;es lorsque le mot en minuscule est une entr&eacute;e de notre dictionnaire de r&eacute;f&eacute;rence.</LI></P></UL>

<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">A la suite de ce traitement, un certain nombre de mots restent inconnus de notre dictionnaire. Ces mots peuvent &ecirc;tre des racines inconnues, des n&eacute;ologismes, des flexions inusit&eacute;es, des noms propres ou bien, assez souvent, des fautes de frappe. Corriger automatiquement ces fautes est un processus hasardeux, dans la mesure o&ugrave; le risque est grand de modifier &agrave; tort un mot r&eacute;ellement absent de notre dictionnaire. C'est pourquoi nous avons pris le parti d'essayer de corriger uniquement les erreurs dues &agrave; une mauvaise accentuation.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Nous justifions ce choix par la constatation suivante : l'omission d'un accent dans un mot &agrave; une cons&eacute;quence imm&eacute;diate sur la prononciation de celui-ci, ce qui n'est pas le cas de toutes les erreurs. De plus, il s'agit d'une erreur extr&ecirc;mement fr&eacute;quente, rendue encore plus in&eacute;vitable &agrave; cause de la multiplicit&eacute; des syst&egrave;mes d'encodage des caract&egrave;res accentu&eacute;s.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">A cette fin, lorsqu'un mot inconnu est rencontr&eacute;, le syst&egrave;me va chercher si une forme accentu&eacute;e de celui-ci est pr&eacute;sente dans le dictionnaire. Si oui, notre module de r&eacute;accentuation va se charger de choisir la forme correcte. Ce module est intimement li&eacute; au processus d'&eacute;tiquetage pr&eacute;sent&eacute; dans le paragraphe suivant.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586767"><A NAME="_Toc507586967">2.2. Etiquetage morpho-syntaxique</A></A></P>
</FONT><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"></P>
</B></FONT><P ALIGN="JUSTIFY">Ce module a pour objet d'attribuer &agrave; chaque mot une &eacute;tiquette syntaxique choisie parmi un jeu de 105 &eacute;tiquettes. Nous utilisons un &eacute;tiqueteur statistique bas&eacute; sur un mod&egrave;le 3-classes tel que l'on peut trouver dans (Spriet T. &amp; El-B&egrave;ze M. 1995; Charniak E. <FONT SIZE=4>et al. </FONT>1993; Chanod J.-P. &amp; Tapanainen P. 1995). Cet &eacute;tiquetage nous est utile &agrave; diff&eacute;rents niveaux, notamment dans la phase de r&eacute;accentuation de texte et de traitement des homographes-h&eacute;t&eacute;rophones.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586768"><A NAME="_Toc507586968">2.2.1. R&eacute;accentuation du texte</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Lorsqu'une forme capitalis&eacute;e, non accentu&eacute;e, doit &ecirc;tre traduite en caract&egrave;res minuscule, il se peut que plusieurs formes accentu&eacute;es lui correspondent dans le lexique de r&eacute;f&eacute;rence. Par exemple, le mot <I>VOLE</I> peut correspondre aux formes <I>vole</I> ou <I>vol&eacute;</I>. Le module de r&eacute;accentuation, reprenant la m&eacute;thode pr&eacute;sent&eacute;e dans (El-B&egrave;ze M. et al. 1994), utilise le processus d'&eacute;tiquetage pour lever ces ambigu&iuml;t&eacute;s : &agrave; chaque forme accentu&eacute;e correspond, dans le lexique de l'&eacute;tiqueteur, la m&ecirc;me forme sans accent avec toutes les cat&eacute;gories syntaxiques que peuvent prendre les diff&eacute;rentes formes accentu&eacute;es le repr&eacute;sentant. Une fois l'&eacute;tiquetage r&eacute;alis&eacute;, il suffit de faire correspondre au couple (mot d&eacute;saccentu&eacute; / &eacute;tiquette syntaxique) la forme accentu&eacute;e le repr&eacute;sentant.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Cette m&eacute;thode a &eacute;t&eacute; &eacute;valu&eacute; sur un corpus de test contenant 150K mots extraits du journal Le Monde Diplomatique entre les ann&eacute;es 1990-95. L'&eacute;tiqueteur &eacute;t&eacute; entra&icirc;n&eacute; sur des textes du journal Le Monde entre les ann&eacute;es 1990-93. Il utilise un lexique de 260K formes.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Dans un premier temps nous avons supprim&eacute; tous les accents des 23K mots accentu&eacute;s du corpus de test(soit 15% des mots). Puis, &agrave; l'aide de l'&eacute;tiqueteur et de la m&eacute;thode pr&eacute;sent&eacute;e pr&eacute;c&eacute;demment, nous avons corrig&eacute; les accents chaque fois qu'un couple mot/&eacute;tiquette correspondait &agrave; une forme accentu&eacute;e de notre lexique.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">En comparant le texte original avec celui issu de l'&eacute;tape de r&eacute;accentuation nous obtenons les chiffres suivants :</P>

<UL>
<P ALIGN="JUSTIFY"><LI>seulement 795 mots diff&egrave;rent entre les deux textes, soit 0,52% des mots et 3,39% des mots accentu&eacute;s ;</LI></P>
<P ALIGN="JUSTIFY"><LI>sur ces 795 diff&eacute;rences d'accentuation, 376 n'auront aucune influence sur la phon&eacute;tisation (il s'agit principalement des confusions sur les mots &agrave; /a, o&ugrave; / ou, l&agrave; / la, et sur les lettres &icirc; / i et &ucirc; / u);</LI></P>
<P ALIGN="JUSTIFY"><LI>au final, seuls 419 mots r&eacute;accentu&eacute;s provoqueront des erreurs de prononciation, soit 0,27% des mots et 1,78% des mots accentu&eacute;s.</LI></P></UL>

<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ces excellents r&eacute;sultats nous permette de traiter les probl&egrave;mes li&eacute;s &agrave; la capitalisation de textes pr&eacute;sent&eacute;s pr&eacute;c&eacute;demment.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586769"><A NAME="_Toc507586969">2.2.2. Homographes-h&eacute;t&eacute;rophones</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">La majorit&eacute; des mots homographes-h&eacute;t&eacute;rophones appartiennent &agrave; des cat&eacute;gories syntaxiques diff&eacute;rentes. Par exemple les c&eacute;l&egrave;bres couvent/verbe et couvent/nom. En utilisant les &eacute;tiquettes syntaxiques pour contraindre l'application des r&egrave;gles de phon&eacute;tisation, nous traitons l'ensemble de ces homographes(&agrave; condition que l'&eacute;tiquetage r&eacute;alis&eacute; soit correct !).Ce ph&eacute;nom&egrave;ne d'homographie et d'h&eacute;t&eacute;rophonie ne se situe pas seulement au niveau des mots.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par exemple, en fran&ccedil;ais, le suffixe [<I>ent</I>] est ambigu&euml;: il se prononce / &atilde;/ si le mot auquel il appartient est un adverbe et s'il s'agit d'un verbe &agrave; la troisi&egrave;me personne du pluriel, il n'est pas oralis&eacute;. Si le mot &agrave; traiter est connu du lexique de l'&eacute;tiqueteur, les r&egrave;gles de phon&eacute;tisation vont utiliser l'&eacute;tiquette pos&eacute;e pour lever l'ambigu&iuml;t&eacute;. Si par contre le mot est inconnu, un traitement particulier s'impose.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Nous avons choisi de rajouter &agrave; notre &eacute;tiqueteur un module de traitement des mots inconnus afin de r&eacute;soudre ce probl&egrave;me. Ce module, pr&eacute;sent&eacute; dans (Spriet T. et al. 1996) et (B&eacute;chet F.&amp; El-B&egrave;ze M. 1997), va deviner une cat&eacute;gorie syntaxique pour le mot inconnu &agrave; partir du suffixe de celui-ci et de son contexte d'occurrence dans la phrase.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par exemple, dans la phrase <I><U>ils ttiennent la rampe</I></U>, le doublement de la lettre <I><U>t</I></U> emp&ecirc;che la reconnaissance directe du mot <I><U>ttiennent</I></U> comme un verbe. Gr&acirc;ce &agrave; notre module, l'&eacute;tiquette <I>V3P</I> , c'est &agrave; dire verbe &agrave; la troisi&egrave;me personne du pluriel, va lui &ecirc;tre attribu&eacute; et le suffixe [<I>ent</I>] sera correctement phon&eacute;tis&eacute;.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586770"><A NAME="_Toc507586970">2.3. Etiquetage s&eacute;mantique</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">L'&eacute;tiquetage s&eacute;mantique va concerner le traitement des expressions chiffr&eacute;es, des noms propres, des sigles et de quelques cas particuliers. Cet &eacute;tiquetage est effectu&eacute; gr&acirc;ce &agrave; une base de r&egrave;gles prenant en compte un motet son contexte d'occurrence. Avant de pr&eacute;senter le formalisme de ces r&egrave;gles, nous allons passer en revue les diff&eacute;rentes &eacute;tiquettes susceptibles d'&ecirc;tre pos&eacute;es.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586771"><A NAME="_Toc507586971">2.3.1. Expressions chiffr&eacute;es</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">La prononciation d'une expression chiffr&eacute;e repose intimement sur le sens v&eacute;hicul&eacute;e par celle-ci. Par exemple, on ne prononcera pas de la m&ecirc;me mani&egrave;re une suite de chiffres selon qu'elle repr&eacute;sente une date, un num&eacute;ro de t&eacute;l&eacute;phone ou encore une quantit&eacute;. Il est donc important, dans un premier temps, d'analyser le contexte d'occurrence afin d'identifier le type d'expression chiffr&eacute;e rencontr&eacute;e. Nous traitons, dans notre syst&egrave;me, les formats les plus courants concernant les dates, les num&eacute;ros de t&eacute;l&eacute;phone et les horaires. D&egrave;s qu'une de ces expressions est reconnue, elle est format&eacute;e pour constituer une seule entr&eacute;e pour le module de phon&eacute;tisation. Voici quelques exemples de ce formatage:</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">36 15 SNCF&#9;-&gt; trente_six_quinze SNCF</P>
<P ALIGN="JUSTIFY">10:02&#9;-&gt; dix_heure_deux_minute</P>
<P ALIGN="JUSTIFY">90 28 00 50&#9;-&gt; quatre_vingt_dix_vingt_huit_z&eacute;ro_z&eacute;ro_cinquante</P>
<P ALIGN="JUSTIFY">26/06/95&#9;-&gt; vingt_six_z&eacute;ro_six_quatre_vingt_quinze</P>
</FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par d&eacute;faut, toutes les autres expressions chiffr&eacute;es sont consid&eacute;r&eacute;e comme des quantit&eacute;s. Elles sont transcrites de mani&egrave;re orthographique en apportant un soin particulier au traitement des virgules s&eacute;parant des s&eacute;ries de chiffres.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">En effet, dans les applications de synth&egrave;se de parole &agrave; partir de texte, la ponctuation n'est g&eacute;n&eacute;ralement pas oralis&eacute;e. Cependant les virgules &agrave; l'int&eacute;rieur d'expressions chiffr&eacute;es peuvent repr&eacute;senter non pas une marque de ponctuation mais plut&ocirc;t un s&eacute;parateur entre un nombre et ses d&eacute;cimales. L&agrave; encore, c'est le contexte d'occurrence de l'expression chiffr&eacute;e qui va nous permettre de lever l'ambigu&iuml;t&eacute; : nous avons d&eacute;termin&eacute; une liste de graphies pouvant suivre une expression contenant des d&eacute;cimales (par exemple : degr&eacute;s, points). Si la virgule se trouve entre deux nombres suivis d'une de ces entr&eacute;es, elle est transcrite orthographiquement pour &eacute;viter d'&ecirc;tre consid&eacute;r&eacute;e comme une marque de ponctuation.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les exemples suivants illustrent ce principe :</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">a gagn&eacute; 12,8 points -&gt; a gagn&eacute; douze virgule huit points</P>
<P ALIGN="JUSTIFY">les 2,3,4 et 5 mai  -&gt; les deux , trois , quatre et cinq mai</P>
</FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Le dernier probl&egrave;me trait&eacute; par notre module concerne les expressions chiffr&eacute;es cod&eacute;es en chiffres romains. Si les grands nombres repr&eacute;sentant les ann&eacute;es sont peu ambigu&euml;s (par exemple <I>MCMLXXXVIII</I> pour 1988), il n'en va pas de m&ecirc;me pour les chiffres tels que <I>I</I>, <I>V</I> ou <I>X</I>. Notre module va poser l'&eacute;tiquette <I>CHIF_ROMAIN</I> chaque fois qu'un contexte d'occurrence permettra de lever l'ambigu&iuml;t&eacute; : par exemple, tous les chiffres romains potentiels situ&eacute;s apr&egrave;s un pr&eacute;nom ou avant des mots tels que si&egrave;cle ou arrondissement re&ccedil;oivent cette &eacute;tiquette.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586772"><A NAME="_Toc507586972">2.3.2. Les abr&eacute;viations</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Nous traitons ici les acronymes repr&eacute;sentant des abr&eacute;viations et non pas les sigles dont le traitement particulier est pr&eacute;sent&eacute; dans le prochain paragraphe. Trois types d'abr&eacute;viations sont consid&eacute;r&eacute;es :</P>
<P ALIGN="JUSTIFY"></P>

<UL>
<P ALIGN="JUSTIFY"><LI>les abr&eacute;viations d'unit&eacute;s qui ob&eacute;issent &agrave; des r&egrave;gles bien d&eacute;finies (ex : km, hl,  kj, cm);</LI></P>
<P ALIGN="JUSTIFY"><LI>les titres plac&eacute;s devant des noms de famille (ex : Mme, Mes, Pr., Dr);</LI></P>
<P ALIGN="JUSTIFY"><LI>les abr&eacute;viations latines ou commun&eacute;ment admises (ex : etc., cad, tel, cqfd).</LI></P></UL>

<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Chaque fois que l'abr&eacute;viation est potentiellement ambigu&euml;, une r&egrave;gle examinant son contexte est appliqu&eacute;e afin de la retranscrire en toute lettre si la r&egrave;gle est satisfaite.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par exemple :</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">num&eacute;ro de tel 01 16      -&gt; num&eacute;ro de t&eacute;l&eacute;phone z&eacute;ro_un_seize</P>
<P ALIGN="JUSTIFY">10 F re&ccedil;u par F. Dupont. -&gt; dix francs re&ccedil;u par F. Dupont</P>
</FONT><P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586773"><A NAME="_Toc507586973">2.3.3. Les sigles</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Les sigles envahissent notre vocabulaire quotidien, leur prolif&eacute;ration est telle qu'on ne peut plus les ignorer dans les syst&egrave;mes de TALN. La gestion d'un dictionnaire exhaustif de tous les sigles r&eacute;pertori&eacute;s avec leurs prononciations attest&eacute;es se r&eacute;v&egrave;le insuffisante. En effet l'univers des sigles, loin d'&ecirc;tre clos, est en perp&eacute;tuelle expansion. Face &agrave; un sigle, on peut d&eacute;cider de le lire comme s'il s'agissait d'un mot ou de l'&eacute;peler lettre &agrave; lettre. Il ne s'agit pas d'un ou exclusif : en effet quelques sigles sont mi-lus, mi-&eacute;pel&eacute;s ( V-DAT,CDROM) et d'autre admettent les deux modes d'oralisation ( ONU, CES).</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">En ce qui concerne les processus de d&eacute;cision relatifs au choix d'oralisation, nous avons r&eacute;alis&eacute; un module de d&eacute;cision lu / &eacute;pel&eacute; &agrave; base de r&egrave;gles inspir&eacute;es des travaux sur le sujet (Pl&eacute;nat M. 1994) (Boula de Mare&uuml;il P. 1994). La d&eacute;cision du mode de prononciation du sigle (&eacute;pel&eacute; ou lu) est d&eacute;pendante du poids du sigle exprim&eacute; sous diverses unit&eacute;s. L'unit&eacute; de compte pouvant &ecirc;tre la lettre ou le phon&egrave;me. Nous avons extrait des r&egrave;gles de d&eacute;cision en fonction de la structure des sigles. Ces structures sont repr&eacute;sent&eacute;es en consonnes (C), consonnes occlusives (CO), consonnes liquides (CL) ou voyelles (V). Pour &ecirc;tre lu, un sigle doit pr&eacute;senter au moins un doublet de type (CV). Ce qui implique que les sigles form&eacute;s uniquement de consonnes ou uniquement de voyelles sont syst&eacute;matiquement &eacute;pel&eacute;s.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Au del&agrave; de cette particularit&eacute; commune &agrave; tous les sigles, il convient d'introduire des r&egrave;gles particuli&egrave;res selon le nombre de lettres composant le sigle. Notre module d'&eacute;tiquetage des sigles fonctionne en deux &eacute;tapes : tout d'abord les sigles sont rep&eacute;r&eacute;s dans le texte. Hormis ceux pr&eacute;sents dans notre dictionnaire de r&eacute;f&eacute;rence, nous utilisons la capitalisation pour d&eacute;cider de l'attribution de l'&eacute;tiquette SIGLE &agrave; un mot.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">La r&egrave;gle utilis&eacute;e est la suivante : tout mot inconnu dont la capitalisation a &eacute;t&eacute; conserv&eacute; par le module de formatage est consid&eacute;r&eacute; comme un sigle. Ensuite, les r&egrave;gles sur le mode d'oralisation du sigle sont appel&eacute;e et l'&eacute;tiquette SIGLE_LU ou SIGLE_EPELE est appos&eacute;e au mot.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586774"><A NAME="_Toc507586974">2.3.4. Les noms propres</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">L'oralisation des noms propres pose un certain nombre de probl&egrave;me sp&eacute;cifiques (Yvon F. 1996) :</P>
<P ALIGN="JUSTIFY"></P>

<UL>
<P ALIGN="JUSTIFY"><LI>Le manque de normalisation dans l'&eacute;volution historique des noms propres ainsi que la persistance d'archa&iuml;smes entra&icirc;nent une augmentation de l'ambigu&iuml;t&eacute; de certaines graphies. Par exemple, la s&eacute;quence <I>is</I> devient ambigu&euml; dans le mot Isle-sur-Sorgue o&ugrave; elle se prononce /i/.</LI></P>
<P ALIGN="JUSTIFY"><LI>Les ph&eacute;nom&egrave;nes d'agglutination de d&eacute;terminants ou de pr&eacute;fixes &agrave; des noms propres posent des probl&egrave;mes de segmentation morphologiques comme dans les mots Montredon (Mont+ redon) et Montreux.</LI></P>
<P ALIGN="JUSTIFY"><LI>Enfin l'origine linguistique d'un nom propre conditionne sa prononciation (Belrhali R. 1995). Ce ph&eacute;nom&egrave;ne concerne &agrave; la fois les particularismes r&eacute;gionaux et les noms d'origine &eacute;trang&egrave;res. Pour oraliser un nom &eacute;tranger il convient de s'interroger sur l'origine linguistique de celui-ci, puis d'adapter la prononciation aux r&egrave;gles de phon&eacute;tisation consid&eacute;r&eacute;es comme compatibles avec l'origine suppos&eacute;e.</LI></P></UL>

<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Le r&ocirc;le du module d'&eacute;tiquetage s&eacute;mantique des noms propres est d'une part d'identifier et caract&eacute;riser les noms propres &agrave; phon&eacute;tiser, et d'autre part d'estimer une origine linguistique en accord avec la construction du nom et son contexte d'occurrence. Nous allons pr&eacute;senter bri&egrave;vement ces deux traitements.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">La d&eacute;tection des noms propres d'un texte se fait gr&acirc;ce &agrave; l'&eacute;tiqueteur syntaxique pr&eacute;sent&eacute; pr&eacute;c&eacute;demment. A l'issue de cet &eacute;tiquetage, les noms propres re&ccedil;oivent soit l'&eacute;tiquette MOTINC , soit l'une des 9 &eacute;tiquettes caract&eacute;risant les noms propres dans l'ensemble des &eacute;tiquettes utilis&eacute;es par l'&eacute;tiqueteur : nom de ville VILLE , nom de pays PAYS (avec genre et nombre), nom d'organisation ORG , pr&eacute;nom PREN (avec genre) et nom de famille FAMIL.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Il faut noter que le choix de ces &eacute;tiquettes &agrave; &eacute;t&eacute; fait ind&eacute;pendamment de l'application de phon&eacute;tisation, et qu'il d&eacute;pend de consid&eacute;rations syntaxiques plut&ocirc;t que phon&eacute;tiques. Chaque nom propre d&eacute;tect&eacute; est alors trait&eacute; par un module, appel&eacute; Devin Nom-Propre (B&eacute;chet F. et al. 1997), permettant de calculer sa probabilit&eacute; d'appartenance &agrave; une groupe linguistique particulier.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">A cet effet, nous avons utilis&eacute; un corpus de d&eacute;veloppement compos&eacute; de 10K noms et pr&eacute;noms extraits d'articles du journal Le Monde des ann&eacute;es 1987 &agrave; 1993. Les entr&eacute;es de ce corpus ont &eacute;t&eacute; class&eacute; en fonction de certains traits communs caract&eacute;ristiques de leurs prononciations. Cette classification a abouti &agrave; des ensemble disjoints de parleur consonance. Un ensemble de 8 groupes linguistiques a ainsi &eacute;t&eacute; d&eacute;fini de fa&ccedil;on subjective.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Pour chacun de ces groupes, un mod&egrave;le probabiliste de type3-gram a &eacute;t&eacute; entra&icirc;n&eacute;. Lors de la phase d'&eacute;tiquetage, le groupe linguistique choisi pour repr&eacute;senter un nom propre est celui qui maximise la probabilit&eacute; d'appartenance du nom &agrave; l'ensemble des 8 groupes possibles. Les &eacute;tiquettes caract&eacute;risant l'origine linguistique d'un nom propre vont &ecirc;tre pos&eacute;es en fonction de ces deux traitements : si les contextes imm&eacute;diats gauches et droits du nom propre sont compos&eacute;s de noms communs, c'est le seul module Devin Nom-Propre qui va choisir l'&eacute;tiquette pertinente.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par contre, dans le cas de s&eacute;quences de noms propres, des r&egrave;gles vont permettre de prendre en compte un contexte plus large. Les s&eacute;quences &lt;PREN&gt;&lt;FAMIL&gt; ou &lt;ORG&gt;&lt;ORG&gt; sont recherch&eacute;es afin de calculer l'origine linguistique sur l'ensemble de la s&eacute;quence. Le tableau 1 montre quelques exemples d'&eacute;tiquetage de s&eacute;quences &lt;PREN&gt;&lt;FAMIL&gt; par notre module. On peut noter l'influence de la prise en compte du contexte dans l'attribution d'une origine linguistique &agrave; un nom propre.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ainsi, en traitant les noms et pr&eacute;noms s&eacute;par&eacute;ment, il arrive souvent que l'&eacute;tiquette pos&eacute;e sur chacun d'eux diff&egrave;re. Par exemple, dans la s&eacute;quence <I>Guy Forget</I>, le pr&eacute;nom <I>Guy</I> est consid&eacute;r&eacute; comme un pr&eacute;nom fran&ccedil;ais alors que le nom <I>Forget</I> re&ccedil;oit une &eacute;tiquette le classant dans les noms d'origine anglaise. Le fait de calculer une &eacute;tiquette unique en utilisant la s&eacute;quence compl&egrave;te <I>pr&eacute;nom+nom</I> permet de corriger ces ambigu&iuml;t&eacute;s en attribuant une &eacute;tiquette coh&eacute;rente pour prononcer le nom complet.</P>
<P ALIGN="JUSTIFY"></P>
<TABLE BORDER CELLSPACING=1 CELLPADDING=4 WIDTH=614>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Pr&eacute;nom</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Nom</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">PREN</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">FAMIL</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">PREN+FAMIL</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Steffi</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Graf</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Italien</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Allemand</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Allemand</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Vaclav</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Havel</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Slave</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Fran&ccedil;ais</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Slave</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Guy</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Forget</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Fran&ccedil;ais</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Anglais</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Fran&ccedil;ais</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Felipe</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Gonzales</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Italien</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Espagne</TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Espagne</TD>
</TR>
</TABLE>

<P ALIGN="JUSTIFY"></P>
<B><P ALIGN="CENTER">Table 1: </B>Exemples d'&eacute;tiquetage de s&eacute;quences pr&eacute;nom+nom</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586775"><A NAME="_Toc507586975">2.3.5. Formalisme des r&egrave;gles d'&eacute;tiquetage</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Le module d'&eacute;tiquetage s&eacute;mantique utilise des r&egrave;gles prenant en compte un contexte de 4 mots et pouvant &ecirc;tre contraintes indiff&eacute;remment sur la graphie ou la cat&eacute;gorie syntaxique des mots (fournie par l'&eacute;tiqueteur syntaxique).Le format de ces r&egrave;gles, proche de la syntaxe de r&egrave;gles Prolog, int&egrave;gre les param&egrave;tres suivants :</P>
<P ALIGN="JUSTIFY"></P>

<UL>
<P ALIGN="JUSTIFY"><LI>le num&eacute;ro de la r&egrave;gle (NUM )_</LI></P>
<P ALIGN="JUSTIFY"><LI>4 couples repr&eacute;sentant la graphie et la cat&eacute;gorie des 4 mots consid&eacute;r&eacute;s(&lt;Gi;Ci&gt;)</LI></P>
<P ALIGN="JUSTIFY"><LI>l'&eacute;tiquette &agrave; ajouter au mot &lt;G2;C2&gt; si la r&egrave;gle est satisfaite (LABEL)</LI></P>
<P ALIGN="JUSTIFY"><LI>un exemple de contexte sur lequel la r&egrave;gle s'applique (EX)</LI></P>
<P ALIGN="JUSTIFY"><LI>l'&eacute;ventuelle liste de contraintes sur les graphies et les cat&eacute;gories syntaxiques (CONT).</LI></P></UL>

<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Voici le format g&eacute;n&eacute;ral de ces r&egrave;gles : </P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">CONTEXT(NUM,&lt;&lt;G1,C1&gt;,&lt;G2,C2&gt;,&lt;G3,C3&gt;,&lt;G4,C4&gt;&gt;,LABEL,EX)-&gt; CONT;</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Si aucune contrainte n'est port&eacute;e sur l'un des mots du contexte utilis&eacute;, le couple &lt;G;C&gt; peut &ecirc;tre remplac&eacute; par le symbole M. Voici quelques exemples de r&egrave;gles :</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">/* Identification des chiffres romains */</P>
<P ALIGN="JUSTIFY">CONTEXT(10,&lt;&lt;G1,"PREN"&gt;,&lt;G2,C2&gt;,M,M&gt;,"CHIF_ROMAIN","Henry IV")-&gt;</P>
<P ALIGN="JUSTIFY">POTENTIEL_ROMAIN(G2) ;</P>
<P ALIGN="JUSTIFY">CONTEXT(11,&lt;M,&lt;"XV",C2&gt;,&lt;"de",C3&gt;,M&gt;,"CHIF_ROMAIN","XV de France")-&gt;;</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">/* Origine linguistique des noms propres */</P>
<P ALIGN="JUSTIFY">CONTEXT(16,&lt;M,&lt;G2,"PREN"&gt;,&lt;G3,"FAMIL"&gt;,M&gt;,o,"Guy Forget")-&gt;</P>
<P ALIGN="JUSTIFY">ORIGINE_DOUBLE(G2,G3,o) ;</P>
</FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Dans la phase d'&eacute;tiquetage, ces r&egrave;gles sont appliqu&eacute;es de mani&egrave;re exclusive dans l'ordre de leur stockage dans la base. Il faut noter que ces r&egrave;gles permettent &eacute;galement d'&eacute;crire de mani&egrave;re &eacute;l&eacute;gantes des heuristiques relatives &agrave; la phon&eacute;tisation de termes tr&egrave;s particuliers.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Par exemple, certains homographes-h&eacute;t&eacute;rophones (heureusement fort peu nombreux) appartiennent &agrave; la m&ecirc;me classe syntaxique. Ce n'est donc pas l'&eacute;tiqueteur qui pourra lever l'ambigu&iuml;t&eacute;. Il devient alors int&eacute;ressant de traiter ces probl&egrave;mes par des r&egrave;gles heuristiques simples.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Voici, par exemple, deux des r&egrave;gles traitant le cas &eacute;pineux de la prononciation du mot fils. L'&eacute;tiquette FILS_FIL signifie qu'il s'agit du pluriel de fil; l'&eacute;tiquette FILS_FILS correspond &agrave; la signification enfant.</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">CONTEXT(31,&lt;M,&lt;"fils",c2&gt;,&lt;"&eacute;lectriques",c3&gt;,M&gt;,"FILS_FIL","") -&gt; ;</P>
<P ALIGN="JUSTIFY">CONTEXT(32,&lt;M,&lt;"fils",c2&gt;,&lt;"de",c3&gt;,&lt;g4,c4&gt;&gt;,"FILS_FIL","fils de fer") -&gt;</P>
<P ALIGN="JUSTIFY">  ou_bien(g4,["laine","fer","soie","coton","cuivre","m&eacute;tal","nylon"]) ;</P>
</FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586776"><A NAME="_Toc507586976">3. PHON&Eacute;TISATION</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Le module de phon&eacute;tisation r&eacute;cup&egrave;re le texte nettoy&eacute; et &eacute;tiquet&eacute; afin de le traduire en symboles phon&eacute;tiques. Ce module commence par traiter les ph&eacute;nom&egrave;nes de liaisons entre les mots d'une m&ecirc;me phrase en utilisant les r&eacute;sultats de l'&eacute;tiqueteur morpho-syntaxique. Puis diff&eacute;rentes bases de r&egrave;gles de phon&eacute;tisation sont utilis&eacute;es en fonction des &eacute;tiquettes pos&eacute;es par les autres modules.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586777"><A NAME="_Toc507586977">3.1. Gestion des liaisons</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">La liaison est la survivance de quelques encha&icirc;nements de consonnes finales en ancien fran&ccedil;ais : autrefois, toutes les consonnes finales &eacute;taient prononc&eacute;es ; en fran&ccedil;ais moderne, un certain nombre de ces consonnes sont muettes dans les mots pris isol&eacute;ment mais on les prononce lorsque le lien entre un mot (&agrave; finale consonantique) et le mot suivant (&agrave; l'initiale vocalique)est assez fort pour que se conserve l'encha&icirc;nement ancien. Toute la difficult&eacute; du traitement des liaisons r&eacute;sulte pr&eacute;cis&eacute;ment de l'appr&eacute;ciation de la force de ce lien.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">On distingue g&eacute;n&eacute;ralement trois types de liaisons : les liaisons obligatoires, interdites et facultatives. Malgr&eacute; quelques principes g&eacute;n&eacute;raux, les r&egrave;gles qui r&eacute;gissent ces liaisons sont souvent floues et font appel &agrave; des consid&eacute;rations syntaxiques, parfois s&eacute;mantiques. N&eacute;anmoins, nous avons extrait de la litt&eacute;rature (El-B&egrave;ze M. 1990; GrevisseM. 1993) un certain nombre de r&egrave;gles que nous avons formalis&eacute;es de mani&egrave;re analogue &agrave; celles pr&eacute;sent&eacute;es dans le module d'&eacute;tiquetage.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les crit&egrave;res qui nous permettent de trancher pour d&eacute;terminer la pr&eacute;sence ou l'absence de liaison entre deux mots sont la graphie et la cat&eacute;gorie syntaxique, non seulement des mots examin&eacute;s, mais aussi des mots qui les pr&eacute;c&egrave;dent o&ugrave; les suivent. Nous avons choisi de formaliser dans un premier temps uniquement les liaisons interdites et obligatoires. Les liaisons facultatives peuvent &ecirc;tre rajout&eacute;es facilement en ins&eacute;rant de nouvelles r&egrave;gles dans la base.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">De m&ecirc;me que pour l'&eacute;tiquetage s&eacute;mantique, nous utilisons les &eacute;tiquettes syntaxiques pos&eacute;es par notre module d'&eacute;tiquetage statistique ainsi qu'un moteur permettant de traiter les r&egrave;gles de g&eacute;n&eacute;ration des liaisons. Deux autres ph&eacute;nom&egrave;nes, outre les r&egrave;gles de liaison d&eacute;crites, sont pris en charge &agrave; l'aide du m&ecirc;me formalisme : les ph&eacute;nom&egrave;nes de d&eacute;nasalisation lors de la production d'une liaison en [n] et les r&eacute;alisations de la consonne finale dans les expressions chiffr&eacute;es avec six, huit, neuf, dix et vingt.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586778"><A NAME="_Toc507586978">3.2. R&egrave;gles de phon&eacute;tisation</A></A></P>
</FONT><P ALIGN="JUSTIFY">&nbsp;</P>
</B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586779"><A NAME="_Toc507586979">3.2.1. Bases de r&egrave;gles</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Le phon&eacute;tiseur du syst&egrave;me LIA_PHON contient 11 bases de phon&eacute;tisation relatives aux &eacute;tiquettes pos&eacute;es par le module d'&eacute;tiquetage. Ces bases se d&eacute;composent de la mani&egrave;re suivante :</P>

<UL>
<P ALIGN="JUSTIFY"><LI>1 base contenant environ 1000 r&egrave;gles permettant de phon&eacute;tiser les mots du fran&ccedil;ais standard.</LI></P>
<P ALIGN="JUSTIFY"><LI>8 bases correspondant aux 8 groupes linguistiques auxquels sont susceptibles d'appartenir les noms propres. Ces bases contiennent de 200 &agrave; 500 r&egrave;gles et sont cens&eacute; refl&eacute;ter la mani&egrave;re dont un locuteur fran&ccedil;ais prononcerais un nom propre qu'il devine d'origine &eacute;trang&egrave;re.</LI></P>
<P ALIGN="JUSTIFY"><LI>1 base pour phon&eacute;tiser les sigles &eacute;pel&eacute;s (34 r&egrave;gles).</LI></P>
<P ALIGN="JUSTIFY"><LI>1 base pour traiter le cas des sigles lus (120 r&egrave;gles) car leurs r&egrave;gles de prononciation diff&egrave;rent de celles des mots usuels (par exemple, la s&eacute;quence [AI] se prononce /ai/ dans le sigle MAIF).</LI></P></UL>

<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586780"><A NAME="_Toc507586980">3.2.2. Format des r&egrave;gles</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Les informations contenues dans les r&egrave;gles de phon&eacute;tisation sont : le num&eacute;ro de la r&egrave;gle NUM ; la cha&icirc;ne repr&eacute;sentant le contexte gauche de la graphie &agrave; transcrire C_GAUCHE ; la cha&icirc;ne repr&eacute;sentant la graphie &agrave; transcrire GRAPH ; la cha&icirc;ne repr&eacute;sentant le contexte droit de la graphie &agrave; transcrire C_DROIT ; la cha&icirc;ne de phon&egrave;mes se substituant &agrave; la graphie &agrave; transcrire PHO ; un exemple de mot sur lequel la r&egrave;gle en question pourrait s'appliquer EX ; l'&eacute;ventuelle contrainte grammaticale conditionnant la transcription CONT.</P>
<P ALIGN="JUSTIFY">Une r&egrave;gle de r&eacute;&eacute;criture se pr&eacute;sente sous la forme suivante :</P>
<P ALIGN="JUSTIFY"></P>
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">REGLE(NUM,&lt;C_GAUCHE,GRAPH,C_DROIT&gt;,PHO,EX)-&gt; CONT ;</P>
</FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">avec les symboles suivants qui peuvent &ecirc;tre utilis&eacute;s dans les contextes droit ou gauche des r&egrave;gles :</P>

<UL>
<P ALIGN="JUSTIFY"><LI>le symbole "_" codant un espace</LI></P>
<P ALIGN="JUSTIFY"><LI>C qui d&eacute;signe une consonne quelconque</LI></P>
<P ALIGN="JUSTIFY"><LI>V qui d&eacute;signe une voyelle quelconque</LI></P>
<P ALIGN="JUSTIFY"><LI>S indique que la fin d'un mot peut &ecirc;tre "s_" ou "_" (gestion des pluriels)</LI></P></UL>

<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586781"><A NAME="_Toc507586981">3.2.3. Stockage des r&egrave;gles</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">A chaque r&egrave;gle sont associ&eacute; trois scores calcul&eacute;s &agrave; partir des cha&icirc;nes de caract&egrave;res repr&eacute;sentant la graphie &agrave; transcrire et le contexte droit (GRAPH +C_DROIT ), le contexte gauche (C_GAUCHE ) et enfin l'&eacute;ventuelle contrainte(CONT).</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les scores de chaque r&egrave;gle repr&eacute;sentent le degr&eacute; de pr&eacute;cision dans la mod&eacute;lisation du contexte de phon&eacute;tisation d'une graphie. Ce degr&eacute; de pr&eacute;cision s'exprime &agrave; partir de la taille des contextes et du niveau de repr&eacute;sentation choisi (classe de lettres ou lettre pr&eacute;cise). Les r&egrave;gles de chaque bases ont tri&eacute;es automatiquement selon les valeurs de leurs scores, d'abord sur GRAPH + C_DROIT puis en cas d'&eacute;galit&eacute; sur C_GAUCHE et enfin sur CONT.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ainsi les cas particuliers sont plac&eacute;s avant les cas g&eacute;n&eacute;raux de telle sorte que les r&egrave;gles les plus restrictives sont appliqu&eacute;es en priorit&eacute;. Le tri est fait lors de l'initialisation du programme de phon&eacute;tisation. De ce fait, aucune contrainte n'est impos&eacute;e sur le lieu d'insertion des nouvelles r&egrave;gles dans la base. Le risque de masquer des r&egrave;gles particuli&egrave;res par l'insertion, &agrave; une mauvaise place dans la base, d'une r&egrave;gle plus g&eacute;n&eacute;rale n'existe donc pas.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586782"><A NAME="_Toc507586982">3.2.4. Application des r&egrave;gles</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Le premier traitement, dans la phase d'application des r&egrave;gles, consiste &agrave; segmenter la graphie &agrave; prononcer en syllabes. Cette &eacute;tape, m&ecirc;me si elle n'est pas indispensable &agrave; la transcription graph&egrave;me-phon&egrave;me, permet de simplifier l'&eacute;criture de certaines r&egrave;gles en traitant le cas des groupes de lettres non s&eacute;cables en amont de l'application des r&egrave;gles. Cela permet &eacute;galement au syst&egrave;me de fournir en sortie un texte phon&eacute;tis&eacute; d&eacute;j&agrave; d&eacute;coup&eacute; en syllabes. Les r&egrave;gles de syllabification utilis&eacute;es sont des r&egrave;gles classiques utilisant des classes de consonnes et voyelles non s&eacute;cables.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Une fois ce d&eacute;coupage effectu&eacute;, la recherche de la prochaine r&egrave;gle de phon&eacute;tisation &agrave; appliquer se fait de mani&egrave;re dichotomique sur le score associ&eacute; &agrave; GRAPH+C_DROIT . Les bornes de la recherche sont obtenues en calculant un poids minimal et un poids maximal &agrave; partir de la graphie &agrave; transcrire. Cette recherche est rendu possible gr&acirc;ce au tri automatique de la base de r&egrave;gle.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Elle a l'avantage de limiter la recherche s&eacute;quentielle d'une r&egrave;gle au sous-ensemble de r&egrave;gles ayant m&ecirc;me score pour leur cha&icirc;ne GRAPH + C_DROIT. La premi&egrave;re r&egrave;gle trouv&eacute;e qui satisfait les quatre conditions sur GRAPH ,C_DROIT , C_GAUCHE et CONT est imm&eacute;diatement appliqu&eacute;e : le champ GRAPH se r&eacute;&eacute;crit en la suite de phon&egrave;mes se trouvant dans le champ PHO .D&egrave;s qu'une r&egrave;gle a &eacute;t&eacute; appliqu&eacute;e, on r&eacute;it&egrave;re le processus pour phon&eacute;tiser la suite du mot.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586783"><A NAME="_Toc507586983">3.3. Gestion des exceptions</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Certains mots constituent des contre-exemples aux r&egrave;gles de phon&eacute;tisation classiques. Si un tel mot tol&egrave;re des flexions, il est int&eacute;ressant de le coder sous la forme d'une r&egrave;gle g&eacute;n&eacute;ralisable dans la base. Par contre, si des flexions sont impossibles, repr&eacute;senter un mot par une r&egrave;gle risque de surcharger inutilement la base. LIA_PHON donne donc la possibilit&eacute; &agrave; l'utilisateur de d&eacute;finir un lexique d'exceptions, avec les phon&eacute;tisations correspondantes. Ce lexique est consult&eacute; avant toute recherche de r&egrave;gles : si le mot &agrave; phon&eacute;tiser est pr&eacute;sent, il est transcrit directement et l'&eacute;tiquette EXCEPTION lui est appos&eacute;. Ce lexique est cod&eacute; sous la forme d'un arbre en partie commune sur les graphies afin de garantir un temps constant d'acc&egrave;s aux &eacute;l&eacute;ments quelle que soit la taille du lexique.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586784"><A NAME="_Toc507586984">3.4. Exemple</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Voici un exemple de traitement, &agrave; l'issue du processus de formatage, d'&eacute;tiquetage et de phon&eacute;tisation, sur la phrase suivante : <I>Depuis le 21 avril, 12,8% des actions de la COGETA apartiennent &agrave; Paulo Fibonacci.</P>
</I><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les phon&egrave;mes sont donn&eacute;s en code SAMPA. On peut noter les liaisons r&eacute;alis&eacute;es entre <I>21</I> et <I>avril</I>, <I>des</I> et <I>actions</I>, <I>apartiennent</I> et <I>&agrave;</I>. La phon&eacute;tisation du nom propre <I>Paula Fibonacci</I> a &eacute;t&eacute; r&eacute;alis&eacute; par la base de r&egrave;gles de phon&eacute;tisation repr&eacute;sentant la prononciation fran&ccedil;aise de noms d'origine italienne.</P>
<P ALIGN="JUSTIFY"></P>
<TABLE CELLSPACING=0 BORDER=0 CELLPADDING=4 WIDTH=651>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">&lt;s&gt;</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">ZTRM</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">##</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">depuis</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">PREP</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">d @ p H i</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">le</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">DETMS</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">l @</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">vingt-et-un</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">CHIF</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">v e~ t e 9~</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">avril</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">NMS</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">n a v R i l</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">,</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">YPFAI</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">##</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">douze</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">CHIF</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">d u z</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">virgule</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">CHIF</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">v i R g y l</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">huit</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">CHIF</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">H i</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">pour_cent</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">NMS</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">p u R s a~</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">des</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">PREPDES</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">d e</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">actions</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">NFP</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">z a k s j o~</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">de</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">PREPADE</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">d @</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">la</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">DETFS</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">l a</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">COGETA</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">MOTINC-&gt;SIGLE-&gt;SIGLE_LU</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">k o Z e t a</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">apartiennent</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">MOTINC-&gt;V3P</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">a p a R t j E n</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">&agrave;</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">PREPADE</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">t a</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">Paula</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">PREN-&gt;Italien</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">p o l a</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">Fibonacci</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">MOTINC-&gt;Italien</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">f i b o n a t S i</FONT></TD>
</TR>
<TR><TD WIDTH="30%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">&lt;/s&gt;</FONT></TD>
<TD WIDTH="38%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">ZTRM</FONT></TD>
<TD WIDTH="32%" VALIGN="TOP">
<FONT FACE="Courier New"><P ALIGN="JUSTIFY">##</FONT></TD>
</TR>
</TABLE>

<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586785"><A NAME="_Toc507586985">4. EXPLOITATION DES PHON&Eacute;TISATIONS</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Le module d'exploitation des phon&eacute;tisations est directement d&eacute;pendant de l'application vis&eacute;e. Jusqu'&agrave; maintenant, LIA_PHON a &eacute;t&eacute; utilis&eacute; dans trois contextes diff&eacute;rents que nous allons pr&eacute;senter bri&egrave;vement.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586786"><A NAME="_Toc507586986">4.1. Obtention de lexiques phon&eacute;tiques</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Les SRAP utilisent des lexiques contenant pour chaque entr&eacute;e une ou plusieurs transcriptions phon&eacute;tiques. Ces transcriptions correspondent aux prononciations les plus courantes d'une m&ecirc;me entr&eacute;e. Le nombre de variantes cod&eacute;es pour un seul mot est g&eacute;n&eacute;ralement r&eacute;duit car chacune d'entre elle augmente l'espace de recherche de la reconnaissance.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ainsi, la mod&eacute;lisation de nombreuses variantes d&eacute;pendantes du d&eacute;bit ou d'accents r&eacute;gionaux, loin de provoquer un gain au niveau de la reconnaissance, d&eacute;grade sensiblement les r&eacute;sultats (Grennberg S. 1999). Le module de calcul de lexiques phon&eacute;tiques int&eacute;gr&eacute; dans LIA_PHON a donc pour but de proposer une forme canonique de prononciation, en donnant les informations n&eacute;cessaires au d&eacute;codeur pour &eacute;ventuellement adapter de mani&egrave;re dynamique les prononciations lors de la reconnaissance. Ces variantes potentielles int&egrave;grent le traitement des schwas et des consonnes latentes en fin de mot.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586787"><A NAME="_Toc507586987">4.2. Phon&eacute;tisation de textes pour l'alignement</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Dans la phase d'apprentissage des mod&egrave;les acoustiques des SRAP, d'important corpus de parole &eacute;tiquet&eacute;s phon&eacute;tiquement sont n&eacute;cessaires. Le co&ucirc;t d'un &eacute;tiquetage manuel &eacute;tant prohibitif, c'est g&eacute;n&eacute;ralement automatiquement que ces alignements son/phon&egrave;me sont produit.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">A cet effet, le d&eacute;codeur utilise des mod&egrave;les acoustiques rustiques et la transcription orthographique des phrases prononc&eacute;es. Le r&ocirc;le du phon&eacute;tiseur consiste donc &agrave; calculer la transcription phon&eacute;tique la plus proche possible des phrases prononc&eacute;es pour permettre au d&eacute;codeur d'effectuer un alignement de qualit&eacute;.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">L'espace de recherche de la reconnaissance &eacute;tant limit&eacute; &agrave; la phrase effectivement prononc&eacute;e, le phon&eacute;tiseur a int&eacute;r&ecirc;t &agrave; produire de nombreuses variantes afin de s'adapter au mieux aux diff&eacute;rents choix de prononciation effectu&eacute;s par le locuteur.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Cette g&eacute;n&eacute;ration de variantes prends en compte plusieurs niveaux :</P>
<P ALIGN="JUSTIFY"></P>

<UL>
<P ALIGN="JUSTIFY"><LI>Les noms propres sont phon&eacute;tis&eacute;s avec chacune des 8 bases de r&egrave;gles correspondantes aux diff&eacute;rentes origines linguistiques ; toutes les cha&icirc;nes phon&eacute;tiques diff&eacute;rentes sont consid&eacute;r&eacute;es comme des variantes.</LI></P>
<P ALIGN="JUSTIFY"><LI>Des r&egrave;gles g&eacute;rant les liaisons facultatives sont rajout&eacute;es dans la base. Les formes avec et sans liaisons (qu'elles soient facultatives ou obligatoires) sont conserv&eacute;es.</LI></P>
<P ALIGN="JUSTIFY"><LI>Les mots contenant des schwas produisent trois types de variantes :avec &eacute;lision des schwas, en les conservant, en les transformant en /&oslash;/.</LI></P>
<P ALIGN="JUSTIFY"><LI>Une base de r&egrave;gles au m&ecirc;me format que les r&egrave;gles de phon&eacute;tisation est appliqu&eacute;e pour d&eacute;terminer l'insertion de schwas entre les mots d'une m&ecirc;me phrase. Ces schwas sont alors trait&eacute;s de la m&ecirc;me mani&egrave;re que ceux apparaissant &agrave; l'int&eacute;rieur des mots.</LI></P>
<P ALIGN="JUSTIFY"><LI>Enfin, des variantes int&eacute;grant des silences sont ins&eacute;r&eacute;s dans la transcription phon&eacute;tique des phrases, en remplacement des signes de ponctuations et entre deux mots lorsqu'aucune liaison n'est r&eacute;alis&eacute;e.</LI></P></UL>

<B><P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586788"><A NAME="_Toc507586988">4.3. Synth&egrave;se de parole &agrave; partir du texte</A></A></P>
</B></FONT><P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les syst&egrave;mes de synth&egrave;se de parole &agrave; partir du texte peuvent se d&eacute;composer en trois composantes fonctionnelles (d'Alessandro C. et al. 1996) :la phase d'analyse et de phon&eacute;tisation ; la phase phon&eacute;tico-acoustique ; la phase de calcul du signal num&eacute;rique. Nous nous sommes focalis&eacute; essentiellement sur la premi&egrave;re composante, largement d&eacute;crite dans ce document.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">N&eacute;anmoins, dans un but de d&eacute;monstration, LIA_PHON permet d'obtenir des transcriptions directement traitable par un synth&eacute;tiseur de signal. La transcription phon&eacute;tique devant &ecirc;tre produite dans un syst&egrave;me de synth&egrave;se de parole &agrave; partir du texte est un moyen terme entre, d'une part la phon&eacute;tisation canonique pr&eacute;sent&eacute;e dans 4.1 et d'autre part les phon&eacute;tisations avec variantes du paragraphe 4.2.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">En effet, un choix doit &ecirc;tre fait au niveau de la gestion des liaisons, de la r&eacute;alisation des schwas ou de la gestion des pauses pour proposer une transcription phon&eacute;tique coh&eacute;rente au niveau de la phrase et non plus seulement au niveau des mots. Il est bien &eacute;videmment que cette &eacute;tape est intimement li&eacute;e au synth&eacute;tiseur de parole utilis&eacute; pour produire le signal.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Le syst&egrave;me LIA_PHON int&egrave;gre un module de g&eacute;n&eacute;ration de transcriptions phon&eacute;tiques destin&eacute;es &agrave; un synth&eacute;tiseur de parole. Le synth&eacute;tiseur choisi est MBROLA (Dutoit T. 1997). Ce module permet d'une part d'adapter les transcriptions phon&eacute;tiques &agrave; la prononciation d'un texte et d'autre part de calculer des param&egrave;tres prosodiques rendant le texte audible.</P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586789"><A NAME="_Toc507586989">4.3.1. Modification des transcriptions phon&eacute;tiques</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Les r&egrave;gles utilis&eacute;es pour produire la transcription phon&eacute;tique finale envoy&eacute;e au synth&eacute;tiseur de parole sont les suivantes :</P>
<P ALIGN="JUSTIFY"></P>

<UL>
<P ALIGN="JUSTIFY"><LI>Seules les liaisons obligatoires et interdites sont trait&eacute;es, toutes les liaisons facultatives sont omises.</LI></P>
<P ALIGN="JUSTIFY"><LI>Les schwas sont conserv&eacute;s dans la mesure o&ugrave; cette unit&eacute; est pr&eacute;sente dans la base des sons de MBROLA.</LI></P>
<P ALIGN="JUSTIFY"><LI>Les ph&eacute;nom&egrave;nes de hiatus sont laiss&eacute;s &agrave; la charge du synth&eacute;tiseur &agrave; travers le choix des segments de sons utilis&eacute;s pour construire le signal.</LI></P>
<P ALIGN="JUSTIFY"><LI>Les consonnes doubles, &agrave; l'intersection de deux mots, sont s&eacute;par&eacute;es par un schwa.</LI></P>
<P ALIGN="JUSTIFY"><LI>Un schwa est &eacute;galement rajout&eacute;, entre deux mots, lorsque le mot pr&eacute;c&eacute;dent se termine par un groupe de deux consonnes g&eacute;n&eacute;ratrice (par exemple, occlusive et liquide) et que le mot suivant commence par une consonne quelconque.</LI></P>
<P ALIGN="JUSTIFY"><LI>Enfin, toutes les ponctuations sont remplac&eacute;es par des pauses.</LI></P></UL>

<B><P ALIGN="JUSTIFY">&nbsp;</P>
</B><FONT FACE="Arial"><P ALIGN="JUSTIFY"><A NAME="_Toc507586790"><A NAME="_Toc507586990">4.3.2. Param&egrave;tres prosodiques</A></A></P>
</FONT><B><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Le syst&egrave;me LIA_PHON ne poss&egrave;de pas, pour le moment, de module de g&eacute;n&eacute;ration de courbe prosodique. Les param&egrave;tres envoy&eacute;s &agrave; MBROLA ont juste pour but d'&eacute;viter que le signal ne soit g&eacute;n&eacute;r&eacute; avec une prosodie plate, peu agr&eacute;able &agrave; &eacute;couter lors des tests. Ainsi, pour &eacute;viter ce ph&eacute;nom&egrave;ne, les phon&egrave;mes sont transmis &agrave; MBROLA avec des dur&eacute;es moyennes fonction du d&eacute;bit choisi, et la courbe d'intonation suit simplement la r&egrave;gle de d&eacute;clinaison habituelle du fran&ccedil;ais en rajoutant des variations al&eacute;atoires pour &eacute;viter un aspect trop m&eacute;canique lors de l'encha&icirc;nement des phrases.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586791"><A NAME="_Toc507586991">5. EVALUATION DU SYST&Egrave;ME</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">LIA_PHON ne g&eacute;rant pas la g&eacute;n&eacute;ration de param&egrave;tres prosodiques coh&eacute;rents, il ne peut &ecirc;tre &eacute;valu&eacute; directement de mani&egrave;re perceptive. Par contre, les transcriptions phon&eacute;tiques produites peuvent &ecirc;tre compar&eacute;es &agrave; des textes phon&eacute;tis&eacute;s par des experts, et ce de mani&egrave;re automatique en produisant des scores similaires &agrave; ceux utilis&eacute;s en Reconnaissance Automatique de la Parole (nombre de phon&egrave;mes corrects, score de pr&eacute;cision en comptant les &eacute;lisions/substitutions/insertions, nombre de mots/phrases correctes).</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ces r&eacute;sultats sont particuli&egrave;rement int&eacute;ressant quand ils permettent d'&eacute;tablir une typologie des erreurs faites par le syst&egrave;me. Une telle &eacute;tude a &eacute;t&eacute; r&eacute;alis&eacute;e dans le cadre de la campagne de tests des phon&eacute;tiseurs du fran&ccedil;ais organis&eacute;e par l'AUF (ex Aupelf-Uref) et connue sous le nom d'Action de Recherche Concert&eacute;eB3 (ARC B3). Cette campagne regroupait 8 laboratoires (4 fran&ccedil;ais,2 suisses, 1 belge et 1 canadien), les tests se sont d&eacute;roul&eacute;s en 1997 et les r&eacute;sultats ont &eacute;t&eacute; publi&eacute; dans (Yvon F. et al. 1998).Le corpus de tests utilis&eacute; est d&eacute;crit dans le tableau 2.</P>
<P ALIGN="JUSTIFY"></P>
<TABLE BORDER CELLSPACING=1 CELLPADDING=4 WIDTH=651>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Nb de mots </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">total </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">nom propre </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">acronyme </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">exp. chiffr&eacute;e</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">occurrence </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">26 000 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">1 500 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">200 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">600</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">forme </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">6 000 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">1 000 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">90 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">200</TD>
</TR>
</TABLE>

<P ALIGN="JUSTIFY"></P>
<B><P ALIGN="CENTER">Table 2: </B>Description du corpus de test</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Les r&eacute;sultats du syst&egrave;me LIA_PHON sont pr&eacute;sent&eacute;s dans les tableaux 3 et 4. Le premier tableau pr&eacute;sente les r&eacute;sultats sur les phon&egrave;mes (correction et pr&eacute;cision), les mots et les phrases. Le deuxi&egrave;me tableau d&eacute;taille les r&eacute;sultats sur les mots en les classant en quatre types : nom propre, acronyme, expression chiffr&eacute;e et autre. La premi&egrave;re ligne donne les pourcentages de mots corrects, la deuxi&egrave;me ligne pr&eacute;sente la part de chacune de ces classes dans le nombre total d'erreurs.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Ces r&eacute;sultats montrent que si les r&eacute;sultats globaux sont excellents (99% de pr&eacute;cision), la r&eacute;partition des erreurs n'est pas uniforme. Les ambigu&iuml;t&eacute;s classiques de la langue fran&ccedil;aise sont bien trait&eacute;s par le syst&egrave;me : les homographes h&eacute;t&eacute;rophones ne repr&eacute;sentent que 1,1% des erreurs et les ambigu&iuml;t&eacute;s morphologiques seulement 0,3%. Par contre les principales sources d'erreurs proviennent de la pr&eacute;sence de mots emprunt&eacute;s &agrave; d'autres langues (25,6% des erreurs pour seulement 5,8% des mots).</P>
<P ALIGN="JUSTIFY"></P>
<TABLE BORDER CELLSPACING=1 CELLPADDING=4 WIDTH=651>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">Nb phon % </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">corr. % </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">pr&eacute;cision % </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">mots corr. % </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">phrases corr</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">86 938 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">99,3 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">99,0 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">97,5 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">76,0</TD>
</TR>
</TABLE>

<P ALIGN="JUSTIFY"></P>
<B><P ALIGN="CENTER">Table 3: </B>R&eacute;sultats globaux de LIA_PHON</P>
<P ALIGN="CENTER"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<TABLE BORDER CELLSPACING=1 CELLPADDING=4 WIDTH=651>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">classe </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">nom propre </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">acronyme </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">expr. chiffr&eacute;e </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">autre</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">%correct </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">88,8 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">94,5 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">91,7 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">98,2</TD>
</TR>
<TR><TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">% des erreurs </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">25,6 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">1,7 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">7,6 </TD>
<TD WIDTH="20%" VALIGN="TOP">
<P ALIGN="JUSTIFY">65,1</TD>
</TR>
</TABLE>

<P ALIGN="JUSTIFY"></P>
<B><P ALIGN="CENTER">Table 4: </B>R&eacute;sultats par classe de mots et de noms propres</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY"> La d&eacute;tection et l'attribution d'une origine linguistique &agrave; un nom en fonction de sa morphologie et de son contexte semble donc &ecirc;tre un &eacute;l&eacute;ment crucial auquel notre module de traitement des noms propres ne r&eacute;pond qu'imparfaitement. L'&eacute;tude manuelle des r&eacute;sultats nous a montr&eacute; que la plupart des erreurs provenaient d'un manque de couverture dans les bases charg&eacute;es de phon&eacute;tiser les noms propres par origine linguistique. La grande variabilit&eacute; de l'espace de prononciation des noms propres n&eacute;cessite donc l'&eacute;criture de bases de r&egrave;gles plus importantes que celles d&eacute;velopp&eacute;es dans le syst&egrave;me &agrave; ce jour.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586792"><A NAME="_Toc507586992">CONCLUSION</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P>
</B><P ALIGN="JUSTIFY">Cet article pr&eacute;sente les nombreux modules d&eacute;velopp&eacute;s au LIA afin de prendre en compte les probl&egrave;mes li&eacute;s &agrave; la phon&eacute;tisation de corpus. Ces modules faisant partie de l'ensemble de outils linguistiques utilis&eacute;s dans les diverses activit&eacute;s du laboratoire, un certain nombre d'entre eux ne sont pas sp&eacute;cifiques au processus de phon&eacute;tisation. Ainsi, la phase de formatage et d'&eacute;tiquetage de texte est une phase pr&eacute;alable &agrave; toute exploitation de corpus &eacute;crits.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">N&eacute;anmoins, si le processus de phon&eacute;tisation n'a pas &eacute;t&eacute; le seul moteur au d&eacute;veloppement de ces outils, il a &eacute;t&eacute; par contre un moyen de contr&ocirc;le et d'&eacute;valuation indispensable. En effet, un mauvais &eacute;tiquetage ou un formatage erron&eacute; des donn&eacute;es provoquent le plus souvent des r&eacute;percussions imm&eacute;diates au niveau de la prononciation. En utilisant des corpus de tests tel que celui utilis&eacute; dans la campagne ARC B3, la synth&egrave;se de parole devient un outils de validation de m&eacute;thodes de TALN particuli&egrave;rement int&eacute;ressant. En effet, les performances ne sont plus uniquement mesur&eacute;es de mani&egrave;re quantitatives en se comparant &agrave; des corpus de r&eacute;f&eacute;rence, mais au contraire en fonction de leurs r&eacute;percussions dans l'ex&eacute;cution d'une t&acirc;che pr&eacute;cise non artificielle. Les r&eacute;sultats affich&eacute;s par les syst&egrave;mes de phon&eacute;tisation laissent &agrave; penser que le probl&egrave;me est quasiment r&eacute;solu.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Cependant, si les ph&eacute;nom&egrave;nes globaux de la phon&eacute;tisation sont bien appr&eacute;hend&eacute;s (99% de pr&eacute;cision), beaucoup de travail reste &agrave; faire pour arriver &agrave; l'excellence (24% des phrases phon&eacute;tis&eacute;es par notre syst&egrave;me comportent au moins une erreur).Ces erreurs se partagent entre des ph&eacute;nom&egrave;nes connus (noms propres ou acronymes) et une multitude de probl&egrave;mes locaux difficilement cat&eacute;gorisables (65% des erreurs). Ces derniers probl&egrave;mes, certainement d&ucirc; au manque de couverture de nos bases de r&egrave;gles, ne peuvent &ecirc;tre trait&eacute;s que par une analyse minutieuse des corpus trait&eacute;s. G&eacute;n&eacute;raliser les cas les plus fr&eacute;quents par des r&egrave;gles ou des m&eacute;thodes d'apprentissage, coder les autres cas dans des listes d'exceptions, telles sont les t&acirc;ches qu'il nous faut continuer &agrave; mener pour am&eacute;liorer nos syst&egrave;mes.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">Une autre perspective de travail concerne le traitement des variantes de prononciation ayant des effets sur les cha&icirc;nes phon&eacute;tiques repr&eacute;sentant les mots. Que ce soit dans le domaine de l'alignement phon&eacute;tique pour l'apprentissage des SRAP ou pour la g&eacute;n&eacute;ration de parole en fonction de param&egrave;tres de d&eacute;bit ou de style de discours, limiter de mani&egrave;re automatique l'espace des variantes d'un mot et garantir une coh&eacute;rence de variation sur la prononciation d'une ou plusieurs phrases sont encore des probl&egrave;mes largement ouverts.</P>
<P ALIGN="JUSTIFY"></P>
<P ALIGN="JUSTIFY">&nbsp;</P>
<B><FONT FACE="Helvetica-Bold"><P ALIGN="JUSTIFY"><A NAME="_Toc507586793"><A NAME="_Toc507586993">R&Eacute;F&Eacute;RENCES</A></A></P>
</FONT><P ALIGN="JUSTIFY"></P><DIR>

</B><P ALIGN="JUSTIFY">B&Eacute;CHET, Fr&eacute;d&eacute;ric ; EL-B&Egrave;ZE, Marc (1997) : &quot;Automatic assignment of part-of-speech to out-of-vocabulary words for text-to-speech processing&quot;, in Proceedings of the European Conference on Speech Communication and Technology (Eurospeech), pp. 983–986, Rhodes, Greece.</P>
<P ALIGN="JUSTIFY">B&Eacute;CHET, Fr&eacute;d&eacute;ric ; SPRIET, Thierry ; EL-B&Egrave;ZE, Marc (1997) : &quot;Traitement sp&eacute;cifique des noms propres dans un syst&egrave;me de transcription graph&egrave;me-phon&egrave;me&quot;, in Actes des Journ&eacute;es Scientifiques et Techniques du R&eacute;seau Francil (JST'97), pp. 469–472, Avignon.</P>
<P ALIGN="JUSTIFY">BELRHALI, R. (1995) : Phon&eacute;tisation automatique d'un lexique g&eacute;n&eacute;ral du fran&ccedil;ais : syst&eacute;matique et &eacute;mergence linguistique, PhD thesis, Universit&eacute; Stendhal, Grenoble, France.</P>
<P ALIGN="JUSTIFY">BOULA DE MARE&Uuml;IL, Philippe (1994) : &quot;Vers une phon&eacute;misation automatique des sigles&quot;, in Actes des XX&egrave;mes Journ&eacute;es d'&Eacute;tudes sur la Parole, pp. 95–100, Lannion.</P>
<P ALIGN="JUSTIFY">BOULA DE MARE&Uuml;IL, Philippe (1997) : Etude linguistique appliqu&eacute;e &agrave; la synth&egrave;se de la parole &agrave; partir du texte, PhD thesis, Universit&eacute; Paris XI Orsay.</P>
<P ALIGN="JUSTIFY">CHANOD, Jean-Pierre ; TAPANAINEN, Pasi (1995) : &quot;Tagging French - comparing a statistical and a constraint-based method&quot;, in Proceedings of the Seventh Conference of the European Chapter of the ACL (EACL'95),pp. 149–156, Dublin, Ireland.</P>
<P ALIGN="JUSTIFY">CHARNIAK, Eugene ; HENDRICKSON, Curtis ; JACOBSON, Neil ; PERKOWITZ, Mike (1993) : &quot;Equations for part-of-speech tagging&quot;, in 11th National Conference on Artificial Intelligence, A. Press/MIT (eds.), pp. 784–789.</P>
<P ALIGN="JUSTIFY">D'ALESSANDRO, C. ; GARNIER-RIZET, M. ; DE MARE&Uuml;IL, P. Boula (1996) : &quot;Synth&egrave;se de la parole &agrave; partir du texte&quot;, in Fondements et perspectives en traitement automatique de la parole, &Eacute;ditions de l'Aupelf-Uref – Universit&eacute;s Francophones.</P>
<P ALIGN="JUSTIFY">DIETTERICH, T.G. ; HILD, H. ; BAKIRI, G. (1995) : &quot;A comparison of id3 and backpropagation for english text-to-speech mapping&quot;, Machine Learning, vol. 18, n 1, pp. 51–80.</P>
<P ALIGN="JUSTIFY">DIVAY, Michel ; VITALE, Anthony J. (1997) : &quot;Algorithm for grapheme-to-phoneme translation for French and English: Applications&quot;, Computational Linguistics, vol. 23, n 4, pp. 495–524.</P>
<P ALIGN="JUSTIFY">DUTOIT, Thierry (1997) : An Introduction to Text-to-Speech Synthesis,Dordrecht, NL, Kluwer Academic Publishers.</P>
<P ALIGN="JUSTIFY">EL-B&Egrave;ZE, M. ; M&Eacute;RIALDO, B. ; ROZERON, B. ; DEROUAULT, A.M. (1994) : &quot;Accentuation automatique de textes par des m&eacute;thodes probabilistes&quot;, Technique et Sciences Informatiques, vol. 13, n 6, pp. 797–815.</P>
<P ALIGN="JUSTIFY">EL-B&Egrave;ZE, M. (1990) : Choix d'unit&eacute;s appropri&eacute;es et introduction de connaissances dans des mod&egrave;les probabilistes pour la reconnaissance automatique de la parole, PhD thesis, Universit&eacute; Paris VII, Paris, France.</P>
<P ALIGN="JUSTIFY">GAUVAIN, J.L. ; LAMEL, L.F. ; ESKENAZI, M. (1991) : &quot;Design considerations and text selection for BREF, a large French read-speech corpus&quot;, in Proceedings of the European Conference on Speech Communication and Technology (Eurospeech), Genova, Italy.</P>
<P ALIGN="JUSTIFY">GREFENSTETTE, Gregory ; TAPANAINEN, Pasi (1994) : &quot;What is a word, what is a sentence? problems of tokenization&quot;, in Proceedings of The 3<SUP>rd</SUP> International Conference on Computational Lexicography COMPLEX'94, pp. 79–87, Budapest, Hongrie.</P>
<P ALIGN="JUSTIFY">GRENNBERG, Steven (1999) : &quot;Speaking in shorthand - a syllable-centric perspective for understanding pronunciation variation&quot;, Speech Communication, n1769, pp. 158–176.</P>
<P ALIGN="JUSTIFY">GREVISSE, M. (1993) : Le bon usage, grammaire francaise, refondue par A. Goose, Paris, Duculot.</P>
<P ALIGN="JUSTIFY">HABERT, Benoit ; ADDA, Gilles ; ADDA-DECKER, Michelle ; DE MARE&Uuml;IL, Philippe. Boula ; FERRARI, St&eacute;phane ; FERRET, Olivier ; ILLOUZ, Gabriel ; PAROUBEK, Patrick (1997) : &quot;The need for tokenization evaluation&quot;, in Proceedings of the First International Conference on Language Resources and Evaluation (LREC), pp. 427–431, Granada.</P>
<P ALIGN="JUSTIFY">PARFITT, S. ; SHARMAN, R. (1991) : &quot;A bi-directional model of english pronounciation&quot;, in Proceedings of the European Conference on Speech Communication and Technology (Eurospeech), pp. 801–804, G&ecirc;nes.</P>
<P ALIGN="JUSTIFY">P&Eacute;RENNOU, G. (1988) : &quot;Le projet BDLEX de base de donn&eacute;es et de connaissances lexicales et phonologiques&quot;, in Premi&egrave;res Journ&eacute;es Nationales du GRECO-PRC Communication Homme-Machine,Paris.</P>
<P ALIGN="JUSTIFY">PL&Eacute;NAT, Marc (1994) : &quot;Observations sur le mot minimal fran&ccedil;ais&quot;, in De Natura Sonorum,B. Laks ; M. Pl&eacute;nat (ed.), pp. 144–172, Saint-Denis.</P>
<P ALIGN="JUSTIFY">PROUTS,B. (1980) : Contribution &agrave; la synth&egrave;se de la parole &agrave; partir de texte, transcription graph&egrave;me-phon&egrave;me en temps r&eacute;el sur micro-processeur, PhD thesis, Universit&eacute; Paris Sud - Paris XI Orsay, Paris.</P>
<P ALIGN="JUSTIFY">SEJNOWSKI, T.J. ; ROSENBERG, C.R. (1987) : &quot;Parrallel network that learn to pronounce english text&quot;, Complex System, vol. 1, pp. 145–168.</P>
<P ALIGN="JUSTIFY">SPRIET, Thierry ; EL-B&Egrave;ZE, Marc (1995) : &quot;Etiquetage probabiliste et contraintes syntaxiques&quot;, in TALN, Marseille.</P>
<P ALIGN="JUSTIFY">SPRIET, Thi&eacute;rry ; B&Eacute;CHET, Fr&eacute;d&eacute;ric ; EL-B&Egrave;ZE, Marc ; DE LOUPY, Claude ; KHOURI, Liliane (1996) : &quot;Traitement automatique des mots inconnus&quot;, in Actes de la conf&eacute;rence TALN'96, Marseille.</P>
<P ALIGN="JUSTIFY">TZOUKERMANN, Evelyne (1998) : &quot;Text analysis for the BELL labs French Text-To-Speech system&quot;, in Proceedings of the International Conference on Spoken Langage Processing (ICSLP).</P>
<P ALIGN="JUSTIFY">YVON, Fran&ccedil;ois ; BOULA DE MARE&Uuml;IL, Philippe ; D'ALESSANDRO, Christophe ; AUBERG&Eacute;, V&eacute;ronique ; BAGEIN, Michel ; BAILLY, G&eacute;rard ; B&Eacute;CHET, Fr&eacute;d&eacute;ric ; FOUKIA, Saliha ; GOLDMAN, Jean-Philippe ; KELLER, Eric ; O'SHAUGHNESSY, Douglas ; PAGEL, Vincent ; SANNIER, Fr&eacute;d&eacute;rique ; V&Eacute;RONIS, Jean ; ZELLNER, Brigitte (1998) : &quot;Objective evaluation of grapheme to phoneme conversion for text-to-speech synthesis in French&quot;, Computer Speech and Language,vol.12, n 4.</P>
<P ALIGN="JUSTIFY">YVON, Fran&ccedil;ois (1996) : Prononcer par analogie : motivations, formalisations et &eacute;valuations, PhD thesis, &Eacute;cole Nationale Sup&eacute;rieure des T&eacute;l&eacute;communications Paris.</P></DIR>
</BODY>
</HTML>