content.tex 12.6 KB
\AddChapter{Introduction}\label{chap:chap01}
 
 % La communication et les sens
  L’intelligence, qu'elle soit humaine, animale ou végétale, ne peut exister sans communiquer avec son environnement. L'humain, par exemple, acquiert des informations du monde qui l'entoure et décide d'y réagir suite à un processus cognitif. Fruits de longues années d'évolution, son corps a développé différentes modalités d'acquisition de l'information qui lui permettent de peindre continuellement une toile de son environnement. Ces modalités sont communément appelées des "sens". Pour les plus connus, nous parlons du goût, de l'odorat, du toucher, de l'ouïe et de la vue. D'autres encore méconnues du grand public sont la proprioception, l’équilibrioception, la thermoception et la nociception. Ces méthodes d'acquisition de l'information ne nous en apprennent pas seulement sur les entités qui nous entourent, leur utilité réside aussi dans les retours qu'elles nous apportent sur l'état de notre corps dont nous conscientisons la matérialisation dans notre environnement. Nous savons ainsi quels impacts nous avons sur le monde et vice-versa. A titre d'illustration, lorsque nous bougeons un bras, nous sommes conscients de sa position dans l'espace grâce à la proprioception et, si nous rencontrons un obstacle, nous le sentons grâce au toucher.
  
  

% La voix a une place centrale dans la société
Tandis que l'ouïe est le sens dédié à la captation des sons de notre environnement, la voix, elle, est l'organe qui en émet par le biais de mouvements d'oscillation rapides et pluriels en partie produits par les vibrations de cordes vocales. Si la voix permettait il y a des millers d'années d'échanger des cris symboliques, comme le font certains animaux, elle a su se complexifier de pair avec le langage. Par son entremise, nous pouvons donner forme à nos idées, à nos demandes mais nous pouvons également communiquer des sentiments et des impressions. Bien que d'autres modalités d'expression complexes existent telles que l'écriture ou le langage des signes, l'expression orale montre une efficacité toute particulière qui en font aujourd'hui l'outil principal et quotidien de communication inter-humain. Sa présence est telle dans la société que les troubles comme le bégaiement ou le mutisme sélectif sont un handicap non négligeable pour celles et ceux qui les subissent.


% La place de la voix dans les productions multimédia.
Les productions multimédia ne dérogent pas à la règle, la voix y joue généralement un rôle central. A titre d'exemple, elle a fait son apparition au cinéma au début du XXe siècle avec le tournage des premiers films non muets. Ce changement de paradigme cinématographique en a bousculé toute l'industrie. Alors que seule l'esthétique visuelle n'avait de valeur pour le public, l'organe vocal est devenu tout aussi important. Certains acteurs et actrices ont ainsi perdu leur notoriété parce que leur voix ne convenait pas à leur physique et engendrait une sensation de discordance chez le spectateur. La voix occupe donc aujourd'hui une place centrale au cinéma et est généralement indissociable d'une oeuvre cinématographique. Elle engendre cependant de nombreuses contraintes lorsque les producteurs souhaitent distribuer leur oeuvre dans des pays étrangers.



% Le doublage et le casting vocal
La localisation d'une œuvre multimédia consiste à changer et adapter l'oeuvre d'origine de manière à ce que les distributeurs internationaux puissent distribuer le produit final dans un pays cible. À cet effet, les entreprises ont besoin de traduire leur œuvre dans une langue cible. Plusieurs options leurs sont disponibles pour donner consistance à leur traduction. Le sous-titrage est l'option la plus simple et la moins chère, mais pas la plus pratique pour les spectateurs. Les spectateurs préfèrent en grand majorité écouter des paroles, généralement dans leur langue natale, plutôt que de lire des sous-titres tout en écoutant les paroles d'une autre langue. Le doublage est plus coûteux et demande plus de temps à mettre en place, mais il conserve mieux l'immersion du public en remplaçant la voix d'origine par la voix d'un comédien de doublage. Il nécessite un pré-processus de sélection de voix où un opérateur humain sélectionne un candidat parmi plusieurs jouant dans une langue cible. Cette sélection fait référence au \textit{casting vocal}. Plus généralement, le casting vocal permet d'assurer la concordance des voix avec le produit multimédia et est aussi employé dans les documentaires, les livres audios ou des tutoriaux en ligne où les comédiens sélectionnés tâchent de "poser leurs voix". Cependant, nous nous intéresserons particulièrement dans ce manuscrit à son usage pour le doublage de films et de jeux vidéos.

% Besoin d'automatiser le casting vocal
Avec l'émergence des plateformes de streaming telles que Netflix, Disney + ou Amazon Prime, et l'accroissement fulgurante de l'industrie du jeu vidéo, le nombre d'oeuvres à distribuer à l'international augmente dramatiquement. Dès lors, de plus en plus d'acteurs sont disponibles dans le marché des voix. Le casting vocal est cependant un processus artisanal qui requiert beaucoup de précision et qui est effectué par des opérateurs humains. Tel quel, il ne peut être appliqué sur un très grand nombre d'acteurs. Les opérateurs se fient alors souvent à leur mémoire, qui est limitée à un petit nombre d'acteurs avec lesquels ils ont travaillé et auxquels ils accordent du crédit. Ces voix sont alors surreprésentées et deviennent des références faciles à reconnaître qui biaisent la perception du personnage par le public. Des outils de recommandation et de recherche d'acteurs, basés sur le traitement automatique de la parole, aideraient les opérateurs à trouver de nouveaux comédiens qui enrichiraient la diversité vocale des oeuvres pour une meilleure immersion du public.


% Parler des critères de décisions
% Parler de la palette vocale



% La similarité de la voix dans la littérature.
Dans ce manuscrit, nous abordons une partie de la complexité du casting vocal en nous focalisant sur les voix d'acteurs professionnels jouant des personnages de jeux vidéos. L'automatisation du casting vocal est encore très peu représentée dans la littérature. A notre connaissance, seuls une dizaine d'articles qui traitent de cette problématique ont été publiés à ce jour. % TODO: Ajouter des citations. 
Parmi ces articles, les auteurs de (X) n'utilisent que les enregistrements finaux de jeux vidéos – en versions originale et doublée – où les comédiens doubleurs et doublés sont déjà connus. Ils exploitent les associations entre ces comédiens pour modéliser une partie du processus de décision de l'opérateur. La notion de similarité de voix est alors centrale. Communément employée dans le domaine de la vérification du locuteur, elle est ici adaptée au casting vocal. Cette tâche consiste alors à prédire si les deux voix fournies au système jouent le même personnage et à l'exprimer sous la forme d'une mesure de similarité.


% Information personnage
 Dans la théorie de l'information de Shannon, l'information peut se décrire comme l'ensemble des symboles qui donnent forme à une idée. Nous nous reposons sur cette définition et posons dans ce manuscrit "l'information personnage" comme l'ensemble des signes acoustiques dans un enregistrement vocal qui caractérisent l'identité du personnage joué. Les résultats des expériences des articles (X) réalisées sur les systèmes de similarité ont prouvé l'existence de cette information dans la voix, du moins, dans le contexte du jeu vidéo MassEffect 3. Les auteurs des articles (Y) ont alors proposé de construire un espace de représentation vectoriel dédié à la caractérisation du personnage joué qu'ils ont nommé $p$-vecteur pour \textit{personnage-vecteur}. La méthode d'extraction des $p$-vecteurs pose ses fondements sur celle de plongement de réseaux de neurones. Ils sont extraits d'un réseau de neurones auquel on a préalablement appris à reconnaitre le personnage. Les entrées qui lui sont fournies proviennent d'un extracteur de séquence orienté locuteur du tels que les $i$-vecteurs ou $x$-vecteurs. Le volume du corpus d'apprentissage est limité et utiliser un extracteur de séquence pré-entraîné sur un large corpus comme Voxceleb permet de profiter d'une connaissance générale des voix. De cette manière, les $p$-vecteurs ont montré leur efficacité en améliorant les performances des systèmes de similarité de voix au sens du personnage.
 
 
 
 %Cependant, l'évaluation reste quelque peu limitée et la performance des systèmes ne permet pas d'assurer que le personnage est pleinement caractérisé. 
 
 
 
 %En principale contribution de ce manuscrit, nous proposons une nouvelle méthode pour vérifier s'il n'existe pas dans le protocole d'évaluation des $p$-vecteurs un biais locuteur provenant de la structure des données et ne montrant pas qu'une partie de l'information personnage n'est pas caractérisée. 
 
 

 

% SICI
Bien que les $p$-vecteurs améliorent les performances, les $p$-vecteurs véhiculent de l'information dont subsistent encore des zones d'ombre. Dans nos travaux, nous supposons que l'information personnage n'est qu'en partie dépendante du locuteur. Autrement dit, un acteur est reconnaissable lorsqu'il joue un personnage mais il ajoute à sa voix des signes acoustiques  qui viennent lui donner du caractère. Il est probable que les systèmes de similarité de voix apprennent à associer des identités de locuteurs sans prendre en compte la partie personnage qui en est indépendante. Dans le but de vérifier cette hypothèse, nous introduisons dans ce manuscrit l'\textit{Information Personnage Indépendante du Locuteur} (IPIL) et proposons une méthode pour mesurer sa présence dans des représentations vectorielles telles que les $p$-vecteurs et les $x$-vecteurs. Cette méthode consiste à modifier les associations entre les locuteurs dans le but de neutraliser l'information personnage. Le système apprend alors seulement à associer des identité de locuteur. Une perte de performance observée est conséquemment le signe de l'existence d'une information qui a été neutralisée; celle du personnage.


% Application du SICI
Dans une seconde expérience nous appliquons cette méthode dans l'objectif de mettre en évidence l'influence du pré-entraînement locuteur sur l'information modélisée par les $p$-vecteurs. En effet, le réseau de neurones d'où ils sont extraits est d'abord pré-entraîné sur une tâche de reconnaissance du locuteur avant d'être entraîné à reconnaitre le personnage joué. Cela étant, il est légitime de se demander si ce pré-entraînement ne guide pas trop le modèle vers la caractérisation du locuteur. Nous nous intéressons donc à vérifier deux hypothèses dans cette seconde expérience. 1) diminuer l'information locuteur caractérisée par l'extracteur de séquence facilite la modélisation d'IPIL. Pour cela, nous nous utilisons une couche plus éloignée des sorties probabilistes du réseau de neurones et donc discriminant moins le locuteur et nous en servons pour apprendre les $p$-vecteurs. 2) donner plus de pouvoirs à l'entraînement personnage favorise l'IPIL. Nous proposons alors de ne pas geler ses poids ou de supprimer entièrement le pré-entraînement. Bien que le pré-entrainement apporte de l'information dédié au locuteur dans les $p$-vecteurs, nos expériences ont montré qu'il apporte aussi de l'information qui en est indépendante et qui permet de caractériser le personnage.


% Plan du manuscrit
Ce manuscrit s'organise en deux grandes partie. La première introduit le contexte applicatif du doublage ainsi que son état de l'art en informatique. Vous y trouverez notamment toutes les informations nécessaires sur les systèmes de similarité de voix et d'extraction des $p$-vecteurs. Une seconde partie présente les deux contributions expérimentales précédemment présentées. Vous y trouverez tous les protocoles expérimentaux ainsi que les résultats d'expériences et leurs discussions. Suite à ces deux parties, nous présentons une troisième expérience qui sort du cadre de la thèse et traite de l'extraction automatique de labels dédiés aux personnages sans vérité terrain. Pour finir, nous concluons et discutons des perspectives. Quelques annexes vous sont aussi fournies post-scriptum pour détailler des études que j'ai réalisées sur les réseaux siamois ou d'autres connaissances théoriques qui n'ont pas leur place dans le texte. Je vous souhaite une bonne lecture et espère que ce travail saura apprivoiser votre curiosité.