Quillot Mathias / Thesis Template

Browse Code »

Commit c2efedebde101bea7216da52303d416e093d955b

Authored by quillotm 2021-10-18 22:05:32 +0200

1 parent 5e5fa6bf43

Exists in master

Repaired some details

Showing 1 changed file with 2 additions and 2 deletions Inline Diff

parties/introduction/content.tex

parties/introduction/content.tex

Diff comments View file @ c2efede

1		1
2	\AddChapter{Introduction}\label{chap:chap01}	2	\AddChapter{Introduction}\label{chap:chap01}
3		3
4	% La communication et les sens	4	% La communication et les sens
5	L’intelligence, qu'elle soit humaine, animale ou végétale, ne peut exister sans communiquer avec son environnement. L'humain, par exemple, acquiert des informations du monde qui l'entoure et décide d'y réagir suite à un processus cognitif. Fruits de longues années d'évolution, son corps a développé différentes modalités d'acquisition de l'information qui lui permettent de peindre continuellement une toile de son environnement. Ces modalités sont communément appelées des "sens". Pour les plus connus, nous parlons du goût, de l'odorat, du toucher, de l'ouïe et de la vue. D'autres encore méconnues du grand public sont la proprioception, l’équilibrioception, la thermoception et la nociception. Ces méthodes d'acquisition de l'information ne nous en apprennent pas seulement sur les entités qui nous entourent, leur utilité réside aussi dans les retours qu'elles nous apportent sur l'état de notre corps dont nous conscientisons la matérialisation dans notre environnement. Nous savons ainsi quels impacts nous avons sur le monde et vice-versa. A titre d'illustration, lorsque nous bougeons un bras, nous sommes conscients de sa position dans l'espace grâce à la proprioception et, si nous rencontrons un obstacle, nous le sentons grâce au toucher.	5	L’intelligence, qu'elle soit humaine, animale ou végétale, ne peut exister sans communiquer avec son environnement. L'humain, par exemple, acquiert des informations du monde qui l'entoure et décide d'y réagir suite à un processus cognitif. Fruits de longues années d'évolution, son corps a développé différentes modalités d'acquisition de l'information qui lui permettent de peindre continuellement une toile de son environnement. Ces modalités sont communément appelées des "sens". Pour les plus connus, nous parlons du goût, de l'odorat, du toucher, de l'ouïe et de la vue. D'autres encore méconnues du grand public sont la proprioception, l’équilibrioception, la thermoception et la nociception. Ces méthodes d'acquisition de l'information ne nous en apprennent pas seulement sur les entités qui nous entourent, leur utilité réside aussi dans les retours qu'elles nous apportent sur l'état de notre corps dont nous conscientisons la matérialisation dans notre environnement. Nous savons ainsi quels impacts nous avons sur le monde et vice-versa. A titre d'illustration, lorsque nous bougeons un bras, nous sommes conscients de sa position dans l'espace grâce à la proprioception et, si nous rencontrons un obstacle, nous le sentons grâce au toucher.
6		6
7		7
8		8
9	% La voix a une place centrale dans la société	9	% La voix a une place centrale dans la société
10	Tandis que l'ouïe est le sens dédié à la captation des sons de notre environnement, la voix, elle, est l'organe qui en émet par le biais de mouvements d'oscillation rapides et pluriels en partie produits par les vibrations de cordes vocales. Si la voix permettait il y a des millers d'années d'échanger des cris symboliques, comme le font certains animaux, elle a su se complexifier de pair avec le langage. Par son entremise, nous pouvons donner forme à nos idées, à nos demandes mais nous pouvons également communiquer des sentiments et des impressions. Bien que d'autres modalités d'expression complexes existent telles que l'écriture ou le langage des signes, l'expression orale montre une efficacité toute particulière qui en font aujourd'hui l'outil principal et quotidien de communication inter-humain. Sa présence est telle dans la société que les troubles comme le bégaiement ou le mutisme sélectif sont un handicap non négligeable pour celles et ceux qui les subissent.	10	Tandis que l'ouïe est le sens dédié à la captation des sons de notre environnement, la voix, elle, est l'organe qui en émet par le biais de mouvements d'oscillation rapides et pluriels en partie produits par les vibrations de cordes vocales. Si la voix permettait il y a des millers d'années d'échanger des cris symboliques, comme le font certains animaux, elle a su se complexifier de pair avec le langage. Par son entremise, nous pouvons donner forme à nos idées, à nos demandes mais nous pouvons également communiquer des sentiments et des impressions. Bien que d'autres modalités d'expression complexes existent telles que l'écriture ou le langage des signes, l'expression orale montre une efficacité toute particulière qui en font aujourd'hui l'outil principal et quotidien de communication inter-humain. Sa présence est telle dans la société que les troubles comme le bégaiement ou le mutisme sélectif sont un handicap non négligeable pour celles et ceux qui les subissent.
11		11
12		12
13	% La place de la voix dans les productions multimédia.	13	% La place de la voix dans les productions multimédia.
14	Les productions multimédia ne dérogent pas à la règle, la voix y joue généralement un rôle central. A titre d'exemple, elle a fait son apparition au cinéma au début du XXe siècle avec le tournage des premiers films non muets. Ce changement de paradigme cinématographique en a bousculé toute l'industrie. Alors que seule l'esthétique visuelle n'avait de valeur pour le public, l'organe vocal est devenu tout aussi important. Certains acteurs et actrices ont ainsi perdu leur notoriété parce que leur voix ne convenait pas à leur physique et engendrait une sensation de discordance chez le spectateur. La voix occupe donc aujourd'hui une place centrale au cinéma et est généralement indissociable d'une oeuvre cinématographique. Elle engendre cependant de nombreuses contraintes lorsque les producteurs souhaitent distribuer leur oeuvre dans des pays étrangers.	14	Les productions multimédia ne dérogent pas à la règle, la voix y joue généralement un rôle central. A titre d'exemple, elle a fait son apparition au cinéma au début du XXe siècle avec le tournage des premiers films non muets. Ce changement de paradigme cinématographique en a bousculé toute l'industrie. Alors que seule l'esthétique visuelle n'avait de valeur pour le public, l'organe vocal est devenu tout aussi important. Certains acteurs et actrices ont ainsi perdu leur notoriété parce que leur voix ne convenait pas à leur physique et engendrait une sensation de discordance chez le spectateur. La voix occupe donc aujourd'hui une place centrale au cinéma et est généralement indissociable d'une oeuvre cinématographique. Elle engendre cependant de nombreuses contraintes lorsque les producteurs souhaitent distribuer leur oeuvre dans des pays étrangers.
15		15
16		16
17		17
18	% Le doublage et le casting vocal	18	% Le doublage et le casting vocal
19	La localisation d'une œuvre multimédia consiste à changer et adapter l'oeuvre d'origine de manière à ce que les distributeurs internationaux puissent distribuer le produit final dans un pays cible. À cet effet, les entreprises ont besoin de traduire leur œuvre dans une langue cible. Plusieurs options leurs sont disponibles pour donner consistance à leur traduction. Le sous-titrage est l'option la plus simple et la moins chère, mais pas la plus pratique pour les spectateurs. Les spectateurs préfèrent en grand majorité écouter des paroles, généralement dans leur langue natale, plutôt que de lire des sous-titres tout en écoutant les paroles d'une autre langue. Le doublage est plus coûteux et demande plus de temps à mettre en place, mais il conserve mieux l'immersion du public en remplaçant la voix d'origine par la voix d'un comédien de doublage. Il nécessite un pré-processus de sélection de voix où un opérateur humain sélectionne un candidat parmi plusieurs jouant dans une langue cible. Cette sélection fait référence au \textit{casting vocal}. Plus généralement, le casting vocal permet d'assurer la concordance des voix avec le produit multimédia et est aussi employé dans les documentaires, les livres audios ou des tutoriaux en ligne où les comédiens sélectionnés tâchent de "poser leurs voix". Cependant, nous nous intéresserons particulièrement dans ce manuscrit à son usage pour le doublage de films et de jeux vidéos.	19	La localisation d'une œuvre multimédia consiste à changer et adapter l'oeuvre d'origine de manière à ce que les distributeurs internationaux puissent distribuer le produit final dans un pays cible. À cet effet, les entreprises ont besoin de traduire leur œuvre dans une langue cible. Plusieurs options leurs sont disponibles pour donner consistance à leur traduction. Le sous-titrage est l'option la plus simple et la moins chère, mais pas la plus pratique pour les spectateurs. Les spectateurs préfèrent en grand majorité écouter des paroles, généralement dans leur langue natale, plutôt que de lire des sous-titres tout en écoutant les paroles d'une autre langue. Le doublage est plus coûteux et demande plus de temps à mettre en place, mais il conserve mieux l'immersion du public en remplaçant la voix d'origine par la voix d'un comédien de doublage. Il nécessite un pré-processus de sélection de voix où un opérateur humain sélectionne un candidat parmi plusieurs jouant dans une langue cible. Cette sélection fait référence au \textit{casting vocal}. Plus généralement, le casting vocal permet d'assurer la concordance des voix avec le produit multimédia et est aussi employé dans les documentaires, les livres audios ou des tutoriaux en ligne où les comédiens sélectionnés tâchent de "poser leurs voix". Cependant, nous nous intéresserons particulièrement dans ce manuscrit à son usage pour le doublage de films et de jeux vidéos.
20		20
21	% Besoin d'automatiser le casting vocal	21	% Besoin d'automatiser le casting vocal
22	Avec l'émergence des plateformes de streaming telles que Netflix, Disney + ou Amazon Prime, et l'accroissement fulgurante de l'industrie du jeu vidéo, le nombre d'oeuvres à distribuer à l'international augmente dramatiquement. Dès lors, de plus en plus d'acteurs sont disponibles dans le marché des voix. Le casting vocal est cependant un processus artisanal qui requiert beaucoup de précision et qui est effectué par des opérateurs humains. Tel quel, il ne peut être appliqué sur un très grand nombre d'acteurs. Les opérateurs se fient alors souvent à leur mémoire, qui est limitée à un petit nombre d'acteurs avec lesquels ils ont travaillé et auxquels ils accordent du crédit. Ces voix sont alors surreprésentées et deviennent des références faciles à reconnaître qui biaisent la perception du personnage par le public. Des outils de recommandation et de recherche d'acteurs, basés sur le traitement automatique de la parole, aideraient les opérateurs à trouver de nouveaux comédiens qui enrichiraient la diversité vocale des oeuvres pour une meilleure immersion du public.	22	Avec l'émergence des plateformes de streaming telles que Netflix, Disney + ou Amazon Prime, et l'accroissement fulgurante de l'industrie du jeu vidéo, le nombre d'oeuvres à distribuer à l'international augmente dramatiquement. Dès lors, de plus en plus d'acteurs sont disponibles dans le marché des voix. Le casting vocal est cependant un processus artisanal qui requiert beaucoup de précision et qui est effectué par des opérateurs humains. Tel quel, il ne peut être appliqué sur un très grand nombre d'acteurs. Les opérateurs se fient alors souvent à leur mémoire, qui est limitée à un petit nombre d'acteurs avec lesquels ils ont travaillé et auxquels ils accordent du crédit. Ces voix sont alors surreprésentées et deviennent des références faciles à reconnaître qui biaisent la perception du personnage par le public. Des outils de recommandation et de recherche d'acteurs, basés sur le traitement automatique de la parole, aideraient les opérateurs à trouver de nouveaux comédiens qui enrichiraient la diversité vocale des oeuvres pour une meilleure immersion du public.
23		23
24		24
25	% Parler des critères de décisions	25	% Parler des critères de décisions
26	% Parler de la palette vocale	26	% Parler de la palette vocale
27		27
28		28
29		29
30	% La similarité de la voix dans la littérature.	30	% La similarité de la voix dans la littérature.
31	Dans ce manuscrit, nous abordons une partie de la complexité du casting vocal en nous focalisant sur les voix d'acteurs professionnels jouant des personnages de jeux vidéos. L'automatisation du casting vocal est encore très peu représentée dans la littérature. A notre connaissance, seuls une dizaine d'articles qui traitent de cette problématique ont été publiés à ce jour. % TODO: Ajouter des citations.	31	Dans ce manuscrit, nous abordons une partie de la complexité du casting vocal en nous focalisant sur les voix d'acteurs professionnels jouant des personnages de jeux vidéos. L'automatisation du casting vocal est encore très peu représentée dans la littérature. A notre connaissance, seuls une dizaine d'articles qui traitent de cette problématique ont été publiés à ce jour. % TODO: Ajouter des citations.
32	Parmi ces articles, les auteurs de (X) n'utilisent que les enregistrements finaux de jeux vidéos – en versions originale et doublée – où les comédiens doubleurs et doublés sont déjà connus. Ils exploitent les associations entre ces comédiens pour modéliser une partie du processus de décision de l'opérateur. La notion de similarité de voix est alors centrale. Communément employée dans le domaine de la vérification du locuteur, elle est ici adaptée au casting vocal. Cette tâche consiste alors à prédire si les deux voix fournies au système jouent le même personnage et à l'exprimer sous la forme d'une mesure de similarité.	32	Parmi ces articles, les auteurs de (X) n'utilisent que les enregistrements finaux de jeux vidéos – en versions originale et doublée – où les comédiens doubleurs et doublés sont déjà connus. Ils exploitent les associations entre ces comédiens pour modéliser une partie du processus de décision de l'opérateur. La notion de similarité de voix est alors centrale. Communément employée dans le domaine de la vérification du locuteur, elle est ici adaptée au casting vocal. Cette tâche consiste alors à prédire si les deux voix fournies au système jouent le même personnage et à l'exprimer sous la forme d'une mesure de similarité.
33		33
34		34
35	% Information personnage	35	% Information personnage
36	Dans la théorie de l'information de Shannon, l'information peut se décrire comme l'ensemble des symboles qui donnent forme à une idée. Nous nous reposons sur cette définition et posons dans ce manuscrit "l'information personnage" comme l'ensemble des signes acoustiques dans un enregistrement vocal qui caractérisent l'identité du personnage joué. Les résultats des expériences des articles (X) réalisées sur les systèmes de similarité ont prouvé l'existence de cette information dans la voix, du moins, dans le contexte du jeu vidéo MassEffect 3. Les auteurs des articles (Y) ont alors proposé de construire un espace de représentation vectoriel dédié à la caractérisation du personnage joué qu'ils ont nommé $p$-vecteur pour \textit{personnage-vecteur}. La méthode d'extraction des $p$-vecteurs pose ses fondements sur celle de plongement de réseaux de neurones. Ils sont extraits d'un réseau de neurones auquel on a préalablement appris à reconnaitre le personnage. Les entrées qui lui sont fournies proviennent d'un extracteur de séquence orienté locuteur du type $i$-vecteur ou $x$-vecteur. Le volume du corpus d'apprentissage est limité et profiter d'un extracteur de séquence pré-entraîné sur un large corpus comme Voxceleb permet de profiter d'une connaissance générale des voix. De cette manière, les $p$-vecteurs ont montré leur efficacité en améliorant les performances des systèmes de similarité de voix au sens du personnage.	36	Dans la théorie de l'information de Shannon, l'information peut se décrire comme l'ensemble des symboles qui donnent forme à une idée. Nous nous reposons sur cette définition et posons dans ce manuscrit "l'information personnage" comme l'ensemble des signes acoustiques dans un enregistrement vocal qui caractérisent l'identité du personnage joué. Les résultats des expériences des articles (X) réalisées sur les systèmes de similarité ont prouvé l'existence de cette information dans la voix, du moins, dans le contexte du jeu vidéo MassEffect 3. Les auteurs des articles (Y) ont alors proposé de construire un espace de représentation vectoriel dédié à la caractérisation du personnage joué qu'ils ont nommé $p$-vecteur pour \textit{personnage-vecteur}. La méthode d'extraction des $p$-vecteurs pose ses fondements sur celle de plongement de réseaux de neurones. Ils sont extraits d'un réseau de neurones auquel on a préalablement appris à reconnaitre le personnage. Les entrées qui lui sont fournies proviennent d'un extracteur de séquence orienté locuteur du tels que les $i$-vecteurs ou $x$-vecteurs. Le volume du corpus d'apprentissage est limité et utiliser un extracteur de séquence pré-entraîné sur un large corpus comme Voxceleb permet de profiter d'une connaissance générale des voix. De cette manière, les $p$-vecteurs ont montré leur efficacité en améliorant les performances des systèmes de similarité de voix au sens du personnage.
37		37
38		38
39		39
40	%Cependant, l'évaluation reste quelque peu limitée et la performance des systèmes ne permet pas d'assurer que le personnage est pleinement caractérisé.	40	%Cependant, l'évaluation reste quelque peu limitée et la performance des systèmes ne permet pas d'assurer que le personnage est pleinement caractérisé.