Monde Numérique - Actu Technologies: [Interview] Nicolas Obin (IRCAM) : l'IA au service de la voix

Jérôme Colombain 10/30/23 - Episode Page - 30m - PDF Transcript

Transcript
Show Notes

L'une des directions de recherche que nous visons, c'est d'être capable de réaliser des voies

de synthèse par les eaux chantées qui ont des capacités qu'un être humain ne pourrait pas

réaliser lui-même. Donc c'est un peu dépasser les limites humaines.

Bonjour Nicolas Aubain. Bonjour. Vous êtes maître de conférence à Sorbonne Université,

spécialiste de l'analyse et de la synthèse du son. Vous êtes également chercheur à L'IRCAM. Nous

sommes à L'IRCAM au centre de Paris. Est-ce que vous pouvez nous rappeler un petit peu avant

toute chose ce qu'est l'IRCAM et ce que vous y faites notamment ? Oui, merci. Bienvenue à l'IRCAM.

C'est un institut de recherche et de coordination acoustique-musique qui a été créé sous l'impulsion

de Pierre Boulez au début des années, à la fin des années 70. Grand compositeur de musique

contemporaine. C'est ça. Et chef d'orchestre également, en parallèle ou de manière associée

au centre Pompidou. C'est un institut qui est dédié à la recherche pour la création musicale,

donc qui est quasiment unique au monde, par ses missions et par son ampleur, à savoir que c'est

l'un des seuls endroits au monde où on met ensemble, on fait cohabiter des musiciens, des

artistes qui travaillent le son et des chercheurs scientifiques qui ont pour mission de les accompagner,

de créer des nouveaux outils ou moyens d'expression sonore et musicale. C'est-à-dire qu'ici on

invente des nouveaux instruments de musique, des nouveaux traitements et puis des systèmes de

synthèse vocale qui est votre spécialité. Absolument. Alors la voix est un enjeu stratégique

depuis les débuts de l'IRCAM, depuis sa création. Pour les rapports, alors la voix chanter, bien

évidemment, mais aussi aux langages. C'était une époque, comment dire, de questionnement ou de

refondation du langage musical. Donc la linguistique intéressait particulièrement les compositeurs et

donc la voix s'est imposée et est restée à travers les ans jusqu'à aujourd'hui et les

intelligences artificielles modernes. Nous y sommes, nous y venons, l'intelligence artificielle au

service de la voix et notamment de ce qu'on appelle le clonage vocal. C'est pas nouveau, mais ça

fait des progrès considérables à toute vitesse, on a l'impression. Oui, alors c'est en parallèle avec

tous les progrès spectaculaires qui ont été réalisés avec ce qu'on appelle aujourd'hui les

intelligences artificielles, génératives en l'occurrence, mais en fait sous ce terme ce sont

les intelligences artificielles modernes, à savoir des réseaux de neurones. Et depuis la

introduction, on va dire au milieu des années 2010, en 2015, il y a eu une accélération des

recherches et des avancées technologiques dans tous les domaines, mais y compris celui de la voix.

Et donc dès 2018, les chercheurs de chez Google ont réalisé une première voix de synthèse qui

était jugée aussi naturelle qu'une voix humaine par des êtres humains. Mais c'était que le début.

Pour faire ces voix à cette époque là, on avait besoin de 25 heures d'enregistrement de la voix

d'une personne. Aujourd'hui on est assez loin de ça, alors déjà quand on a dit que c'était une poèce

totalement incroyable, parce qu'avant on n'était même pas capable de faire des voix de synthèse

alors elles étaient loin d'être naturelles, mais même avant, pas si longtemps, elles n'étaient

peut-être même pas tout à fait compréhensible ou intelligible. On se souvient des anciens GPS,

par exemple. Aujourd'hui c'est plus le cas. Et donc à partir de 2018, il y a eu cette première

bascule, on va dire, qui était qu'on arrivait à créer des voix de synthèse qui étaient perçues

comme autant aussi naturelles que des voix humaines réelles, mais il fallait beaucoup de données pour les

faire. Et aujourd'hui ça va beaucoup plus vide. Et aujourd'hui donc effectivement on a transité

l'enjeu aujourd'hui, c'est de réussir à faire la même chose. Donc c'est ce qu'on appelle

le clonage vocal. On n'apprend pas un réseau ou une intelligence artificielle à recréer une

voix en particulier, mais on décompose le problème en deux parties. Une première partie va apprendre

à générer de la voix humaine en général, donc à partir de base de données de centaines de milliers,

de dizaines de milliers de locuteurs différents, librement accessibles et utilisables pour les

apprentissages. Et ensuite à partir de ce qu'on appelle un pré-apprentissage, on va adapter

l'intelligence artificielle pour lui faire prendre le timbre et éventuellement la prosodie d'une

personne en particulier. Et donc là on essaye de faire en sorte qu'on a besoin du minimum de données

possibles pour faire ce transfert. Alors il y a plusieurs façons de faire. En fait il y a deux

technologies qui existent. Il y en a une qui s'appelle le texte to speech, synthèse de parole à

partir du texte, où là on tape un texte et la voix de synthèse sort qui dit, prononce effectivement

le texte donné. Il y a une autre technologie qui est ici, c'est la conversion de voix où là on

prend une voix déjà existante et on va modifier les propriétés, la manipuler pour la faire sonner

éventuellement comme la voix de quelqu'un d'autre. Ces deux technologies ont eu comment dire des

directions de recherche qui ont convergé avec le temps et c'est à peu près aujourd'hui les mêmes

algorithmes qui permettent d'être utilisés pour l'un ou pour l'autre. Mais le principe effectivement

c'est qu'on apprend qu'est-ce que c'est une voix humaine, comment on parle etc. Et l'avantage c'est

qu'au lieu d'utiliser une voix de 25 heures, on peut utiliser aujourd'hui le maximum qu'on

est à disposition pour apprendre des voix de synthèse, c'est environ 60 000 heures. Donc c'est

des milliers de locuteurs différents. Donc on apprend la variabilité pas seulement d'une voix mais

d'un ensemble de voix et possiblement étendre ça à du multilingue donc apprendre dans des langues

différentes également. Alors ça paraît énorme mais en fait c'est aussi extrêmement petit parce

que par comparaison si vous prenez les autres intelligences artificielles génératives comme

ChatGPT, l'une des dernières versions utiliser 50 milliards de mots pour apprendre à générer du

texte et DAL-I qui est la version pour générer des images utilisée environ plusieurs dizaines de

millions d'images donc 50 milliers d'heures ou 60 milliers d'heures à côté ça reste relativement

peu. Oui c'est pas grand chose finalement. Ce qui veut dire qu'est ce qui explique les bonnes géants

qui ont été faits récemment et avec surtout des outils qui sont de plus en plus accessibles.

Il y a des outils de Microsoft, il y a Eleven Labs qui a beaucoup fait parler de lui qui est

accessible librement à tout un chacun sur le web, il y a Raskun, il y a Murph etc. Tout ça

sont des IA qui fabriquent de la voix à la demande. Oui alors c'est ça le changement qui a lieu

actuellement et qui inquiète d'ailleurs ou qui préoccupe autour des intelligences artificielles

c'est que non seulement à travers la grande quantité de données qui est utilisable pour les

apprentissages et évidemment les améliorations des algorithmes même on est capable de générer des

données qui sont très semblables à celles qu'un humain pourrait générer lui-même que ce soit du

texte de l'image ou de la voix et donc ça c'est la première, le premier point c'est la qualité

du rendu actuel est devenu très spectaculaire et indissernable quasiment d'une production humaine

et de l'autre côté c'est qu'en fait ces outils se sont aussi démocratisés c'est à dire qu'à

peu près n'importe qui aujourd'hui peut soit utiliser des outils qui ont été pré-entraînés

pour ses propres besoins soit carrément avec un peu plus de connaissances un geek

pouvoir faire ses propres ré-apprentissages ou apprentissage. Qu'est ce qu'il faut de la

puissance machine avant tout de chose ? Oui aujourd'hui on a quand même encore besoin de

comment dire un ordinateur personnel n'est pas suffisant pour faire ce genre d'apprentissage.

Est-ce que ça coûte cher en fait ? Ah ça dépend comment on le fait.

On tourne le problème parce que si c'est pour générer des voies d'une personne dont on ne va

plus payer les droits d'auteur par la suite. Oui alors on va en parler ça c'est un des aspects

très intéressant. Mais oui alors en termes d'énergie, oui c'est extrêmement coûteux,

il y a des puissances de calcul qui sont démesurés pour faire des tâches qu'un être humain par

exemple. Il me semble il faudrait vérifier mais par exemple la puissance d'un cerveau c'est

environ 40 watts quand les puissances demandées de ressources pour apprendre des intelligences

artificielles sont incommensurablement plus gourmandes en énergie et en données.

Alors on va parler des dérives, des effets pervers, des problèmes que ça pose mais avance

là voyons le côté du verre à moitié plein, tous les champs des possibles que ça ouvre ça

permet et ça laisse envisager plein d'applications nouvelles. Alors oui et donc la grande partie

reste probablement à inventer j'ai envie de vous dire mais alors nous effectivement notre rôle

à Lyarkam c'est de produire de nouveaux moyens d'expression qui vont accompagner l'artiste et

augmenter ses possibilités créatives. L'un des artistes qui est concerné au premier chef aujourd'hui

par ses avancées ce sont les comédiens voix eux-mêmes les acteurs les comédiens. Nous travaillons

pour créer de nouveaux moyens d'expression pour eux et en l'occurrence pour étendre

leur capacité vocale donc l'une des directions de recherche que nous visons c'est d'être

capable de réaliser des voix de synthèse par les eaux chantées qui ont des capacités qu'un être

humain ne pourrait pas réaliser lui-même donc c'est un peu dépasser les limites humaines physique

ou autre. Un exemple nous avons travaillé récemment sur un film l'AMU de l'artiste

Jules Deschamps qui recréait la voix du Castra Farinelli alors on avait déjà c'était assez

amusant parce qu'on avait travaillé sur Farinelli pour le film de Gérard Corbio dans les années 90

avec des moyens tout autres et avec aussi une esthétique visée qui était totalement

différente et là dans le cas... Ça avait déjà fait pardon ça avait déjà fait beaucoup de bruit

cette re constitution de la voix de Farinelli. Alors qui est à la fois imaginaire puisqu'on a

pas de Castra sous la main pour vérifier la couleur et la tessiture mais on a des écrits.

Rappelez-nous de quelle époque ça date. Du 18e siècle.

Et donc aujourd'hui on a reconstruit un Castra de manière artificielle avec un réseau de rôles

mais avec cette idée de lui donner une tessiture qu'un être humain qui est inatteignable par

un être humain. Par exemple je ne sais pas je vous dis 12 octaves de chant, des hauteurs de chant

avec une couleur. Donc c'est énorme ? Ah oui c'est énorme un être humain est incapable d'avoir

une telle tessiture vocale et avec donc une couleur et un naturel qui continue à sonner

comme une voix humaine chantée. Donc vous inventez des voix qui n'existent pas aujourd'hui ?

C'est ça. Nous avons tout un ensemble de recherches pour reprendre, corriger, manipuler

des enregistrements de comédien déjà déjà enregistrés pour lequel par exemple on voudrait

remodifier à posteriori. Donc on imagine dans une production cinématographique on a fait une prise

comédien voix puis on se rend compte ou le directeur artistique ou le réalisateur se rend compte

que cette prise n'est pas satisfaisante. Le comédien n'est pas disponible il est déjà

parti sur notre projet ça peut être éventuellement une personnalité encore plus compliqué à

faire revenir en studio donc on pourrait imaginer redessiner localement sa voix avec son accord

bien entendu pour pouvoir reprendre une expression, une intention, une expressivité vocale.

Est-ce qu'on arrive véritablement, alors on est toujours étonné des progrès qui sont faits par

rapport à ce qui existait avant etc. Malgré tout pour avoir testé quelques-uns de ces outils qui sont

fantastiques certes mais on a l'impression qu'il manque toujours quelque chose. C'est à dire que

par exemple un doublage d'une personne avec sa propre voix va être très intéressant au niveau

déjà de la compréhension si il parle dans une autre langue etc. Mais on a l'impression qu'il

parle tout seul mais qu'il ne parle pas à quelqu'un. Il manque à un petit côté un peu émotionnel en

fait. Oui émotionnel mais ça va beaucoup plus loin que ça. Les IA aujourd'hui pour générer des voix

sont appris à partir de phrases isolées. Donc il n'y a ni contexte narratif ou discursif

et encore moins d'interlocuteurs. Donc c'est ce qui fait juste titre que les voix que vous entendez

vous paraissent relativement monotones. Alors quand on a des interactions rapides par exemple avec

un téléphone et une voix de synthèse qui dit une phrase de phrase où on ne s'arrangue pas compte,

à partir du moment où on veut aller vers des textes plus longs, un livre audio,

un film au cinéma, là l'artefact devient franchement audible et gênant puisque en fait ça limite

les interactions ou en tout cas l'engagement du spectateur qui détecte qu'il y a de la monotonie

ou qu'il y a un artefact qui fait percevoir que la voix qu'il entend n'est pas absolument humaine

ou naturel. Bonjour c'est la voix clonée de Jérôme Colombain. Vous écoutez le podcast

Monde numérique consacré au clonage vocal. Un sujet incroyable. Je reçois Nicolas Obain de

Lyricam pour parler des possibilités et des risques de cette technologie. Et donc ça il y a

à la fois prendre en compte la structure narrative d'un texte par exemple, l'enchaînement

des phrases, les unes après les autres, ou effectivement le contexte et ça ressort

de l'interprétation du comédien. Et c'est là où l'intelligence artificielle ne se substitue pas

ou peut-être ne substituera jamais ou encore longtemps à l'interprète. C'est que l'interprète

il est capable de prendre toutes les informations du contexte quand on joue une scène au cinéma

par exemple pour décider d'une intonation ou d'une expressivité. Il n'y a pas encore cette

perception ou cette compréhension du contexte qui est nécessaire pour l'interprétation.

Oui, faire passer, je sais pas quoi, de la tristesse, de l'amocrie, de ce comme ça.

Alors là il y a ce contexte direct qui serait celui de la scène par exemple,

mais aussi le contexte culturel qui est qu'en fait on est à un moment donné dans une histoire avec

des écoles d'interprétation, etc. et qui est encore cette connaissance humaine a priori et cette

histoire de l'évolution des techniques y compris vocales est totalement absente des

intelligences artificielles. Mais ce qu'on y arrivera un jour Nicolas Obain ?

C'est une excellente question à laquelle je n'ai pas de réponse, j'ai envie de vous dire.

La question n'est jamais tant de savoir quand est-ce que l'intelligence artificielle arrivera

à reproduire tel ou tel comportement humain, mais la question c'est plutôt de savoir pourquoi en

faire et donc dans quelle intention et pour qui. Oui, même si ce sont des questions légitimes et qui

ne guide pas toujours l'innovation malgré tout. Puisqu'on voit que ces outils par exemple ont été

développés, permettent aujourd'hui de faire des choses fantastiques, on le disait, créer des nouvelles

voix. Vous avez créé ici à l'IRCAM je crois, vous avez reconstitué la voix du général de Gaulle.

Il y a quelques temps pour un document historique qui n'existait pas, c'était l'appel du 18 juin

qui en fait n'a pas été enregistré, vous l'avez reconstitué. Il y a des tas de choses,

des perspectives en termes de doublage, de films, de contenus, de podcasts, de vidéos, YouTube a

annoncé bientôt du doublage en temps réel grâce à LIA. Je déroule, mais Samsung, Google

commencent à mettre dans leur smartphone des systèmes qui peuvent répondre automatiquement à des

appels non sollicités, mais avec notre propre voix, etc. Mais il y a toutes les dérives qu'on

voit apparaître à toute vitesse, donc les deepfakes, la désinformation, des activités criminelles,

de la fraude, des fausses prises d'otage avec demande de rançon, etc. Et puis on y vient,

et je viens à ma question, les questions un peu plus métier liées au travail des comédiens.

Des comédiens se sont fait voler leur voix récemment, ils avaient été sollicités pour

enregistrer des phrases, un petit travail payé pas très cher et en fait visiblement c'était pour

alimenter des bases de données qui demain permettront à des créateurs, des réalisateurs de films,

de se passer d'eux en fait. Avec toute nouvelle technologie, il y a d'un côté des nouvelles

opportunités qui peuvent se créer, mais effectivement il y a aussi toujours dans l'autre côté de la

balance des risques qui sont associés d'usages malveillants, des tournées, etc. Alors dans le

cadre des intelligences artificielles pour la création de voix, effectivement il y a un double

risque, il y a à la fois un risque de l'ordre de la biométrie des données personnelles,

par exemple usurper l'identité d'une personne grâce à cette technologie.

Oui, pour s'identifier sur un site bancaire par exemple,

absolument, il y a déjà eu des suspicions de phishing pour soutirer de l'argent en se faisant

passer pour le PDG d'une entreprise, etc. et la désinformation à travers les deepfakes,

voilà ça c'est quelque chose qui est assez relativement connu par tout le monde aujourd'hui.

L'autre côté effectivement il est plus original et en fait il a apparu avec le boom des intelligences

artificielles dont Chad GPT qui a créé une grève, c'est une des premières historiques où à

Hollywood on a des grèves des scénaristes qui dont l'un des points de préoccupation était

justement tout ce qui tournait autour des intelligences artificielles génératives.

Qui s'est réglé il y a peu de temps et qui a duré très longtemps.

Tout à fait, alors qu'ils s'est réglé en partie avec les scénaristes mais les

comédiens eux-mêmes se sont toujours rajoutés à ces préoccupations donc c'est le UVA,

l'Union of Voice Artist qui est le rassemblement des comédiens voix du monde entier et qui ont

justement, qui sont venus, qui ont écrit des textes justement pour exprimer également

leur préoccupation sur le non-control des intelligences artificielles dans le cadre

justement ou l'impact que peuvent avoir les intelligences artificielles génératives dans

le cadre de leur métier. Est-ce que les comédiens notamment spécialisés dans le doublage sont menacés?

Alors en partie mais ça fait l'objet d'une discussion, alors on peut discuter longuement

justement en discuter sur les possibilités. Un doublage c'est pas une traduction littérale,

c'est comme quand on traduit un texte littéraire, il y a justement une mise en contexte culturel,

sociétal et la prise en compte d'un contexte donc qui n'est pas encore accessible aux

intelligences artificielles mais peut-être demain mais effectivement il y a tout avant de

comment dire de remplacer les métiers, ce qu'on ne souhaite pas nous à l'IRCAM on travaille pour

créer des outils qui sont des outils d'aide ou d'assistance à la création donc c'est une

collaboration, si vous voulez, une collaboration et une coévolution aussi entre l'humain,

l'artiste et la machine en tant qu'outil d'aide, même intelligent mais un outil d'aide donc c'est

un super outil, c'est un pinceau par exemple qui vous fait des propositions éventuellement de

continuation pour de la peinture sur des textures etc mais ça reste un outil.

Oui vous faites de l'IA éthique entre guillemets.

Effectivement oui, on a des demandes en fait de recréation de voix depuis environ 30 ans donc

on a eu le temps de se poser les questions éthiques autour du clonage vocal, de la

recréation de voix etc. Mais comment vous pouvez résoudre ce problème ? Si demain le marché du

cinéma va vers la voie de synthèse, vous pourrez être les seuls dans votre coin à ne pas en faire,

ça changera pas grand chose je dirais. Nous faisons de la voie de synthèse mais justement

alors déjà nous respectons, il y a un arsenal on va dire législatif qui existe en Europe,

alors que ce soit pour la biométrie avec le RGPD ou que ce soit partiellement aujourd'hui,

c'est ça qui est l'objet de discussion avec l'IA Act qui a été donc créé à l'Union Européenne,

je ne sais plus l'année mais... Oui et puis qui est encore en discussion mais qui avance ouais.

Et qui essaie de faire de premières propositions pour protéger justement les artistes et les

comédiens sur les usages des intelligence artificielles parce qu'il faut savoir comment dire. Les

comédiens vont être remplacés, ce sont des données donc ils font des enregistrements et ces

enregistrements je vous ai expliqué tout à l'heure, les données sont comment dire, c'est l'essence

nécessaire pour réaliser des apprentissages donc sans donner pas d'intelligence artificielle et

des données pour ces intelligences artificielles il en faut en très très grande quantité et

donc aujourd'hui justement vous voyez avec chat GPT qui peut aspirer à priori sans déclaration

contraire explicite de telle ou telle site peut aspirer tous les contenus textuels disponibles

sur internet. Donc et on voit petit à petit qu'il y a des institutions, des organismes qui

utilisent ce qu'ils appellent le opt out qui fait qu'eux ils veulent retirer leurs données de cet

ensemble d'apprentissage et en fait ces données alors non seulement ça serait bien le consentement

explicite des personnes qui sont concernées mais après il y a tout un ensemble de droits qui

s'y appliquent que ce soit du droit d'auteur, du droit à l'image et à la voix parce que le

droit à la voix ressort au moins en France des mêmes règles que celui du droit à l'image etc etc

et ça ça s'applique non seulement pour les voix qu'on recrée en sortie des algorithmes parce que

dans la législation ils distinguent les entrées et les sorties des IA donc la sortie c'est la partie

visible de l'iceberg c'est celle qu'on voit quand on a recréé la voix de telle ou telle personne

par exemple le général de Gaulle mais en entrée je vous ai dit caché la partie immergée de l'iceberg

il y a toutes ces voix ces dizaines de milliers de voix qu'on a utilisé et dont peut-être nous faisons

partie et les peut-être en premier lieu également les comédiens mais sans en être informé sans notre

consentement et encore moins sans payer les droits d'auteur qui pourrait y être attaché en fait les

comédiens voient comment dire dans l'expression de leur préoccupation autour de l'IA c'est pas que

d'être remplacé à la fin ça ils arriveront certainement à trouver des négociations justement

sur comment dire avoir un pourcentage d'humains dans la création et puis de façon ce sera peut-être

même pas faisable techniquement mais c'est surtout toute cette chaîne en amont qui arrive jusqu'à

la création des voix artificielles et de protection de leurs droits d'auteur donc la question c'est

comment protéger sa voix pour éviter qu'elle n'aille alimenter des IA qui demain feront des choses

soit dans ton besoin soit pour me voler mon métier absolument ouais et ça concerne aussi bien les

artistes dans leurs droits d'auteur et de création mais nous aussi en tant que citoyens sur le droit

nos données personnelles etc donc là c'est tout le coup de la du rgp d demain il faudra que nous

tous on protège nos notre voix alors ça c'est sûr oui alors probablement mais alors comment

ça c'est la question mais c'est la question que je vais vous poser parce que alors aujourd'hui les

données qui sont utilisées pour les apprentissages en fait elles sont par les entreprises qui créent

ces algorithmes on ne les connaît pas elles sont pas publiées elles sont pas déclarées et donc on

ne se basse que sur on va dire la bonne foi des entreprises et c'est comme pour l'entraînement

des IA qui fabrique du texte ou qui fabrique des images on sait pas à partir de quoi elles se sont

entraînées il y a peut-être dedans des œuvres d'art protégés par des droits intellectuels

etc tout à fait tout à fait ouais ouais et c'est certainement le cas puisque d'outre façon les

données quand il y a la quantité et la qualité de données qui sont utilisées en entrée donnent

un avantage stratégique aux entreprises plus les entreprises ont des qualités de pardon ont des

données en grande quantité et en qualité également plus en sortie il va y avoir un outil qui va

être spectaculaire etc donc plus il aura tendance à prendre l'avantage sur sur d'autres IA qui

ferait des choses et qui est similaire c'est à dire que par exemple un comédien aujourd'hui à qui

on demande un travail d'enregistrer des voix etc à intérêt à demander des garanties et à inclure

justement je suis pas dans le métier mais effectivement il y a des recommandations sur

l'ajout de certaines parties comment dire contractuelles directement sur l'utilisation le

cas d'utilisation restreint de leur voix justement par rapport aux utilisations des

intelligences artificielles alors le problème c'est qu'il est un peu rétroactif c'est que

avant on connaissait pas ces usages parce que les intelligences artificielles ne faisaient pas

grand chose où n'était pas comment dire opérationnel mais aujourd'hui c'est le cas et donc il y a

des contrats qui ont été signés par le passé qui ne faisaient pas mention à ces usages potentiels et

donc là il y a une zone de fou probablement alors ça c'est pour la protection du droit d'auteur

enfin ou je sais pas si on peut parler de droit d'auteur mais le droit de propriété de biométrie

profession biométrique maintenant pour tout ce qui est utilisation à des fins criminelles par

exemple des fausses des escroqueries des choses comme ça est ce que techniquement demain il sera

possible de détecter une fausse voix une fausse voix d'une manière que l'IA peut en fabriquer est-ce

qu'elle sera capable est-ce que de la reconnaître qui s'agisse d'une fausse voix je veux plus ma

réponse à une autre question que vous avez posé d'abord sur la protection de sa voix c'est qu'il

existe des techniques aujourd'hui qu'on appelle tatouage ou watermarking en anglais qui permettent

d'insérer dans un contenu audio vidéo ou autre un tatouage qui est non visible ou non

perceptible par un être humain visuellement ou auditivement mais que qu'on peut retrouver

automatiquement avec un algorithme et donc ce tatouage on le met en amont par exemple pour

certifier de l'authenticité d'un contenu ou pour certifier que c'est ma voix par exemple et dans

toute la chaîne de transmission de l'information en télécommunications ce tatouage est censé

être préservé et pouvoir être dans n'importe quelle utilisation finale même transformée ou

ultra transformée par des intelligences artificielles peut être retrouvée pour remonter la chaîne de

dire bah voilà ma voix ou ma donnée a été utilisée pour produire tel résultat. Oui du watermarking

comme pour les images. Absolument mais ça existe aussi pour le son c'est le même principe. Donc ça

c'était un mode de protection. C'est un mode de protection mais en fait aujourd'hui c'est un sujet

de recherche à part entière et donc en fait si on veut protéger les données soit on essaye de le

faire en amont comme je l'ai dit en tatouant les données dès le début de la chaîne de captation

d'acquisition des données pour certifier l'authenticité éventuellement mettre l'information de la

personne à laquelle la donnée appartient et puis après ce tatouage est préservé tout au long de la

chaîne de transmission jusqu'à la réception mais de l'autre côté si on n'a pas tatoué on peut

essayer éventuellement de remonter et ça c'est beaucoup plus difficile à partir d'une sortie

générée de remonter l'intelligence sociale jusqu'aux données qui ont été utilisées pour

apprendre à retrouver les sources en quelque sorte. Oui alors ça me paraît beaucoup plus complexe comme

problème à solutionner mais c'est une possibilité également et en l'occurrence pour la détection

des deepfakes par exemple pour les visions passion d'identité bah c'est plutôt en amont qu'on va

pardon en aval qu'on va se positionner donc on a une vidéo qui est un contenu audiovisuel

qu'on voit et il faut être capable de décider est-ce qu'il est authentique ou non et donc là

bah il y a des quand on va dire il y a tout un champ de recherche sur justement cyber sécurité

pour être capable de détecter automatiquement des deepfakes c'est à dire des vidéos hyper

truquées à des fins malveillantes. Dernière question est-ce que face à ces avancées vous

êtes aujourd'hui inquiets je dirais c'est vertigineux ou fascinés par les possibilités qui

s'offre à vous ? Alors en tant que chercheur on essaye de j'essaye de rester rationnel donc

ni trop inquiet ni trop fasciné moi je fais de la recherche pour essayer d'améliorer de la

connaissance humaine ou de proposer des outils qui vont permettre d'améliorer la vie dans la

société le monde etc et en l'occurrence là la créativité ou les capacités créatives des

artistes en tant que personne effectivement bah je suis à la fois pas fasciné mais c'est toujours

pareil on est excité en plus parce que c'est les débuts donc il y a une espèce de pandémulation

autour des intelligences artificielles génératives nous ça fait 40 ans qu'on travaille

dessus on n'appelait pas ça comme ça et ça ne marchait pas bien mais on travaillait quand même

dessus on continuera à travailler dessus demain les trois pères fondateurs de l'intelligence

artificielle moderne que sont yann lequin joffrayington et jochua ben joe et bah deux d'entre eux se

sont associés justement pour avertir et essayer d'agir pour réglementer au mieux et le plus

rapidement possible l'usage et le développement des intelligences artificielles moi il y a les

inquiets joffrayington et jochua ben joe et puis l'optimiste yann lequin tout à fait français

qui lui garde le cap voilà merci beaucoup nicolao bain spécialiste de l'analyse et de la

synthèse de la voix du son à sorbonne université et à l'ircam merci

Machine-generated transcript that may contain inaccuracies.

L'intelligence artificielle permet de cloner et de magnifier des voix humaines. Quel risque en matière de désinformation ou de cybercriminalité ? Quel danger pour les professionnels de la voix comme les chanteurs ou les comédiens ?

La possibilité de générer des voix hyper réalistes, existantes ou non, grâce à l'intelligence artificielle ouvre d'étonnantes perspectives. Par exemple : la possibilité de synthétiser des voix célèbres ou de doubler facilement des contenus vidéo. Cependant, cela soulève de nombreuses questions de propriété biométrique, de désinformation ou encore des risques de cybercriminalité.Les comédiens risquent-ils de se faire « voler » leur voix ? Devrons-nous un jour protéger notre voix ?

🎙 Rencontre avec Nicolas Obin, maître de conférence à Sorbonne Université et chercheur à l’IRCAM, spécialiste de l’analyse et de la synthèse du son.

Mots-clés : clonage vocal, cybercriminalité, doublage, droit, propriété intellectuelle, voix, synthèse vocale