Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Blog Pricing
Podcast Image

Tech&Co, la quotidienne

Patrick Pérez, CEO de Kyutai – 04/02

04 Feb 2026

Transcription

Chapter 1: Who is Patrick Pérez and what is his background?

2.562 - 20.537 François Sorel

Patrick Perez est avec nous pour une petite vingtaine de minutes et c'est toujours un plaisir que de le recevoir. Bonsoir Patrick. Bonsoir. CEO de Qtai, ancien patron de l'IA chez Valeo. J'ai retrouvé ça dans votre...

0

20.517 - 42.893 François Sorel

pédigré, c'est intéressant, et depuis donc 2023, vous êtes à la tête de cette, on va dire, pépite de l'intelligence artificielle qui est reconnue mondialement, qui s'est focalisée sur la voix, c'est ça, Kutai, c'est la voix, on se souvient de Moshi, qui était votre première, on va dire, expérimentation ?

0

42.913 - 43.133

Première...

0

43.703 - 58.737 François Sorel

Notre première première mondiale. C'était en fait une IA qui pouvait couper la parole parce qu'elle comprenait, avant qu'on termine la phrase, ce qu'on voulait dire. On l'appelle du full duplex. Et alors, qu'est-ce que ça a donné ? Vous avez continué ? Ou vous êtes passé à autre chose ?

0

58.757 - 76.497 Patrick Pérez

Non, on continue. D'autres ont enfin repris, comme Nvidia en particulier. Nous, on fait de l'open source, donc ils ont pu reprendre. Alors oui, on a fait depuis le début beaucoup de travaux et de progrès autour de la voix. Il n'y a Il y a le dialogue, mais aussi la transcription. Oui, avec Ibiki.

Chapter 2: What innovations has Kyutai introduced in voice AI?

76.517 - 87.578 Patrick Pérez

Alors ça, c'est la traduction. La traduction, pardon. La transcription, la synthèse, on va en reparler ce soir. Mais on ne fait pas que de la voix, on fait aussi de la vision. On s'intéresse à d'autres sujets dont on parlera un peu plus tard.

0

87.598 - 88.7 François Sorel

Ah, la vision aussi.

0

88.72 - 92.047 Patrick Pérez

La vision, ça fait un moment et ça se coupe assez bien avec la voix aussi.

0

92.067 - 107.781 François Sorel

C'est clair. Je vous réserverai une petite question quand même à la fin pour tout ça. Avant de rentrer dans le détail de ce pourquoi vous êtes là ce soir, un mot sur la mission de Qtai. Parce que tout ce que vous faites, vous le dites, c'est de l'open source. Il n'y a pas de considération commerciale.

0

107.761 - 134.173 François Sorel

Rappelons que vos mécènes sont CMACGM, qui est d'ailleurs l'actionnaire du groupe média que vous regardez, et notamment BFM Business. Il y a aussi Iliad Group et Schmidt Science, donc Eric Schmidt, qui était le patron de Google. L'idée, c'est que vous avez une cagnotte qui était de 300 millions. Qu'est-ce qu'on vous dit ? Quelle est votre mission avec cet argent-là ?

134.153 - 155.235 Patrick Pérez

C'est de l'utiliser le mieux possible pour faire de la recherche au meilleur niveau possible, et plutôt amont, ou disons d'usage général, pour avoir un impact maximum à travers le choix des projets, mais aussi la mise à disposition, en effet, en libre des briques logicielles, des modèles, et puis de la connaissance à travers les publications scientifiques.

155.255 - 161.341 François Sorel

D'accord. Donc vous publiez quelque chose, en tout cas une innovation, et puis après, qui veut la prend et s'en empare, c'est ça ?

161.361 - 185.035 Patrick Pérez

C'est ça. Un certain nombre de gens s'en emparent, donc ça c'est bien et on continue. C'est ça la mission, vraiment de faire la science ouverte pour que des alternatives à d'autres modèles plus fermés soient disponibles, ce qui est évidemment important s'agissant de technologies aussi importantes et plus et plus importantes d'un point de vue économique, etc.

185.892 - 203.53 François Sorel

Alors, il y a eu énormément d'innovations. On parla tout à l'heure de votre volonté de vous intéresser à la vision, mais vous êtes là ce soir pour Invisible Voice, qui est né de la rencontre entre vous et Olivier Gouin, qui est entrepreneur.

Chapter 3: How does open source contribute to Kyutai's mission?

487.805 - 494.818 François Sorel

Olivier échange avec quelqu'un, il a cette technologie, il a Invisible Voice, comment ça marche ?

0

494.838 - 524.028 Patrick Pérez

Du coup, il a son ordi devant lui, l'interlocuteur parle. Notre modèle de transcription vocale transcrit très très rapidement sur l'écran. Et l'IA, le second module qui est une IA textuelle, qui est extrêmement informée de tout un tas d'éléments concernant la vie d'Olivier, ses activités, son actualité, des choses qu'il a décidé, lui, d'injecter dans la connaissance du modèle.

0

524.289 - 531.144 François Sorel

Donc en fait, il y a à côté de lui... Il y a un petit Olivier, un Olivier numérique, c'est ça ?

0

531.164 - 546.777 Patrick Pérez

C'est exactement ça. Écoutez avec lui. Et qui propose plusieurs réponses Donc, différente, le plus souvent pertinente, puisque très informée et contextualisée. Oui, puisqu'elle lui ressemble, finalement, c'est ça. Et il n'a plus qu'à choisir.

0

546.797 - 560.14 Patrick Pérez

Alors, si une des quatre réponses, il y en a quatre à l'écran pour des histoires d'ergonomie, si une des quatre est déjà lui convient, il n'a plus qu'à cliquer. Et instantanément, il y a sa voix qui parle et qui... qui met en voie la réponse.

560.2 - 577.446 Patrick Pérez

S'il n'est pas complètement content, il veut préciser, réfléchir, il y a une autre partie de l'interface qui permet assez simplement de diriger avec un mot-clé qu'il n'a qu'à choisir dans une liste de mots-clés, etc. Donc, ça prend un peu plus de temps. Mais vraiment, la gageure ici, c'est que

577.426 - 595.308 Patrick Pérez

ça soit en moyenne beaucoup plus rapide que de devoir taper lettre par lettre, même avec, de façon prédictive, avant de faire la stèse vocale. Et ça change complètement le type de discussion accessible, en fait. Il y en a certaines qui sont juste trop laborieuses ou trop coûteuses en énergie si on doit taper le texte intégralement.

595.348 - 616.493 François Sorel

Et puis lui, il doit le fatiguer, en plus de ça. Même s'il est invincible. Oui, c'est clair. Et c'est vrai que le combat qu'il mène est totalement admirable. Le... Ce qui est intéressant, je trouve, dans cette technologie, c'est qu'il y a à la fois la voix, mais il y a aussi l'intelligence de la réponse. Et comment vous avez nourri ? C'est vous qui vous êtes occupé de ça ?

616.513 - 618.476 François Sorel

Vous avez tout fait ? Tout le projet, c'est vous ?

Chapter 4: What is the story behind Invisible Voice and its impact?

885.079 - 905.372 Patrick Pérez

Qu'est-ce qui va se passer demain ? Je pense que des assistants pour l'aide ou pour l'amélioration de la qualité de vie... plein de gens à travers la planète qui ont des difficultés à parler, qui sont malentendants, malvoyants, etc. Avec des dispositifs qui, en plus, à terme, seront entièrement portables.

0

905.392 - 909.457 François Sorel

Là, ça passe par le cloud parce qu'il y a un gros modèle de langage. Mais tout ça, ça tiendrait dans un temps.

0

909.477 - 919.95 Patrick Pérez

Ça va finir par tenir. De jour, on aura des modèles de langage de taille beaucoup plus faible. La partie synthèse vocale, dans la version d'Invincible Voice, elle est un peu conséquente.

0

920.01 - 921.392 François Sorel

Dans la voix d'Olivier, c'est ça ?

0

921.372 - 928.883 Patrick Pérez

Oui. Reproduire la voix, c'est techniquement difficile, mais ce n'est pas ça qui fait que le modèle est beaucoup plus gros.

928.903 - 947.65 Patrick Pérez

Mais il se trouve que la semaine qui a précédé la sortie de ce prototype, on a aussi sorti en open source un nouveau TTS, donc synthétiseur vocal, issu des travaux de recherche de l'équipe, qu'on appelle Pocket TTS, et qui est beaucoup plus petit, qui peut tourner sur le CPU d'un...

947.63 - 972.372 François Sorel

d'un ordinateur d'un smartphone ou d'un laptop donc un jour tout va être ramassé une question de temps en fait tout ça ouais derrière tout ça comment vous parce que j'imagine quand même vous avez une vision même si elle est un petit peu lointaine mais tout ce que vous faites tend vers quoi ? moi j'ai l'impression que c'est on va vers la robotique quand même beaucoup

972.352 - 991.373 François Sorel

Et là, je m'éloigne du sujet d'Olivier. Vous dites que vous travaillez sur la vision. J'imagine que vous allez un peu dans cette direction. On voit que la voie progresse aussi, etc. Vous êtes en train de créer des premières briques de l'intelligence de la robotique de demain, à votre avis ?

991.353 - 1014.508 Patrick Pérez

C'est vraiment des choses qui commencent à structurer assez fortement nos axes de recherche. La voix, c'est l'interface la plus fluide, la plus naturelle avec une machine ou via une machine dans le cas d'Invisible Voice. Beaucoup de robots, pour communiquer avec eux, ça ne va pas passer par un clavier et un écran.

Comments

There are no comments yet.

Please log in to write the first comment.