Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表しました。 昨年11月にGoogleは世界中の言語をサポートするための「1000 Languages Initiative」を発表しており、今回はその第一歩として自動音声認識 (ASR)サービス「Universal Speech Model (USM) 」についての成果を公開したものになります。 Googleが取得した300以上の言語にわたる1,200万時間の音声と 280億文のテキストでトレーニングされた20億のパラメーターを持つ最先端の音声モデルとなっており、英語や中国語と違って、トレーニングデータが不足しがちな話者の少ない言語でも、微調整を伴う自己教師あり自動学習を使うことで音声認識 (ASR) を効率よく構築できるというもの。 「Universal Speech Model (USM) 」を使ってYouTubeのキャプションを生成した結果、73の言語で平均30%未満の単語エラー率を達成できたことも発表されました。最近リリースされたOpen AIの音声認識モデル「Whisper (large-v2)」と比較してもエラー率が低かったそうです。 この領域の進化は目覚ましいものがありますね。これからの展開も楽しみです。 ではまた!
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
3ª PARTE | 17 DIC 2025 | EL PARTIDAZO DE COPE
01 Jan 1970
El Partidazo de COPE
13:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
12:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
10:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
13:00H | 20 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
12:00H | 20 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana