Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

出埃及记Exodus

S1E06 | AI驱动的语音交互革命:探究GPT4o背后的技术逻辑

08 Aug 2024

Description

【关于本期】OpenAI终于在7月底兑现承诺,上线了GPT-4o高级语音模式的灰度测试,目前一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。OpenAI表示,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。预计在今年秋季,所有ChatGPTPlus用户,都能用上这个功能。ChatGPT的语音对话功能去年9月首次推出,今年5月在GPT4o发布会直播中推出了高级语音模式的demo。在demo演示中,GPT4o可以识别出OpenAI总裁Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。但不管是因为C端产品对于安全性与稳定性的高要求,还是之前版本采用与寡姐斯嘉丽约翰逊高度相似声线诱发的风波,这个饼也终于在反复跳票后在7月底被落实。而我们恰好在2个月前跟做audio generation的两位博士生朋友交流对当时OpenAI发布会的GPT4o的看法。他们分别是MyShell联合创始人,麻省理工在读博士生秦增益,和卡耐基梅隆大学LTI WAVLab博士生史嘉彤。我们从创业公司和学界研究者的视角展开聊聊Audio/SpeechGeneration,其中的许多很有意思的观点在2个月后的今天看来,的确得到了验证。【嘉宾介绍】秦增益:MIT博士生,本科毕业于清华大学。研究范围包括音频生成、大语言模型和计算机视觉。他的语音生成模型OpenVoice在Github上获得27k stars,并登顶Github排行榜。他联合创立的生成式AI应用平台MyShell已有超过200万注册用户,并有超过10万个应用被创建史嘉彤:卡内基梅隆大学LTIWAVLab博士生,师从ShinjiWatanabe教授。本硕分别毕业于中国人民大学和约翰霍普金斯大学计算机专业。研究方向主要在语音和音乐处理,近期主要关注于音频表征学习及其应用;他是语音处理框架ESPnet的主要贡献者,以及近年语音相关基准/比赛 SUPERB、ML-SUPERB、SVCC、IWSLT、DiscreteSpeech、SVDD、Dynamic SUPERB 的组织者和发起人。曾获卡内基梅隆大学校长奖学金,SLT2022以及ASRU2023最佳论文提名。曾多次在腾讯 AI Lab、Meta AI、IBM AI Research进行研究实习。【降落伞】02:28 自我介绍【GPT4o,新世界的大门】03:24 怎么看待GPT4o的发布?05:23 怎么衡量不同任务中语音系统的能力?是否需要新的评价标准?12:29 GPT4o在demo中展现的能力16:40 为什么GPT4o尚未完全开放它的各项能力?19:53 怎么看待GPT4o的免费版本?【如何实现GPT4o的相关功能】23:16 GPT4o和其他功能性AI的本质区别27:02 serving的改善和旧模型的迭代28:48 怎么实现GPT4o的实时性和低延迟?45:39 端到端的speech generation49:24 个人定制AI agents助手的前景58:07 语音合成能不能“超越”真实的speech?【GPT4o的未完待续】1:03:27 GPT4o的数据处理过程与提升需求1:11:03 一段语音中的哪些信息和语音处理有关?1:16:05 用语音检测核酸?1:18:51 GPT4o可能与其他服务商或API合作吗?1:22:00 未来展望:超级智能的曙光【制作团队】主理人: 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。制作: 黄芊雅:复旦大学新闻学院 邱鑫:上海交大安泰经管学院 王翌婷:复旦大学计算机学院【音乐版权】 Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly

Audio
Featured in this Episode

No persons identified in this episode.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes
🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Comments

There are no comments yet.

Please log in to write the first comment.