出埃及记Exodus

S1E05 | Gemini与Chatbot Arena团队科学家：全网最强解读AI安全与对齐

02 Jul 2024

Audio

Description

【关于播客】欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。欢迎大家订阅收听，和关注我们的同名微信公众号，追踪最新内容。;p【关于本期】今年5月，Ilya为代表的Open AI超级对齐团队大面积离职；6月19日，在离开Open AI一个月后，Ilya拉上了Y Combinator合伙人和前open AI技术专家成立了SSI（safe super intelligence），旨在创建安全而强大的人工智能系统。AI技术与产品发展狂奔的另一面，是越来越多的有关人工智能是否会给人类社会带来风险和利益侵害的忧虑。除了业界许多产品项和工程项的人大多持有有效加速的观点外，学界的观点像在打擂台一样构成了媒介议程。图灵奖AI三巨头之二的Bengio、Hinton以及我们熟知的姚期智等顶级科学家联名在Science刊登文章，警示无节制发展AI的风险；而图灵AI三巨头的另一位Yann LeCun、斯坦福的吴恩达教授以及李飞飞和John Etchemendy等学者则对人类控制AI的能力表示乐观。本期我们很荣幸地请到Google DeepMind团队的刘睿博博士，和UC Berkeley PHD毕业的朱邦华博士，来跟我们从业界和学界的视角展开聊聊AI安全与AI对齐。本期播客将为大家揭露GPT4o不为人知的内幕，并希望从专业视角带来“超级对齐”的深度解读。【嘉宾介绍】刘睿博：Google DeepMind高级研究科学家。参与开发了Google多模态大语言模型Gemini 1.0/1.5和轻量级生成式AI开放模型Gemma。目前研究方向聚焦于人工智能对齐，曾获AAAI 2021年杰出论文奖。博士毕业于达特茅斯学院。朱邦华：生成式AI网络安全初创公司Nexusflow联合创始人，即将作为助理教授入职华盛顿大学。参与开发了Starling-7B、NexusRaven-13B、Chatbot Arena以及Arena Hard Auto pipeline。研究方向包括基础模型、AI交互和强化学习，博士毕业于UC Berkeley。【开降落伞】概念科普04:53 AI安全性的意见光谱09:47 AI对齐(alignment)与AI安全(security)的关系14:26 什么是“超级对齐”(super-alignment)？AI alignment的发展预测19:11 AI对齐的常见问题和发展路径24:02 为什么要利用合成数据(Synthetic data)训练模型?30:20 Chatbot Arena中，GPT会更偏好利用GPT合成数据训练出的模型吗？31:50 学界与业界的AI alignment研究的区别39:06 未来3-5年AI监管在研究和政策层面的预测42:15 近期有哪些有趣的AI alignment work？48:03 如何对人类的特征进行定量评估? 什么是好的评估(evaluation)?52:28 GPT4-o后，对大语言模型有什么新期待？安全性和评估方法58:21 如何对不同大模型的安全性和preference进行评估？61:23 从弱到强的泛化意味着什么以及可解释性64:42 如何看待collective intelligence以及“用AI监督AI”？69:33 如何看待大语言模型的公平性与偏见问题？72:41 大语言模型alignment的主要方法与发展趋势78:24 人类或机器人的行为与价值观如何被评估？如何获得高质量人类反馈数据？85:12 NLP系统当中的human factors92:29 Gemini和Gemma等LLM在对齐和安全上特别的主张或成果展望一下97:44 怎样看待AGI？未来的研究方向/工作聚焦点会有变化和调整吗？【制作团队】主播：刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。徐胖虎：电子工程本，计算机硕博，现加州大学某海景分校论文力工，Meta机器学习部门实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算，试图理解生物人脑和暴力美学的大模型之间的共通之处。制作人：黄芊雅：复旦大学新闻学院在读邱鑫：上海交通大学安泰经管学院在读王翌婷：复旦大学计算机学院在读【参考文章】OpenAI: openai.comOpenAI: The Instruction Hierarchy: Training LLMs to Prioritize Privileged InstructionsAnthropic: www.anthropic.com【音乐版权】 Time by Pold soundcloud.com｜Free Download / Stream: tinyurl.com｜Promoted by Audio Library tinyurl.com Look At The Clouds by Declan DP｜Free Download / Stream: bit.ly｜Promoted by Audio Library bit.ly

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

出埃及记Exodus

S1E05 | Gemini与Chatbot Arena团队科学家：全网最强解读AI安全与对齐

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment