活动预告🥳:5 月 24 日,我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动,大家记得翻到 shownotes 末尾查看报名信息!像 RL 这个概念一样,Benchmark 和 Evaluation 也是做 AI 的人经常挂在嘴边的词,但到底该怎么理解这个概念,该如何正确的设定这些问题和数值呢?正巧前不久 OpenAI 研究员姚顺雨的那篇《AI 即将进入下半场》特别火,他核心讲的就是「我们当下已经进入了 AI 的第二阶段——从解决问题转向定义问题,评估的意义会超过训练本身。而这其中,评估最关键的不是设置更难的基准测试,而是要在实际落地的场景中重新设计一套实用的评估标准」。所以这期我们请到了前 Kimi 产品经理丁丁,从她在大模型公司一年多的实践经验出发,请她分享些对于 Benchmark 和 Evaluation 的思考,相信大多数人听完这期都会对这些概念有更深的理解,也可以开始自己设定一些评估问题和标准了。P.S. 丁丁之前曾在微信做过 5 年的搜索产品,也在美团做过策略产品,所以在节目最后她也分享了一些从古典产品转型 AI 产品经理的心得。【人类博物馆】导游:曲凯,42章经创始人34 号珍藏:丁丁,前微信、美团、Moonshot 产品(负责 Kimi App)【时光机】 1:27 进入 AI 下半场,「重新定义 Benchmark」比「刷榜提分」更关键 3:23 回顾 AI 上半场,国内大模型公司的发展重心历经了哪些变化? 5:51 一味追求 DAU 是一种偷懒的经验主义 7:07 数据固然重要,但更多的用户数据 ≠ 更好的模型智能 9:28 如果你是梁文锋,你要不要承接这波泼天的用户? 9:59 Evaluation 和 Benchmark 是拉开模型差距的一大关键 14:40 对于没有标准答案的问题,该怎么制定 Benchmark? 17:55 怎么衡量 Benchmark 的好坏? 22:14 创业公司的 Benchmark 有多少道题比较合理? 22:38 能通过高频的用户 Prompt 反推出一套 Benchmark 吗? 24:23 让模型「突出长板」好,还是「全面均衡」好? 25:42 以 C.AI 类产品为例,示范一下该怎么设计 Benchmark 29:28 Benchmark 是团队的核心机密,算法同学都不应该告诉 30:07 AI 产品经理和古典产品经理有什么异同? 31:49 怎么更好地理解模型边界? 33:38 未来每个人都要具备全栈能力 35:38 做微信产品积累下来的 knowhow 39:52 分享一些招 AI 产品经理的标准【Reference】 OpenAI Agent Researcher 姚顺雨的最新博客内容,探讨了 AI 发展的「下半场」:ysymyth.github.io 一个顶级 AI 产品经理的自我修养 | 对谈光年之外产品负责人 Hidecloud【活动预告🥳】5 月 24 日,我们会办一场线上活动。感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!【The gang that made this happen】 制作人:陈皮、Celia 剪辑:陈皮 Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News