【嘉宾】陈烨,虎博科技的创始人兼CEO,曾获美国威斯康星大学麦迪逊分校信息系统和计算机科学博士学位,美国伯克利大学客座教授。曾任美团点评集团高级副总裁,广告平台负责人。2017年,正式创立虎博科技。【节目介绍】本期节目陈烨博士将回顾虎博科技的创业历程,分享大模型的最新研发情况,并重点围绕大模型的能力要求、模型训练、行业应用等话题展开。此外,他还剖析了人工智能在企业应用落地的难点,也分享了他个人对科技创新的价值观。体会科技大咖的独家思考,听一场别开生面的行业对话,欢迎订阅并收听本期访谈节目。【时间线】01:42 创业公司是个生命体,首先是要活下来07:32 AI1.0和AI2.0的特征和区别18:03 如何做大模型的预训练?37:19 什么样的大模型将会最终胜出?42:49 如何选择适合的商业模型?51:29 全力以赴做好基础大模型【名词解释】 Llama2是Meta AI于2023年7月正式发布最新一代的包含了70亿、130亿和700亿参数的开源大模型。 DeepSpeed是微软推出的大规模模型分布式训练的工具,主要实现了ZeRO并行训练算法。 Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化,也就是大矩阵乘法。 FlashAttention算法主要解决的是Transformer模型计算速度慢和存储占用高的问题。 Gradient Accumulation是一种不需要额外硬件资源就可以增加批量样本数量(Batch Size)的训练技巧。 训练大模型的三个步骤,1)Pre-train(预训练),2)Supervise Fine-tuning(SFT,监督调优),3)RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) PPO的全称是Proximal Policy Optimization,即近端策略优化算法,是一种强化学习中的策略梯度方法。 Reinforcement Learning指强化学习方法,是一种机器学习的方法,强调学习如何通过与环境的互动来做出决定。 Reject Sampling(拒绝采样)是对模型生成的结果进行采样,并对采样后的结果通过RM(奖励模型)选取回报值最大的结果作为最终结果的一种方法。【片头和片尾音乐】曲率飞行 - 昨夜派对(L.N Party)焰火青年 - 刘森【感谢】特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持,请听友及时订阅微信公众号,查看本播客的文字版内容。
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News