數創實驗室 - AI時代的學習指南

EP37 | 深談Deepseek (下)：R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1

16 Feb 2025

Audio

Description

#### 本期簡介 Deepseek-R1 以「純自動化 GPRO」取代 RLHF 的人力標註，成功降低訓練成本並造就令人驚嘆的「aha moment」。相較 OpenAI 的 o1，Deepseek-R1 更具規模化優勢。本集剖析其強化學習邏輯、封禁爭議及模型蒸餾風波、以及對於應用端的啟示。 #### 關於主持人 Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593) 數創智能CEO / 數創實驗室創始人, Podcast播客主理人美國財星500強電商大廠 | 數據團隊主管台灣零售行業上市公司 | 資料技術處處長 AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統英國全球百大 Data Science & 台灣交大MBA雙碩士 #### 意見回饋歡迎回饋您希望收聽的AI主題 : https://bit.ly/40Q8PT6 #### 相關連結 LINE社群入群連結 : https://bit.ly/3TU9K0I 數創實驗室官網 : https://datainnolab.ai 聯繫數創實驗室 : [email protected]

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes

🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Other recent transcribed episodes

Transcribed and ready to explore now

13:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

01 Jan 1970

Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

01 Jan 1970

El Partidazo de COPE

Comments

There are no comments yet.

Please log in to write the first comment.

Report any issue

數創實驗室 - AI時代的學習指南

EP37 | 深談Deepseek (下)：R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1

This episode hasn't been transcribed yet

Other recent transcribed episodes

13:00H | 21 DIC 2025 | Fin de Semana

10:00H | 21 DIC 2025 | Fin de Semana

12:00H | 20 DIC 2025 | Fin de Semana

2ª PARTE | 06 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 22 ENE 2026 | EL PARTIDAZO DE COPE

3ª PARTE | 04 MAR 2026 | EL PARTIDAZO DE COPE

Sign in to Audioscrape

Share this moment