Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Pricing
Podcast Image

おちつきAIラジオ

AIだってサボりたい!?強化学習「報酬ハッキング」クイズ【科学系ポッドキャストの日】(ep.14)

06 Nov 2025

Description

【公開収録イベント 参加チケット購入先】・11/29(土) ジャケギキ公開収録イベント「おちつきAIラジオ」⁠https://peatix.com/event/4685734/view⁠・11/30(日) ジャケギキ公開収録イベント「ラスト・ワン・ミニット」⁠https://peatix.com/event/4689943/view⁠---今月の「科学系ポッドキャストの日」共通テーマは『トリビア』!おちつきAIでは、AIが報酬欲しさに人間を欺く現象「リワードハッキング(報酬ハッキング)」のトリビアをお届けします。 前半は、現役エンジニアのしぶちょーが「強化学習」の基礎を優しく解説。伝説の囲碁AI「AlphaGo」が引退した真の理由や、ルールすら自学する最新AI「MuZero」、医療に応用される「AlphaFold」までの進化の歴史を紐解きます。 後半は、AIが編み出した驚きのズル行動を当てるクイズ大会!「死なないためにポーズ画面で停止するテトリスAI」など、想定外のハック事例にかねりんが挑みます。AIの進化と、人間が果たすべき役割について楽しく学べる70分です。【目次】(00:00) 毎月10日は「科学系ポッドキャストの日」!今回の共通テーマはトリビア(05:13) 本日の企画発表!AIのズルを見抜け「強化学習リワードハッキングクイズ」(06:57) まずは基礎から復習!AI学習の3分類と「あめちゃん」で学ぶ強化学習(15:02) 行動をテーブルで管理するQ学習と、組み合わせ爆発を起こす「次元の呪い」(20:43) 脳みそを持ったDQN(Deep Q-Network)の登場と進化(23:15) 伝説の囲碁AI「AlphaGo」が引退した本当の理由と汎用人工知能への道(27:45) 人間のデータは不要!?ルールだけで神の領域に達したAlphaGo Zero(32:20) ルールすら教えない「MuZero」と、創薬を変えた「AlphaFold」(41:37) ここから本題!報酬欲しさに目的を見失う「リワードハッキング」とは(44:22) 【例題】50m走で最速を目指した結果、身長を伸ばして倒れ込んだロボット(46:58) 【第1問】ロボットハンドが「掴んだフリ」をするために使った驚きの手法(49:33) 【第2問】ゲームオーバー回避のためポーズ画面で永遠に停止したテトリスAI(52:51) 【第3問】利益最大化のためにシミュレーション上で違法取引をした株AI(59:04) 【第4問】盤面の彼方に石を置き、相手をメモリオーバーさせた五目並べAI(63:04) まとめ:AIが賢くなるほど、人間がルールを正しく定義する責任は重くなる(69:30) 11月29日 18時~20時原宿でリアルイベントの告知【今回の放送回に関連するリンク】・本:最強囲碁AI アルファ碁 解体新書 増補改訂版https://amzn.to/47Kaj32【今回の要チェックキーワード】強化学習(Reinforcement Learning):AIが「行動」と「報酬」のサイクルを通じて学ぶ方法。良い結果を出すと報酬を得て、その経験からより良い行動を選ぶようになる。教師あり学習(Supervised Learning):入力データとその正解(ラベル)をセットで与えて学習させる手法。たとえば「画像→猫」というように、正解を教えながら学ばせる。教師なし学習(Unsupervised Learning):正解のないデータを使い、AIが自らパターンや関係性を見つけ出す手法。代表的なのはクラスタリング(似たもの同士をまとめる)など。RLHF(Reinforcement Learning from Human Feedback):人間の評価やフィードバックを使ってAIを強化学習する手法。ChatGPTのように「人間らしい応答」を学ばせるために使われる。報酬ハッキング(Reward Hacking):AIが報酬を最大化するために「ズル」を覚えてしまう現象。目的の本質を理解せず、報酬だけを稼ぐ行動を取ることがある。AlphaGo(アルファ碁):Google DeepMindが開発した囲碁AI。人間の棋譜と強化学習を組み合わせ、2016年に世界トップ棋士・李世乭(イ・セドル)氏に勝利して話題になった。AlphaGo Zero(アルファ碁ゼロ):人間の棋譜を一切使わず、囲碁のルールだけを与えて自己対戦を繰り返し、最強になったAI。短期間でAlphaGoを超える実力を示した。AlphaZero(アルファゼロ):囲碁・将棋・チェスといった複数のボードゲームに対応する汎用AI。自己対戦による強化学習で、各分野の専用AIを圧倒する性能を発揮。MuZero(ミューゼロ):ゲームのルールすら知らない状態から、観察を通してルールを推測し、学習するAI。AlphaZeroの進化版で、より「人間の学び」に近い。AlphaFold(アルファフォールド):DeepMindが開発したタンパク質構造予測AI。アミノ酸配列から立体構造を正確に予測し、生物学・創薬研究に革命を起こした。従来は数年かかっていた解析を数時間で実現する。—----------------------------#科学系ポッドキャストの日  参加回!11月のトークテーマ「トリビア」:ホストはサイエントーク科学系ポッドキャストの日とは?:https://scien-talk.com/science_podcast/企画プレイリスト→ https://open.spotify.com/playlist/0VXcho1KfS79fEPn0frZ5Z—----------------------------【番組の概要】日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。【番組公式ハッシュタグ】#おちつきAI【番組公式X】https://x.com/ochitsuki_AI【パーソナリティ(MC)】▼しぶちょー・AIエンジニア・技術士(機械部門) 「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」https://x.com/sibucho_labohttps://voicy.jp/channel/3963▼かねりん(金田勇太)・KANERIN Podcast Studios 代表・一般社団法人 地方WEB3連携協会 理事「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」https://x.com/kanerinxhttps://voicy.jp/channel/2534【プロデューサー】かねりん https://x.com/kanerinx【サウンド・アーキテクト】Aviv Haruta https://x.com/oji_pal【カバーアートデザイン】UTA https://x.com/uta_dib【制作/著作】KANERIN Podcast Studios--------------------------------------------------※画像引用元:https://www.imdb.com/title/tt6700846/【各種ポッドキャストスタンドへのリンク】Spotifyhttps://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2oApple Podcasthttps://podcasts.apple.com/us/podcast/id1841316430Amazon Musichttps://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/YouTubehttps://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCDLISTENhttps://listen.style/p/ochitsukiai

Audio
Featured in this Episode

No persons identified in this episode.

Transcription

This episode hasn't been transcribed yet

Help us prioritize this episode for transcription by upvoting it.

0 upvotes
🗳️ Sign in to Upvote

Popular episodes get transcribed faster

Comments

There are no comments yet.

Please log in to write the first comment.