丽莎老师讲机器人之谷歌新算法让机器人自己学会走路欢迎收听丽莎老师讲机器人,想要孩子参加机器人竞赛、创意编程、创客竞赛的辅导,找丽莎老师!欢迎添加微信号:153 5359 2068,或搜索微信公众号:我最爱机器人。Google研究人员的一项新研究取得了重大进展,表现为机器人可以在没有人工干预的情况下学习走路。在几个小时内,仅仅依靠对当前最先进算法的微调,成功地让一个名为Rainbow Dash四条腿的机器人学会了完全独立的向前走和向后走,以及左右转弯。加州大学伯克利分校和佐治亚理工学院的研究人员发表了论文,描述了一种统计AI技术,即深度强化学习。他们开发了一个系统,用于以最少的人力在现实世界中以深度RL学习腿式运动策略。机器人学习系统的主要困难是自动数据收集和安全性。通过开发多任务学习程序,自动重置控制器和受安全限制的RL框架,研究人员克服了这两个挑战。研究人员在学习如何在三种不同地形上行走的任务上测试了这个系统:平坦的地面,柔软的床垫和带有缝隙的门垫。系统无需人工干预,即可在Minitaur机器人上自动高效地学习运动技能。这项工作建立在一年前的研究基础上,当时研究团队首次发现了如何让机器人在现实世界中学习,此前,大多数强化学习部署都在计算机模拟的环境中进行。但是,Rainbow Dash使用此技术来学习在实际物理环境中行走。而且,它能够在没有专门的教学机制的情况下进行操作,例如人工指导或带有标签的培训数据。最终,Rainbow Dash成功地在多个表面上行走,包括柔软的泡沫床垫和带有明显凹口的门垫。此前,强化学习通常会这样在模拟环境中进行:机器人的虚拟分身在模拟的环境中走来走去,直到算法足够完善,可以使其安全运行为止。然后将其导入真正的机器人。这种方法有助于避免机器人在反复实验过程中对周围环境的损伤,但也需要一个易于建模的环境。在机器人脚下模拟自然散落的沙砾或者弹簧床垫需要很长时间,根本不值得。基于这种状况,研究人员从一开始就决定通过在真实世界中训练来避免困难的环境建模。他们设计了一种更高效的算法,可以使学习的试验次数变少一点,并在两个小时内让机器人站起来行走。由于实际环境中会有自然变化,机器人也能够快速适应其他相似的环境,如斜坡、台阶以及有障碍的平地。于是他们开始解决这个新问题。首先,他们限定了机器人可以探索的地形,并让它一次性进行多重动作训练。如果机器人在学习如何向前走的同时到达了限定地形的边缘,它就会改变方向,开始学习如何向后走。其次,研究人员还限制了机器人的训练动作,让它能够谨慎一些,最大限度地减少反复摔倒带来的伤害。当机器人不可避免地摔倒时,他们还添加了另一个硬编码算法来帮助它站起来。通过这些调整,机器人学会了如何在几个不同的环境中自主行走,包括平地、记忆泡沫床垫和有缝隙的门垫。这项实验给未来的某些应用带来了可能性,有些情况可能需要机器人在没有人类的情况下在坎坷和未知的地形中行走。机器人使用的深度强化学习技术包括一种机器学习技术,其中通过代理服务器与环境交互以反复试验来学习。一般而言,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。科学团队一开始就专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是人工智能的核心,是使计算机具有智能的根本途径,原先,大多数强化学习用例都涉及计算机游戏,例如在数字特工中学习如何取得胜利,本次应用也是谷歌对于人工智能算法的一次极好尝试。而在机器人身上的所谓深度强化学习,指的是当计算机正确完成一项任务时,它将获得指导其学习过程的奖励。尽管以“先验知识”算法概述了任务的步骤,但是如何准确地执行这些步骤却没有。当机器人擅长执行某个步骤时,其奖励会增加,从而创建一种反馈机制,促使机器人学习最佳方法,例如将热狗放在面包上。这种形式的机器学习与传统的有监督或无监督学习明显不同,在传统的有监督或无监督学习中,机器学习模型需要标记的训练数据来学习。深度强化学习将强化学习方法与深度学习相结合,传统的机器学习的规模随着强大的计算能力而大大扩展。“这项工作令人感到非常兴奋。” 让这个过程不再出现人工干预真的很难。机器人能够更自主地学习,就更有可能在我们生活的现实世界中学习,而不是在实验室里。”目前的设置依赖于机器人上方的动作捕捉系统来确定其位置。这在现实世界中是不可能的。尽管研究团队将Rainbow Dash的学习能力归功于自己,但人为干预仍在实现该目标方面发挥了重要作用。例如研究人员必须创建边界,机器人可以在该边界内学习走路,以防止机器人离开该区域。研究人员还必须设计特定的算法来防止机器人摔倒,其中一些算法集中在限制机器人的运动上。为了防止诸如坠落损坏之类的事故,通常在数字环境中进行机器人强化学习,然后再将算法转移到物理机器人上以保持其安全性。接下来,研究人员希望他们的算法能适用于不同种类的机器人,或适用于多个机器人在同一环境中同时进行学习。破解机器人的运动能力将是解锁更多有用机器人的关键。“很多地方都是为人类建造的,我们都用腿来走路,”“如果机器人学不会使用腿,它们就不能在人类世界中行走。”
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
Trump $82 Million Bond Spree, Brazil Tariffs 'Too High,' More
16 Nov 2025
Bloomberg News Now
Ex-Fed Gov Resigned After Rules Violations, Trump Buys $82 Mil of Bonds, More
16 Nov 2025
Bloomberg News Now
THIS TRUMP INTERVIEW WAS INSANE!
16 Nov 2025
HasanAbi
Epstein Emails and Trump's Alleged Involvement
15 Nov 2025
Conspiracy Theories Exploring The Unseen
New Epstein Emails Directly Implicate Trump - H3 Show #211
15 Nov 2025
H3 Podcast
Trump Humiliates Himself on FOX as They Call Him Out
15 Nov 2025
IHIP News