网易伏羲论文入选AI顶会NeurIPS:优化算法提升强化学习效率

NeurIPS(神经信息处理系统大会)是人工智能、机器学习和计算神经科学等领域的顶级学术会议,也是中国计算机学会人工智能领域A类推荐会议之一。随着深度学习技术带来的机器学习领域跨越式发展,NeurIPS会议的投稿数量和参会人数也逐年递增。本届NeurIPS的投稿量达到了9454篇,创历年新高,其中1900篇被选为大会论文,录用比例仅20.09%,火爆程度可见一斑。
网易伏羲在论文中重点研究的“奖赏塑形”(Reward Shaping)是一种将先验知识转化为奖励函数,从而提高强化学习算法效率的有效技术手段。目前,网易伏羲的强化学习技术已成功在《潮人篮球》、《逆水寒》等游戏中落地,而利用先验知识来设计和构造有效的附加奖励函数常常是项目能够取得进展的关键之一。
不过,寻找优良的附加奖励函数需要比较专业的领域知识以及反复迭代的人力投入。同时,由于涉及到人的操作,目前的一些方法将规则性的知识转化为算法能够理解的数值奖励时,往往也会将人的认知偏差引入其中,对强化学习算法带来负面的影响。举例来说,在设计《潮人篮球》游戏机器人的附加奖励函数时,如果把握不好对传球动作的奖励值的大小,比赛中将会出现球员之间一直进行相互传球而不进攻的尴尬场面。
为了避免上述问题,网易伏羲此次入选的论文首次提出自适应地利用给定的附加奖励函数的方法,让学习算法能判断不同状态下对应附加奖励的好坏,并选择性地加以利用。
在小车立杆和MuJoCo环境的一系列实验结果表明,网易伏羲所提出的算法,不但能够分辨出附加奖励的好坏并选择性地利用,甚至还能够将有害的奖励值转化为对学习有帮助的奖励值。
简单来说,网易伏羲提出的算法不仅能让人工智能的强化学习效率变高,还能帮助人工智能筛选出正确的知识,让人工智能的学习更加准确。

强化学习是网易伏羲实验室重要的研究方向之一。为了使虚拟世界更有真实度和多样性,游戏中常常需要大量的NPC、Boss怪、匹配的机器人等。传统AI依靠开发人员手工编写行为逻辑,效果不并理想,成本又非常高。加入强化学习技术后,由算法通过不断学习实现对AI的控制,能够更好的解决这些问题,让游戏角色的行为更加灵活多样。
强化学习还被大量应用在游戏开发中的测试环节。传统测试流程依靠人肉测试或者写脚本测试,日常工作量大、重复劳动多、内容复杂多变,还常常会造成测试覆盖率不足的问题。智能测试服务用算法解放人力,以强化学习增加测试强度,以进化算法增加测试广度,能够实现更低成本、更高覆盖的测试,保障游戏的安全和品质。
网易伏羲实验室成立于2017年,是国内首家游戏人工智能研究机构。为众多网易游戏产品提供前沿、高质量AI技术应用的同时,网易伏羲实验室专注文娱领域的研究与应用,研究方向包括强化学习、图像动作、虚拟人、自然语言、用户画像等。在学术研究方面,网易伏羲实验室同样拥有顶尖水平,目前已经发表国际顶会论文58篇,专利100余项。
- 1芯位科技与清华大学共同领衔的标准成果在2026世界数字教育大会发布
- 22026年中国AI竞争格局与商业化趋势分析:梯队重构、价值兑现、生态决胜
- 3叶嘉重返北音毕业典礼 献唱《听我说谢谢你》致青春
- 42026年磷酸铁锂电池行业量价齐升迎拐点 技术迭代启新程
- 5共赴智算未来:维谛(Vertiv)亮相Computex2026,以全融合型基础设施赋能AI时代
- 6旅游新国标贯通“吃住行游购娱” 场所从“卖商品”转向“卖服务、卖体验、卖文化”
- 7宏观与行业因素共同影响铜价高位震荡
- 82026国际无人机应用及防控大会6月底在京启幕,“低空经济第一城”最新战况即将揭晓
- 9第三届岩土工程创新与发展百人论坛(GeoT100)在成都隆重召开
- 10目的地多元、体验深入 暑期文旅市场热度飙升蓄势待发呈现新亮点



