报告摘要:世界模型是实现具身智能(和GenAI)的核心要素。 按Yann LeCun的定义,(基于世界模型的)世界模拟器试图模仿智能生物与世界的互动方式:观察、理解、预测和行动, 同时也考虑未知的事物和因素。无容置疑,多年来计算机图形学构建了一个抽象化了的世界模型器, 能对世界的场景与动态现象高逼真模拟仿真,并由此生成可交互的三维内容。 本报告将探讨从抽象世界模型构建真实世界模型的路径,从而实现AI应用的发展升级。
讲者简介:陈宝权,北京大学博雅特聘教授,智能学院副院长。 研究领域为计算机图形学、三维视觉与可视化,担任国家“973计划”“城市大数据计算理论与方法”项目首席科学家, 主持国家自然科学基金重点项目、国家重点研发计划“科技冬奥”项目和新一代人工智能重大项目等。 在 ACM SIGGRAPH、IEEE VIS、ACM Transactions on Graphics (TOG)、 IEEE Transactions on Visualization and Computer Graphics (TVCG) 等国际会议和期刊发表论文200余篇, 多次获得国际会议最佳论文奖,包括SIGGRAPH Asia 2022、SIGGRAPH 2022 (提名)和IEEE Visualization 2005等。 现任中国图象图形学学会常务理事、三维视觉专委会主任;中国计算机学会(CCF)常务理事、《中国计算机学会通讯》专题主编; 获美国国家科学基金会杰出青年学者奖(NSF CAREER Award 2003)、中国计算机图形学大会杰出奖(2014)。 入选中科院百人计划(2008)、国家杰出青年科学基金资助(2010)、教育部长江学者特聘教授(2015)、国家万人计划领军人才(2017)。 2017年当选中国计算机学会会士,2019年当选 IEEE Fellow,2021年入选IEEE Visualization Academy(可视化名人堂), 当选中国图象图形学学会会士,2024年入选ACM SIGGRAPH Academy(计算机图形学名人堂)。
报告摘要:世界模型是人工智能领域的研究热点,在计算机视觉、自然语言处理、智能无人系统等领域有着重要的应用前景。报告将介绍可通用视觉世界模型近年来的主要研究进展,以及在跨模态视觉生成、无人车环境感知、机器人巡航操作等任务中的代表性应用,最后对可通用视觉世界模型未来发展趋势进行展望。
讲者简介:鲁继文,清华大学长聘教授,博士生导师,自动化系副主任,国家杰出青年科学基金获得者,IEEE/IAPR Fellow,国际期刊Pattern Recognition Letters主编,国家重点研发计划项目负责人,中国仿真学会视觉计算与仿真专业委员会主任,中国自动化学会专家咨询工作委员会副主任。长期从事计算机视觉、模式识别、具身智能等方面研究,发表IEEE汇刊论文140余篇(其中T-PAMI论文40篇),CVPR、ICCV、ECCV、NeurIPS论文160余篇,谷歌学术引用32000余次,获授权国家发明专利60余项,主持国家自然科学基金重点项目2项,获中国电子学会自然科学一等奖1项(排名1)和国家级教学成果奖二等奖1项,担任T-IP、T-CSVT、T-BIOM、PR、自动化学报等期刊编委和ACCV2026、FG2023、ICME2022、VCIP2022、AVSS2021等会议大会主席/程序委员会主席。
报告摘要:人形机器人是指具有类人形态、运动和功能的机器人,类人形态和运动使其在人类环境中工作时具有更强的适应性和通用性,是未来重大产业。目前人形机器人发展进入新的突破窗口期,本报告在概要介绍人形机器人发展背景的基础上,着重介绍其智能感控的发展需求、研究现状和团队相关研究进展。
讲者简介:熊蓉,浙江大学求是特聘教授,浙江人形机器人创新中心主任,自动化学会会士及理事、国家重点研发计划智能机器人重点专项专家组成员、五一巾帼奖章获得者。主持科技创新 2030新一代人工智能重大项目、自然科学基金联合基金重点项目等国家和省部级项目20余项,在腿足机器人鲁棒平衡控制、移动机器人鲁棒定位导航、操作机器人高精高效技能作业等方面取得重要突破,研制了乒乓球对打人形机器人、室内外快速稳定行走人形机器人等。在Nature 子刊、IJRR、IEEE TRO、TPAMI等机器人和人工智能领域高水平期刊及ICRA、IROS、CVPR等机器人和人工智能领域顶会发表论文100余篇,授权国际发明专利3项、国家发明专利60余项,22项专利企业使用转化,技术推广应用于工业、特种、航天等领域,培育了电力巡检机器人、智能物流机器人等新产品,获浙江省科学技术奖一等奖、中国发明协会发明创业创新奖二等奖、国家教学成果奖二等奖等。
报告摘要:具身感知与交互是具身智能系统的重要组成部分。如何基于多模态感知输入,建构结构化、语义化,且大模型友好的三维环境表达,同时发挥端侧模型的感知理解和柔性交互能力,以及云侧大模型的常识推理和任务规划能力,以实现面向高层次任务的主动、持续、长程感知与交互,是具身智能系统的核心能力要求。围绕上述问题,本次报告汇报我们的相关进展,包括跨智能体动态抓取技能学习,机器人主动三维场景图构建,未知场景物体目标导航,以及基于多模态大模型的室内物品整理。
讲者简介:徐凯,国防科技大学教授,国家杰出青年基金获得者。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统。发表TOG/TPAMI/TVCG等A类论文90余篇,其中图形学顶会SIGGRAPH论文30余篇(第一作者10篇)。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委,以及多个领域重要会议的程序主席。任中国图象图形学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖(排名3)、军队科技进步二等奖、军队教学成果二等奖等。