机器人精准抓取透明物体难题攻克!仅需单张图像,单目视觉即可实现!
这项突破性成果由地瓜机器人和中科院自动化所等单位合作完成,其核心是名为MODEST的新型算法框架。该框架是一个多任务模型,能够同时进行透明物体的深度估计和语义分割。
MODEST作为通用抓取模型的前端模块,无需额外传感器,即可高效、灵活地实现透明物体的抓取。相比其他双目或多视图方法,其效果更佳。

这项技术可广泛应用于智能制造、实验室自动化和智慧家居等领域,显著提升机器人操作透明物体的能力,并降低设备成本。MODEST已入选ICRA 2025(IEEE机器人与自动化国际会议)。
挑战与突破
透明物体抓取的难点在于获取其准确的深度信息。传统方法依赖深度传感器或多视角重建,成本高且效率低。透明物体的折射和反射特性,以及在图像中缺乏清晰纹理等问题,都增加了感知难度。
MODEST框架创新性地解决了这些问题,它通过结合语义和几何信息的多任务框架,准确获取透明物体的深度信息,并结合点云抓取网络实现抓取。
算法详解
MODEST模型以单目RGB图像为输入,输出透明物体的分割结果和场景深度预测。其核心由编码、重组、语义几何融合和迭代解码四个模块构成。
基于注意力机制的语义几何融合模块,充分利用语义分割和深度估计任务间的互补信息,提升了整体性能。 此外,受人眼视觉启发,MODEST采用由粗到细的特征更新策略,进一步提高了预测精度。
实验结果
在Syn-TODD和ClearPose两个公开数据集上的实验表明,MODEST在深度估计和语义分割方面均显著优于其他先进方法,即使在人眼难以判断的场景下也能产生清晰的预测结果。
真实机器人平台的抓取实验也验证了MODEST的鲁棒性和泛化性。
其他成果及资源
除了MODEST,地瓜机器人研发的DOSOD开放词汇目标检测算法也入选ICRA 2025。 感兴趣的读者可访问以下链接了解更多信息:
MODEST文章地址:https://www./link/6b45cf467a9c88001159a826e92c7437 MODEST代码地址:https://www./link/ddbec3bd380a444ace1e4206072a0085 DOSOD文章地址:https://www./link/7f2e5a082324d9d664489b795e7fd83a DOSOD代码地址:https://www./link/66bd939ad7010829ab65a6aaf28c9a96
文章推荐更多>
- 1 微信h5制作网站有哪些,免费微信H5页面制作工具?
- 2手机uc浏览器的缓存视频怎么导出
- 3oracle数据库端口号怎么查看
- 4mysql用的什么数据结构
- 5wordpress查询浏览量需要用什么
- 6俄罗斯浏览器无需登录版 俄罗斯网页版入口无需登录
- 7wordpress是什么框架
- 8mysql数据库环境变量怎么配
- 90x000000a5蓝屏代码是什么意思 蓝屏代码0x000000a5的原因分析
- 10电脑定时自动关机设置教程:Windows/macOS系统通用方法
- 11mysql如何读取数据库数据
- 12wordpress怎么实现实时刷新
- 13谷歌浏览器在线浏览入口 谷歌浏览器在线观看网页
- 14oracle怎么看存储过程执行到哪里了
- 15笔记本电脑全黑屏只剩鼠标 笔记本黑屏鼠标可见处理方法大全
- 16dedecms用于什么
- 17oracle怎么查看存储过程语句的数据
- 18php和dedecms的区别
- 19wordpress怎么导入主题
- 20逆向工程基础:IDAPro分析恶意样本
- 21双系统笔记本定时关机设置:Windows与Linux的切换管理
- 22redis数据库双写一致问题怎么写
- 23蓝屏0x000000ed怎么解决 电脑蓝屏0x000000ed的修复方法
- 24WordPress怎么加广告位
- 25mysql数据库怎么使用创建的账号密码
- 26俄罗斯搜索引擎入口官方网站 俄罗斯搜索引擎入口官方首页
- 27wordpress怎么做多级分类
- 28oracle怎么查看存储过程语句是否正确
- 29什么是https登录 https登录方式分析
- 30mysql如何创建数据表命令
