突破性进展:无编码器3d多模态大模型enel问世!
这项由上海AI Lab、西北工业大学、香港中文大学和清华大学等机构联合研发的ENEL模型,将无编码器多模态大模型拓展到了3D领域,实现了对不同点云分辨率的适应性,并彻底摆脱了对预训练编码器的依赖。
ENEL在Objaverse基准测试中表现卓越,性能超越了当前最先进的ShapeLLM-13B模型。
基于编码器架构的3D LMM的局限性
传统的基于编码器的3D大型多模态模型(LMMs)存在以下不足:
- 点云分辨率限制: 预训练编码器通常依赖于固定分辨率的点云数据,导致推理过程中分辨率变化时信息丢失。
- 嵌入语义差异: 编码器的训练目标与LLMs的语义需求可能不一致,难以捕捉关键语义信息。
ENEL的无编码器架构有效解决了这些问题,展现出更高的灵活性和泛化能力。
ENEL的核心创新:
为了
克服无编码器结构的挑战,ENEL团队进行了两方面的创新:
- 整合3D编码器功能: 通过在预训练阶段引入自监督损失,将3D编码器的功能融入LLM本身。实验表明,掩蔽建模损失效果最佳。
- 层次几何聚合策略: 在指令微调阶段,设计了层次几何聚合策略,增强模型对3D局部细节的感知能力,并与已学习的全局语义信息进行有效融合。
实验结果:
ENEL在定性与定量实验中均取得了显著成果,验证了其创新方法的有效性。 ENEL-7B在描述和分类任务上超越了同等规模甚至13B的模型。
代码与论文链接:
- 代码:https://www./link/e685b42794dde47c8d8304eb462cc3ae
- 论文:https://www./link/75291728e2d8458a104b6abd0b062b70
ENEL的出现标志着无编码器3D多模态大模型领域取得了重大突破,为未来3D视觉和人工智能的发展提供了新的方向。
复制本文链接文章为作者独立观点不代表优设网立场,未经允许不得转载。
文章推荐更多>
- 1oracle数据库误删除数据怎么恢复
- 2夸克上怎么找资源 夸克平台资源查找方法
- 3oracle数据库是什么意思
- 4华为UC缓存视频转存手机
- 5wordpress怎么备份
- 6谷歌浏览器如何添加插件 扩展程序安装指南
- 7电脑截图键盘怎么操作 键盘截图功能使用指南
- 8免费看短剧的网站有哪些?在线免费看短剧的网站top10推荐
- 9mongodb怎么开启
- 10dedecms怎么换水印
- 11夸克资源搜索关键词 夸克高效搜索关键词技巧
- 12oracle数据误删怎么恢复
- 13oracle定时任务每小时执行一次怎么设置
- 14phpmyadmin数据库配置文件在哪里
- 15内存取证分析:使用Volatility检测隐藏威胁
- 16oracle数据库用的是什么语言
- 17电脑是谁发明的 电脑发明者介绍
- 18零服务器AI建站解决方案:快速部署与云端平台低成本实践
- 19帝国cms怎么加自定义页面
- 20怎么安装帝国cms
- 21redis的五种数据类型有哪些组成
- 22电脑上怎样把拼音打出来 拼音输入设置教程
- 23wordpress如何设置默认文章分类
- 24谷歌浏览器如何截图 谷歌浏览器页面截图技巧
- 25俄罗斯浏览器无需登录版 俄罗斯网页版入口无需登录
- 26mysql数据库怎么用sql语句查询存储结构
- 27AO3现在怎么进入 AO3最新进入方式
- 28wordpress基于什么语言
- 29oracle删除了一条数据怎么恢复
- 30mysql用的什么数据结构
