一个可以自动分析 pdf、网页、海报、excel 图表内容的大模型,对于打工人来说简直不要太方便。
上海 AI Lab,香港中文大学等研究机构提出的 InternLM-XComposer2-4KHD(简写为 IXC2-4KHD)模型让这成为了现实。
相比于其他多模态大模型不超过 1500x1500 的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过 4K (3840 x1600)分辨率,并支持任意长宽比和 336 像素~4K 动态分辨率变化。
发布三天,该模型就登顶 Hugging Face 视觉问答模型热度榜单第一。
轻松拿捏 4K 图像理解
先来看效果 ~
研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为 2550x3300),并询问论文哪个模型在 MMBench 上的性能最高。
需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD 成功理解了雷达图中的信息,正确回答问题。
面对更加极端分辨率的图像输入(816 x 5133),IXC2-4KHD 轻松理解图像包括 7 个部分,并准确说明了每个部分包含的文字信息内容。
随后,研究人员还在 16 项多模态大模型评测指标上全面测试了 IXC2-4KHD 的能力,其中 5 项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。
仅仅使用 7B 参数量,IXC2-4KHD 在其中 10 项评测取得了媲美甚至超越 GPT4V 和 Gemini Pro 的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。
△仅 7B 参数量的 IXC2-4KHD 性能媲美 GPT-4V 和 Gemini-Pro 如何实现 4K 动态分辨率?
为了实现 4K 动态分辨率的目标,IXC2-4KHD 包括了三个主要设计:
(1)动态分辨率训练:
△4K 分辨率图像处理策略
在 IXC2-4KHD 的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过 55x336x336,等价于 3840 x1617 分辨率)的一个中间尺寸。
随后,图像被自动切块成多个 336x336 的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。
实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在 4K 分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。
(2)添加切块布局信息:
为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’ n ’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9 代表切块区域个数不超过 9)影响不大,而对于动态 4K 分辨率训练则可以带来显著的性能提升。
(3)推理阶段扩展分辨率
研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将 HD9(最多 9 块)的训练模型直接使用 HD16 进行测试,可以在 InfographicVQA 上观察到高达 8% 的性能提升。
IXC2-4KHD 将多模态大模型支持的分辨率提升到了 4K 的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。
论文链接:
https://arxiv.org/pdf/2404.06512.pdf
项目链接:
https://github.com/InternLM/InternLM-XComposer
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里
关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
文章推荐更多>
- 1免费看短剧的网站有哪些?在线免费看短剧的网站top10推荐
- 2内存取证分析:使用Volatility检测隐藏威胁
- 3UC浏览器缓存视频导出失败
- 4wordpress汉化插件怎么使用
- 5如何提升wordpress的安全性
- 6笔记本电脑全黑屏只剩鼠标 笔记本黑屏鼠标可见处理方法大全
- 7oracle数据库delete删除的数据怎么恢复
- 8电脑黑屏却开着机怎么办 主机运行但黑屏解决方法轻松修复显示问题
- 9帝国cms怎么上传大文件
- 10亚马逊amazon官网优选跨境出口直接进2025
- 11phpmyadminv3.5.2.2的漏洞编号是什么
- 12uc浏览器极速版能赚钱吗 uc极速版赚钱任务与收益分析
- 13oracle怎么查看存储过程执行到哪个位置了
- 14注册表深度清理:删除病毒残留启动项
- 15wordpress怎么做分类目录
- 16华为uc浏览器缓存的视频怎么导出
- 17oracle数据库的实例名在哪看
- 18如何获取mysql的版本
- 19phpmyadmin怎么导出数据库
- 20wordpress如何进行仿站
- 21如何用谷歌浏览器 谷歌浏览器入门使用技巧
- 22电脑怎么连接wifi 轻松连接wifi的详细步骤分享
- 23mysql如何找回删除的数据
- 24redis是什么类型的内存数据库
- 25笔记本电脑开不了机 笔记本无法开机故障排查
- 26国内有哪些比较知名的wordpress主题开发网站
- 27电脑怎么截屛 简单易学的截屏操作指南
- 28怎么登陆dedecms后台
- 29如何设置谷歌浏览器主页 主页设置与个性化调整
- 30漏洞扫描工具对比:NessusvsOpenVAS
