上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法从文本领域扩展到视觉领域。
通过为视觉细分类、目标检测等任务设计相应的规则奖励,Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性,为LVLM训练提供了新的途径。
Visual-RFT的优势:
与传统的视觉指令微调(SFT)方法相比,Visual-RFT具有以下显著优势:
- 少样本学习能力: 仅需10到1000条数据即可实现有效微调。
-
更强的泛化性: 在数据有限的场景下,性能优于SF
T。
研究人员在多个视觉感知任务(检测、分类、定位等)上对Visual-RFT进行了验证,结果表明,即使在开放词汇和少样本学习的设定下,Visual-RFT也能取得显著的性能提升,轻松实现能力迁移。
研究人员针对不同的任务设计了相应的可验证奖励:基于IoU的奖励用于检测和定位任务,基于分类正确性的奖励用于分类任务。
在推理定位任务中,Visual-RFT展现出强大的视觉推理能力,例如,准确识别图片中运动员需要佩戴的防水眼镜。
实验结果:
基于QWen2-VL 2B/7B模型进行的实验表明,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。 即使是检测特定动漫角色(例如史莱姆),Visual-RFT也只需少量数据即可实现。
开源信息:
Visual-RFT项目已开源,包含训练、评测代码和数据。
项目地址:https://www./link/b2c1a4c8e4f9c3f8efe19a903a005149
文章推荐更多>
- 1mysql如何建立表
- 2redis 和 mysql 的数据不一致怎么办
- 3yandex官网(登录入口) yandex登录引擎入口地址
- 4oracle数据库监听配置文件客户端怎么用
- 5oracle怎么备份数据库
- 6台式电脑连接wifi怎么连接 台式机无线网络连接指南
- 70x000000be蓝屏代码 蓝屏错误0x000000be的解决方案
- 8oracle数据库怎么备份一张表
- 9oracle怎么找回删除表的数据
- 10oracle怎么看存储过程内容
- 11华为UC缓存视频传输电脑
- 12摄像头改装后的存储与回放方案
- 13uc浏览器如何更换登录账号 uc账号快速切换登录教程
- 14c盘怎么扩容 安全扩容c盘的4个必备步骤
- 15电脑怎么长截屏ctrl加什么 长页面截屏组合键
- 16俄罗斯搜索引擎入口在哪里 俄罗斯引擎入口进入
- 17如何去掉wordpress的评论
- 18电脑转文字按哪个键转换中文 文字转换快捷键
- 19wordpress安装插件时需要给什么权限
- 20oracle数据库怎么查询所有的表和所有的数据
- 21mysql命令行在哪里
- 22wordpress怎么设置菜单
- 23夸克怎么退出登录当前账号 当前账号退出步骤
- 24电脑键盘各个按键功能 全面解析键盘按键作用
- 25华为UC缓存视频转存手机
- 26ao3官方网站链接入口免登录 ao3官方入口稳定链接速度
- 27如何登陆谷歌浏览器 账号登录与同步设置
- 28redis的五种数据类型有哪些特点
- 29oracle数据库如何重启
- 30俄罗斯网站(进入) 俄罗斯搜索器入口

T。