当前位置：首页 > 文档资讯 > 技术教程 > 显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

时间：2025-03-06浏览： [小大]

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法从文本领域扩展到视觉领域。

通过为视觉细分类、目标检测等任务设计相应的规则奖励，Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性，为LVLM训练提供了新的途径。

Visual-RFT的优势：

与传统的视觉指令微调（SFT）方法相比，Visual-RFT具有以下显著优势：

少样本学习能力: 仅需10到1000条数据即可实现有效微调。
更强的泛化性: 在数据有限的场景下，性能优于SFT。

研究人员在多个视觉感知任务（检测、分类、定位等）上对Visual-RFT进行了验证，结果表明，即使在开放词汇和少样本学习的设定下，Visual-RFT也能取得显著的性能提升，轻松实现能力迁移。

研究人员针对不同的任务设计了相应的可验证奖励：基于IoU的奖励用于检测和定位任务，基于分类正确性的奖励用于分类任务。

在推理定位任务中，Visual-RFT展现出强大的视觉推理能力，例如，准确识别图片中运动员需要佩戴的防水眼镜。

实验结果:

基于QWen2-VL 2B/7B模型进行的实验表明，Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。即使是检测特定动漫角色（例如史莱姆），Visual-RFT也只需少量数据即可实现。

开源信息:

Visual-RFT项目已开源，包含训练、评测代码和数据。

项目地址：https://www./link/b2c1a4c8e4f9c3f8efe19a903a005149

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

文章推荐更多>