19157628936

被称为计算机视觉新里程碑的SAM模型到底是什么?

时间:2023-06-13 11:36:33

作者:景联文科技

浏览:

SAM是Meta 提出的分割一切模型(Segment Anything Model,SAM)突破了分割界限,极大地促进了计算机视觉基础模型的发展。

 

SAM是一个提示型模型,其在1100万张图像上训练了超过10亿个掩码,实现了强大的零样本泛化。许多研究人员认为「这是 CV 的 GPT-3 时刻,因为 SAM 已经学会了物体是什么的一般概念,甚至是未知的物体、不熟悉的场景(如水下、细胞显微镜)和模糊的情况」,并展示了作为 CV 基本模型的巨大潜力。

 

SAM模概览

2023年4月6号,Meta AI公开了Segment Anything Model(SAM),使用了有史以来最大的分割数据集Segment Anything 1-Billion mask dataset(SA-1B),其内包含了1100万张图像,总计超过10亿张掩码图,模型在训练时被设计为交互性的可提示模型,因此可以通过零样本学习转移到新的图像分布和任务中。在其中他们提出一个用于图像分割的基础模型,名为SAM。该模型被发现在NLP和CV领域中表现出较强的性能,研究人员试图建立一个类似的模型来统一整个图像分割任务。

 

SAM 架构主要包含三个部分:图像编码器;提示编码器;以及掩码解码器。

Meta AI提出一大规模多样化的图像分割数据集:SA-1B(包含1100万张图片以及10亿个Mask图)

 

在这项工作中,SAM的目标是建立一个图像分割的基础模型(Foundation Models)。其目标是在给定任何分割提示下返回一个有效的分割掩码并在一个大规模且支持强大泛化能力的数据集上对其进行预训练,然后用提示工程解决一系列新的数据分布上的下游分割问题。

 

项目关键的三部分包括组件:任务、模型、数据。

任务:NLP和CV中,基础模型是一个很有前途的发展,受到启发,研究者提出了提示分割任务,其目标是在给定任何分割提示下返回一个有效的分割掩码。

image.png 

 

       

 

 

             image.png

 

 

为此,研究者设计了Segment Anything Model(SAM),包含一个强大的图像编码器(计算图像嵌入),一个提示编码器(计算提示嵌入),一个轻量级掩码解码器(实时预测掩码)。在使用时,只需要对图像提取一次图像嵌入,可以在不同的提示下重复使用。给定一个图像嵌入,提示编码器和掩码解码器可以在浏览器中在~50毫秒内根据提示预测掩码。

image.png

 

1. 图像编码器基于可扩展和强大的预训练方法,研究者使用MAE预训练的ViT,最小限度地适用于处理高分辨率输入。图像编码器对每张图像运行一次,在提示模型之前进行应用。

2. 提示编码器考虑两组prompt:稀疏(点、框、文本)和密集(掩码)。研究者通过位置编码来表示点和框,并将对每个提示类型的学习嵌入和自由形式的文本与CLIP中的现成文本编码相加。密集的提示(即掩码)使用卷积进行嵌入,并通过图像嵌入进行元素求和。

3. 掩码解码器掩码解码器有效地将图像嵌入、提示嵌入和输出token映射到掩码。

 

掩码质量:为了评估掩码质量,研究者随机抽取了500张图像(大约5万个掩码),要求专业标注员使用像素精确的“画笔”和“橡皮擦”在模型预测掩码的基础上对其进行专业矫正。这一过程,产生成对的模型预测掩码以及人工专业矫正后的掩码。通过计算每对之间的IoU,来评估掩码质量。实现结果发现,94%的对具有大于90%的IoU

 

数据引擎:为了对庞大数据的图像进行掩码标注,作者开发了数据引擎。如图所示,它是一个模型、数据的闭环系统。

 

模型标注数据:标注好的数据用来优化模型。以此循环,迭代优化模型以及数据质量。

image.png 

该数据引擎有三个阶段:模型辅助手动标注、半自动标注阶段和全自动阶段。

(1)模型辅助手动标注阶段

该阶段开始之前,研究者首先使用常见的公开图像分割数据集训练SAM,然后使用SAM为SA-1B数据预测图像掩码,由一组专业标注人员在预测掩码的基础上进行掩码细化。标注人员可以自由地为掩码赋予标签;此外,标注人员需要按照对象的突出程度来标记对象,并且掩码标注超过30秒就要继续处理下一张图像。在充分的数据标注后,仅使用新标注的掩码对SAM进行重新训练(该阶段总共训练了模型6次)。随着收集到更多的掩码,图像编码器从ViT-B扩展到ViT-H。同时,随着模型的改进。每个掩码的平均标注时间从34秒减少到14秒(比COCO的掩码标注快6.5倍,比2D框标注慢2倍);每个图像的平均掩码数量从20个掩码增加到44个掩码。总的来说,该阶段从12万张图像中收集了4630万个掩码。

 

(2)半自动阶段该阶段

其目标是增加掩码的多样性,以提供模型分割东西的能力。为了使标注者专注于不太突出的对象,首先SAM自动分割高置信度的掩码,然后向标注者展示预填充这些掩码的图像,并要求他们标注任何其他未标注的对象。该阶段在18万张图像中额外收集590万个掩码(总共1020万个掩码)。与第一阶段一样,定期在新收集的数据集上重新训练模型。每个掩码的平均标注时间回到34秒。每个图像的平均掩码数量从44个增加到72个。

 

(3)全自动阶段这个阶段

这个阶段的标注是全自动的,因为模型有两个主要的增强。首先,在这一阶段的开始,收集了足够多的掩码来大大改进模型;其次,在这一阶段,已经开发了模糊感知模型,它允许在有歧义的情况下预测有效的掩码。具体来说,用32x32的规则网络点来提示网络,并为每个点预测一组可能对应于有效对象的掩码。在模糊感知模型中,如果一个点位于某个部分或子部分上,模型将返回子部分、局部和整个对象。该模型的IoU模块将选择高置信度的掩码,同时选择稳定掩码(如果阈值化概率图在0.5-σ,0.5+σ)产生相似的掩码,则认为是稳定掩码。最后,在选择高置信度和稳定的掩码后,采用NMS对重复数据进行过滤。该阶段,在1100万张图像上全自动生成11亿个高质量掩码。

 

SAM的用途

SAM可被用于图像处理包括软件场景、真实场景以及复杂场景。

 

软件场景

软件场景需要对图像编辑和修复进行操作,例如移除对象、填充对象和替换对象。然而,现有的修复工作,需要对每个掩码进行精细的注释以达到良好的性能,这是一项劳动密集型的工作。SAM 可以通过简单的提示如点或框来生成准确的掩码,可以帮助辅助图像编辑场景。

 

真实场景

研究者表示SAM具有协助处理许多真实世界场景的能力,例如真实世界的物体检测、物体计数以及移动物体检测场景。研究者SAM在多种真实世界分割场景(例如,自然图像、农业、制造业、遥感和医疗健康场景)中的性能进行了评估。发现,在像自然图像这样的常见场景中,它具有优秀的泛化能力,而在低对比度的场景中,它的效果较差,而且在复杂场景中需要强大的先验知识。

 

除了上述的常规场景,SAM也可被用于解决复杂场景中的分割问题。研究发现,SAM在隐蔽场景中的技巧不足,潜在的解决方案可能依赖于在特定领域的先验知识的支持。

 

动画.gif 

 

景联文科技AI基础数据行业的头部企业,已通过将SAM集成进数据标注平台,为用户提供更好的标注体验。用户在使用SAM模型时,可以更加轻松、高效地完成数据标注任务,并基于SAM的特点为数据场景做了专项优化,使用户可以得到更加精准的标注结果。

 

此外,图像标注工作台搭载智能化辅助标注功能以提升标注效率,例如平台支持自动识别当前图片的物体类型,对识别结果自动添加品类标签,进行特征归类或分类整理;支持通过智能AI语义分割模型配合人工手动补点,可快速完成像素级图像类别的物体区域分类标注;支持对图片物体内容进行自动打点标注。此外,景联文数据平台还具备自动目标检测能力,可快速实现视频抽帧后图像中相同目标的跟踪和定位。

 

image.png 

 

景联文科技数据场景实验室和数据标注基地,致力于为智能驾驶智能家居、公共安全、智慧城市、智慧医疗、智慧金融、智能教育、智能司法等领域提供高质量、场景化的数据采集和数据标注业务,全方位支持文本、语音、图像和视频等数据类型的处理。

 

image.png 

 

在数据标注平台的流程管理上,景联文科技重视作业协同化,可准确把控从原始数据”到“数据成品”全流程,实现对数据标注过程的全方位把控,数据标注后经过审核、质检、验收等不同环节确保数据准确性,且每个环节都有专业人员来把控数据标注的质量和时间节点,做好各工作环节完美衔接,可以在保证质量的前提现下提高效率。此外,景联文科技遵循标审分离原则,风险管控机制完善,并支持平台的私有化部署,可以更好提高数据标注的效率和精确度,全方位保证数据的隐私安全。为企业提供高效率、高质量、场景化、多维度的数据服务。

 

景联文科技|数据采集|数据标注

助力人工智能技术,赋能传统产业智能化转型升级

 


做AI行业客户的数据参谋
客户咨询电话:19157628936
地址:杭州市萧山区杭州湾信息港E幢7楼
微信公众号 客户咨询微信