SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

admin管理员组
文章数量:1794759

SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

Segment Anything Model 2（SAM 2）作为Meta公司发布的Segment Anything Model（SAM）的升级版本，在图像和视频分割领域展现出了显著的优点和特性。

论文连接：.00714

Demo: Code: Website:

优点

分割精度提升：
- 相比原始的SAM模型，SAM 2在分割精度上有所提高，能够更准确地识别并分割图像和视频中的对象。
处理速度加快：
- SAM 2的处理速度提高了大约六倍，能够更快地生成分割掩模，适用于需要快速响应的应用场景。
支持视频分割：
- 除了图像分割之外，SAM 2还支持视频中的对象分割，为视频处理和分析提供了强大的工具。
实时处理能力：
- SAM 2非常适合于需要实时处理的应用场景，如增强现实（AR）和虚拟现实（VR）应用，能够实时分割用户周围的环境。
Zero-Shot泛化能力：
- SAM 2具有良好的zero-shot迁移能力，可以在未见过的数据上工作而不需要额外的训练，这使得它能够在多种不同的视觉域中应用。
广泛的训练数据：
- SAM 2的训练数据集包含了1100万张图像和110亿个掩码，这种广泛的训练数据使得SAM 2成为训练新图像分割任务的强大起点。

特性

可提示的模型架构：
- SAM 2可以根据不同的提示（如点、框、甚至是文本）来生成分割结果，这种灵活性使得用户可以根据需要轻松定义目标对象。
编码器-解码器架构：
- SAM 2很可能继续使用了编码器-解码器架构，其中编码器负责提取特征，解码器则用于生成分割掩模。
高效网络设计：
- 为提高处理速度，SAM 2可能采用了优化过的网络结构或计算效率更高的组件。
适应性强的分割头：
- 模型包含了一个高度灵活的分割头，能够根据不同的提示生成相应的掩模，从而适应不同的分割任务。
多模态输入支持：
- 除了传统的图像输入外，SAM 2还支持视频帧序列作为输入，以实现视频分割。
记忆注意模块：
- SAM 2配备了一个记忆注意模块，关注目标对象之前的记忆，存储关于对象和之前交互的信息，这允许它在整个视频中生成mask预测，并根据之前观察到的帧中存储的对象记忆上下文有效地纠正这些预测。
PVS任务支持：
- 在视频的任何一帧上向模型提供提示（如正/负单击、边界框或mask），模型可以传播这些提示以获得整个视频中的对象mask。
开源与社区支持：
- Meta公司以宽松的Apache 2.0许可证共享了SAM 2的代码和模型权重，促进了社区的研究和应用。

SAM 2以其高精度、高速度、广泛的支持能力以及强大的zero-shot泛化能力，在图像和视频分割领域展现出了显著的优势和广泛的应用前景。

实战

实现SAM推理有两种方法，一种是直接使用官方的SAM2模型，另一种使用Ultralytics 。

基于官方模型的SAM2实战

GitHub链接：

代码语言：javascript代码运行次数：0运行复制

使用前需要先安装 SAM 2。代码需要python>=3.10，以及torch>=2.3.1和。请按照此处的torchvision>=0.18.1说明安装 PyTorch 和 TorchVision 依赖项。您可以使用以下方式在 GPU 机器上安装 SAM 2：

代码语言：javascript代码运行次数：0运行复制

git clone .git
cd segment-anything-2; pip install -e .

然后，下载模型： sam2_hiera_tiny.pt：

代码语言：javascript代码运行次数：0运行复制

.pt

sam2_hiera_small.pt：

代码语言：javascript代码运行次数：0运行复制

.pt

sam2_hiera_base_plus.pt：

代码语言：javascript代码运行次数：0运行复制

.pt

sam2_hiera_large.pt：

代码语言：javascript代码运行次数：0运行复制

.pt

测试图片

代码语言：javascript代码运行次数：0运行复制

import torch
from sam2.build_sam import build_sam2
from sam2.sam2_image_predictor import SAM2ImagePredictor

checkpoint = "./checkpoints/sam2_hiera_large.pt"
model_cfg = "sam2_hiera_l.yaml"
predictor = SAM2ImagePredictor(build_sam2(model_cfg, checkpoint))

with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
    predictor.set_image(<your_image>)
    masks, _, _ = predictor.predict(<input_prompts>)

测试视频

代码语言：javascript代码运行次数：0运行复制

import torch
from sam2.build_sam import build_sam2_video_predictor

checkpoint = "./checkpoints/sam2_hiera_large.pt"
model_cfg = "sam2_hiera_l.yaml"
predictor = build_sam2_video_predictor(model_cfg, checkpoint)

with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
    state = predictor.init_state(<your_video>)

    # add new prompts and instantly get the output on the same frame
    frame_idx, object_ids, masks = predictor.add_new_points_or_box(state, <your_prompts>):

    # propagate the prompts to get masklets throughout the video
    for frame_idx, object_ids, masks in predictor.propagate_in_video(state):
        ...

方法二：基于ultralytics包的封装来调用

安装必要的包。安装ultralytics并确保其版本>=8.2.70，torch版本也需>=2.0或直接使用最新版本

代码语言：javascript代码运行次数：0运行复制

pip install -U ultralytics

下载分割模型。链接如下：

SAM 2 tiny链接：

代码语言：javascript代码运行次数：0运行复制

.2.0/sam2_t.pt

SAM 2 small：

代码语言：javascript代码运行次数：0运行复制

.2.0/sam2_s.pt

SAM 2 base

代码语言：javascript代码运行次数：0运行复制

.2.0/sam2_b.pt

SAM 2 large

代码语言：javascript代码运行次数：0运行复制

.2.0/sam2_l.pt

全局分割

代码语言：javascript代码运行次数：0运行复制

from ultralytics import ASSETS, SAM
# Load a model
model = SAM("sam2_s.pt")
# Display model information (optional)
model.info()
# Segment image or video
results = model('car.jpg') # 图片推理
# Display results
for result in results:    
 result.show()

指定点或者矩形区域推理图片

代码语言：javascript代码运行次数：0运行复制

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

for result in results:    
 result.show()

视频推理

代码语言：javascript代码运行次数：0运行复制

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

SAM 2 与 YOLOv8 的比较

在这里，我们将 Meta 的最小 SAM 2 模型 SAM2-t 与 Ultralytics 的最小分割模型 YOLOv8n-seg 进行比较：

这种比较显示了模型大小和速度之间的数量级差异。虽然 SAM 具有自动分割的独特能力，但它并不是 YOLOv8 分割模型的直接竞争对手，因为 YOLOv8 模型的体积更小、速度更快、效率更高。

自动标注：高效的数据集创建

自动标注是SAM 2的一个强大功能，它使用户能够利用预训练模型快速且准确地生成分割数据集。这一功能在无需大量手动工作的情况下创建大型、高质量数据集时尤其有用。

使用SAM 2自动标注您的数据集，代码如下：

代码语言：javascript代码运行次数：0运行复制

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolov8x.pt", sam_model="sam2_b.pt")

参数	类型	描述	默认值
data	str	包含待标注图像的文件夹的路径。
det_model	str, optional	预训练的YOLO检测模型。默认为'yolov8x.pt'。	'yolov8x.pt'
sam_model	str, optional	预训练的SAM 2分割模型。默认为'sam2_b.pt'。	'sam2_b.pt'
device	str, optional	运行模型的设备。默认为空字符串（如果有的话，则为CPU或GPU）。
output_dir	str, None, optional	保存标注结果的目录。默认为与'data'同目录下的'labels'文件夹。	None

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-09-06，如有侵权请联系 cloudcommunity@tencent 删除model对象模型视频数据

本文标签： SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

版权声明：本文标题：SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1754666163a1704964.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

写会百科网

SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

优点

特性

实战

基于官方模型的SAM2实战

测试图片

测试视频

方法二：基于ultralytics包的封装来调用

全局分割

指定点或者矩形区域推理图片

视频推理

SAM 2 与 YOLOv8 的比较

自动标注：高效的数据集创建

更多相关文章

SAM2（Segment Anything Model 2）新一代分割一切大模型实战总结

发表评论

推荐文章

靶场实战(6)：OSCP备考之VulnHub SolidState

Ruby脚本：自动化网页图像下载的实践案例

从零到一手搓安卓handler简化版

【数据结构与算法】图

【C语言】指针详解（三）

热门文章

如何精确计算CDN的并发流量?

进程信号大总结(整理)

知识改变命运：数据结构 【时间和空间复杂度】

（数组一）c语言新手玩家还感到迷茫吗？学习这篇文章轻松玩转数组

【C语言】动态内存管理（上）

【C++算法】分治（快排 &amp; 归并）

【Spring】“请求“ 之后端传参重命名，传递数组、集合，@PathVariable，@RequestPart

性能测试流程规范调试与确认阶段

Shell语言高级用法探索

不造轮子之STL中统计算法

最新文章

Linux系统之jobs命令的基本使用

手把手教学！简单上手“AI复活”技术

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

JVM专题

学会5个图表，让数据分析简洁高效

写“藤”的作文1200字

有关于进步的作文

幼儿园见习报告

语数英寒假作业上册答案五年级

伊索寓言经典语词句摘抄

知识改变命运：数据结构【时间和空间复杂度】

【C++算法】分治（快排 & 归并）