admin管理员组

文章数量:1794759

每日学术速递10.23

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Power by Kimi&苏神 编辑丨AiCharm

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.UniDrive: Towards Universal Driving Perception Across Camera Configurations

标题: UniDrive:实现跨摄像头配置的通用驾驶感知

作者:Ye Li, Wenzhao Zheng, Xiaonan Huang, Kurt Keutzer

文章链接:.13864

项目代码:

摘要:

以视觉为中心的自动驾驶通过经济型传感器展现了卓越的性能。作为基本步骤,3D 感知旨在基于 3D-2D 投影从 2D 图像推断 3D 信息。这使得驾驶感知模型容易受到传感器配置(例如,相机内部和外部)变化的影响。然而,跨摄像头配置的推广对于在不同车型上部署自动驾驶模型非常重要。在本文中,我们提出了 UniDrive,这是一种以视觉为中心的自动驾驶的新颖框架,可实现跨摄像头配置的通用感知。我们部署了一组统一的虚拟摄像机,并提出了一种地面感知投影方法,可以有效地将原始图像转换为这些统一的虚拟视图。我们进一步提出了一种虚拟配置优化方法,通过最小化原始相机和虚拟相机之间的预期投影误差。所提出的虚拟相机投影可以作为即插即用模块应用于现有的 3D 感知方法,以减轻相机参数变化带来的挑战,从而产生更具适应性和更可靠的驾驶感知模型。为了评估我们框架的有效性,我们通过驾驶相同的路线而仅修改相机配置来收集 Carla 的数据集。实验结果表明,我们在一种特定相机配置上训练的方法可以推广到不同的配置,而性能下降较小。

这篇论文试图解决什么问题?

这篇论文试图解决自动驾驶领域中视觉感知模型对相机配置变化的敏感性问题。具体来说,它关注以下几个关键问题:

  1. 跨相机配置的泛化问题:自动驾驶模型通常依赖于校准良好的传感器设置,而不同车辆或平台之间的相机参数(包括内在和外在参数)的微小变化都可能导致性能显著下降。这使得感知模型难以在不同车辆之间转移,需要针对每个车辆重新训练,消耗大量计算资源。
  2. 构建统一框架:如何构建一个统一的框架,使得感知模型能够泛化到不同的多相机参数设置。
  3. 优化模型泛化:如何进一步优化感知模型的泛化能力,确保在变化的多相机配置中保持鲁棒的性能。

为了解决这些问题,论文提出了一个名为UniDrive的框架,它通过部署一组统一的虚拟相机空间,并利用基于地面感知的投影方法,将原始相机图像转换为这些统一的虚拟视图。此外,论文还提出了一种虚拟配置优化策略,通过最小化原始相机和虚拟相机之间的预期投影误差,实现跨不同设置的一致3D感知。该框架作为现有3D感知方法的即插即用模块,提高了对相机参数变化的鲁棒性。

论文如何解决这个问题?

论文通过提出一个名为UniDrive的框架来解决自动驾驶中视觉感知模型对相机配置变化的敏感性问题。UniDrive框架主要包含以下几个关键组件和步骤:

  1. 统一虚拟相机空间:部署一组统一的虚拟相机空间,将原始相机图像转换为这些虚拟视图。这通过一个地面感知的投影方法实现,该方法基于对地面和圆柱面假设的结合来计算每个像素在虚拟相机框架中的3D坐标。
  2. 虚拟相机投影:提出了一种将多个相机视图上的点投影到虚拟相机视图的方法。这涉及到计算每个像素在虚拟视图中的3D坐标,然后将其转换到世界坐标系中,接着转换回原始相机坐标系,并最终投影回原始相机的2D图像平面。
  3. 图像级转换和视图融合:将每个原始视图转换为虚拟视图后,通过加权求和的方式将所有转换后的视图融合成最终的输出图像。权重可以基于原始视图和虚拟视图之间的夹角距离或相机的接近程度来确定。
  4. 虚拟投影误差评估:提出了一个基于角度差异的加权投影误差度量方法,用于评估虚拟相机投影方法在3D目标检测任务中的准确性。这考虑了角度偏差和从相机光心到目标的距离,以提供更鲁棒的误差评估。
  5. 虚拟相机配置优化:采用基于协方差矩阵自适应进化策略(CMA-ES)的启发式优化方法,来寻找一个优化的虚拟相机配置集合,以最小化所有原始相机配置之间的重投影误差。
  6. 数据生成和基准测试:在CARLA模拟器中生成多视图图像数据和3D对象的真实数据,并使用这些数据来训练和测试模型,以验证UniDrive框架的有效性。

通过这些方法,UniDrive框架能够将现有的3D感知方法作为即插即用模块,提高它们对相机参数变化的鲁棒性,并在多样化的传感器设置中实现一致的3D感知能力。论文通过在CARLA环境中进行的实验表明,UniDrive框架训练的模型能够在不同相机配置之间进行有效迁移,且性能损失很小。

论文做了哪些实验?

论文中进行了一系列实验来评估UniDrive框架的有效性,这些实验包括:

  1. 基准设置
    • 使用CARLA模拟器生成多视图图像数据和3D对象的真值数据。
    • 数据集包含6个类别的3D目标检测,如汽车、公共汽车、卡车、摩托车、自行车和行人。
    • 数据集分为训练集和验证集,每个配置包含500个场景(20,000帧)。
  2. 相机配置
    • 采用了多种在汽车行业中常用的相机配置,包括不同数量的相机、不同的视场角(FOV)和不同的相机布局。
    • 配置包括从4到8个相机,FOV主要为60°、70°、80°,同时包括nuScenes数据集的原始配置。
  3. 检测方法
    • 选择了BEVFusion的相机变体(BEVFusion-C)作为比较的检测方法,因为它在多个排行榜上都是最先进的方法之一。
  4. 比较研究
    • 评估了BEVFusion-C和UniDrive在不同相机配置下的3D目标检测性能。
    • 展示了UniDrive框架在跨相机配置任务中的有效性,与BEVFusion-C相比,UniDrive在不同配置上的部署性能显著提高。
  5. 优化效果
    • 对比了优化后的虚拟相机配置和直观配置(未优化)在感知性能上的差异。
    • 优化后的虚拟相机配置在不同配置上表现出更一致的性能,而直观配置则对某些配置有偏好,对其他配置性能较差。
  6. 消融研究
    • 分析了相机内在参数和外在参数(如相机高度和位置)的变化对跨配置感知的影响。
    • 展示了UniDrive框架在处理这些变化时的有效性,特别是在处理不同相机内在参数时的性能提升。
  7. 进一步分析
    • 探讨了多相机系统中内在参数不一致对感知的影响,以及UniDrive如何提高在这种情况下的性能。

这些实验结果表明,UniDrive框架能够有效地提高自动驾驶模型在不同相机配置下的泛化能力,并且通过优化虚拟相机配置,可以实现在多样化的传感器设置中的一致性能。

论文的主要内容:

本文提出了UniDrive框架,旨在提升自动驾驶中视觉感知模型在不同相机配置下的泛化能力。主要内容包括:

  1. 问题阐述:指出了现有自动驾驶模型在不同相机配置(如内参和外参变化)下性能显著下降的问题,并强调了在不同车型上部署时泛化能力的重要性。
  2. UniDrive框架:提出了一个包含统一虚拟相机空间和地面感知投影方法的框架,用于将原始图像转换为统一的虚拟视图,从而降低对具体相机参数的依赖。
  3. 虚拟相机投影:介绍了一种将多个相机视图投影到虚拟相机视图的方法,包括基于地面和圆柱表面的深度估计,点对点的投影,以及多视图融合。
  4. 虚拟投影误差:提出了一种基于角度差异的加权投影误差度量方法,用于评估虚拟相机投影在3D对象检测任务中的准确性。
  5. 优化虚拟相机配置:使用基于协方差矩阵自适应进化策略(CMA-ES)的优化方法,来寻找一个优化的虚拟相机配置集合,以最小化所有原始相机配置之间的重投影误差。
  6. 实验验证:在CARLA模拟器中生成数据集,并基于此数据集对UniDrive框架进行了评估。实验结果表明,UniDrive能够有效提升模型在不同相机配置间的泛化能力,并且通过优化步骤能够进一步增强模型的适应性和鲁棒性。
  7. 局限性:论文也指出了当前研究的局限性,包括分析的相机配置未能覆盖所有实际设置,以及所有实验均在模拟数据上完成,未在真实世界数据上进行测试。

总的来说,UniDrive框架通过虚拟相机的概念和优化策略,为解决自动驾驶领域中相机配置变化带来的挑战提供了一种有效的解决方案。

2.Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

标题: Fluid:使用连续标记扩展自回归文本到图像生成模型

作者:Lijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

文章链接:.13863

摘要:

事实证明,在视觉中扩展自回归模型并不像在大型语言模型中那样有益。在这项工作中,我们在文本到图像生成的背景下研究了这个缩放问题,重点关注两个关键因素:模型是否使用离散或连续标记,以及标记是使用 BERT 或 BERT 以随机还是固定光栅顺序生成。类似 GPT 的变压器架构。我们的实证结果表明,虽然所有模型在验证损失方面都有效扩展,但它们的评估性能(通过 FID、GenEval 分数和视觉质量衡量)遵循不同的趋势。基于连续标记的模型比使用离散标记的模型具有明显更好的视觉质量。此外,生成顺序和注意机制显着影响 GenEval 分数:与栅格顺序模型相比,随机顺序模型获得了明显更好的 GenEval 分数。受这些发现的启发,我们训练了 Fluid,这是一种基于连续标记的随机顺序自回归模型。Fluid 10.5B 模型在 MS-COCO 30K 上实现了新的最先进的零样本 FID 6.16,在 GenEval 基准上获得了 0.69 的总分。我们希望我们的发现和结果能够鼓励未来进一步缩小视觉和语言模型之间的差距。

这篇论文试图解决什么问题?

这篇论文探讨了在视觉领域,特别是文本到图像生成任务中,自回归模型的扩展问题。具体来说,论文试图解决以下几个关键问题:

  1. 离散与连续标记的使用:大多数视觉自回归模型需要将图像转换为有限词汇量的离散标记,这可能会引入显著的信息丢失,从而限制模型性能。论文研究了使用连续标记代替离散标记是否能够改善模型性能。
  2. 标记生成顺序:自回归模型在生成图像时,可以采用固定的光栅顺序(从左到右,从上到下)或随机顺序。论文探讨了这两种生成顺序对模型性能的影响。
  3. 模型规模与性能的关系:在自然语言处理领域,模型规模的增加通常会带来性能的显著提升。然而,在视觉领域,尤其是文本到图像生成任务中,这种规模法则是否同样适用尚不清楚。论文通过实验分析了模型规模对验证损失、FID(Frechet Inception Distance)和GenEval得分等评估指标的影响。
  4. 模型的泛化能力:论文还研究了自回归模型在不同数据集和评估指标上的泛化能力,特别是在模型规模增加时,这些模型在新数据和新评估指标上的表现如何变化。

综上所述,论文的核心目标是通过对上述关键因素的系统研究,缩小视觉模型与语言模型在扩展性方面的差距,并推动文本到图像生成领域的进一步创新。

论文如何解决这个问题?

论文通过以下步骤解决文本到图像生成中自回归模型的扩展问题:

  1. 实验研究:作者进行了一个全面的实证研究,探索在文本到图像生成任务中影响自回归模型扩展性的两个关键因素:模型是否使用连续或离散的标记,以及标记是否以随机或固定的光栅顺序生成。
  2. 连续标记的使用:为了解决传统自回归模型中向量量化(VQ)步骤可能引入的信息丢失问题,论文采用了连续标记的方法,这种方法不需要向量量化,并且可以更好地重建图像质量。
  3. 随机顺序生成:作者扩展了BERT类视觉模型MaskGIT作为一个随机顺序自回归模型,这种方法在保留自回归本质的同时,可以随机顺序预测输出标记。
  4. 评估指标:使用验证损失、FID(Frechet Inception Distance)和GenEval得分三个指标来评估模型性能,同时检查生成图像的视觉质量。
  5. 模型扩展:作者分析了不同自回归变体的行为,将模型参数从150M扩展到3B,并比较了它们的性能和扩展行为。
  6. 经验发现:实验结果表明,基于连续标记的模型在视觉质量上明显优于使用离散标记的模型。此外,随机顺序模型在GenEval得分上显著优于光栅顺序模型,特别是在生成多个对象时。
  7. 模型训练:基于上述发现,作者训练了一个名为Fluid的随机顺序自回归模型,该模型使用连续标记,并扩展到10.5B参数。Fluid模型在MS-COCO数据集上实现了6.16的零样本FID得分,并在GenEval基准测试中得到了0.69的总体得分。
  8. 结果分享:作者希望他们的经验和结果能够激发未来进一步缩小视觉模型和语言模型之间扩展差距的努力,并为文本到图像生成模型的扩展行为提供有价值的见解。

通过这些步骤,论文不仅提出了一种新的方法来提升自回归模型在文本到图像生成任务中的性能,而且还提供了对如何扩展这些模型以实现更好泛化能力的深入理解。

论文做了哪些实验?

论文中进行了一系列实验来研究自回归模型在文本到图像生成任务中的扩展性。以下是实验的主要组成部分:

  1. 模型变体分析
    • 光栅顺序,离散标记
    • 随机顺序,离散标记
    • 光栅顺序,连续标记
    • 随机顺序,连续标记(即Fluid模型)
    • 作者比较了四种不同的自回归模型变体,每种变体结合了连续或离散标记以及随机或光栅顺序生成。
    • 这些变体包括:
  2. 模型规模扩展
    • 作者将这些变体的模型参数从150M扩展到3B,并评估了它们在不同规模下的性能。
  3. 性能评估
    • 验证损失:在MS-COCO 2014训练集的30K图像上评估。
    • FID(Frechet Inception Distance):在MS-COCO 2014训练集上随机选择的30K图像-文本对上计算,评估生成图像的质量和多样性。
    • GenEval得分:使用官方基准测试提供的553个提示,每个提示生成四张图像,评估模型生成图像与给定提示的准确对齐能力。
    • 使用三个主要指标来评估模型性能:
  4. 视觉质量检查
    • 作者还检查了由不同模型生成的图像的视觉质量,以定性分析模型性能。
  5. 与先前系统比较
    • 将提出的Fluid模型与现有的最先进的文本到图像生成系统进行了比较,包括DALL-E 3、Stable Diffusion 3等。
  6. 训练FLOPs与性能关系
    • 分析了不同模型变体的验证损失和FID得分与总训练FLOPs(浮点运算次数)的关系,以评估训练效率。
  7. GenEval细分得分
    • 展示了不同模型变体在GenEval基准测试的所有子指标上的性能,以更细致地了解模型在特定任务上的表现。
  8. 模型配置
    • 提供了不同大小的Fluid模型的详细配置,包括参数数量、块数、通道数、头数和生成速度。
  9. 额外的视觉结果
    • 生成了额外的图像样本,以展示10.5B参数Fluid模型的生成能力,并与3.1B参数模型进行了视觉比较。

这些实验全面覆盖了模型设计、规模扩展、性能评估和与现有技术的比较,为理解自回归模型在文本到图像生成中的扩展性和性能提供了深入的见解。

论文的主要内容:

这篇论文主要研究了在文本到图像生成领域中,自回归模型的扩展性问题。关键点如下:

  1. 研究背景:尽管自回归模型在语言模型中取得了巨大成功,但在视觉领域,尤其是文本到图像生成任务中,扩展模型规模并没有得到预期的性能提升。
  2. 研究问题:论文探讨了自回归模型在视觉领域扩展性不佳的原因,并尝试找到解决方案。主要关注两个因素:模型使用的标记类型(离散或连续)和标记生成顺序(随机或光栅顺序)。
  3. 实验设计:通过改变模型的这两个关键因素,设计了四种不同的自回归模型变体,并在不同规模下进行训练和评估。
  4. 主要发现
    • 连续标记的模型在视觉质量上明显优于离散标记模型。
    • 随机顺序生成的模型在GenEval得分上显著优于光栅顺序模型,尤其是在生成包含多个对象的图像时。
    • 验证损失随着模型规模的增加而降低,与语言模型中的观察结果一致。但FID和GenEval得分与模型规模的关系并非严格的幂律关系。
  5. Fluid模型:基于以上发现,论文提出了Fluid模型,这是一个随机顺序、使用连续标记的自回归模型。通过扩展到10.5B参数,Fluid模型在MS-COCO数据集上达到了6.16的零样本FID得分,并在GenEval基准测试中得到了0.69的总体得分,超过了现有的一些最先进的模型。
  6. 未来工作:论文指出,尽管取得了积极的结果,但仍需要进一步的研究来探索自回归模型在视觉任务中的扩展性,包括新的模型架构、训练策略和评估方法。

总的来说,这篇论文通过系统的实验研究,为理解自回归模型在文本到图像生成中的扩展性提供了有价值的见解,并展示了通过适当设计可以显著提高模型性能的可能性。

3.PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

标题:PUMA:通过多粒度视觉生成增强统一 MLLM

作者:Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu

文章链接:.13861

项目代码:

摘要:

多模态基础模型的最新进展在视觉语言理解方面取得了重大进展。初步尝试还探索了多模式大语言模型(MLLM)在视觉内容生成方面的潜力。然而,现有的工作并没有充分解决统一的 MLLM 范式中不同图像生成任务的不同粒度需求 - 从文本到图像生成所需的多样性到图像处理所需的精确可控性。在这项工作中,我们提出了 PUMA,通过多粒度视觉生成为统一 MLLM 提供支持。PUMA 将多粒度视觉特征统一为 MLLM 的输入和输出,在统一的 MLLM 框架内优雅地解决各种图像生成任务的不同粒度要求。经过多模式预训练和特定于任务的指令调整后,PUMA 展示了对各种多模式任务的熟练程度。这项工作代表了迈向真正统一的 MLLM 的重要一步,该 MLLM 能够适应各种视觉任务的粒度需求。

这篇论文试图解决什么问题?

这篇论文提出了一个名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的多模态大型语言模型(MLLM),旨在解决现有MLLM在不同图像生成任务中粒度需求变化的问题。具体来说,它试图解决以下几个关键问题:

  1. 多样性与可控性之间的权衡:在文本到图像的生成任务中,需要模型生成多样化的图像以反映真实世界的多样性;而在图像编辑等任务中,则需要模型具有精确的控制能力以生成符合特定要求的图像。现有方法通常依赖单一粒度的特征,难以同时满足这两种需求。
  2. 多粒度特征的需求:不同的视觉生成任务对特征的粒度要求不同。例如,生成多样化图像需要粗粒度的语义特征,而精确的图像编辑则需要细粒度的详细视觉信息。现有MLLM方法通常只能生成单一粒度的特征表示,无法适应不同任务的粒度需求。
  3. 统一框架的缺失:尽管已有研究探索了MLLM在视觉生成中的潜力,但缺乏一个能够同时处理从文本到图像生成的多样性到图像编辑所需的精确控制的统一框架。

为了解决这些问题,PUMA通过以下几个关键组件来实现:

  • 多粒度图像特征提取:使用图像编码器提取不同粒度的视觉特征,作为生成和理解的基础。
  • 自回归MLLM:处理并逐步生成多尺度图像特征。
  • 多粒度图像解码器:从MLLM生成的特征中在多个粒度上解码图像。

通过这种方法,PUMA能够在一个统一的框架内处理从多样化图像生成到精确编辑和高度可控生成的广泛任务,从而在多模态任务中实现更好的多样性和可控性平衡。

论文如何解决这个问题?

论文通过提出PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)框架来解决这个问题。PUMA的核心思想是在统一的多模态大型语言模型(MLLM)框架内处理和生成多粒度的视觉特征,以适应不同的图像生成任务。具体来说,PUMA采用以下方法来解决上述挑战:

  1. 多粒度图像特征提取:使用一个语义图像编码器(例如CLIP)来处理输入图像,并生成一系列不同分辨率的特征图。这些特征图从细粒度的局部纹理和空间信息到粗粒度的语义概念逐渐变化。
  2. 多粒度图像解码:开发了一组专门的基于扩散的图像解码器,这些解码器能够处理和解码不同粒度的特征图。细粒度特征用于精确重建图像细节,而粗粒度特征则用于生成多样化的、与语义对齐的图像。
  3. 自回归MLLM:设计了一个自回归MLLM,用于处理和逐步生成多尺度图像特征。该模型将文本和多粒度图像特征作为输入序列,并预测每个粒度级别的特征标记,从而实现从粗到细的逐步细化。
  4. 两阶段训练策略:首先,对预训练的扩散模型进行微调,作为图像解码器。然后,训练自回归MLLM,使用回归损失,以多尺度编码器特征为监督信号,处理和生成多粒度图像特征。

通过这种方法,PUMA能够在一个统一的框架内处理从多样化的文

论文做了哪些实验?

根据论文内容,作者进行了多个实验来评估PUMA模型的性能,这些实验覆盖了多样化的文本到图像生成、图像编辑、条件图像生成和图像理解等任务。以下是具体的实验细节:

  1. 多粒度视觉解码(Multi-granular Visual Decoding)
    • 评估了模型使用不同粒度特征进行图像重建的能力,包括细粒度图像重建和语义引导的图像生成。
    • 使用ImageNet验证集来评估重建精度,采用PSNRr和LPIPSr作为评估指标。
    • 通过不同随机种子解码同一图像输入来评估生成多样性,使用PSNRd和LPIPSd作为多样性的评估指标。
  2. 多样化文本到图像生成(Diverse Text-to-Image Generation)
    • 在MSCOCO 30K验证集上评估模型,使用CLIP-I、CLIP-T和LPIPSd指标来衡量生成图像的质量和多样性。
    • 可视化了不同特征尺度下的文本到图像生成结果,并与现有方法进行了比较。
  3. 图像编辑(Image Editing)
    • 在Emu-Edit测试基准上评估PUMA的图像编辑能力,使用CLIP-I、CLIP-T和DINO得分来评估编辑质量。
    • 展示了PUMA在各种编辑任务中的可视化结果,如添加雕像、删除图像中的对象、风格转换等。
  4. 条件图像生成(Conditional Image Generation)
    • 从MultiGen-20M数据集中选择了canny-to-image、inpainting和colorization任务来训练和评估PUMA。
    • 展示了不同特征尺度下的条件图像生成结果,并讨论了不同尺度对细节保留和视觉保真度的影响。
  5. 图像理解(Image Understanding)
    • 在多个MLLM基准测试上评估PUMA,包括MMB、MME、GQA、VQAv2、POPE和Vizwiz。
    • 尽管PUMA的参数数量相对较少,但其在多个指标上展现出与其他模型竞争甚至更优的性能。

此外,论文还进行了消融研究(Ablation Study),探讨了不同特征尺度对需要细粒度控制能力的任务(如图像编辑和颜色化)的影响。通过这些实验,作者证明了PUMA模型在多模态任务中的有效性和优越性。

论文的主要内容:

这篇论文提出了一个名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的多模态大型语言模型(MLLM),旨在解决现有MLLM在不同图像生成任务中粒度需求变化的问题。PUMA通过统一多粒度视觉特征作为MLLM的输入和输出,优雅地处理了不同图像生成任务的不同粒度需求,从而在多样性和可控性之间取得了平衡。

主要内容包括:

  1. 问题陈述:现有MLLM方法在处理从文本到图像生成的多样性需求和图像编辑等任务所需的精确控制之间存在权衡问题。
  2. PUMA框架:提出了一个统一的多粒度MLLM框架,包括:
    • 一个图像编码器,用于提取多粒度视觉特征。
    • 一个自回归MLLM,用于处理并逐步生成多尺度图像特征。
    • 一组专门的基于扩散的图像解码器,用于在多个粒度上解码图像。
  3. 两阶段训练策略:首先微调预训练的扩散模型作为图像解码器,然后训练自回归MLLM,使用回归损失,以多尺度编码器特征为监督信号。
  4. 多模态任务:PUMA在多种多模态任务中表现出色,包括图像理解、文本到图像生成、编辑、修复、着色和条件图像生成。
  5. 实验结果:通过一系列实验验证了PUMA在多粒度特征编码、细粒度图像重建、语义引导的图像生成、多样化文本到图像生成、图像编辑和条件图像生成等方面的有效性。此外,还在多个图像理解基准上评估了PUMA的性能。
  6. 结论:PUMA通过同时处理和生成多粒度特征,能够在统一的框架内处理从多样化图像生成到精确编辑和高度可控生成的广泛任务,为实现更通用的多模态AI系统提供了新的可能性。

总体而言,PUMA代表了朝着更通用和强大的多模态AI系统迈出的重要一步,并为实现多模态领域的人工通用智能(AGI)做出了贡献。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-10-23,如有侵权请联系 cloudcommunity@tencent 删除框架论文模型配置性能

本文标签: 每日学术速递1023