苹果发布开源 AI Model

苹果近日发布了一款新的开源 AI Model,名为「MGIE」,能够根据自然语言指令来编辑影像。MGIE 的全名为 MLLM-Guided Image Editing,它运用多模态大型语言模型(MLLMs)来解读使用者命令,并进行像素级的操作。该 AI Model 能够处理各种编辑方面,包括 Photoshop 风格的修改、全局照片优化以及局部编辑。

MGIE 是 Apple 与加州大学研究人员合作的成果,这 AI Model 在 2024 年的 ICLR(国际学习表示会议)上被接受发表,ICLR 是 AI 研究领域的顶尖会议之一。论文展示了 MGIE 在提升自动度量和人类评估方面的有效性,同时保持了竞争性的推理效率。

MGIE 的基础理念是运用能够同时处理文本和影像的强大人工智能模型——多模态大型语言模型(MLLMs),来增强基於指令的影像编辑。MLLMs 在跨模态理解和视觉感知的回应生成方面展现出了显着的能力,但它们尚未广泛应用於影像编辑任务上。

MGIE 以两种方式将 MLLMs 整合进影像编辑过程中:首先,它使用 MLLMs 从用户输入中导出富有表达力的指令。这些指令简洁明了,为编辑过程提供了明确的指导。例如,给定输入「使天空更蓝」,MGIE 能够产生「将天空区域的饱和度增加 20%」的指令。

其次,它使用 MLLMs 生成视觉想像,即所需编辑的潜在表徵。这一表徵捕捉了编辑的本质,可以用来指导像素级的操作。MGIE 采用了一种新颖的端到端训练方案,共同优化指令导出、视觉想像和影像编辑模块。

外界指出,WWDC24 重点之一就是

相关文章

  1. 苹果生成式 AI 技术将於 WWDC 现身 范围包括 Siri、Apple Music、Xcode、Pages 等应用
  2. Apple 禁止员工使用 ChatGPT 及其他生成式 AI 工具
  3. 苹果员工:Siri 改进缓慢、无法追上 ChatGPT 令人沮丧
  4. Siri 恶梦来了!Google 将以 Bard 取代 Google Assistant?
能上p站的加速器

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x