ai视觉识别模型 ai图像识别评价指标

互联资讯 2023-04-17 19:08:03 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

AI视觉识别技术典型应用场景,AI视觉识别开门柜售货机,AI视觉识别无人售货机,AI视觉识别应用

新模型在ImageNet512×512上实现了3.85FID，甚至在每个样本只有25次正向传递的情况下，其生成图像质量可匹敌DeepMind提出的BigGAN。

2021年5月，Alex Nichol和Prafulla Dhariwal两位学者发表了《Diffusion Models Beat GANs on Image Synthesis》，文中证明了扩散模型在图像合成上优胜于目前最先进的生成模型的图像质量。

论文地址&#【【网址】】/abs/2105.05233

代码地址&#【【网址】】/openai/guided-diffusion

研究人员通过一系列的消融实验，以找到更好的扩散模型架构，实现无条件的图像合成。对于条件图像合成，则使用分类器指导（利用分类器的梯度以来权衡样本质量-多样性）进一步提高了样本质量。

作者在ImageNet 128×128上达到2.97的FID，在ImageNet 256×256上达到4.59的FID，在ImageNet512×512上达到7.72的FID，并且即使每个样本只有25次正向传递，其生成图像质量依然可以匹配BigGAN-deep，同时保持了更好的分布覆盖率（多样性）。最后，作者发现分类器指导与上采样扩散模型可以很好地结合在一起，从而将ImageNet512×512上的FID进一步降低到3.85。

DeepMind曾于2018年在一篇 ICLR 2019 论文中提出了BigGAN，当时一经发表就引起了大量关注，很多学者都不敢相信AI竟能生成如此高质量的图像，这些生成图像的目标和背景都相当逼真，边界也很自然。

由BigGAN模型生成的512x512分辨率图像

如今，Alex Nichol和Prafulla Dhariwal两位学者提出的扩散模型，在图像合成上终于可匹敌BigGAN。

从最佳ImageNet512×512模型(FID3.85)中选择的样本

据PapersWithCode数据显示，目前在ImageNet数据集的从64x64到512x512分辨率的图像生成模型榜单中，本文提出的ADM模型全部占据榜首。另外，在LSUN数据集上，ADM模型图像生成能力也首屈一指。

其中，在ImageNet数据集的128x128和256x256图像生成模型榜单中，BigGAN自2018年来一直找不到对手。

在过去的几年里，生成模型已经获得了生成类似人类的自然语言、无限高质量的合成图像以及高度多样化的人类语言和音乐的能力。

虽然这些模型已经能够产生逼真的图像和声音，但是仍有很大的改进空间，而且更好的生成模型可能会对平面设计、游戏、音乐制作以及其他领域产生广泛的影响。

GANs目前在大多数图像生成任务上拥有最先进的技术，这些技术是通过样本质量来衡量的，例如FID，Inception Score 和 Precision 。其中一些指标并不能完全捕获多样性，而且与最先进的基于似然度的模型相比，GANs捕获的多样性较少。此外，如果没有精心选择的超参数和正则化器，GANs在训练中经常崩溃。

扩散模型是一类基于似然度的模型，最近被证明可以生成高质量的图像，同时提供了理想的属性，如更高的分布覆盖率，稳定的训练目标和更好的可扩展性。这些模型通过逐步去除信号中的噪声来生成样本，其训练目标可以表示为一个重新加权的变分下界。

Nichol和Dhariwal发现，随着计算量的增加，这些模型得到了可靠的改进，即使在高难度ImageNet256×256数据集上也能生成高质量的样本。然而，该模型的FID仍然不能与BigGAN-deep相比，后者是目前这个数据集上最先进的技术。

研究人员假设扩散模型和GANs之间的差距至少在两方面：第一，最近GAN文献使用的模型架构已经被大量探索和改进；第二，GAN能够权衡质量和多样性，生成高质量的样本，但不覆盖整个分布。如何将这些优势应用到扩散模型？

研究者首先改进模型结构，然后设计一个以多样性换取质量的方案。通过这些改进，实现了一个新的最先进的模型，在几个不同的指标和数据集上超过了GANs。

Nichol 和 Dhariwal 找到为扩散模型提供最佳样本质量的模型架构进行一些架构调整。

【【微信】】在论文“Denoising diffusion probabilistic models”中引入了U-Net的扩散模型架构，与先前的架构相比，该架构大大提高了样本质量，用于去噪得分匹配。

模型使用了多个残差层和下采样卷积，然后是多个残差层和上采样卷积，其中跳过连接将相同尺寸的卷积层连接起来。

此外，他们使用了一个16×16分辨率的单头全局注意力层，并且在每个残差块中添加一个时间步嵌入的投影。

Song等人在ICLR 2021杰出论文“Score-based generati【【微信】】chastic differential equations”中，发现对U-Net架构的进一步改进可以提高扩散模型在CIFAR-10和CelebA-64数据集的性能。

研究人员在ImageNet128×128上展示了同样的结果，发现在更大、更多样、分辨率更高的数据集上，架构改进确实可以大大提高采样质量。

Nichol和Dhariwal探讨了以下的架构变化：

增加深度与宽度，保持模型尺寸相对恒定。
增加注意力头的数量。
使用32×32,16×16和8×8分辨率的注意力，而不仅仅是16×16。
使用BigGAN残差块对激活值进行上采样和下采样。
参考“Score-based generati【【微信】】chastic differential equations”等论文，以1/√2因子重新缩放残差连接数。

研究者还研究了其他更符合 Transformer 架构的注意力配置。将注意力头固定在一个常数上，或者固定每个头的通道数。结果表明更多的头或更少的通道可以改善 FID。

不同注意力配置的消融实验结果：更多的头或更少的通道可以改善 FID

为了在无条件图像生成方面评估改进的模型架构，研究者在三个LSUN数据集类别（卧室、马和猫）上训练不同配置的扩散模型。为了评估分类器指导，研究者在128×128，256×256，512×512分辨率的ImageNet数据集上训练条件扩散模型。

最先进的图像生成技术

根据下表总结，扩散模型可以在每个任务上得到最好的FID，在除一个任务外的所有任务上得到最好的sFID。

通过改进的架构，研究者已经在LSUN和ImageNet64×64图像生成上获得了最佳的性能。对于更高分辨率的ImageNet，研究者观察到扩散模型大大超过最好的GANs。这些模型生成的图像的感知质量接近GAN，同时保持了更高的分布覆盖率。

比较了来自BigGAN-deep和最佳扩散模型的随机样本质量。

虽然样本具有相似的感知质量，但扩散模型包含了比GAN更多的模式，比如放大的鸵鸟头特写，单只火烈鸟，不同方向观察的芝士汉堡，以及一条没有被人类抓着的马口鱼。

取自BigGAN-deep的样本(FID6.95，左)，与取自扩散模型的样本(FID4.59，中)和取自训练集的样本(右)（truncation=1.0）。

与Upsampling比较

为了提高高分辨率下的样品质量，Nichol等人构造了一个低分辨率扩散模型和上采样扩散模型。在这种方法中，上采样扩散模型被训练从训练集上采样图像，以低分辨率图像为条件通过一个简单的技术上采样它们(例如双线性插值)，并将结果通道级联到模型输入。

在采样过程中，低分辨率扩散模型生成一个样本，然后上采样模型以该样本为条件。这大大提高了ImageNet256×256上的FID，但不能达到BigGAN等最先进模型的性能。

研究者比较了这种上采样技术和分类器指导，并表明这两种方法从不同方面提高了样本采样质量。上采样提高了精度，，同时保持了较高的召回率。而分类器指导则提供了一个用于权衡多样性以获得更高精度的旋钮。

通过使用较低分辨率上的分类器指导，然后再上采样至较高分辨率，扩散模型在ImageNet 512×512上获得了最佳的FID，这表明这些方法是相辅相成的。

现有的生成建模技术可以基于它们表示概率分布的方式大致分为两类。

第一种是基于似然的模型，它通过近似的最大似然直接学习分布的概率密度(或质量)函数。典型的基于似然的模型包括自回归模型、归一化流模型、基于能量的模型(EBMs)和变分自编码器(VAEs)。
第二种是隐式生成模型，其中概率分布是通过采样过程的模型来隐式表示的。最突出的例子是生成对抗性网络(GANs) ，它通过将随机高斯矢量与神经网络相转换来合成新的数据分布样本。

贝叶斯网络、马尔可夫随机场(MRF)、自回归模型和归一化流模型都是基于似然的模型的例子。所有这些模型都表示一个分布的概率密度或质量函数

GAN 是隐式模型的一个例子。它隐式地表示生成器网络可以生成的所有对象的分布

然而，基于似然的模型和隐式生成模型都有很大的局限性。基于似然的模型要么要求对模型结构有很强的约束，以确保似然计算的可控归一化常数，要么必须依靠替代目标来近似最大似然训练。另一方面，隐式生成模型往往需要对抗性训练，从而存在不稳定性，并可能导致模式崩溃。

基于分数的生成模型与扩散概率模型紧密相连，扩散概率模型是由Jascha Sohl - Dickstein和他的同事首先提出的一种具有多随机层的VAEs。

去年，【【微信】】和他的同事在论文“Denoising diffusion probabilistic models”中指出，用于训练扩散概率模型的证据下限(ELBO)基本上等同于基于分数的生成模型中的分数匹配目标的混合。此外，通过参数化的解码器作为一个序列得分为基础的模型，他们第一次证明扩散模型可以产生高质量的、可媲美GAN的图像样本。

扩散模型其与现有的模型相比有几个重要的优点：没有对抗性训练的GAN级样本质量，灵活的模型架构，精确的对数似然计算，唯一可辨识的表示学习，以及不需要重新训练模型的逆问题求解。

然而，研究者也指出，目前扩散模型相对于GAN还存在几个缺点：训练计算量更大、采样速度更慢、采样过程中需要多次前向传播、在单步模型上远不如GAN。

图9：来自StyleGAN2的样本(左)，与来自扩散模型(中)的样本，和来自训练集的样本(右)。(LSUN数据集)

图13：ADM最好的512×512模型的样品(FID:3.85)，(ImageNet数据集)

图15：从最好的512 × 512模型(FID: 3.85)中提取的复杂样本，(ImageNet数据集)

参考链接：

https://twitter.com/【【淘密令】】/status/1392280377784369152

http://【【微信】】ithub.io/blzog/2021/score/

https://mp.weixin.qq.com/s/【【微信】】dw

https【【网址】】/paper/diffusion-models-beat-gans-on-image-synthesis

https://openreview.net/pdf?id=【【微信】】

编辑：王菁

校对：林亦霖

open ai最大容量 openai模型开源吗

金磊鱼羊萧箫发自凹非寺

量子位 | 公众号【【微信】】

图像生成领域，看来又要变天了。

就在刚刚，OpenAI开源了比扩散模型更快、性能更好的一致性模型：

无需对抗训练，就能生成高质量图片！

这个重磅消息一经发出，立刻引爆学术圈。

虽说论文本身在3月份就已低调发布，但当时大伙儿普遍认为它只是个OpenAI的前沿研究，并不会真正将细节公开。

没想到这次直接来了个开源。有网友立刻上手实测了一波效果，发现只需要3.5秒左右就能生成64张左右256×256的图像：

游戏结束！

这是这位网友生成的图像效果，看起来还不错：

还有网友调侃称：这次OpenAI终于Open了！

值得一提的是，论文一作OpenAI科学家宋r，是一位清华校友，16岁就通过领军计划进入清华数理基础科学班求学。

一起来看看这次OpenAI开源了一项怎样的研究。

开源了一个怎样的重磅研究？

作为一个图像生成AI，一致性模型（Consistency Model）最大的特点在于快又好。

相比扩散模型，它主要有两大优势：

其一，无需对抗训练（ad【【微信】】），就能直接生成高质量的图像样本。

其二，相比扩散模型可能需要几百甚至上千次迭代，一致性模型只需要一两步就能搞定多种图像任务――

包括上色、去噪、超分等，都可以在几步之内搞定，而不需要对这些任务进行明确训练。（当然，如果进行少样本学习的话，生成效果也会更好）

所以一致性模型究竟是如何实现这种效果的？

从原理来看，一致性模型的诞生与ODE（常微分方程）式生成扩散模型有关。

图中可见，ODE会先一步步将图片数据转换成噪声，随后再进行一个逆向求解，从噪声中学习生成图像。

而就在这个过程中，作者们试图将ODE轨迹上的任何点（如Xt、Xt和Xr）映射到它的原点（如X0）进行生成建模。

随后，这个映射的模型被命名为一致性模型，因为它们的输出都是同一轨迹上的同一点：

基于这种思路，一致性模型不需要再经过漫长的迭代，才能生成一个相对质量比较高的图像，而是能做到一步生成。

下图是一致性模型（CD）和扩散模型（PD）在图像生成指标FID上的对比。

其中，PD是去年斯坦福和谷歌大脑提出的一种最新扩散模型方法渐进式蒸馏（progressi【【微信】】）的简称，CD（consistency distillation）则是一致性蒸馏方法。

可以看出，几乎在所有数据集上，一致性模型的图像生成效果都要比扩散模型更好，唯一的例外是256×256的房间数据集上：

除此之外，作者们也将扩散模型、一致性模型和GAN等模型在其他各种数据集上进行了对比：

不过也有网友提到，这次开源的AI一致性模型，能生成的图像还是太小：

很难过，这次开源的版本生成的图像还是太小了，要是能给出生成更大图像的开源版本，肯定会非常让人兴奋。

也有网友猜测，可能只是OpenAI还没训练出来。不过可能训练出来了我们也不一定能搞到代码（手动狗头）。

不过对于这项工作的意义，TechCrunch表示：

你若是有一堆GPU，那用扩散模型在一两分钟内迭代1500多次，生成图片的效果当然是极好的。

但如果你想在手机上或者聊天对话的时候实时生成图片，那显然扩散模型不是最好的选择。

一致性模型是OpenAI下一个重要动作。

期待OpenAI会开源一波分辨率更高的图像生成AI~

清华校友宋r一作

论文一作宋r，目前是OpenAI的研究科学家。

他14岁时，曾以17位评委全票通过的成绩，入选“清华大学新百年领军计划”。在次年高考中，他又成为连云港市理科状元，顺利考入清华。

2016年，宋r从清华大学数理基础科学班毕业，此后赴斯坦福深造。2022年，宋r获斯坦福计算机科学博士学位，而后加入OpenAI。

在博士期间，他的一作论文“Score-Based Generati【【微信】】chastic Differential Equations”还获得过ICLR 2021的杰出论文奖。

根据其个人主页信息，从2024年1月开始，宋r将正式加入加州理工学院电子系和计算数学科学系，担任助理教授。

项目地址：

【【网址】】/openai/consistency_models

论文地址：

【【网址】】/abs/2303.01469

参考链接：

[1]https://【【微信】】.com/【【淘密令】】/【【微信】】/1646217811898011648

[2]https://【【微信】】.com/_akhaliq/【【微信】】/【【QQ微信】】【【QQ微信】】

― 完 ―

原标题：《OpenAI新生成模型开源炸场！比Diffusion更快更强，清华校友宋r一作》

阅读原文

本文地址： https://www.528683.com//show-402168.html