商业日报网

滚动新闻:
·3S应急装备推出“便携式水基型灭火器” 颠覆消防产品 引领公众新认知 ·阿诗特能源LABEL液冷系列工商业储能系统新品L1500正式发布! ·撬动企业战略咨询助力夹克专家再崛起,为本土服企提供借鉴案例 ·佳通轮胎属于什么档次?凯迪拉克车主有3大感受 ·安全与舒适同行,佳通轮胎为您的旅程保驾护航 ·Amphenol安费诺焕新发布ExaMAX2? Gen2,解放AI硬件算力效能! ·官方指定用酒单位!远明老酒助力2023北京网络安全大会 ·亿联银行合作马上消费,新业务支付结算成功上线 ·手机迅雷8安卓端正式发布 首页由你定义 最大12T超大云盘缓解空间焦虑 ·敢与死神“抢时间” 这位麦田商旅网约车司机为乘客点亮生命之光! ·海信视像:前三季度归母净利润11.07亿元 同比增长76.86% ·北京银保监局公布2021年北京保险业成绩单 ·荣盛发展7.8亿美元债展期各项条件均已达成3月17日已完成全部美元债的展期交割工作 ·芯朋微发布2022年度向特定对象发行A股股票预案 ·深高速集团的志愿者们迅速集结在多个社区都能看到他们协助抗疫奔波忙碌的身影 ·5家中国药企进入辉瑞新冠口服药“特仿”名单,有望分享上述市场增量 ·分拆上市趋热是我国资本市场发展到一定阶段必然出现的一种情形 ·时代新材:公司成功突破了风电联轴器的关键技术成功实现批量装机现在在国际上的竞争力如何 ·除了互联网医疗已广泛应用之外已在医院得到大力推广和高频使用 ·中欧基金:等待信心修复 

扩散模型近成为了AI界关注的焦点

来源:TechWeb    发布时间:2022-02-15 00:39:57   阅读量:18524   

由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。

扩散模型近成为了AI界关注的焦点

谷歌,OpenAI过去一年都提出了自家的扩散模型,效果也都非常惊艳。

另一边,剑桥大学的学者David Krueger提出,自动编码器会不会卷土重来成为研究热潮。

就在最近,DeepMind的一位研究科学家Sander Dieleman基于以上两股热潮,提出了自己的观点:

扩散模型就是自动编码器啊!

这一观点立刻引起了不少网友的注意,大家看了Sander的阐述,都觉得说得很有道理,并且给了自己不少启发。

那么,他到底是如何论证自己这一观点的呢。

我们一起来看。

去噪自动编码器=扩散模型

想要看透这二者之间的联系,首先要看看它们自身的特点。

扩散模型是一种新的图像生成方法,其名字中的扩散本质上是一个迭代过程。

它最早于2015提出,是定义了一个马尔可夫链,用于在扩散步骤中缓慢地向数据添加随机噪声,然后通过学习逆转扩散过程从噪声中构建所需的数据样本。

相比GAN,VAE和基于流的生成模型,扩散模型在性能上有不错的权衡,最近已被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。

比如去年谷歌提出的级联扩散模型SR3,就是以低分辨率图像为输入,从纯噪声中构建出对应的高分辨率图像。

OpenAI的GLIDE,ADM—G也是用上了扩散模型,以此能生成更加更真实,多样,复杂的图像。

GLIDE模型效果

接下来,再来看自动编码器的原理。

自动编码器可以理解为一个试图去还原原始输入的系统,模型如下所示:

它的主要目的是将输入转换为中间变量,然后再将中间变量转化为输出,最后对比输入和输出,使它们二者之间无限接近。

当模型框架中存在瓶颈层或者输入被损坏时,自动编码器能够学习输入本质特征的特性,就可以大显身手了。

它可以将损坏数据作为输入,通过训练来预测未损坏的原始数据作为输出。

看到这里是不是有点眼熟了。

向输入中加入噪声,不就是一种破坏输入的方法吗。

那么,去噪自动编码器和扩散模型,原理上不就是有着异曲同工之妙吗。

二者是如何等价的。

扩散模型的关键,在于一个分数函数

需要注意的是,这和

不同。

通过后者,我们可以知道如何改变模型参数来增加向下输入的可能性,而前者能够让我们知道如何改变输入本身来增加可能性。

在训练过程中,希望在去噪中的每一点都使用相同的网络。

为了实现这个,需要引入一个额外的输入

,由此可以看到在去噪中进行到了哪一部分

当t=0时,对应无噪声数据,t=1时,对应纯噪声数据。

训练这个网络的方法,就是用添加噪声

来破坏输入x。然后从

中预测

需要注意的是,在这里方差大小取决于t,因为它可以对应特定点的噪声水平。损失函数通常使用均方误差,有时会用 lambda,进行加权,因此某些噪声水平会优先于其他噪声水平:

假设lambda,=1时,一个关键的观测值为

或 x,在这里可以用公式:

为了确保它们是等价的,可以考虑使用训练模型

来预测

,并加上一个新的残差连接。从输入到输出的比例系数均为—1,这个调整后的模型则实现了:

由此,一个扩散模型便逐渐变成一个去噪自动编码器了!

One More Thing

并且以上得到的这个去噪自动编码器,和传统类型也有不同:

第一,附加输入t可以使单个模型用一组共用参数来处理噪声级别不同的情况,第二,因为更加关注模型的输出,所以内部没有瓶颈层,这可能会导致弊大于利的结果。光看PaperswithCode上基于ImageNet数据集的图像生成模型榜单,从64x64到512x512分辨率都由这一模型占据榜首:。

此外他还表示,模型效果好的关键应该在于共用参数,这种方法已经被广泛应用在表示学习上。

从这些成果中也能发现一个规律:

噪声含量越高的模型,往往更容易学习到图像的特征,噪声含量越低的模型,则会更专注于细节。

这意味着伴随着噪声水平逐步降低,扩散模型能够补充图像细节也就越来越多。

最后,我们再来介绍一下这一发现的提出者mdash,mdash,Sander Dieleman。

他现在是DeepMind的一位研究科学家,主要研究领域为生成模型和音乐合成。

参与的主要研究工作有Spotify音乐平台的内容推荐模型。

【免责声明】 凡本站未注明来源为(商业日报网)的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。

热文推荐

首页 | 焦点| 业界| 财经| 企业| 消费| 行业| 股票| 视窗| 商业| 经贸| 产业| 资讯

Copyright @ 2010- 备案号:鄂ICP备2021013412号-3 网站地图