GAN卷土重来:10亿参数的GigaGAN效果堪比扩散模型 今日热闻

来源:程序员客栈   时间:2023-04-20 21:49:22


(资料图)

点蓝色字关注“机器学习算法工程师”

设为星标,干货直达!

自从 DALL·E 2 之后,在图像生成方面扩散模型替代GAN成了主流方向,比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日, Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿(1B)的GAN模型:GigaGAN,其在文生图效果上接近扩散模型效果,而且推理速度更快,生成512x512大小图像只需要0.13s,生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能,比如latent插值,风格混合,以及向量运算等。

GigaGAN改进了StyleGAN架构,采用两阶段训练策略:一个是64x64的图像生成器和一个512x512的图像超分2器,其图像生成器架构如下所示(这里也是采用CLIP text encoder来引入text condition):GigaGAN在 LAION2B-en和 COYO-700M数据集上训练,其在COCO数据集上的FID达到9.09,超过stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生图能力,还可以实现可控的合成,比如风格混合,如下图所示:更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/

关键词:

上一篇:

下一篇:

文章推荐

  • GAN卷土重来:10亿参数的GigaGAN效果堪比扩散模型 今日热闻

    点蓝色字关注“机器学习算法工程师”设为星标,干货直达!自从DALL·E2之后,在图像生成方面扩散模型替代GAN成了主流方向,比如开源的文生图模

    程序员客栈 2023-04-20
  • 恒指收跌2.39% 汽车股领跌 环球时讯

    恒指收跌2 39%汽车股领跌,恒指,港股,领跌,内房股,汽车股,恒生电子

    中新经纬 2023-04-20
  • 通讯!中兴通讯SDN/NFV首席科学家屠嘉顺:未来没有后来者,只有创新者

    4月18日,在第29届中国国际广播电视信息网络展览会(CBBN2023)上,中兴通讯SDN NFV首席科学家屠嘉顺应邀出席未来电视峰会,并发表《未来没有

  • 【世界时快讯】备考CPA:看书是提高效率的关键吗?

    CPA考试是我国公认的财务会计领域的最高资格认证之一,其难度之高可见一斑。在备考过程中,很多考生会选择看书来提高效率,但是看书真的是提高

    会计网 2023-04-20
  • 周毅火扮演者 周毅火

    今天来聊聊关于周毅火扮演者,周毅火的文章,现在就为大家来简单介绍下周毅火扮演者,周毅火,希望对各位小伙伴们有所帮助。1、

    城市网 2023-04-20
  • 广告

    X 关闭

    X 关闭

  • 众测
  • more+

    京张高铁每日开行17对冬奥列车

      京张高铁每日开行17对冬奥列车  预计冬奥服务保障期运送运动员、技术官员、持票观众等20万人次  2月6日,2022北京新闻中心举行“北

    北京冬奥会开幕式上 小学生朱德恩深情演绎《我和我的祖国》

      北京冬奥会开幕式上 小学生朱德恩深情演绎《我和我的祖国》  9岁小号手苦练悬臂吹响颂歌  2月4日晚,在北京冬奥会开幕式上,9岁的

    2022北京冬奥会开幕式这19首乐曲串烧不简单

      多名指挥家列曲目单 再由作曲家重新编曲 本报专访冬奥开幕式音乐总监赵麟  开幕式这19首乐曲串烧不简单  “二十四节气”倒计时、

    “一墩难求” 冰墩墩引爆购买潮

    设计师:没想到冰墩墩成爆款一墩难求冰墩墩引爆购买潮 北京冬奥组委:会源源不断供货北京冬奥会吉祥物冰墩墩近日引爆购买潮,导致一墩难求