乌兰察布劳沦新能源有限公司

英伟达连合MIT、清华提议文生图框架Sana，可秒出高离别率图像
发布日期：2024-10-24 15:06 点击次数：185

英伟达连合MIT、清华提议文生图框架Sana，可秒出高离别率图像

连年来，文本到图像的生成时代获得了权贵进展，这尤其收货于潜在扩散模子（Latent Diffusion Models）的提议与应用。

潜在扩散模子由 Rombach 等东说念主于 2022 岁首次提议[1]，它是一种通过在预慎重的自动编码器生成的潜在空间中进行扩散与逆扩散的时代。由于潜在空间中的维度较低，因此，比较平直在像素空间中操作，它大大禁止了狡计量，进而使咱们能在较低的狡计资源需求下齐备高质地的图像生成。

图丨潜在扩散模子概览（源头：arXiv）

但另一方面，好多模子的参数却不断扩大。从 PixArt 的 0.6B 参数到 Flux 的 12B 参数，其慎重和推理的资本长久居高不下，使用门槛也较高，这较着不利于时代的进一步发展。

因此，如安在保捏图像质地的前提下，拓荒出狡计成果高、初始速率快且易于使用的图像生成器，成为了一个遑急的问题。

恰是在这一布景下，英伟达连合麻省理工学院与清华大学团队，发表了一篇预印本论文，提议了一种新的文生图框架 Sana，大约高效生成最高离别率为 4096×4096 的高质地图像，对这一贫苦作念出解答[2]。

图丨论文标题《Sana：诈欺线性扩散变换器齐备高效的高离别率图像合成》（源头：arXiv）

比较于传统的大型扩散模子，Sana 在模子大小上权贵缩减，并在推理速率方面齐备了繁密的进步。在生成 1K 离别率图像时，Sana-0.6B 速率比现时最先进的模子 FLUX 快了 40 倍以上。而 Sana 之是以能在性能与成果之间齐备风雅的均衡，归功于其中枢架构的一系列翻新。

Sana 的上风率先收货于其所使用的深度压缩自动编码器（Deep Compression Autoencoder）。传统的自动编码器频繁只可将图像的长度和宽度压缩 8 倍，Sana 接受了一种新的自动编码器，压缩倍数高达 32 倍。

图丨Sana 概括（源头：arXiv）

这种高倍数的压缩权贵减少了潜在 token 的数目，从而禁止了慎重和推理的狡计量，终点适用于超高离别率图像的生成。通过这种时势，Sana 得以在禁止狡计支出的同期，保证了活命图像的质地，作念到了高成果与高质地的兼得。

其次，Sana 接受了一种高效的线性 DiT （Linear Diffusion Transformer）来替代传统的二次方复杂度的自扫视力模块。以往的自扫视力机制狡计复杂度为 O(N²)，在处治高离别率图像时为二次增长，因而需要大量的狡计资源。

而 Sana 通过使用线性扫视力，将狡计复杂度禁止至 O(N)，由此权贵提高了处治高离别率图像时的狡计成果。

同期，看护团队还引入了 Mix-FFN 模块以替代 MLP-FFN，将 3×3 深度卷积整合到多层感知器（Multilayer Perceptron，MLP）中，从而更好地团员 token 的局部信息。限度标明，这种模块联想使得线性扫视力在性能上与传统的自扫视力相忘形，但在生成 4K 图像时，其延长裁汰了 1.7 倍。

而且，Mix-FFN 无需位置编码（NoPE）就能保捏生成性能，是首个透彻不祥位置镶嵌的 DiT。

Sana 的另一处创新在于对文本编码器的接管。团队使用了最新的仅解码器式袖珍 LLM Gemma-2 行动文本编码器，以增强对用户教唆的证据和推理技艺。

与之前庸俗使用的 T5 或 CLIP 编码器比较，Gemma-2 具有更强的文智商略和指示侍从技艺，在证据和生成用户教唆方面进展愈加优秀，从而使生成的图像在本色和细节上更合适预期。

况且，看护东说念主员通过联想复杂的东说念主类指示（Complex Human Instruction，CHI），勾通高下体裁习，进一步提高了 Sana 的文本-图像对都技艺。

为了进一步提高慎重和推理的成果，团队还提议了一套高效的慎重和采样战略。

在慎重过程中，Sana 使用多种视觉言语模子（Visual Language Model，VLM）对图像进行自动标签，并通过基于 Clipscore 的采样战略来接管最合适的标签，从而提高慎重的拘谨速率和文本与图像的对都进度。比较于传统的立地接管标签的标准，这种战略权贵减少了慎重过程中的不细则性，并加快了模子的拘谨。

在推理阶段，团队提议了 Flow-DPM-Solver 采样标准，将采样神志从传统的 28-50 步减少至 14-20 步，况且在采样质地上齐备了进一步进步。这种修订不仅提高了采样的成果，还在很猛进度上禁止了狡计资源的需求，使得 Sana 大约在较低的硬件确立上初始。

本质限度标明，Sana-0.6B 不仅在参数数目上远小于好多现存的扩散模子，而且在狡计速率上也有权贵的上风。在一张 16GB GPU 的 PC 端上，Sana-0.6B 不错在不到 1 秒的时刻内生要素辨率为 1024×1024 的图像，这意味着它在低资本的本色创作和边际成立部署上具有极大的应用后劲。

图丨Sana 生成的图像过头推理延长（源头：arXiv）

而在生成 4096×4096 的高离别率图像时，其推理延长也仅为 9.6 秒。比较之下，现时最先进的 FLUX 模子需要 469 秒才能完成相同的任务。

进一步的测试败露，在1024×1024 离别率下，Sana 的生成速率比 LUMINA-Next、SDXL 以及 PixArt-Σ 等同类模子均快了数倍，同期保捏了相配高的生成质地。

在生成性能上，Sana-0.6B 的每秒模糊量达到了 1.7 张图像，而且参数目为 1.6B 的 Sana 版块也能齐备 1.0 张每秒的速率，这标明 Sana 在看护高图像质地的前提下依旧具备极高的推理成果。

图丨Sana 与 SOTA 标准在成果和性能方面的互异（源头：arXiv）

归来来说，Sana 为高效的高离别率图像生成提供了一个有后劲的基础模子，其权贵的狡计成果和速率上风，使得高离别率图像生成时代向低资本、低门槛标的迈出了遑急的一步。未来，团队磋商基于 Sana 构建高效的视频生成经过，将其应用拓展至动态本色生成范畴。

干系代码行将公布在 GitHub（名目地址：https://github.com/NVlabs/Sana）。

参考贵府：

1.https://arxiv.org/abs/2112.10752

2.https://arxiv.org/abs/2410.10629

运营/排版：何晨龙

高离别率Sana模子arXiv图像发布于：北京市声明：该文不雅点仅代表作家本东说念主，搜狐号系信息发布平台，搜狐仅提供信息存储空间业绩。

上一篇：以军向黎南部城市部分住户发“焦灼惊骇令”
下一篇：火箭首战失利，年青球员现象下滑严重，应重新分拨出场时刻

乌兰察布劳沦新能源有限公司

英伟达连合MIT、清华提议文生图框架Sana，可秒出高离别率图像

相关资讯

须眉被困河中大树消防员驾驶橡皮艇维持

脑子抽筋时作念过哪些小趣事呢? 网友: 有些事我方齐合计尽头傻

45岁是说念坎，疾病皆在擦掌磨拳，中年东说念主该如何松开跨往常？

乌兰察布劳沦新能源有限公司

英伟达连合MIT、清华提议文生图框架Sana，可秒出高离别率图像

相关资讯

须眉被困河中大树 消防员驾驶橡皮艇维持

脑子抽筋时作念过哪些小趣事呢? 网友: 有些事我方齐合计尽头傻

45岁是说念坎，疾病皆在擦掌磨拳，中年东说念主该如何松开跨往常？

须眉被困河中大树消防员驾驶橡皮艇维持