2022-04-11 12:33:10 来源:IT之家 阅读量:15846
把椅子上的萌犬 P 成猫猫,需要几步第一步,圈出狗狗第二步,告诉 AI 你的需求鼠标一点,齐活
这位 AI P 图大师,其实是位老朋友 ——OpenAI 风靡全球的那位 DALLE现在,它刚刚完成了2.0 超进化不仅新学了一手出神入化的 P 图绝技,创作质量也有了飞跃式的提升
话不多说,直接看作品感受一下~ 这是 DALL。E 2 在星云爆炸状柯基头这一提示下的创作出来的画作:
这幅萨尔瓦多达利的画像,是不是有点萨尔瓦多达利内味儿了
跟初代 DALLE 比起来,着实是画质与艺术感双双飞升了
日出时分安坐在田野里的狐狸,莫奈风格
所以,研究人员具体如何点亮了 DALLE 的新技能点
CLIP + 扩散模型
DALLE 此番进化,简单来说就是分辨率更高了,延迟更低了
首先,在更细粒度上实现文本 图像功能也就是说,DALLE 2 可以根据自然语言提示进行 P 图在 P 图的过程中,还会考虑阴影,反射,纹理等元素的变化比如在左图标2的位置 P 一个火烈鸟泳圈,DALL—E 2 会把水面倒影这种细节也处理到位
其次,是可以在保留原作核心元素的基础之上,赋予原作船新的风格并且生成画面的画质是 DALLE 1 的 4 倍,即从 256×256 提升到了 1024×1024
具体的实现方法,用 OpenAI 官方的话来说,就是结合了 CLIP 和扩散模型两种技术的优点CLIP 是原版 DALLE 功能实现的基础,是一个负责给图像重排序的模型,其零样本学习能力已经在各种视觉和语言任务上大放异彩而扩散模型的特点在于,在牺牲多样性的前提下,能大大提升生成图像的逼真度
在这个名为 unCLIP 的架构中,CLIP 文本嵌入首先会被喂给自回归或扩散先验,以产生一个图像嵌入而后,这个嵌入会被用来调节扩散编码器,以生成最终的图像
OpenAI 解释称,DALLE 能够 get 图像和用于描述画面的文本之间的关系其图像的生成是在扩散过程中完成的,可以理解为是从一堆点出发,用越来越多的细节去把图像填充完整
研究人员将 DALLE 2 与 DALLE,GLIDE 等模型进行了对比
实验结果显示,DALLE 2 的图像生成质量与 GLIDE 相当,但 DALLE 的生成结果更具多样性
目前,DALL。E 2 并未对公众开放,不过如果你感兴趣,可以在线注册申请一发~
项目地址:
。