2021年,OpenAI发布DALL-E,证明了Transformer不只能处理文字,还能理解文字与图像的对应关系,并生成全新图像。只需输入”一个穿着宇航服抱着吉他的柯基犬”,DALL-E就能生成从未存在过的图片。这背后的关键技术是CLIP——一个理解文字和图像语义对应关系的大模型。DALL-E标志着多模态AI时代的到来:AI开始真正理解不同”感官”之间的联系,而不是只处理单一模态。
【为什么重要?】
DALL-E是AI从”理解语言”到”理解世界”的关键跨越,开创了文生图这一全新AI应用类别,直接催生了Midjourney、Stable Diffusion等创意AI工具的爆发。
【逻辑闭环】
解决了什么:建立了文字和图像之间的语义桥梁,让AI能够根据语言描述生成具体视觉内容,实现了跨模态理解。局限是什么:早期DALL-E生成图像分辨率低,细节不准确(尤其是人手),且封闭API不可开源。这推动了Stable Diffusion(开源)和DALL-E2(质量飞跃)的出现,更重要的是推动了扩散模型成为主流生成架构,取代GAN。
觉得有用?点个赞