黑森林实验室(Black Forest Labs)——曾参与开发原始的Stable Diffusion——推出了Flux,这是迄今为止最大的开源文本到图像模型。Flux拥有惊人的120亿参数,可以生成媲美Midjourney的视觉效果,甚至可能超越当前所有其他模型——无论是开源还是闭源。
Flux有三个版本:Flux Dev,是一个开源的社区开发版本,采用非商业许可证;Flux Schnell,是一个速度更快的精简版,运行速度提高了多达十倍,采用Apache 2许可证;以及顶级版本Flux Pro,这是一个通过API提供的闭源版本。
Flux Dev和Flux Schnell可以在Hugging Face上下载。ComfyUI也已更新以支持在本地工作流中使用这些新模型。
黑森林实验室在周四宣布了这一消息,强调了团队在推动媒体生成性AI方面的可靠记录。
“我们的创新包括创建VQGAN和Latent Diffusion、Stability AI的Stable Diffusion模型,用于图像和视频生成(Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快实时图像合成的Adversarial Diffusion Distillation,”团队表示。
此次发布是在成功完成3100万美元的种子融资之后进行的,此轮融资由Andreessen Horowitz领投,其他著名投资者包括Brendan Iribe、Michael Ovitz和Garry Tan。
在基准测试中,Flux表示其模型在图像合成方面树立了新标准,超越了Midjourney v6.0、Dall-E 3(HD)和SD3 Ultra等模型,在视觉质量、提示遵从性、尺寸/比例变化、字体处理和输出多样性方面表现出色。黑森林实验室的图表显示,其Pro和Dev模型是迄今为止最好的图像生成器,而其较不强大的Schnell版本则位于Midjourney v5和Ideogram之间。
然而,拥有较小GPU的用户可能会遇到麻烦。开源模型的体积约为23GB,这意味着在量化版本发布之前(如果有的话),可能需要近24GB的显存才能运行。但即便如此,拥有6GB或8GB显存的用户可能很快就不得不告别测试新AI模型的乐趣了。
然而,黑森林实验室与开发了另一个开源模型Auraflow的Fal AI合作,以支持云端生成。这些模型也可以在Replicate.com上免费测试。一旦用户达到每日配额,生成33张Flux Pro图像或333张Flux Schnell图像的费用为1美元。
这比Midjourney或Ideogram的性价比更高。Midjourney的基础计划每年费用为96美元,每月可生成约200张图像,相当于每美元25张图像。Ideogram的基础计划每年费用为84美元,每月最多可生成400张图像,即每美元50张图像。
测试Flux
Flux在基准测试中表现出色,但它生成的图像质量如何?我们将其与目前最突出的开源图像生成器进行比较,确认我们对其印象深刻。让我们比较一下Flux、SD3 Medium和Auraflow,然后再与Midjourney进行一对一对比。
插画
提示词 1: “Hand-drawn illustration of a giant spider chasing a woman in the jungle, extremely scary, anguish, dark and creepy scenery, horror, hints of analog photography influence, sketch.”
Flux在大气光影的运用上表现出色。蜘蛛的设计非常可怕,尖锐的腿和恐怖的脸让人毛骨悚然。女人的脆弱姿态很好地传达了痛苦的情感,是对解剖学最准确的表现。
Auraflow的青绿色调营造出一种诡异、异世界的感觉,但未能完全捕捉“黑暗和恐怖”的要求。蜘蛛的设计不太吓人,更具风格化。
SD3 Medium的黑白风格赋予图像强烈的素描质感。蜘蛛的设计细致且具有威胁性,但肢体在形态上存在一些缺陷。
我们的排名:
- Flux:最佳地捕捉到了恐怖、痛苦和诡异的氛围。它的创作最为准确,没有形态上的缺陷。
- SD3 Medium:虽然视觉上引人注目,但在“模拟摄影”方面与提示最不一致。恐怖风格明显。
- Auraflow:整体上最接近素描和模拟摄影。然而,它是最不诡异、最不吓人,最不能传达整体场景氛围的。
空间意识
提示词 2: “A dog standing on top of a TV showing the word ‘Decrypt’ on the screen. On the left there is a woman in a business suit holding a coin, on the right there is a robot standing on top of a first aid box. The overall scenery is surreal.”
Flux 是最符合提示要求的模型。它将所有元素都放置在所需的位置。构图平衡良好,元素的意外布局和复古未来主义的冲突增强了超现实感。虽然生成了额外的一只手,但这个版本最准确地捕捉了提示的本质。
SD3 Medium 排名第二。它理解了所有元素,但也有一些变动,比如卡通风格和坐着而不是站着的狗。它捕捉到了一些提示的元素,但错过了其他一些,在准确性方面介于 Flux 和 Auraflow 之间。
Auraflow 对提示进行了某些自由演绎。狗在电视上但坐着而不是站着,女人有着更复古的1950年代外观而不是现代商务装,机器人在一个蓝色基座上而不是急救箱上,整体风格更加复古和多彩,少了些超现实感。文字也表现不佳。
尽管具有创意,但它比 Flux 版本更偏离原始提示。
我们的排名:
- Flux:最准确地符合提示,并实现了超现实的效果。
- SD3 Medium:捕捉到主要元素,但错过了一些细节。
- Auraflow:具有创意的演绎,但最偏离原始提示。
真实感
提示词3: “A high-resolution photograph of a bustling city street at night, neon signs illuminating the scene, people walking along the sidewalks, cars driving by, a street vendor selling hot dogs, reflections of lights on wet pavement, the overall style is hyper-realistic with attention to detail and lighting, a neon sign says ‘Decrypt.’”
Flux 完美符合提示要求。它展示了一条夜晚的繁忙城市街道,霓虹灯照亮了整个场景,人们在人行道上行走,汽车在路上行驶。灯光在湿润的路面上的反射非常真实,"Decrypt" 标志显眼地展示出来。
Auraflow 对提示进行了一些自由演绎。鲜艳的霓虹灯光营造了繁忙的氛围,湿润路面的反射增加了真实感。街头小贩清晰可见并与场景互动。然而,图像略显过饱和,街头小贩看起来有点卡通化,削弱了超现实主义风格。霓虹灯标志模糊不清,模型生成的奇怪视角使人行道和街道之间没有明显的区分。
SD3 Medium 也捕捉到了提示的主要元素,但有一些变动。平衡的构图同时关注行人和环境,现实的照明和反射增强了夜间城市的感觉。"Decrypt" 标志显眼,街头小贩为热闹的氛围增色不少。然而,仔细观察会发现一些使场景不真实的元素。例如,人们在街上行走,而人行道扩展以容纳热狗摊。
我们的排名:
- Flux:详细且照明良好。很好地捕捉了繁忙的街道,标志易于阅读,行人表现得当。
- SD3 Medium:以平衡的构图捕捉了提示的要求,具有现实的照明和良好整合的元素,包括"Decrypt" 标志和街头小贩。但行人的真实感不如Flux的生成。
- Auraflow:具有创意的演绎,灯光鲜艳,但由于卡通化的街头小贩和混乱的霓虹灯标志,偏离了超现实主义风格。视角存在一些问题,如果目标是写实,这将是个问题。
终极对决:Flux v. Midjourney
我们还比较了Flux和Midjourney。但我们没有使用自己的生成,而是复制了Midjourney的“发现”页面上的顶级提示。以下是这两个模型的对比结果。
真实感
提示词1:A black and white photo of a woman with long straight hair, wearing an all-black outfit that accentuates her curves, sitting on the floor in front of a modern sofa. She is posing confidently for the camera, showcasing her slender legs as she crouches down. The background features a minimalist design, emphasizing her elegant pose against the stark contrast between light gray walls and dark attire. Her expression exudes confidence and sophistication. Shot by Peter Lindbergh using Hasselblad X2D 105mm lens at f/4 aperture setting. ISO 63. Professional color grading enhances the visual appeal.
Midjourney紧密符合要求。它展示了一位女性以动态蹲伏姿势在柔软表面上,捕捉了高端时尚摄影的精髓。她的头发、面部特征和服装的细节以高精度呈现,增强了现实感。然而,尽管姿势动态,但显得不自然。她的右手看起来像是手和脚的混合体,右腿凭空消失,她的左脚也有类似手的形状。
Flux则以平衡的构图捕捉了提示的主要元素。女性坐在地上,双腿交叉,姿势更为放松和自然。面部特征、头发和服装的高精度渲染使外观非常真实。光线柔和、散射,提供了柔和的阴影和高光,勾勒出主体的特征。
尽管生成并非没有瑕疵,但她似乎有一条额外的腿,不过可以通过修补工具(如Photoshop)轻松修复,因为整体场景较暗,易于处理。
我们的排名:
- Flux:以自然的姿势、背景和详细的渲染捕捉了提示的要求。在形态准确性方面最为精确。
- Midjourney:具有动态姿势和高细节,但缺乏Flux图像的背景丰富性,身体的表现也不如Flux准确。
提示遵从性
提示词2:A white cat playing the piano, wearing sunglasses and a hat, wearing purple Hawaiian style, full body shot against a grey studio background, commercial video
Midjourney 的提示解读捕捉了场景的奇趣性质。鲜艳的紫色夏威夷衬衫增添了一份俏皮感。柔和的光线有效地强调了纹理和颜色。然而,特写镜头偏离了提示中指定的“全身照”,背景也不是要求的灰色摄影棚,而是一个更自然、更不受控的环境。整体构图虽充满魅力,但在现实感和风格上表现出色,却错过了提示的一些关键元素。
Flux 更接近提示的要求,提供了一张全身照,展示了一只白色猫咪弹钢琴,捕捉了提示中的所有元素。构图虽然不如Midjourney那么有风格,但包含了猫咪的整个身体,确保了所有指定细节都能显示。光线和渲染执行得很好,突出了猫咪的姿态和整体场景。然而,虽然图像非常详细和准确,但可能缺乏Midjourney生成的特写镜头的即时魅力和表现力(Midjourney以美感优于准确性著称)。
我们的排名:
- Flux:准确捕捉了全身照、灰色摄影棚背景和指定的服装。构图专业且精致,完全符合提示的要求。
- Midjourney:提供了迷人且详细的特写镜头,具有表现力,但错过了全身照和摄影棚背景等关键元素。尽管视觉上吸引人,但偏离了提示的具体要求。
结论
我们对Flux感到非常惊喜,它在所有测试中都表现优异。其“Pro”版本确实提供了高质量的结果,能够与Midjourney及其他付费选项竞争。虽然需要更丰富的提示,但结果非常准确、现实,并忠实于提示内容。
对于愿意支付费用获取优质图像生成器的用户来说,Flux Pro似乎是最佳的性价比选择。“Dev”和“Schnell”版本优于基础的SD3 Medium和Auraflow,因此即使在开源领域,Flux也是一个相当强劲的竞争者。
Flux在人体渲染方面表现优于SD3,这是一个重要的考虑点。然而,对于显存较少的用户,SD3或甚至经过微调的SDXL可能会更适合,因为像Auraflow或Flux这样的新模型非常庞大。
译自:https://decrypt.co/242822/flux-ai-image-generator-review-midjourney-sd3-auraflow
评论(0)