
以前让AI画图,咱们都是直接甩一句“画个猫”就完事。但现在这种方式要升级啦!香港科技大学(广州)、美团等团队搞了个叫GenEvolve的新框架,它把图像生成变成了“工具编排”模式。AI不再傻乎乎地只靠一句话硬刚,而是先理解需求,再灵活调用搜索、图像检索这些工具,最后把收集到的信息打包成精准指令,交给生成器出图。这招让复杂需求的出图效果稳多了,比如画个带特定商标的奶茶杯,再也不用反复调提示词到崩溃。

GenEvolve主要解决两类难题:一类是依赖外部知识的,比如画某个真实建筑或名人;另一类是要求视觉质量的,比如文字清晰、数量准确、材质逼真。为了搞定这些,它配备了三样法宝:文本搜索补事实、图像搜索找参考、生成知识库调技能。举个栗子,要画“穿汉服的姚明在长城上喝奶茶”,AI会先搜姚明照片和长城实景,再查汉服细节,最后把奶茶杯上的logo位置都算清楚——这哪是生成图,简直是AI版美工小组。
![]()
最厉害的是,整个过程是多轮决策的——AI会自己判断该搜什么、参考哪张图、怎么设置约束条件。虽然现在它还能搭配Qwen-Image-Edit和Nano Banana Pro这些生成器玩,但思路已经打开了:未来的AI绘图,可能更像协作伙伴,而不是简单工具。论文和代码都开源了,感兴趣的可以去arXiv和GitHub围观,说不定下次你画的“会飞的火锅”就能精准带毛肚数量了。
迎尚网提示:文章来自网络,不代表本站观点。