配资论坛门户网开源图像生成新突破：工具编排让AI绘图告别‘一句话生图’时代

以前让AI画图，咱们都是直接甩一句“画个猫”就完事。但现在这种方式要升级啦！香港科技大学（广州）、美团等团队搞了个叫GenEvolve的新框架，它把图像生成变成了“工具编排”模式。AI不再傻乎乎地只靠一句话硬刚，而是先理解需求，再灵活调用搜索、图像检索这些工具，最后把收集到的信息打包成精准指令，交给生成器出图。这招让复杂需求的出图效果稳多了，比如画个带特定商标的奶茶杯，再也不用反复调提示词到崩溃。

GenEvolve主要解决两类难题：一类是依赖外部知识的，比如画某个真实建筑或名人；另一类是要求视觉质量的，比如文字清晰、数量准确、材质逼真。为了搞定这些，它配备了三样法宝：文本搜索补事实、图像搜索找参考、生成知识库调技能。举个栗子，要画“穿汉服的姚明在长城上喝奶茶”，AI会先搜姚明照片和长城实景，再查汉服细节，最后把奶茶杯上的logo位置都算清楚——这哪是生成图，简直是AI版美工小组。

最厉害的是，整个过程是多轮决策的——AI会自己判断该搜什么、参考哪张图、怎么设置约束条件。虽然现在它还能搭配Qwen-Image-Edit和Nano Banana Pro这些生成器玩，但思路已经打开了：未来的AI绘图，可能更像协作伙伴，而不是简单工具。论文和代码都开源了，感兴趣的可以去arXiv和GitHub围观，说不定下次你画的“会飞的火锅”就能精准带毛肚数量了。

迎尚网提示：文章来自网络，不代表本站观点。