摘要: GPT-image-2生图虽强,但生成的合并图难以二次编辑一直是AI设计的痛点。本文记录了从ChatGPT网页端拆解图层遇挫,到深挖底层Python逻辑,最终利用Codex的自检推理能力,开发出能生成12层无残影PSD的开源Skill的全过程。不想被合并图束缚的设计师和电商人,这款生产力工具不容错过。
玩过GPT-image-2的朋友估计都有同感:这玩意儿生图是真的顶,但改图是真的痛。好不容易生成一张满意的图,想挪个字、换个底色?对不起,这是一张死死的合并图。
之前看到Lovart这类设计Agent推出了快捷编辑Tab,能去背景、移对象、改文字,心里那叫一个羡慕。后来我发现,其实ChatGPT自己也能干这事儿——只要一句话,Image2生成的图就能变成带多个图层的PSD文件,想怎么改就怎么改。
听起来很美对吧?但在网页端实操下来,根本没法真正当生产力用。于是我一顿折腾,把Codex配合Image2的工作流封装成了一个Skill,效果直接起飞。今天就和大家聊聊我踩过的坑,还有这个开源Skill是怎么炼成的。
想在ChatGPT里搞定这事儿,第一步得先把Photoshop应用链接进来。在设置里找到应用连接,把Ps配上,这就相当于给ChatGPT开了个直通Photoshop的后门。
恰好下个月6月8日我们在厦门有场AI跨境电商线下大会,我顺手让GPT-image-2生了一张海报。图是出来了,但问题也来了:这图是一整个合并图层。我要是想把“厦门”改成“杭州”,或者把底色换掉,完全无从下手。
换个思路:既然一口吃不成胖子,那就让GPT把海报大卸八块。
我试着输入了这样的指令:
“接下来,我要把这张图改成PSD导入Photoshop做编辑,所以需要你先把生成的这张海报拆成若干个图像,不要改变相对位置,底色为白色。”
然后唤起Ps应用,让它把这些拆好的图拼成PSD文件。
跑完确实拿到了一个PSD,往Photoshop里一拖,图层有了!但仔细一看,差点没晕过去:只有可怜的7层,而且标题下面带着明显的残影,更离谱的是,有些文字和背景图居然还黏在同一层里。复杂的图,网页端7层基本就是天花板了。能用,但绝对不好用。
网页端这拉胯的表现让我很纳闷,到底是AI理解力不行,还是工具有限制?我翻了一下对话记录,偷瞄了一把ChatGPT的思考过程,终于破案了。
原来它背后在偷偷调用Python的psd-tools包和ImageMagick!说白了,整个流程就是:生图 -> 用Python脚本处理图像拆分 -> 拼成PSD。
psd-tools
既然是脚本在跑,那图层拆得细不细、准不准,完全取决于代码怎么写。而网页端是一次性生成,生完就扔,它压根不会回头看一眼“哎,这图层是不是没拆干净?”。
这就让我想到了Codex。Codex最牛的地方在于它有推理循环——跑任务的过程中它会自己查中间结果,发现图层有瑕疵,它会自己回去改脚本参数重新跑,直到结果干净为止。这用来做图像拆分,岂不是绝配?
说干就干!我打开Codex,把需求描述丢给它,还喂了两个网上找的开源项目作参考,让它把这些能力整合成一个Skill。
没过多久,bggg-creator-image2psd Skill就出炉了。拿同样的厦门大会海报一测,结果相当惊艳:整整12层!
bggg-creator-image2psd
不仅层数多了,质量也是质的飞跃。干净背景、金色光线、船与海面、各种颜色的标题、时间地点图标和文字……全都被拆得清清楚楚。之前让人头疼的残影彻底消失了,文字也乖乖单独成层。
为什么Codex能做得这么好?关键就在于它的自检机制。跑任务时,它发现拆出来的图层边缘有污点,就会自动去调整Python脚本的参数,重新处理,直到干净为止。这种“带脑子干活”的感觉,用起来是真的爽。
我又拿了张跨境电商的素材图测试,一样拆得明明白白,通用性没毛病。
有一说一,目前的算法还不能算百分百完美,比如文字层目前还是栅格层,没法直接在Ps里双击改字,只能移动、隐藏或替换。但至少我们不用再对着一张死图发呆了。
为了让更多人摆脱合并图的折磨,我把这个Skill免费开源了!
👉 Skill开源地址: https://github.com/binggandata/bggg-skills/tree/main/bggg-creator-image2psd
后续所有的Skill(包括之前的饕餮.skill)都会同步更新到这个仓库: 👉 综合仓库: https://github.com/binggandata/bggg-skills
如果你有更好的想法或者优化思路,欢迎提PR,咱们一起把这个工具打磨得更锋利!求Stars支持!
文章来源:大国Ai导航(daguoai.com)整合改编,原作者:饼干哥哥AGI