AI 画图楼二号

搬砖鼠

因为别的地方出了不少子事情记录一下态度搬砖鼠

现在ai已经是不能碰的话题了，但我试玩的时间远远在引起争议之前

已经发生的事情不会改变，这个楼是珍贵的回忆，是这个剧烈变化的时代存在过的证明，不会删。

————-
半年不见……AiGC发展真快啊。上个楼是disco diffusion的出图，现在的stable diffusion的子集的可控性又上了个台阶，已经可以自己改模型指定人物出图了。开个楼记录一些业余的炼丹修行。

Image description

搬砖鼠

先训练的小达，阿钟还没好。阿钟的应该更简单，因为他有很多很板正的单人图。
小达的图主要是是个有九个夸张动作+满屏特效+阴间角度+超强个人风格，作为训练集是在很不优质，容易让ai学会画鬼图……

搬砖鼠

阶段性探索了几种训练方式，玩得很开心…记录一下结果。
先说结论：这东西就图一乐，只适合跑团的时候生成一次性消耗品。要出能用的图，需要非常多的自己改画加+个人想法的加入，还不如直接教自己画画。
测试对象选择小达，因为小达炼起来更难，面具和不对称服装很难教会ai 。相对而言阿钟的西装三件套应该比较好教，到时候直接套用现在的方法就行。
测试方式为让ai分别画圣彼得堡的达达利亚和海边的达达利亚。
训练集大部分是官图，少部分以官图作为素材的l2d。我发现这样反而效果会比塞很多同人好。

探索采用不同方法训练的效果。
不加笔，不筛选，不图生图，就发带错误的原始九宫格，如此进行比较。

途径1

极低的lr，不开注意力优化，bz=1，分辨率1024，10000+步
结果：泛化效果ok，人体出错率最少，空间关系ok，就是长得不太像，并且完全没有学会画面具。

圣彼得堡的达达利亚

Image description

海边的达达利亚

Image description

途径2

中等lr，开注意力优化，分辨率1024，bz=8,20000+/8步
结果，泛化效果ok，长得还可以，只能说勉强能看出是谁，就是人体爱画错，空间关系可以用炸炉来形容，好在还不黑图。

圣彼得堡的达达利亚

Image description

海边的达达利亚

Image description

途径3

高lr，开注意力优化，分辨率1024，bz=8，8000+/8步
结果，泛化效果较弱，面具和气质还原最好，就是人体爱画错，空间关系最为乱套，黑图几率较大。

圣彼得堡的达达利亚

Image description

海边的达达利亚

Image description

猜测

打开注意力机制可能造成训练结果的空间关系紊乱，虽然可以因此使用更大的bz进行训练。

展望

关掉注意力机制：

再现有的40g显存a100上，以768分辨率，bz=3训练
下次租80g显存的a100，用1024分辨率，bz=4训练

搬砖鼠

768 + bz=3

0-3200采用中lr
3200-6400采用极低lr

3200/2步

圣彼得堡的达达利亚

Image description

海边的达达利亚

Image description

6100/2步

圣彼得堡的达达利亚

Image description

海边的达达利亚

Image description

总结

总的来说3200就能抓住人物的基本特征，但是面具和饰品的效果并不太理想。比较反直觉的是6400步的泛化效果反而更好，背景绘制更准确……
在768下训练对模型画人体的能力破坏依然不小。下一步可以融模作为权宜之计，把绘制人体较强但细节较弱的1024*1模型和这个融合一下。

等阿钟数据集标注好了，就去租80g版a100，用1024*2训练最终成品。

搬砖鼠

呃撸否那个事情大家都知道，我自己调教ai玩耍/水ai论文的，同时也是个写同人文的表达者和学了n年画给cctalk贡献了五位数的韭菜，这时候说啥都不合适，不过既然撞上了还是申明一下本人态度。谁都是第一次当人，对这种新事物的看法必然是不成熟的。
自己训练模型探索新技术，从热爱出发而不是博人眼球为目的✔️
拿烂大街的模型大量灌水跳脸原创画师✖️
ai盈利✖️（此处艾特midjourney和novel
最后，优先于前几条的，只要伤害友人感情的事情✖️✖️✖️
——
我对ai的态度是：

这是触及当下人类认知边界的事物，谁要是说自己能盖棺定论那一定是骗子。
这玩意儿对内容生产行业的冲击并不是升斗小民能决定的。
它的原理并非很多人理解的那样，而是在高维潜在空间上提取特征（现有伦理中一般的抄袭标准是在像素空间上的）实际上很可能很接近人类的学习方式了（已经有人用这玩意儿还原人脑电信息中的图像了）所以网上大部分抵制文章并没有说到点子上。
从冲浪网友的角度说，用ai工具大批量生图灌水tag其实就是用基本上没有花多少精力的淹没其他人花了心思的产出，这是在伤害他人的感情。在网上冲浪中，用户的感情第一位天经地义。而lof想把用户驯化成单向度的刷时长韭菜不是一天两天了，这次的事情只是要素齐全引爆了所有不满。
它会让很多人丢掉工作，让更少的人完成原本的生产，这件事现在已经在发生。chatGPT和deepL也在让文案/程序/翻译丢工作，对于这个过程普通人恐怕做不了什么。
同时，至少现阶段它最灿烂的成果也就是stable diffusion的生态还是开源的，这可能是少有的普通人能变道超车从资本手里抢过内容生产资料和工具链的机会（画师别误会，如果不是为了俩臭钱，应该没人愿意画螺丝而不是摸鱼表达自我吧）
本应让权力重新洗牌的新技术，可能加剧不平等和隔阂。
最应该警惕的是新工具让生产资料更加集中在少数人手中。我希望ai的开源生态跑在高度封装的傻瓜产品前头的日子再久些。
不论谁赢，都是老黄稳收过路费，除非国产显卡站起来。