衣服提示词

衣服提示词

{ "综合1": { "比基尼": "bikini", "系绳比基尼": "string bikini", "解开比基尼": "untied bikini", "前系带比基尼上着": "front-tie bikini top", "侧系带比基尼下着": "side-tie bikini bottom", "微小比基尼": "micro bikini", "泳装": "swimsuit", "连体泳衣": "one-piece swimsuit", "学校泳衣": "school swimsuit", "竞赛泳衣": "competition swimsuit", "运动服": "sportswear", "排球服": "volleyball uniform", "旗袍": "china dress", "水手服": "serafuku", "校服": "school uniform", "布鲁玛": "buruma", "高领衬衫": "collared shirt", "紧身衣": "leotard", "无肩带紧身衣": "strapless leotard", "高叉紧身衣": "highleg leotard", "丁字紧身衣": "thong leotard", "衣服下紧身衣": "leotard under clothes", "紧身衣服": "taut clothes", "紧身衬衫": "taut shirt", "薄纱连衣裙": "sheer tulle dress", "雪纺连衣裙": "chiffon dress", "紧身衣裤": "bodysuit", "背心": "**** top", "连身裙": "dress", "露背连身裙": "backless dress", "绕颈连身裙": "halter dress ", "毛衣连身裙": "sweater dress", "露背装": "backless outfit", "睡袍": "nightgown", "毛衣": "sweater", "高领毛衣": "turtleneck sweater", "罗纹毛衣": "ribbed sweater", "露肩毛衣": "off-shoulder sweater", "开胸毛衣": "open-chest sweater", "肩膀切口": "shoulder cutout", "臀部切口": "hip vent", "心型切口": "heart cutout", "后背切口": "back cutout", "下胸切口": "underboob cutout", "束腹": "corset", "小可爱露腹短上衣": "crop top", "赛车服(By KimZuo)": "racing suit", "护士服(By Yao_men)": "nurse", "乳胶紧身衣(By Yao_men)": "latex", "白大褂(By Yao_men)": "lab_coat", "便利店工作服(By 糯米)": "convenience store uniforms", "夏日长裙": "summer long skirt", "西装": "business suit", "浴衣": "yukata", "圣诞装": "santa", "哥特洛丽塔风格": "gothic_lolita", "马猴烧酒风格": "mahou shoujo" }, "综合2": { "女仆装": "Maid dress", "西服(black黑)-by bilibili-跑酷": "black suit", "啦啦隊": "cheerleading", "迷你比基尼": "micro bikini", "頸帶": "neck ribbon", "无胸罩": "no_bra", "黑丝连体衣": "conjoined black silk", "兜帽斗篷": "Cape hood", "修女服": "nun gown", "军装": "military uniform", "汉服": "hanfu", "破损的衣物": "torn clothes", "婚纱": "wedding_dress", "黑色礼服": "black skirt dress, flower pattern in dress,black gown", "披风": "cloak", "白色风衣": "white_windbreaker", "风衣": "wind coat", "奶牛比基尼": "cow_bikini", "露背毛衣": "Open-backed sweater", "曬痕": "tan line", "透明衣服": "see-through", "运动制服": "gym_uniform", "晚礼服": "evening dress", "礼服": "full dress", "战斗服": "combat suit", "小披风": "poncho", "休闲服(素上衣、牛仔裤)": "casual wear", "实验袍": "lab coat", "学校制服": "school_uniform", "甜美可爱的洛丽塔": "sweet_lolita", "网纹衣": "fishnet top", "魔女风格服": "Witch dress", "巫女服": "Miko clothing", "无裆内裤": "crotchless panties", "大衣": "overcoat", "湿润的衣服": "wet clothes", "长袍": "robe", "战壕风衣": "trench_coat", "抹胸": "strapless **** top, navel cutout", "派克大衣": "parka", "洛丽塔风格": "lolita_fashion", "无内衣": "no underwear", "水手裙": "sailor dress", "紧身连体衣": "zentai", "皮衣": "leather jacket", "防弹衣": "bulletproof_vest,", "蛛网纹路": "spider web print", "sweet_lolita,": "sweet_lolita", "A": "Maid dress", "史莱姆装": "slime dress", "撕裂的衣服": "torn clothes", "无": "less clothes\n" }, "综合3": { "乳胶衣": "latex", "中式死库水(辉木)": "Chinese style,One-piece swimsuit,Clothes with gold patterns", "雨衣": "Raincoat", "不知火舞": "Mai Shiranui", "睡衣": "pajamas", "街头风格服饰": "street wear", "透明晚礼服by czz": "[see-through:evening dress:0.3]", "修女": "loli,one girl,domineering lady, nun", "短款和服": "kimono", "浴袍": "bathrobe", "铠甲": "armor", "外套": "coat", "连帽衫(带帽卫衣)": "hoodie", "圆领卫衣": "sweatshirt", "蓝白条纹比基尼": "blue and white striped bikini", "神父/修生黑袍": "Cassock", "动力甲": "power armor", "长袖运动服(直译为立领长风衣)": "Standing collar long windbreaker", "旗袍(效果好)": "cheongsam", "浸湿(如果有内衣会透的更明显)": "soaked", "工装": " dungarees", "透过衣服能看到胸罩": "bra visible through clothes", "蕾丝边胸罩": "lace-trimmed bra", "一些风格服饰": "indian clothes,chinese clothes,Cleopatra,", "肚皮舞者": "Belly Dancer", "中国的衣服裙子": "chinese clothes,china dress,", "连体白丝": "conjoined white silk", "透明水手服": "see-through serafuku", "高叉泳衣": "highleg swimsuit", "礼服长裙": "revealing dress", "病号服": "hospital gown", "白色衣服": "White clothes", "希腊服饰": "Greek clothes", "紧身连衣裤": "leotards", "V领针织毛衣(无袖背心)": "V-NECK SWEATER VEST", "南瓜裙": "Pumpkin skirt", "万圣节服装": "halloween_costume", "软壳外套": "soft shell coat", "内衣": "underwear", "外骨骼": "exoskeleton", "罩衫": "frock", "道袍": "Taoist robe", "军大衣": "Army overcoat", "荷叶边衬衫": "frillded shirt", "黑色连衣裙+白色打底T恤搭配(请勿去掉tag括号)": "(((black sundress with round neck,white T-shirt bottom)))", "外骨骼机甲": "Exoskeleton Mecha", "拼接款": "mosaic", "战袍": "Battle Robe", "性感内衣": "sexy lingerie", "机械服装": "mechanical clothes", "机械战甲": "[Battle Robe:Exoskeleton Mecha:0.3]" }, "裙子": { "裙子": "skirt", "百褶裙": "pleated skirt", "格子裙": "plaid skirt", "超短裙": "miniskirt", "包臀裙": "sheath dress", "连衣裙": "one-piece dress", "花卉图案连衣裙(白)": "white skirt dress, flower pattern in dress,white gow", "花卉图案连衣裙(黑)": "black skirt dress, flower pattern in dress,black gow", "多層裙子": "layered skirt", "分层式半身裙(贵族气质)(by残阳)": "layered skirt", "夏日连衣裙": "summer dress", "腰围裙": "waist apron", "蓬蓬裙": "pettiskirt", "芭蕾舞裙": "tutu", "格子裙": "plaid skirt", "围裙": "apron", "铅笔裙": "pencil skirt", "迷你裙": "miniskirt", "透明硬纱/蕾丝花边": "Organza lace", "哥特式洛丽塔": "lolita gothic", "现代洛丽塔": "lolita fasion", "紧身连衣裙": "Dirndl", "铠装连衣裙": "armored dress", "盔甲裙": "armored dress", "长裙": "Long skirt", "雨裙": "Rainskirt", "中式旗袍死库水": "chinese clothes+leotard", "带褶连衣裙": "pleated dress", "无肩带礼服": "strapless dress", "露肩连衣裙": "off-shoulder dress", "婚纱": "wedding dress", "汉服": "Han Chinese Clothing", "微型短裙": "microskirt", "黑百褶裙": "black pleated skirt", "吊带裙": "suspender skirt" }, "上装": { "过手袖": "sleeves_past_fingers", "背心": "**** top", "白衬衫": "white shirt", "水手衬衫": "sailor shirt", "T恤": "T-shirt", "毛衣": "sweater", "夏日长裙": "summer dress", "连帽衫": "hoodie", "毛领": "fur trimmed colla", "兜帽斗篷": "hooded cloak", "夹克": "jacket", "皮夹克": "leather jacket", "探险家夹克": "safari jacket", "兜帽": "hood", "牛仔夹克": "denim jacket", "高领夹克": "turtleneck jacket", "消防员夹克": "firefighter jacket", "透明夹克": "see-through jacket", "战壕大衣": "trench coat", "实验室外套": "lab coat", "羽绒服": "Down Jackets", "防弹盔甲": "body armor", "防弹衣": "flak jacket", "大衣": "overcoat", "粗呢大衣": "duffel coat" }, "服装": { "透视装": "transparent clothes", "燕尾服": "tailcoat", "女仆装": "Victoria black maid dress", "水手服": "sailor suit", "学生服": "school uniform", "职场制服": "bussiness suit", "西装": "suit", "军装": "military uniform", "礼服": "lucency full dress", "汉服": "hanfu", "旗袍": "cheongsam", "和服": "japanses clothes", "运动服": "sportswear", "工装服": "dungarees", "婚纱": "wedding dress", "银色连衣裙": "silvercleavage dress", "长袍": "robe", "围裙": "apron", "快餐制服": "fast food uniform", "JK制服": "JK", "健身服": "gym_uniform", "巫女服": "miko attire", "海军陆战队服": "SWAT uniform", "无袖连衣裙": "sleeveless dress", "雨衣": "raincoat", "机甲衣": "mech suit", "巫师法袍": "wizard robe", "刺客装束": "assassin-style" }, "下装": { "牛仔短裤": "denim shorts", "百褶裙": "pleated skirt", "热裤": "short shorts", "铅笔裙": "pencil skirt", "皮裙": "leather skirt", "黑色紧身裤": "black leggings", "和服下的裙子": "skirt under kimono" }, "其他服装": { "褶边": "frills", "花边": "lace", "哥特风格": "gothic", "洛丽塔风格": "lolita fashion", "西部风格": "western", "湿身": "wet clothes", "露单肩": "off_shoulder", "露双肩": "bare_shoulders", "格子花纹": "tartan", "横条花纹": "striped", "披甲": "armored skirt", "盔甲": "armor", "金属盔甲": "metal armor", "狂战士铠甲": "berserker armor", "腰带": "belt", "围巾": "scarf", "披肩": "cape", "皮草披肩": "fur shawl" }}
318
56
本地SD出图 到吐司线上全流程讲解

本地SD出图 到吐司线上全流程讲解

156
27
人物姿势

人物姿势

{ "综合": { "站立": "standing", "弯腰": "bent over", "弓背": "arched back", "拉伸": "stretching", "躺着": "lying on back", "趴着": "on stomach", "侧躺": "on side", "坐着": "sitting", "w坐割座": "wariza", "跨坐": "straddling", "四肢着地": "all fours", "jack-o": "jack-o' challenge", "双腿过头": "legs over head", "胎儿姿势": "fetal position", "自拍": "selfie", "通过腿看": "looking through legs", "二郎腿": "crossed_legs", "跪姿": "kneel", "萝莉坐": "kneeling&setting on floot", "裸露的肩膀": "bare shoulders", "坐在地上": "sitting on the ground", "提裙": "Skirt lift", "一字马": "standing split", "手臂在背后": "arms behind back ", "狗趴式": "doggystyle", "鸭子坐(女子座)": "wariza", "泡温泉": "half body under water", "张开腿": "spread legs", "趴着翘臀": "top-down_bottom-up", "開腳": "open your legs wide", "漏腋": "armpits", "坐在地上(XWX)": "w-sitting on the ground", "战斗姿态": "fighting_stance", "坐在椅子上": "sitting on chair", "瑜伽": "yoga", "绝对空域(大腿三角)": "thigh gap", "骑马": "horse riding", "掀裙子": "skirt_lift", "行走": "walk", "鸭子坐": "wariza", "正骑乘": "girl on top", "祈祷": "pray", "蹲着": "squatting", "坐在床上": "sitting on bed", "翘PP": "top-down bottom-up", "抱膝": "huddle, clasp knees", "公主抱": "princess carry", "侧躺着": "Lie on your side,", "**": "groping", "撩起衣服": "clothes_lift", "盘腿坐": "indian style,", "动态姿势": "dynamic pose", "敬礼": "salute" }, "姿态": { "侧身坐": "yokozuwari", "鸭子坐": "ahirusuwari", "盘腿": "indian style", "跪着": "kneeling", "躬躯": "arched back", "膝枕": "lap pillow", "学猫叫": "paw pose", "单膝跪地": "one knee", "蜷起身子侧躺": "fetal position", "仰卧": "on back", "俯卧": "on stomach", "坐着": "sitting", "屈膝抱腿坐": "hugging own legs", "立式跨骑": "upright straddle", "站着": "standing", "蹲着": "squatting", "绑在十字架上": "crucifixion", "双腿缠绕": "leg lock", "四肢着地": "all fours", "戴耳机": "hand on headphones", "鬼姿势": "ghost pose", "回头": "turning around", "歪头": "head tilt", "前倾": "leaning forward" }, "手势": { "嘘手势": "shushing", "翘大拇指": "thumbs up", "手放脑后": "arms behind head", "手放身后": "arms behind back", "手插口袋": "hand in pocket", "双手插口袋": "hands in pocket", "十指相扣": "interlocked fingers", "V字手势": "victory pose", "手在地板上": "hand on floor", "手在额头上": "hand on forehead", "手在肚子上": "hand on own stomach", "手在肩膀上": "arm over shoulder", "手搭别人的腿": "hand on another's leg", "手搭别人的腰": "hand on another's waist", "双手合十": "own hands clasped", "翼展双臂": "wide open arms", "手放嘴边": "hand to mouth", "手枪手势": "finger gun", "猫爪手势": "cat pose" }, "视线": { "远眺": "looking afar", "照镜子": "looking at mirror", "看手机": "looking at phone", "看向别处": "looking away", "透过刘海看": "visible through hair", "透过眼镜看": "looking over glasses", "面向观者": "look at viewer", "靠近观者": "close to viewer", "动态角度": "dynamic angle", "舞台角度": "dramatic angle", "凝视": "stare", "向上看": "looking up", "向下看": "looking down", "看向旁边": "looking to the side", "移开目光": "looking away" }, "整体": { "嗅闻": "smelling", "公主抱": "princess carry", "拥抱": "hug", "背对背": "back-to-back", "耶": "peace symbol", "调整过膝袜": "adjusting_thighhigh", "抓住": "grabbing", "战斗姿态": "fighting_stance", "走": "walking", "跑": "running", "跨坐": "straddling", "跳": "jump", "飞": "fly", "靠墙": "against wall", "躺": "lie", "从背后抱": "hug from behind", "遛狗": "walk a dog", "提裙": "skirt lift", "泡温泉": "half body under water", "骑马": "horse riding", "自拍": "selfie", "一字马": "standing split", "敬礼": "salute", "祈祷": "pray", "冥想": "doing a meditation" }, "上半身": { "伸懒腰": "stretch", "托腮": "gill support", "牵手": "holding hands", "单手叉腰": "hand_on_hip", "双手叉腰": "hands_on_hips", "招手": "waving", "撮头发": "hair scrunchie", "拉头发": "hair_pull", "抓别人的头发": "grabbing another's hair", "竖中指": "middle_finger", "弯腰": "bent over", "亲吻脸颊": "kissing cheek", "亲吻额头": "kissing forehead", "踮起脚尖吻": "tiptoe kiss", "头顶水果": "fruit on head", "咬手套": "glove biting", "脸贴脸": "cheek-to-cheek", "手牵手": "hand on another's hand", "双手交叉": "crossed arms", "双手张开伸直": "spread arms", "挥动手臂": "waving arms", "伸出手臂": "outstretched arm", "用手臂支撑": "carrying", "搂着手臂": "arm hug", "拿着": "holding", "拿着餐刀": "holding knife", "拿着枪": "holding gun", "拿着杯子": "holding cup", "拿着食物": "holding food", "拿着书": "holding book", "拿着魔杖": "holding wand", "打着伞": "holding umbrella", "捧着花": "holding flower", "拿着麦克风": "holding microphone", "抱着物品": "object hug", "抱着心": "holding heart" }}
104
6
Stable Diffusion WebUI 从入门到卸载①

Stable Diffusion WebUI 从入门到卸载①

有问题/错误请及时联系千秋九yuno779 修改,谢谢。前言介绍说明Stable Diffusion (稳定扩散) 是一个扩散模型,2022年8月由德国CompVis协同Stability AI和Runway发表论文,并且推出相关程序。Stable Diffusion WebUI能够支持多系统使用,无论是Linux/Windows还是MacOS,现在都已支持使用。Stable Diffusion WebUI有着极为广泛的插件生态,能够实现远超Midjoruney/NovelAI的自由度和实用价值。AUTOMATIC1111所开发的Stable Diffusion WebUI是目前使用最为广泛的AI图像生成开源软件,本文章将围绕Stable Diffusion WebUI展开相关内容的说明。特别致谢【AI绘画lora交流群】群友帮忙完善了LoRA训练相关的内容【XDiffusion AI绘画研究交流】帮忙挑刺,找出了一部分文章的错误内容【元素法典组】【秋叶的甜品店】【幻想魔法书—旧日黎明】帮忙制作了文章框架,补充了部分内容【珊瑚宫︱数字生命研究所】避坑指南①任何在x宝、x鱼等平台售卖AI整合包的,全部都是坑钱的②任何AI绘画相关课程都是大冤种课程,也都是坑钱的③任何收费出售AI模型、LoRA、付费生成的AI绘画相关内容,都是坑人的④任何平台的:例如“我的二次元形象”“无尽三月七”等活动,在一般的SD中只需要一个LoRA就可以轻松解决⑤国内所有的AI绘画APP都不要使用、大概率也是坑你钱的⑥国内绝大部分模型站都最好不要使用(出现过很多离谱操作),如有需要请使用civitai和huggingface(civitai大家一般都简称C站,C站可能会上不去,huggingface简称抱抱脸,很多时候国内的交流群都比较喜欢用简称来称呼这两个网站)⑦当civitai上不去的时候可以使用吐司Tusi.cn这个网站网站中的C站镜像。一些链接:1.  潜工具书新人最推荐查看的AI绘画最全工具书Stable Diffusion 潜工具书2.  新手入门推荐关注up:秋葉aaaki 入门可以去看其专栏和视频秋葉aaaki的个人空间_哔哩哔哩_bilibili3.  提示词提示词全解:元素同典:确实不完全科学的魔导书元素法典:1和1.5卷因为部分问题不做推荐,新人也不建议查看元素法典第二卷——Novel AI 元素魔法全收录元素法典第二点五卷——Novel AI 元素魔法全收录一些玄学的东西的纠错与解释浅考sd-webui大括号{}处理4.  模型站civitaihuggingfaceAiTool.ai - Explore the world of AI吐司Tusi.Art5.  本文参考链接Stable Diffusion WebUI使用手冊(简体中文)[調査] Smile Test: Elysium_Anime_V3 問題を調べる #3|bbcmc (note.com)THE OTHER LoRA TRAINING RENTRYHome · AUTOMATIC1111/stable-diffusion-webui Wiki (github.com)https://guide.novelai.dev/元素同典:确实不完全科学的魔导书模型理论科普V1.5.0608Tags基本编写逻辑及三段术式入门与解析v3如何快速分辨AI生成图V如何识别AI图片:目前由AI 绘制的插图完成度已经逼近甚至超越了真人画师,所以粗略查看是无法区分是否由AI 绘制。1.  误区a. AI图并非画不好手,也并非是那种油腻的“AI风格”b. 网上的各种分辨网站/软件,经实测识别成功率最高的仅有40%的置信度,所以仅看个乐就行c. 对于经常玩AI绘画的人来说,AI图基本可以做到一眼分辨2.  分辨方法通过模型分辨部分热度较高的模型都有对应相对固定的风格,能够识别这些风格就能做到接近70%以上的置信率扩散生成痕迹AI生成图片并非是理解了图片画什么怎么画,而是通过反向扩散的方法直接生成图片,这种生成痕迹会有一些较为明显的特征这种痕迹是绝大部分模型都无法避免的,具体来说就是:包括但不限于衣服褶皱、皮肤褶皱、头发效果上出现莫名其妙不合逻辑的纹路、以及部分不应该出现的噪点。其次还有,部分AI图也存在本来不应该在同一位置的物品相连接或者相融合的情况。图像细节问题这个方法是最后的方法,再上面两种一眼丁真的方法都不起作用的时候再来用这个。例如AI会在左右眼形状和高光的一致性、服装对称性、重复形状一致性、几何图形的正确与否等方面出现问题。SD部署和使用,神奇的AI绘画在这里1. 部署stable diffusion webui首先你得有Stable Diffusion WebUI框架和模型,没有部署SD,玩个P的AI绘画。硬件需求● 显卡VRAM在4GB以下的会很容易遇到显存不足的问题,即使使用放大插件也就非常慢(以时间换显存)● 可以开启CPU模式,但是速度依旧是非常慢。你不希望一个小时一张图的话那就别想着用CPU跑图操作系统需求Linux:Debian11(这个我在用)(除此之外我并不知道那些版本可以正常使用,如有需要可以先下载贴吧整合包测试)Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本。windows7就不要想了,建议直接升级到win10/win11macOS:最低要求为macOS Monterey (12.5),如果可以的话请使用最新版macOS。建议使用搭载Apple Silicon M芯片(M1、M2) 的Mac机型。旧款Mac需配备AMD独立显卡,只有Intel核显的不能使用。整合包部署如果你是从零开始,这里推荐秋葉aaaki一键包和启动器。【【AI绘画】Stable Diffusion整合包v4发布!全新加速解压即用防爆显存三分钟入门AI绘画☆可更新☆训练☆汉化】 https://www.bilibili.com/video/BV1iM4y1y7oA/?share_source=copy_web&vd_source=b315aefe546aaa25153160a5d2c908c4备用链接:【【AI绘画】绘世启动器正式发布!一键启动/修复/更新/模型下载管理全支持!】 https://www.bilibili.com/video/BV1ne4y1V7QU/?share_source=copy_web&vd_source=b315aefe546aaa25153160a5d2c908c4(除了以上推荐外,还有星空等少数大佬发布启动器或一键包。)在此建议,有条件在电脑上本地部署,就尽量本地部署。没条件,可以考虑云端部署,请在B站等地搜索相关教程学习部署。目前市面上的APP暂不推荐,很多是收费的,很多只有少量的免费时长。而且大多数APP不具备完整的功能,不适合系统性的学习和进步。2.  添加ckp大模型NovelAI 和Anything分别是什么?NovelAI是一个二次元AI生成图片的网站。因为泄漏事件,NAI 使用数千万Danbooru(图站)图片训练的模型被泄漏了两次。事件报告 泄露Part 1 —— 包含生产模型,程序—— 53.66 GB,其中相关模型有7GB 和4GB 两种。 泄露Part 2 —— 包含历史测试代码和模型,程序—— 124.54 GB,其中相关模型与Part1 相同。Anything是由元素法典组的千秋九制作的一个融合模型。因为其效果在当时来看较好,并且受到众多营销号的吹捧而广为人知。如何添加ckp大模型部署完成后,将下载的模型放到WEBUI根目录中的model/Stable-diffusion文件夹中。ckp大模型的大小一般为1.6G及以上,后缀为.safetensors。当然了有的整合包自带有ckp大模型,当你看到WEBUI根目录中的model/Stable-diffusion里面有模型文件的时候,那么可以暂时跳过这个步骤,直接使用整合包自带的模型。注意:①除非你完全可以信任这个模型,那么请尽量避免使用.ckpt后缀的模型。②请不要听从其他人的任何建议,关闭模型检查。请及时拉黑让你开启允许加载不安全模型这个选项的人。3. 运行WebUI实例点击启动器上的启动按钮以启动你的webui实例,没有启动器的整合包请按照视频说明启动。如果不使用启动器和整合包,则点击webui-user.bat4. 常见问题一般而言,遇到的问题可以根据启动器所提示的内容解决。启动器无法识别的报错可以尝试复制到翻译软件简单翻译一下,若不知道如何解决,则可以到对应的交流讨论区询问。注意:没人愿意只凭借一个不正常退出的提示截图就给你解决问题,请上传完整的报错截图。没有错误日志就诊断问题无异于闭眼开车。5. 基础参数说明以一个普通的WebUI界面为例。如果你的界面色彩不同或选项更少或更多,不用奇怪,这是正常的。笔者下载了一些插件,仅此而已。只需要看看该界面那些参数、选项有什么作用,效果就达到了。一般而言只需要记住这张图就好了,详细的说明在下面1.  大模型:不管你的模型是ckpt格式,还是safetensors格式,这里可以选择你的模型,或调换模型。右箭头指向的小三角形,点开就可切换模型。关于模型的作用和推荐,后文讲解。2.  采样方法:也称采样器。最古老的好像是Euler和Euler a,DDIM曾经相当火。当下用的最多的是DPM++ 2S a Karras、DPM++ 2M Karras、DPM++ SDE Karras,其他采样器也可以尝试,有时会有出色的表现。采样器会影响出图速度,DPM++ 2M Karras、DDIM、UniPC等几个采样器生成速度快,但太低步数图片会崩坏,建议不用高清修复时不低于20步,用高清修复不低于10步。(并非绝对)3.  采样迭代步数:一般称步数。并非越高越好。不开高修约30至50步够用,开高修15至25步够用。当你已经很熟练,可以无视此条。4.  图片宽度:简称宽。必须为8的倍数。太小的图不好看,图越大越模型会不知道生成什么导致糟糕的输出。如果没有固定的要求,请按显卡能力和需求适当调整。如果爆显存了,那就调小一些。5.  图片高度:简称高。必须为8的倍数。太小的图不好看,图越大越吃显存。如果没有固定的要求,请按显卡能力和需求适当调整。如果爆显存了,那就调小一些。6.  生成批次:批量生产图片时调整这个。7.  每批数量:很多新手批量生产图片喜欢点这个,这是错误的。它很考验你的显卡,图越大越要慎选。一般默认的1就可以。8.  提示词相关性(CFG):数值越大tag越精准,数值越小想象越丰富同时越不听话,不建议开启太高的CFG。但如果开启较大CFG出现了糟糕的图片,请改用CFG修复插件:mcmonkeyprojects/sd-dynamic-thresholding: Dynamic Thresholding (CFG Scale Fix) for SD Auto WebUI (github.com)9.  随机种子:简称种子。一般为-1(随机生成),当需要锁种子调参数做对比,复制生成图的种子填进这里即可。同种子同参数同模型同tag,生成的图片一定是几乎看不出差别的。(因不同显卡不同环境会出现有些微影响,但是并不严重)10.  正面提示词:一般称tag,或称正面tag、正面。新手建议抄正面tag进行尝试,并在抄来的基础上进行改动,请勿徒手乱捏。很复杂,这里只做简单的解释,详情见提示词教程。11.  负面提示词:一般称负面tag,或负面。新手建议不要深入研究,用抄来的就好。一般越短的负面越听话,越长的越不听话。同时,负面tag的权重也有影响,过高或者过低都有不利影响。12.  生成:点击生成前请确认tag是否准备完毕,参数是否在合理的数值,确认无误,即可开启奇妙之旅。13.  自动填充提示词和参数:很少用。如果你关闭界面时忘了保存,再次生成时想要找到上一次的提示词和参数,点这个是最快捷的方法。14.  清空提示词:当你要把正面和负面全部删除,点这个是最快捷的方法。15.  模板风格:非常好用的功能,你可以从中选择想要的已储存的提示词,迅速加载。配合16和17使用。16.  将已选择的模板风格写入当前提示词:要先选择15模板风格才能生效。17.  将当前的提示词保存为模板风格:对于经常使用的提示词,在此保存一下,想用的时候14清空提示词,15选择模板风格,16写入提示词,其他只剩调参数。18.  图片展示区域:你生成的图片在此会展示出来。生成图片的过程中有进度条的,跑到100%就生成完毕了。如果图片不见了,可能是爆显存,请查看该区域下方的提示栏。19.  Clip跳过层:简称Clip。默认为2,新手请勿调整。20.  模型的VAE:简称VAE。这里是外挂VAE的地方。6. 高清修复说明高清修复Hires.fix是用来生成较大图片防止AI模型乱画的一个功能。一般而言需要配合分块VAE插件使用防止爆显存一般而言,二次元图片使用Anime6B采样器。除此之外,放大的倍率也不能开太大,不然极其容易出现古神图等情况。另外,没必要一直开启高清修复。看到了自己想要的构图/大致效果后再开启高清修复可以极大的节省抽卡生成的时间。你热爱的,就是你的parameters自从AI绘画出现以来,各种参数的讨论就从未停止过。1. “我会画画了!”生成你的第一张AI图在对应的提示词框,然后点击生成就可以生成你的第一张AI图了提示词: cute little girl,,solo,wind,pale-blonde hair, blue eyes,very long twintails,white hat,blue sky,laugh,double tooth,,lens flare,dramatic, coastal, flying petal, flowery field, sky, sun,field, sunflower, masterpiece, best quality,反向提示词(mutated hands and fingers:1.5 ),(mutation, poorly drawn :1.2),(long body :1.3),(mutation, poorly drawn :1.2),liquid body,text font ui,long neck,uncoordinated body,fused ears,(ugly:1.4),one hand with more than 5 fingers,one hand with less than 5 fingers,上面的提示词大体效果是这样的↓如果你想要达到更好的效果,那么修改相关的参数就是必不可少的。下面呢就是有关生成个提示词相关参数的部分介绍。当然了,如果不满足于文章中给的这些内容,你也可以去参考更为详细的元素同典:具体链接在本模块的最下面。2. 提示词的范例当然了,新人想要得到比较好的AI生成图可以看以下几个提示词合集。但是需要知道的一点是:推荐参数绝非必须的数值,这些仅供新人参考,入门后其实是不需要任何推荐参数的。旧日黎明-献给朋友们的法术书(副本2)元素法典第二卷——Novel AI 元素魔法全收录元素法典第二点五卷——Novel AI 元素魔法全收录下面的内容,就是写详细的讲解“魔法师”是如何写出这些“咒语”来的:3.  书写你的第一段“咒语”咒语是什么?在AI绘画中,我们使用一段prompt 来引导U-net对随机种子生成的噪点图进行“降噪”,从而生成我们想要的东西。Prompt (提示词,又译为关键词)通常由英文构成,主要内容为以逗号隔开的单词/词组/短句。prompt 也可以包括其它语言的文字,但效果往往不佳。prompt 还可以识别一些特殊符号。AI 会通过寻找符合关键词描述的噪点图进行有明确指向的去噪点(diffuse)。同样,如果包含Negative Prompt(负面关键词),AI 就会尽可能避免含有负面相关要素的去噪点方式。换句话说,prompt 就像是哈利波特里面的咒语,它直接决定了最终我们会得到什么。简而言之就是你想要什么那就写道正面提示词里,你不想要什么,那就写到负面提示词里。比如我想要“一个穿着白色裙子带着白色帽子的女孩站在花丛里”那么我们可以写以下提示词:1girl,white dress,white hat,stand,flowers这时候点击生成,就会出现左边这样的生成图。如果理解了这以方面,那么恭喜你,你已经学会了基本简单的提示词写法了。你可以尝试一下自己喜欢的内容,多生成几张AI图尝试尝试这个过程如果对生成图片的质量不满意,那么怎么办呢?接下来只需要根据图片生成的结果,逐步细化提示词,并且添加质量词和负面提示词就可以了。比如左边那张图看到天空比较空,那么就可以加上:cloud,sun等这种描述天空效果的提示词。当然如果英语水平限制了你的发挥,那么你也可以使用翻译软件来“施法”。当然了,你也可以拿着这把“全村最好的剑”:半自动魔导原典_免费高速下载|百度网盘-分享无限制(baidu.com)4. 学徒级语法【三段式】&如何写提示词三段式与基本提示词写法需要特别注意的是SDXL的模型并不适配SD1.5的语法和提示词顺序,这部分只作为SD1.5的提示词来使用,需要根据模型作者自己训练的方式来决定,所以在使用SDXL的训练模型的时候请注意查看模型卡简而言之,三段式就是把质量词、主体、背景三者的描述分开进行。很多人在写提示词的时候会受到英语水平的限制,于是就提出了三段式语法,其目的是在较多提示词的时候能够一目了然的分辨内容,方便删减提示词和调整提示词的权重。这在当时元素法典时期使得大家能够快速的分享自己的提示词或者使用其他人的提示词。质量词和效果词放最前面,人物与人物特征放在中间,背景和光效放以及功能性tag最后面,这是三段式的基础用法。8k Wallpaper,grand,(((masterpiece))), (((best quality))), ((ultra-detailed)), (illustration), ((an extremely delicate and beautiful)),dynamic angle,rainbow hair,detailed cute anime face,((loli)),(((masterpiece))),an extremely delicate and beautiful girl,flower,cry,water,corrugated,flowers tire,broken glass,(broken screen),transparent glass.前缀(质量词+画风词+整体效果)质量词用于提升生成质量:例如:masterpiece、best quality等画风词用于凸显图片的画风:例如:冰箱贴前缀:[(flat color,vector graphics,outline):1.35),(paper cutting:1.2)::0.6],立绘法的前缀:official art,1girl, simple background,[(white background:1.5)::0.2],open-mouth,(white background:1.2)当然了,这些符号的意义将在后面详细讲解,现在看不懂也没关系效果词为整体画面效果的提示词例如:炫光lensflare、景深Depthoffield、 角色焦点character focus、从下面看from below等等注意:部分固定(例如白背景立绘)这种属于风格类提示词,建议放到前缀里而非最后的背景主体(画面中的主体部分)主体为图画想要凸显的主体,可以是人物,建筑,景物等,主体部分要进行丰富的描述才能获得细节丰富的图像。对于角色来说,通常包括了面部,头发,身体,衣着,姿态等描写。没有角色时,可以将场景中的重要点即高耸如云的城堡,绽放的花朵,破碎的钟表等,想要位于画面中心的物体进行描述。描述的顺序大致为由主到次,即你想要生成图中占据大部分画面的元素放到最前面。除此之外你想要生成违反生活常识经验/常见创作的元素的图你需要更为详细的描写或者更高的权重。当1 girl 和earring 简单结合时,无论两者谁先谁后,最后都会变成“一个二次元美少女带着耳环”的样子,不会在简短描述下就轻易地出现诸如“美少女向前抬手捧着耳环、耳环在镜头前是一个特写、美少女的身体被景深虚化”的情况。因为在我们的生活常识中,大多数这两个“物”结合的情况都是前者,后者在作品描绘里出现的情况极少,因而这两者即使是顺序调换也只是让美少女是否摆出展示耳环的姿势,无法轻易地切换主次继续深讲就到训练集的部分了,虽然它的本质是训练集与LatentDiffusion 对于自然语言的处理,但考虑到大多数组成训练集的作品都取自于生活经验/ 常见创作想象,且自然语言处理本就是努力拟合生活经验的过程,所以实际上并无明显不同。场景(背景,环境)场景是主体存在的周围场景,没有场景描述时容易生成纯色背景或者是效果tag相关的背景,且主体会显得很大。部分主体会自带场景内容,例如建筑,景物。例如:繁花草甸flowerymeadow,羽毛feather,阳光sunlight,河流river,碎玻璃Brokenglass等此外,元素法典后期的提示词实际上并没有严格遵循三段式,具体原因是大家都开始研究分步语法,分步语法会将背景和主题放到同一模块,成为“两段式”,而非上面所说的三段式。当然了有关分步渲染的相关内容,在下面【7.WebUI基本进阶用法】会有详细的讲解,现在看不懂也是没有关系的。(((masterpiece))),(((crystals texture Hair))),(((((extremely detailed CG))))),((8k_wallpaper)), (1 girls:1.5),big top sleeves, floating,beautiful detailed eyes, overexposure,light shafts, soft focus,side blunt bangs, buttons, bare shoulders,(loli), character focus,wings,(((Transparent wings))),[[((Wings made of golden lines,angel wing,gold halo around girl,many golden ribbon,Aureate headgear,gold magic circle in sky,ight, black sky):0.7):((galaxy background, snowflakes, night sky, black pupils, starts sky background, stars behind girl, view on sky,standing):0.8)],Elegant hair,Long hair,The flying golden lines,Messy golden lines,halo,hairs between eyes,Small breasts,ribbons, bowties,red eyes, golden pupil, white hair,flowing hair,disheveled hair,lowing long hair):(Delicate arms and hands):0.9]隔离元素污染如果你在别人的提示词中看到了BREAK这个词,或者是看到了++++////\\\\这种毫无意义的符号,无需感到疑惑,这只是占位词。Stable Diffusion模型仅限在提示词中使用75个token,所以超过75个token的提示词就使用了clip拼接的方法,让我们能够正常使用。BREAK这个词会直接占满当前剩下的token,后面的提示词将在第二段clip中处理。而早期++++////\\\\这些符号,大都是因为不知道BREAK这个词而添加上用于占token的。输入BREAK之后你可以看到直接占满了剩下的token为什么要使用占位词/BREAK呢?AI在生成图像的时候会将一些提示词的特征放到其他的物品上,例如我在提示词中写了white clothes和Flower background,那么很有可能在衣服上出现花的装饰。如果我们不想在衣服上出现花的装饰,那么比较简单的方法就是把这两个词放到两段clip中处理。自然语言“咏唱法”自然语言的效果实际上是SD模型原本的使用方法,但是由于novelai模型的训练方法和一部分LoRA模型训练的时候训练集的标注以tag为主,所以可能tag的表现更好一些。但既然是Stable diffusion模型,那么使用自然语言本身就没有什么问题,但是不一定真的效果就是更好的。例如下面提示词就混合了自然语言和tag,大家也可以自己尝试一下自然语言去写提示词。flat design, (official art:1.2) (white background:1.2), depth of field, double exposure, (There is a big world tree with magic:1.2), (She is inside the world tree:1.2), 1girl,solo,fullbody, (She is a angel with beautiful detailed eyes with crystal textured hair with beautiful detailed face with (clothes)+(beautiful transparent wing)), (She is a angel with red eyes with white hair with (clothes)+(light wings)), (She is a girl with long flowing hair with the hair between the eyes), (She with white dress with detached Sleeve with off_shoulder clothes), (She with symmetrical wings with transparent wings with mechanical wings), (She is a sitting girl with small breasts with (wariza:1.2)), (She is far away form viewers and looking at viewers with (from side:0.5)), (She is beside the floating cubes:1.4), (super fucking cool golden light:1.2), (white background:1.2), irradiance particles, ray tracing,(The broken floor:1.3), depth of field, tyndall effect, double exposure, visual impact,((Ink mist,Coloured lead painting,[[Gouache painting]]):1.5) (Glitch Art:1.414)请不要使用shit山负面大量的负面提示词会对生成的图片产生灾难性的影响。新的tag串在编写的时候负面提示词是需要放到最后再添加的,因为无论如何负面提示词都会对画面产生一定的影响,并且很多影响是不可预见。这将会导致很多想要达到的效果无论如何也无法实现。实际上当年《元素法典》研究提示词的时候一般的操作是当生成图出现自己不想要的东西的时候再作为补充。负面embedding也不是越多越好,负面embedding对构图会有影响,很多人以为越多越好从而叠一堆负面embedding,其实不用也一样能出好图。甚至好的手也不依赖负面embedding,有的时候手崩了即使用了负面embedding也不会很好的修复。放这么多的负面embedding堆在一起,不但会严重影响提示词的准确性,还会严重影响生成图效果和模型,甚至于说能把大部分模型干成同一种风格。前者未使用负面embedding,后者为使用负面embedding。可以明显的看到,使用embedding生成的图已经明显失去风格化5. 选择你的捍卫者“采样器”&调度器采样器sampler就是去噪的方法,WebUI中内置了很多采样器,你也可以自己装载其中没有的其他采样器。包括一般使用的Euler A和UniPC,以及很多人都喜欢使用的DPM系列。调度类型简单而言就是去噪速度。常见的调度类型有:Karras / Sgm_uniform / Exponential / ddim_uniform……,目前推荐使用Exponential 方法,可以得到更好效果。对于初学者来说,更推荐使用Euler A或者Unipc等生成图像较快的采样方法。采样方法组成了图片生成的第一大要素,它决定同样的prompt 下AI会选择以何种方式去噪点化以得到最终图片。同时,它还会决定运算速度。采样方法组成了图片生成的第一大要素,它决定同样的prompt 下AI 会选择以何种方式去噪点化以得到最终图片。同时,它还会决定运算速度。通常来讲,Euler A 是兼顾速度和质量的最优之选。而DDIM 和Euler 则在运气较好的情况下尤其以细腻的画风见长。DPM系列则是各有优劣,部分在低steps下有着极其良好的表现(DPM三兄弟在15~20步就差不多了)当你审美疲劳时,也可以尝试更换方法也许可以带来新的风格。6. 迭代步数(steps)不同采样需要的采样steps不同。例如Euler A/DPM A等都是非线性采样,结果并非随着采样步数的增加而增加质量。恰恰相反在大于一定采样步数只会质量会快速下降。对于此类采样器推荐的最大steps一般为50左右。(不绝对)而Euler/DDIM等线性采样随着迭代步数的增加质量会增加。当然在早期“修手”的尝试中发现,这类采样器的steps数存在边际效应的问题,大于一定数值之后,增加steps带来的收益也不会很明显。很多图直至steps500才会有明显的提升,而一般显卡拉500steps需要的耗时太长了,所以并不建议拉太高的steps。7. WebUI基本进阶用法①渲染句式在webui中,有几种非常好用的句式可以使用:[A:B:X]代表执行A效果到X的进度(如0.4到40%的总步数),B从X的进度开始[A:0.5]这样写的含义是从50%开始渲染A[A::X]渲染到X的进度的时候停止A的渲染[A|B]交替渲染A/B②种子变异用于轻微调整生成图大致的效果如图所示:随机差异种子可以选择其他种子,也可以随机抽取(-1),效果图是固定了差异种子好了,你已经学会基本用法了,尝试分析一下下面这串tag的分步吧[[([(Delicate eyes,glowing eyes,red eyes, black pupil,(beautiful eyes:1.2),(serious),(gradient eyes)):[((messy_hair),(Long hair:1.2),(lightning),Lots of lightning,([white hair|Lavender hair]:1.3)):((Flowing hair:1.2),Long flowing hair,beautiful hair):0.6]:0.7],(Delicate face:1.2),(shoulder cutout),(Gorgeous clothes:1.3),(beautiful arms:1.2),(Characters stay away:1.4),(Small breasts:1.2),[[:((Scepter weapon,The thunder wand,Crystal texture of the hair):1.4):0.5]::0.9],[((lightning),many glowing ribbon,Shine tire,glowing magic circle in sky,(glowing halo around girl:1.3)):((exquisite Magic Circle:1.7),(Many purple flashes:1.4)):0.5],(Gorgeous accessories:1.2),(Gorgeous special effects:1.3),(highres:1.3),(magic:1.3),(glowing light:1.3),(exquisite magic array:1.2),(Strong vision),(Magic in hand:1.3),(starry sky:1.3),(huge Brilliant magic),(glowing light:1.2),(Dimensional space is broken),(lightning:1.3),god rays,night, black pupils,(clock method array:1.2),standing,Hair and lightning blend together,(Lightning ribbon:1.2)):(lightning:1.2):0.8]:(Delicate arms and hands):0.9]]8. 我的“法术”不听话了?增加减少权重有的时候,提示词会出现不听话/失效的现象。当提示词失效的时候,不妨多增加权重,例如(1girl:1.2)/(1girl)注意:这里的任何权重等的调整只能使用英文符号,使用全角/中文符号将不会起任何作用一对小括号()意味着把括起来的prompt 权重* 1.1,中括号[]则是/ 1.1,大括号{}在WEB-UI 中无调整权重作用,且会被作为文本而解析。如果因为某些需求而要大量抬升权重,可以对prompt 进行多次括号,比如((((prompt)))),这意味着将它的权重* 1.1 四次,也就是1.4641。但这个写法太吓人了,数括号也很浪费时间,所以应该直接为一个prompt 赋予权重:(prompt:权重乘数)外层一定是小括号而非其它括号。比如(red hair:1.5) 将直接给red hair 赋予1.5 权重,(red hair:0.8)将直接给red hair赋予0.8权重,清晰简洁,便于自己回顾和他人理解,强烈推荐。而除了整词权重之外,也可以进行部分权重,比如如下例子:1 girl, white long (messy:1.2) hair, red eyes将专门对messy 部分赋予* 1.2 权重,其它部分不受影响高权重的元素会在画面中有着更大的占比或更强烈的存在感或更多的数量,是能可观地影响构图的原因之一。如果出现了(xxx:1.7)还无法正确的表达需要的效果时,那么大概率为模型无法识别这个提示词,或者模型本身的问题。模型本身问题例如模型的clip偏移:(这里要用到一个叫做CLIP tensors checker的插件)clip偏移会影响模型对于对应位置的token语义的理解,有的时候就会造成你的提示词识别出现问题,详情可以查看早期“微笑测试”实验,这里引用部分实验内容。后置链接:Stable Diffusion WebUI 从入门到卸载② | 吐司tusi.cn
97
7
tag语法

tag语法

分隔:不同的关键词tag之间,需要使用英文逗号,分隔,逗号前后有空格或者换行是不碍事的ex:1girl,loli,long hair,lowtwintails(1个女孩,loli,长发,低双马尾)混合:WebUi使用|分隔多个关键词,实现混合多个要素,注意混合是同等比例混合,同时混。ex: 1girl,red|blue hair, longhair(1个女孩,红色与蓝色头发混合,长发)增强/减弱:有两种写法第一种(提示词:权重数值):数值从0.1~100,默认状态是1,低于1就是减弱,大于1就是加强ex: ,(loli:1.21),(one girl:1.21),(cat ears:1.1),(flowerhairpin:0.9)第二种(((提示词))),每套一层()括号增强1.1倍,每套一层[]减弱1.1倍。也就是套两层是1.1*1.1=1.21倍,套三层是1.331倍,套4层是1.4641倍。ex: ((loli)),((one girl)),(cat ears),[flowerhairpin]和第一种写法等价所以还是建议使用第一种方式,因为清晰而准确渐变:比较简单的理解时,先按某种关键词生成,然后再此基础上向某个方向变化。[***1:***2:数字],数字大于1理解为第X步前为关键词1,第X步后变成关键词2,数字小于1理解为总步数的百分之X前为关键词1,之后变成关键词2ex:a girl with very long [white:yellow:16] hair等价为开始a girl with very long whitehair16步之后a girl with very long yellow hairex:a girl with very long [white:yellow:0.5] hair等价为开始a girl with very long whitehair50%步之后a girl with very long yellowhair交替:轮流使用关键词ex:[cow|horse] in afield比如这就是个牛马的混合物,如果你写的更长比如[cow|horse|cat|dog] in afield就是先朝着像牛努力,再朝着像马努力,再向着猫努力,再向着狗努力,再向着马努力
85
18
【Stable Diffusion 潜工具书】

【Stable Diffusion 潜工具书】

Stable Diffusion 潜工具书Ver. 4.1.20240520(此副本是4.1.20240520的快照版本)——如果你想要整个世界,那我也能画给你链接(原文链接)腾讯文档:- Stable Diffusion 潜工具书(备份链接I)整合了作者制作的几个文档,部分可能缺乏更新,如没有其他情况只看这里即可- Stable Diffusion 信息并联资源库(备份链接II)不同步文档链接(很少进行更新):- 【中文文档】Stable Diffusion 潜工具书(2023/12/22) | Civitai如果您有不在此列表中的信息/文件、或者其他疑问,请看以下链接- Stable Diffusion 潜工具书·鹊桥计划为确保体验,请在阅读本文档时关闭TUSI网站的深色模式本文档约63000字,文档本体浏览一遍时间约30min,文档总阅读时间约145小时。警告1. Ckpts/hypernetworks/embeddings等模型有一定的可能性被混入恶意代码,所以请谨慎使用.ckpt/.pt为扩展名的模型。请及时拉黑让你开启允许加载不安全模型这个选项的人。2. 在本地部署使用过程中请时刻关注你得GPU/硬盘等硬件状态,并在必要的时候强行停止AI生成以防止您的GPU/其他设备损坏。3. Stable diffusion没有付费知识,所有所谓付费知识/教程的人均为使用开源内容打信息差,所有变现\行业案例均为学习完基础内容就可以自行操作。开源内容请不要对此进行付费。声明1.  如果本文档外链的内容中有不合适的内容,与本文档无关。如发现请及时通知文档作者删除不合适的链接。2.  转载、引用或直接复制本文档内的内容需要注明链接:文档主链接:Stable Diffusion 潜工具书3.  文档基于公开材料和经验编写,不对内容准确性负责(但作者会尽力确保内容的准确性和排除民科/错误内容),如文档有错误内容,请联系本文档作者。4.  另外因您的数据的产生、收集、处理、使用等任何相关事项存在违反法律法规等情况而造成的全部结果及责任均由您自行承担。文档使用GFDL 许可,如果您需要在您自己的著作/文章/网站或其他出版物中使用本文档的材料,您必须遵守GFDL。如果您创建了一个修改或添加了内容的派生版本,它将继承以下条款:您的作品也必须以GFDL 的形式发布您必须注明文章的作者您必须提供取得材料“透明版本”的方法文档具体协议参考FDL,以仓库副本为准。Copyright (C) 2023 StableDiffusion潜工具书Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.3 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled "GNU Free Documentation License".作者Stable Diffusion 潜工具书2023/06/30作者:Yuno779(作者)QID:YYIMISE(九月Centaki)Discord:Yimis7777邮箱:AsiaAnyN@outlook.comCivitai:Yuno779 Creator Profile | CivitaiX:𝙔𝙪𝙧𝙞𝙠𝙪 (@ElysiaAnyN) / X (twitter.com)===DeepGHS===- deepghs (DeepGHS) (huggingface.co)- DeepGHS (github.com)===元素法典===- 元素法典制作委员会_哔哩哔哩_bilibili===秋叶甜品店===- 【秋葉的甜品店】(频道):https://pd.qq.com/s/edfqp0lcy- 秋葉aaaki的个人空间-秋葉aaaki个人主页-哔哩哔哩视频前置内容| SD是什么?这本书又是什么?a. 前言Stable Diffusion (稳定扩散) 是一个扩散模型,2022年8月由德国CompVis协同Stability AI和Runway发表论文,并且推出相关程序自此拉开SD绘画的序幕。后来NovelAI(下称nai)在二次元文生图(T2I)领域破圈,并且在模型泄露之后进一步破圈。为了整合nai破圈后的各路信息,nai贴吧组创建了「nai信息并联计划」,但是后续由于缺乏跟新「并联计划」逐步失效。在「并联计划」失效之后,缺乏一个能够集合SD相关知识的文档供大家参考。本文档的目的正在于此,用于弥补并联计划这个空缺。- NovelAI信息并联计划原址:https://kdocs.cn/l/cre0TwbMkdx3潜工具书是一个包含有任何可能有用的链接的一个信息存储库。如果你是新人,那么非常推荐你从头查看本文档本文档仅为中文整理的合集。其中部分链接文档/内容无对应中文版,考虑到部分为专业性文档,需要有很强的英语能力/熟练使用GPT等工具才能正常阅读。固请不要以此问题询问他人,如有需要请自行寻找GPT等工具使用教程。b. 前置内容● 信息在国内,想要正经的接触AI绘画相关的内容是非常困难的,往往需要克服信息阻断链,这个文档在很多地方并不受欢迎(你说是吧,某个L开头的模型网站),因为文档挡住了很多人想要卖课赚钱的路子。当然你既然看到了这个文档,相信你你已经解决了信息阻断的问题。当然如果你感兴趣想要知道正确入坑AI绘画有多难的可以查看这个文档:想要接触到正经AI绘画到底有多难● AI本地部署硬件需求说明:最低推荐配置的意思是配置低于这个就完全不建议入坑AI绘画了,如果强行想要使用,有些也是没问题的,但是还是建议硬件水平低于最低推荐配置时更换为更为强劲的硬件。当然使用云端部署也是没问题的(纯新人建议使用windows server)显卡VRAM在4GB以下的会很容易遇到显存不足的问题,即使使用放大插件也就非常慢(以时间换显存)显卡较差/显存严重不足时可以开启CPU模式,但是速度非常慢。你不希望一个小时一张图的话那就别想着用CPU跑图。● 软件需求Linux:用Linux当主力系统的还用我教?Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本。windows7就不要想了,建议直接升级到win10/win11macOS:最低要求为macOS Monterey (12.5),如果可以的话请使用最新版macOS。建议使用搭载Apple Silicon M芯片(M1、M2) 的Mac机型。旧款Mac需配备AMD独立显卡,只有Intel核显的不能使用。正文内容①https://tusi.cn/articles/730154185623963570②https://tusi.cn/articles/730157424029312247③https://tusi.cn/articles/730162358946747397④https://tusi.cn/articles/730213739640645910Q & A● VAE是什么,出图发灰怎么办:VAE 是一种神经网络,可将标准的RGB 图像和潜空间表征互相转换。潜空间表征是Stable Diffusion 在采样过程中的实际操作对象。(即进度条处于"空" 和"满" 之间的状态)。 对于文生图,VAE 仅用于在采样完成后创建RGB 图像。 对于图生图,VAE 用于在采样前把用户输入的图像处理为潜空间表征,并在采样后创建RGB 图像。说人话:简单的说就是把AI输出翻译成人能看到的图片出图发灰是因为模型内的VAE存在问题,可以将模型内的VAE更换为其他适合的VAE,在SD-Webui中直接更换“外置”VAE即可● 安装报错打不开怎么办:如果你是秋叶整合包,那么可以查看此文档:【必读】萌新基础常识(wa9.cn)讨论以下插件你可能不会得到除卸载以外的任何答案:Dreambooth、a1111-sd-webui-locon/lycoris、Deforum、TemporalKit、Kohya-ss Additional Networks如果不是使用整合包,且出现问题无法自行解决,那么请看这里并使用整合包:SD WebUI秋叶整合包与SD Webui绘世启动器- 【AI绘画·11月最新】Stable Diffusion整合包v4.4发布!- 【AI绘画】绘世启动器正式发布!!● 说了一番也不推荐模型……?这里除了我自己夹带本人制作的私货模型以外不会推荐任何其他模型,在看完一些文章之后你理应能够自行分辨模型的质量,如果不能那就再去看一遍文章的内容,如果还不能分辨,这边建议先上学再上网。当然你不想看文档,那也不怪你,只是你不适合学习SD相关的东西,我建议你立刻关闭文档并卸载你的AI软件。● 有一些东西没有加入这里:部分文档含有非常多的错误内容,为了确保新人不会获得错误的消息,我将其剔除文档。另外为了防止一些潜在的风险和其他问题有些其他的文档也不会放到这里。如果有其他需要加入本文档的内容,请查看此链接:- Stable Diffusion 潜工具书·鹊桥计划NovelAI信息并联计划失效的原因之二就是民科内容多和大家无法自发的将新内容放到并联计划上,所以潜工具书将不会采用并联计划的模式来避免这种情况的发生。● 模型奇怪的大小?一般而言奇怪大小的模型都会或多或少的含有一些垃圾数据或无效精度。模型融合经常会出现很多webui在跑图过程中实际用不上的junk data,模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。很多的融合模型都带有这么一堆的垃圾数据,并且很多人总是认为这些junk data删掉会影响模型本身而不去删除。其中影响最大的是模型EMA:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。另外默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度也是没啥意义的。旧版本SuperMerge插件也会整出来一些float64的weight造成大小异常。这些都会浪费磁盘空间。● 有什么新的东西?详情查看3.c推荐的几个b站UP的动态或者视频,一般而言更新都是比较快的● 为什么经常看到批评某些东西的内容首先,暴躁程序员天天因为技术上的原因喷人是很常见的一件事,有些人或者事虽然经常因为技术上的问题吵来吵去,但是私底下却并没有这么水火不容。另外就是,一部分比较差的模型或者一些其他东西,有很多人出于比如面子或者是社交上的考量,而不去批评别人的东西。别人出了个模型或者别的就一直要被追着说好,只能夸,不能批评。这不是个好现象,虚伪的称赞对谁都不好。这里不是绘圈或AI模型圈,不好的东西受到批评是应该的,而且这对于被批评的事物也是有利的。● 说半天也不推荐模型也不解决问题这个文档的大部分内容是让你知道为什么,而不是怎么做。全都看完且理解了里面的内容,你自然就会自己分辨模型、自己炼模型,那些所谓的“应用向工作流”自然而然的就可以手到拈来。● 堆友的教程相关内容:完全不建议看堆友上的任何教程,因为新人完全没有对于这些知识是否正确的分辨能力,而堆友上的教程普遍都有一些错误的内容,或者是只根据现象就总结结论的“民科理论”,这会对新人理论体系的构建产生非常差的影响。私货环节| 模型推荐● kohakuXL EKohaku XL E是Kohaku XL系列最新版本,使用LyCORIS微调,在消费级硬件上训练,并且完全开源。使用前请看模型卡,为确保效果请使用模型卡的格式。- (3) Kohaku-XL Epsilon - rev1 | 吐司tusi.cn● animagine xl 3.1Animagine XL 3.1是Animagine XL V3系列的一个更新,增强了之前的版本Animagine XL 3.0。Animagine XL 3.1建立在Stable Diffusion XL的基础上,旨在通过制作准确而详细的动画角色表示,成为动漫迷、艺术家和内容创作者的宝贵资源。- (21) Animagine XL - V3 | Tensor.Art- cagliostrolab/animagine-xl-3.1 · Hugging Face- Animagine XL V3.1 - v3.1 | Stable Diffusion Checkpoint | Civitai● AnythingXL- (1) 万象熔炉XL | AnythingXL - beta4 | 吐司TusiArt.com- 万象熔炉| Anything XL - XL | Stable Diffusion Checkpoint | Civitai拒绝民科请勿只根据现象就去“定义”某些理论a. 相关问题原因&说明民科/错误理论提出的原因常见的无非有三种。定义:只通过现象就去“定义”一些事物,并且将其当作理论来使用传播,很多种情况下这些提出的理论都只是巧合或者适用范围相当有限的东西。例如:GhostInShell的一些理论/VAE相关的内容就属于此。似乎:很多内容是我们心理上感觉其效果的,但是实际上并没有这一回事,并且完全不起作用。但是仍然有人将其作为理论拿出来使用。例如:当初法典组融合研究的一些东西就属于此。掩饰:有些过于离谱的内容纯属是为了掩盖自己啥都不懂论文没看文档没读……的,但是由于提出这些东西的人往往有很高的流量,就会影响相当多的人,甚至一部分新人小白听取了“业界大佬”的发言,就认为确实是这样的。例如:墨幽的HIFI级大模型就是属于此的另外AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层,这就意味着玄学民科的内容很多人是完全没有办法分辨的,这会导致很多人有意无意的也成为一些错误理论的传播者。- 模型结构科普第一辑- 模型理论科普第二辑这个系列文档科普了一些模型结构的内容,然而还有更多的玄学民科内容还在等着我们去根除谬误,当然这个文档也有可能会有错误内容,有问题也请直接指出。b. SD社区现状SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎,各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,再加上一部分国内网站不干人事的追求流量的和听信民科内容行为(曾有群友在某网站引用论文和其官方说明文档的内容指出错误的信息,但是该网站以“我的观点”与主流观点不同为由拒绝,且后续还有其他过分的行为)以及一些流量UP为了流量胡乱推荐、随意拉踩,自然然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种民科内容等等情况。c. 举例说明相关举例: “采样器影响提示词准确性” “LoRA训练dim无脑开128最好” “训练时长和模型质量是直接相关的” “训练集图片越大质量越好” ……以上这些都是已经证伪的民科理论,相关的东西还有很多。● 墨幽(HIFI级ai绘图模型):- 【AI绘画】模型修剪教程:8G模型顶级精细?全是垃圾!嘲笑他人命运,尊重他人命运- 哔哩哔哩(bilibili.com)(图片MoYou为错误结论)● 模型VAE:- 【AI绘画】不是每个模型都需要外挂VAE! VAE真正的作用是什么? - 哔哩哔哩(bilibili.com)● GhostMixGhostshell相关的理论和勘误:- GhostInShell你还想骗人多久?当然其他的东西也是有非常多的,只是没有有流量的人说明我提出了必定被喷,为了避免麻烦也是因为Happy Lazy就懒得说了,有兴趣自己去看论文或者其他作者的讲解文档。
75
6
新手小白向——吐司模型炼制小攻略

新手小白向——吐司模型炼制小攻略

新手小白向——吐司模型炼制小攻略 首先:打开吐司官网(https://tusiart.com/)进入模型训练界面:   第二步:上传训练数据集,最好是准备好事先裁剪好的素材(素材分辨率最好是64的倍数),上传然后打标;打标方式:Flux的模型训练推荐使用自然语言英文打标;其他sd1.0或者1.5的底膜使用wd1.4的打标模型打标即可;  真人模型推荐用自然语言,二次元推荐用wd1.4; 第三步:主要参数设置:单张重复次数(Repeat)代表训练一轮模型学习这张图片的次数,训练轮数(Epoch)代表,训练的总轮次,一般(Repeat)乘以(Epoch)达到100以上就有一个比较好的模型训练成果。两者相乘再乘以上传数据集的图片数量就等于总训练步数。接下来要设置的是:文本编码器学习率Text Encoder learning rate以F1的底膜为例,一般设置为:2e-6Unet 学习率Unet learning rate以F1的底膜为例,一般设置为:5e-4或者直接采用系统推荐的学习率参数    学习调度器选择:  优化器选择:  训练网格大小和alpha值设置:这两者决定了你训练出来的模型的文件大小,以F1的底膜为例,一般数据集比较小时设置成16-8,或者是32-16就可以,前者保持在后者的2倍,数值设置越大训练的速度越慢,相对来说学习深度越高。 最后设置样图的大小和样图提示词:噪声偏移及其他几种高级参数对F1的lora训练影响不大,保持默认值或者改成0都可。  别忘了添加你的触发词:使用批量加标签加入触发词  第三步:点击立即训练:完成你的lora训练吧! 第四步:训练完成后选择符合你要求的模型,吐司可以保存十个不同轮次的模型,从中挑选出你喜欢的。 通过查看loss值看模型的拟合程度: 
71
23
Stable Diffusion WebUI 从入门到卸载②

Stable Diffusion WebUI 从入门到卸载②

受限于字数限制:前置内容Stable Diffusion WebUI 从入门到卸载| 吐司tusi.cn模型训练的问题部分模型训练的时候出现的问题也会导致提示词出现不听话的情况。许多tag 有着逻辑上合理的“前置”关系,比如存在sword 这个tag 的作品往往还存在weapon 这个tag、存在sleeves past finger 这个tag 的作品往往还存在sleeve past wrists 这个tag。这样在训练集中往往共存且有强关联的tag,最终会让模型处理包含它的咒语时产生一层联想关系。不过上述联想关系似乎不够令人感兴趣,毕竟这些联想的双方都是同一类型,哪怕sword 联想了weapon 也只是无伤大雅。那么是否存在不同类型的联想呢?答案是存在的:masterpiece, 1 girl, blue eyes, white hair, white dress, dynamic, full body, simple backgroundmasterpiece, 1 girl, blue eyes, white hair, white dress, (flat chest), dynamic, full body, simple background不难发现flat chest 除了影响人物的胸部大小之外还影响了人物的头身比,让人物的身高看上去如同儿童身高一般,如果调整画布为长画布还会更明显。因此称flat chest 与child 有着联想关系。人物胸部大小和身高是不同的两个类型,两个看似类型完全不同的词也可以产生联想关系。对flat chest 加大权重,会让这种联想关系会表现地更为突出。它的原理和上述同类型的联想一样,都是训练来源导致的。平胸美少女和儿童身高在同一个作品内出现的概率非常大,模型训练的时候不做好区分就会混在一起产生联想关系。这种联想关系在社区中曾被称为“零级污染”。这种现象在不同的模型中的表现是不同且普遍存在的:例如:在cf3模型中,出现了又rain的情况下一定会存在雨伞的关联现象。rain和unbrella产生了联想关系。9. 如何使用LoRA①首先,把你的LoRA模型放到指定文件夹(你的webui根目录\models\Lora)里面文件夹和我的不一样没关系,只要把模型放到这里就行了。如果下载了太多的LoRA模型不好找,那么就可以像我一样加入文件夹分类②按照图片提示,依次点击LoRA列表按钮——想要使用的LoRA,在正面提示词栏里出现<lora:colorloss-000020:1>这种格式的提示词即为下一次生成所要加载的LoRA。③如果你使用安装了Kitchen主题或者用了kitchen主题套壳的整合包,那么你的LoRA在这里10.  画大大大大大大的图Tiled VAE扩展插件: pkuliyi2015/multidiffusion-upscaler-for-automatic1111Tiled VAE能让你几乎无成本的降低显存使用● 您可能不再需要--lowvram 或--medvram。● 以highres.fix 为例,如果您之前只能进行1.5 倍的放大,则现在可以使用2.0 倍的放大。使用方法:勾选红框所示的勾选框以启动Tiled VAE在第一次使用时,脚本会为您推荐设置。因此,通常情况下,您不需要更改默认参数。只有在以下情况下才需要更改参数:当生成之前或之后看到CUDA内存不足错误时,请降低tile 大小当您使用的tile 太小且图片变得灰暗和不清晰时,请启用编码器颜色修复。stableSR扩展插件:pkuliyi2015/sd-webui-stablesr: StableSR for Stable Diffusion WebUI功能:更强大的图片放大扩展详细用法请看以下链接:sd-webui-stablesr/README_CN.md at master · pkuliyi2015/sd-webui-stablesr · GitHub11.  元素同典:真正的parameters魔法入门提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书》我们保留了一点点Junk Data:请选择你的模型1.  Stable Diffusion的工作原理①首先我们输入的提示词(prompt)会首先进入TE(TextEncoder),而clip就是stable diffusion所使用的TE。TE这部分的作用就是把tag转化成U-net网络能理解的embedding形式,当然了,我们平时用的emb模型,就是一种自然语言很难表达的promot。(简单的说就是将“人话”转换成AI能够理解的语言)②将“人话”转换成AI能够理解的语言之后,U-net会对随机种子生成的噪声图进行引导,来指导去噪的方向,找出需要改变的地方并给出改变的数据。我们之前所设置的steps数值就是去噪的次数,所选择的采样器、CFG等参数也是在这个阶段起作用的。(简单的说就是U-net死盯着乱码图片,看他像什么,并给出更改的建议,使得图像更加想这个东西)③一张图片中包含的信息是非常多的,直接计算会消耗巨量的资源,所以从一开始上面的这些计算都是在一个比较小的潜空间进行的。而在潜空间的数据并不是人能够正常看到的图片。这个时候就需要VAE用来将潜空间“翻译”成人能够正常看到的图片的(简单的说就是把AI输出翻译成人能看到的图片)经过以上三个步骤,就实现了“提示词→图片”的转化,也就是AI画出了我们想要的图片。这三个步骤也就对应了模型的三个组成部分:clip、unet、VAE2. 好模型在哪里?同时满足:提示词准确、少乱加细节、生成图好看、模型本身没有问题的模型,我们就能称之为好模型。提示词准确:顾名思义,就是tag提示词的辨别能力越高越好。提示词辨别能力差,那么我们就难以达到想要的效果。少乱加细节:指的是产生提示词中并不包含的细节,并且我无法通过提示词来消除这些不相干的细节,这会影响提示词对于生成图的控制能力。生成图好看:这没什么好说的,生成图无论如何都是炸的话,那这个模型也就没有存在的必要了。模型本身没有问题:一般而言是指不含有Junk data和VAE没有问题的模型3. 讨厌的junk datajunk data就是指垃圾数据,这些数据除了占用宝贵的硬盘空间外毫无作用。一个模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。一般而言一个7Gb的SD1.5模型,实际生成图片所用到的只有3.98Gb。模型并不是越大越好这些东西大部分都是EMA,模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。所以在尝试融合模型时期,请先使用工具删除模型EMA权重(后面讲模型融合的时候会提到)4. 你的AI浓度超标了!曾经时间大家的模型同质化都是比较严重的,按照出图效果分类可以将这一部分融合模型模型分为:橘子、蜡笔、Anything、cf等多种系列,每一种系列中的不同模型实际上都效果相差不大,完全没有必要去下载全部的模型。不了解AI的人所说的“AI浓度超标”“AI味”,其实指的是橘子(AOM)这一系列模型的风格,具体效果是人物身体的表面有一种油光,多了解之后你就会发现,类似这种一整个系列都会有相似的风格。5. 你的VAE?不,是你的VAE!VAE重复问题在SD1.5是比较严重的,例如Anything V4.5 VAE,实际上和novelai的VAE是完全相同的,有不少模型自带的VAE是使用了其他的VAE并且只是更改了文件名称而已,实际上这些VAE的哈希值都是完全相同的。相同的VAE无需重复下载,这些完全重复的VAE除了占用宝贵的硬盘空间外毫无作用。下面是笔者这里所有的VAE的哈希对照:(当然并不是全部,肯定还有其他的)掌控全局:ControlNet控制网ControlNet是stable diffusion的一个插件,它可以通过添加条件图片的形式来自定义很多内容达到自己想要的效果扩展插件: Mikubill/sd-webui-controlnetControlNet的保存库: lllyasviel/ControlNet1.  ControlNet基本功能想要使用控制网,首先需要点击启用(Enable)不然再怎么调整都是没有任何效果的(不启用怎么可能有效果)图片位置:你可以选择需要使用的图片导入至此,用以制作模板预处理:指你想要如何处理上传的模板图片。对应的控制网模型需要与之相对应的模板。CN模型:选择你要使用的模型,例如人物姿态控制就需要使用openpose,想要切换图片的白天黑夜状态就需要使用shuffle,不同的模型对应不同的功能选择优先考虑对象:给提示词更好的表现还是给控制网更好的表现选择缩放模型:你可以类比为windows系统的壁纸,可以调整生成图和模板分辨率不同的时候如何处理。Control Type:图上没标注,为不同模型的预设设置,很方便。另外还有这三个选项也是很常用的:从左到右的顺序是控制网权重、控制网介入时机、控制网引导退出时机。实际效果顾名思义即可。2.  推荐教程我这里不可能讲解的面面俱到,而且很多内容仅停留在会用上,你可以查看一些up的视频来学习大江户战士的个人空间_哔哩哔哩_bilibiliControlNet1.1场景氛围转换_哔哩哔哩_bilibili我们可以炼丹了,你不觉得这很酷吗?(lora)1. 没有脚本,炼个P这里推荐使用秋叶的LoRA模型训练包https://www.bilibili.com/video/BV1AL411q7Ub/也可以使用Kohya的训练脚本kohya-ss/sd-scripts (github.com)或者是HCP-diffusion(相信会用这个的大概不会来看这个入门级文章的吧)7eu7d7/HCP-Diffusion: A universal Stable-Diffusion toolbox (github.com)不推荐使用任何预设参数的一键炼丹炉2. 开始训练的准备工作①首先你需要一个6GB以上显存的NVIDIA显卡,如果没有,可以尝试云端炼丹②你需要一个祖宗级基础模型sd1.5 2.0、novelai,不推荐使用任何融合模型。③如果使用非秋叶包,那么你还需要在webui上使用tagger插件④准备训练集:训练集打标可以使用秋叶整合包中的tagger模块,也可以使用webui中的tagger插件。但是需要注意:任何AI打标都不可能100%准确,有条件尽可能人工筛查一遍,剔除错误标注一般而言需要准备一个训练集文件夹,然后文件夹中套概念文件夹命名格式为:x_概念tagx为文件夹中图片的重复次数(repeat)【这个参数不在训练UI里调节,而是直接在文件夹名称上调节】训练集是LoRA训练的重中之重,训练集直接决定了LoRA模型的性能3. 你所热爱的,就是你的参数①学习率设置UNet和TE的学习率通常是不同的,因为学习难度不同,通常UNet的学习率会比TE高。我们希望UNet和TE都处于一个恰好的位置,但是这个值我们不知道。如果你的模型看起来过度拟合,它可能训练Unet过头了,你可以降低学习率或更少的步数来解决这个问题。如果你的模型生成噪点图/混乱难以理解的图片,那至少需要在学习率的小数点后面加个0再进行测试。如果模型不能复刻细节,生成图一点都不像,那么就是学习率太低了,尝试增加学习率降低TE学习率似乎对分离对象有好处。如果你在生成图片过程中发现了多余的物品,那么就需要降低TE学习率如果您很难在不对提示进行大量权重的情况下使内容出现,那么你就需要提高TE学习率。更好的方法是先使用默认参数训练测试,然后再根据测试的结果来调整对应的参数。(秋叶训练包里的默认参数都是自带的)②优化器AdamW8bit:默认优化器,一般而言不了解/不知道测试结果的直接使用这个优化器即可AdamW:占用显存更高,但是比8bit效果更好一点DAdaptation:自适应调整学习率,显存占用极高。有不少人使用这个优化器来摸最开始使用的学习率SGDNesterov8bit:极慢,不推荐使用SGDNesterov:极慢,不推荐使用AdaFactor:(笔者没用过)似乎效果比DAdaptation好很多Lion:占用显存较高,效果极好,但是比较难以控制,需要bs或者等效bs大于64才能达到极佳的效果。Lion8bit:占用显存可能更低③调度器设置linear:不断下降,直到最后为零。cosine:学习率呈余弦波形上下波动。cosine_with_restarts:(没用过带其他人补充)polynomial:类似linear,但曲线更漂亮constant:学习率不会改变。constant_with_warmup:类似于constant,但从零开始,并在warmup_steps期间线性增加,直到达到给定值。④噪声设置noise_offset:在训练中添加噪声偏移来改良生成非常暗或者非常亮的图像,如果启用推荐为0.1金字塔噪声:增加模型生成图亮度对比和层次感,效果极佳建议开启4. 过拟合和污染①触发词和过拟合,并没有十分严格的界定,除非一些lora是过拟到非常糟糕,直接吐原图那种。毕竟训练人物特征本身就需要一定的“过拟合”②训练中常见污染,主要是因为打标器认不出或者遗漏(训练集质量),还有大模型的部分问题导致更容易被诱发的特征,包括:1. 混入其中的奇怪动物。2. 喜欢侧视和背视。3. 双马尾/兽耳。4. 胳膊喜欢披点东西(比如外套)。出现此类情况可以先先检查训练集和标注,然后再更换模型测试另外:角色的不对称特征请处理使其尽量在同一侧,且不要开启训练时镜像处理。5. 删标法之争,没有绝对的对与错在角色训练方面,一直有两种不同的观点删除所有特征标:多用于多合一,优点是调用方便,一两个tag就能得到想要的角色特征,但缺点是1. 一些特征可能受底模影响发生偏移。2. 要换衣服和nsfw比较困难。3. 容易出现不同概念的相互污染。4. 提示词会不准确删除部分特征标:仅删除多个决定角色特征的tag标注全标:优点是提示词准确,但是部分角色效果可能不好出现(还原性较差)是否删标取决于自己想要什么:假设说我的训练图是一个红色的苹果,如果我们标注这个苹果是红色的,那么你可以在生成图片的时候生成出绿色的苹果。如果我们只标注苹果,那么这个红色的就作为苹果的固有属性,只要出现苹果,那么就是红色的。6. LoRA进阶训练方法分层训练:https://www.bilibili.com/video/BV1th411F7CR/完美炼丹术,差异炼丹法:https://www.bilibili.com/video/BV11m4y147WQ/LoRA BW插件:https://github.com/hako-mikan/sd-webui-lora-block-weight模型Merge,并不科学但确实有效1. 你权重乱了融合模型前请先去除模型中的EMA权重:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用还会占用宝贵的硬盘空间2. 传统模型merge① 选择模型A、B、C②设置新模型名字一般来说可以设置为xxxMix(xxx为你想要的名称,Mix代表融合模型)在这里设置模型的名字。③设置Merge比例传统融合有两种方式,分别为:加权和Weighted sum:将两个模型权重的加权和作为新模型的权重,仅需要填入模型A和B,公式:A*(1-M) + B*M,倍率(M)为模型B所占比例加上差值Add difference:将模型B与C的差值添加到模型A,需要同时填入模型A、B和C,公式:A + (B-C)*M,倍率(M)为添加的差值比例④选择fp16请直接选择fp16,默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度是没啥意义的,不使用--no-half这些模型将完全相同。而实际上哪怕使用--no-half,模型的差别也并不会很大,所以直接选择fp16测试效果即可。⑤Merge点击它后等待一会即可,模型在你的webui根目录下的models/Stable-diffusion文件夹。需要注意的是:传统融合效果并非比现在的mbw等操作效果差3.  Merge Block Weighted扩展插件: bbc-mc/sdweb-merge-block-weighted-gui插件基本功能:开始合并:点击后直接开始融合清空数值:将下方的滑条全部置为0.5刷新模型列表:刷新模型列表。在webui开启状态下,如果模型文件夹新加入了模型,那么将会无法自动识别。如果原模型区域找不到新加入的模型,那么点击这里即可刷新模型列表模型A:选择需要融合的模型A模型B:选择需要融合的模型B输出模型文件名:你要输出的模型文件名称,通常为xxxMix预设权重:官方预设融合权重,选择后直接加载进下面的滑块权重框:输入自定义的融合权重,输入完成后点击下面的按钮直接加载进滑块文本编码器比例:A和B模型的语义分析模块的融合比跳过或重置CLIP position_ids键值:防止clip偏移导致模型出现各种提示词识别问题,强烈建议选择:强制重置Force ResetMBE能达到的效果:画风更换、人体修复、剔除污染层等更详细的MBW详解:Merge Block Weight 魔法密录1.0正式版4.  LoRA的注入与提取扩展插件:hako-mikan/sd-webui-supermerger插件基本功能除了MBW以外还有LoRA处理的相关功能:当然更多进阶的功能可以到插件仓库去查阅README.md,这里不做更详细的讲解。通过两个ckp大模型之间做差可以得到一个LoRA。需要注意的是这里需要在filename(option)这一栏输入想要的名称,不然无法提取点击下面的LoRA然后在上面选择模型,就可以把LoRA注入到ckp大模型里(同样需要在filename(option)这一栏输入想要的名称,不然无法注入)。需要注意的是,这里只能注入LoRA,并不能操作Loha等一系列其他模型,如有报错请检查模型格式是否正确。注意:部分模型做差提取LoRA后使用和原ckp模型效果差距很大,部分LoRA注入后和直接使用效果差距也会很大,具体是否可用请根据不同的模型自行测试5. 灾难性遗忘与模型融合限制很多模型灾难性遗忘(本来模型会的被炼到不会了)现象较为严重(排除掉lora的一些特定需求 其余的微调大部分层次的训练都可能有这个现象),而模型融合会放大这个现象。(比如模型只能出1girl)更多的功能,更多的插件,无限的可能注意:安装扩充功能可能会导致Stable Diffusion WebUI启动变慢,甚至无法启动,并且哪怕使用启动器也无法扫描出异常。请不要自行下载DreamBooth的WebUI插件!!!请不要自行下载TensorRT 的WebUI插件!!!请不要自行下载TemporalKit 的WebUI插件!!!请不要自行下载Deforum 的WebUI插件!!!自行下载这些插件并且炸了的唯一最佳解决方法:完全删除并重装WEBUI1. 用Webui图形界面安装①最简单的方法就是点击Extensions → Available的Load from:,就会列出可下载安装的扩充功能,点击安装②部分不在列表的插件,需要将Github库链接直接填入WebUI插件下载区,等待自动加载完毕即可③安装完成后必须点击这里重启UI网页界面(小退)才能使用,有的插件则是需要“大退”,即关闭Webui实例,重新启动。④更新扩展插件推荐使用启动器,而非Webui内的检查更新。webui内的检查更新大概率会卡住。2. 使用git安装①(安装前需要关闭你的webui实例)在你的webui根目录/extensions文件夹打开终端,运行git clone指令,安装扩充功能。例如:git clone https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git②打开WebUI,你就会看到新安装的扩展功能③windows系统插件更新同样可以使用启动器进行更新3. 使用压缩包安装①github界面点击【Download ZIP】注意:请在尝试了其他安装方式并且均失败的情况下再选择直接下载zip解压②完整解压后放在扩展文件夹:你的WebUI所在文件夹/extensions(需要关闭你的webui实例)③重新开启webui后能在插件列表中看到即为安装成功4. 停用、卸载、删除插件①对于暂时不使用插件,点击扩展前面的✔并且重启用户界面即可②删除、卸载插件最简单的方法是在启动器界面点卸载(卸载插件前请关闭你的Webui实例)请远离玄学民科1.  说明AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层。这就意味着玄学民科的内容会非常的多。模型理论科普V2.0.0627这个文档反驳了非常多的玄学民科内容,然而还有更多的玄学民科内容还在等着我们去科普2.  现状SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,自然而然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种内容等等情况。彻底卸载Stable Diffusion Webui1.  删除环境/软件python、git等软件都可以在windows系统内设置界面直接卸载,直接打开设置-应用-安装的应用搜索卸载即可2. 删除Webui本体直接删除Webui目录文件夹即可。注意这里有一个魔鬼细节:请不要在windows资源管理器内直接右键删除文件夹,如果这样直接删除,那么大概率需要几个小时的时间来检索文件目录。长期使用的stable diffusion Webui本体很可能有几十万个文件,检索相当耗时。推荐三种方法:①打开终端使用命令行删除②使用FastCopy直接删除所有(注意不要点左下角的擦除&删除)③如果你听了我的建议整个Webui相关的东西都放在了同一个盘符中,那么推荐使用快速格式化,这样删除是最快最方便的。3. 删除缓存文件①Webui缓存C:\Users\你的用户名\.cache这其中这4个文件夹是Stable Diffusion Webui所创建的缓存文件,只需要删除这四个文件夹就可以了,多出来的文件夹是你安装的许多其他的东西。②pip下载缓存C:\Users\用户名\AppData\Local\pip\cache如果找不到AppData文件夹那么请修改文件夹选项:隐藏文件和文件夹-显示隐藏的文件、文件夹和驱动器。cache文件夹可以直接全部删除不会影响其他的东西Stable diffusion相关词汇表● artificial intelligence generated content (AIGC): 生成式人工智能● ancestral sampling: 祖先采样,又称向前采样● annotation: 标示● batch count: 批量数量● batch size: 批量大小● checkpoint: 存盘点,模型格式,附文件名为.ckpt。● classifier-free guidance scale (CFG scale): 事前训练的条件控制生成方法。● CodeFormer: 2022年由Shangchen Zhou等人发表的脸部修复模型。● conditioning:制约训练● ControlNet: 2022年由Lvmin Zhang发表,通过加入额外条件来控制扩散模型的神经网络结构。● cross-attention: 分散注意● dataset: 数据集● denoising: 去噪,降噪● diffusion: 扩散● Denoising Diffusion Implicit Models (DDIM): 去噪扩散隐式模型,2022年由Jiaming Song等人发表的采样方法。● Dreambooth: Google Research和波士顿大学于2022年发表的深度学习模型,用于调整现有的文生图模型。● embedding: 嵌入● epoch: 时期● Euler Ancestral (Euler a): 基于k-diffusion的采样方法,使用祖父采样与欧拉方法步数。可在20~30步数生出好结果。● Euler: 基于k-diffusion的采样方法,使用欧拉方法步数。可在20~30步数生出好结果。● fine-tune: 微调● float16 (fp16): 半精度浮点数● float32 (fp32): 单精度浮点数● generate:生成图片● Generative Adversarial Network (GAN):生成对抗网络,让两个神经网络相互博弈的方式进行学习的训练方法。● GFPGAN: 腾讯于2021年发表的脸部修复模型。● hypernetwork: 超网络● image to image: 图生图● inference: 模型推理● inpaint: 内补绘制● interrogator: 图像理解● k-diffusion: Karras等人于2022年发表的PyTorch扩散模型,基于论文〈Elucidating the Design Space of Diffusion-Based Generative Models〉所实作。● latent diffusion: 潜在扩散● latent space: 潜在空间● learning rate: 学习率● Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion (LyCORIS)● low-rank adaptation (LoRA): 低秩自适应,2023年由Microsoft发表,用于微调大模型的技术。● machine learning: 机器学习● model:模型● negative prompts: 负向提示词● outpaint: 外补绘制● pickle: 保存张量的模型格式,附文件名为.pt● postprocessing: 后处理● precision: 精度● preprocessing: 预处理● prompts: 提示词● PyTorch: 一款开源机器学习库● safetensors: 由Huggingface研发,安全保存张量的模型格式。● sampling method: 采样方法● sampling steps: 采样步数● scheduler: 调度器● seed: 种子码● Stable Diffusion: 稳定扩散,一个文生图模型,2022年由CompVis发表,由U-Net、VAE、Text Encoder三者组成。● text encoder: 文本编码● text to image: 文本生成图片,文生图● textual inversion: 文本倒置● tiling: 平铺● token: 词元● tokenizer: 标记解析器● Transformers: HuggingFace研发的一系列API,用于辅助PyTorch、TensorFlow、JAX机器学习,可下载最新预训练的模型。● U-Net:用于影像分割的卷积神经网络● unified predictor-corrector (UniPC): 统一预测校正,2023年发表的新采样方法。● upscale: 升频,放大● variational auto encoder (VAE): 变分自动编码器● weights: 权重● xFormers: 2022年由Meta发表,用于加速Transformers,并减少VRAM占用的技术。
69
8
吐司在线Lora模型训练参数设置含义简介

吐司在线Lora模型训练参数设置含义简介

吐司在线Lora模型训练参数设置含义简介一:主要参数的含义: 底膜:训练用的大模型训练网络模块:包含lora,dora等 触发词:触发lora效果的提示词单张重复次数(Repeat):训练一轮模型学习这张图片的次数, 训练轮数(Epoch):训练的总轮次,总学习步数= (图片数量 重复次数 epoch)/ 批次大小以UNet学习率为1e-4为例,一般来说图片较少的时候训练人物需要至少1000步,训练画风则需要至少2500步,训练概念则需要至少3000步。这里只是最低的步数,图片多则需要更多步数。学习率更大可以适当减少步数,但并非线性关系,使用两倍的学习率需要使用比之前步数的一半更多的步数。 文本编码器学习率Text Encoder learning rate:在训练过程中,用于更新文本编码器模型权重的参数。学习率是一个重要的超参数,它决定了模型在每次迭代中权重更新的幅度。 Unet 学习率Unet learning rate:学习率决定了模型在每次迭代中参数更新的幅度,过大的学习率可能导致模型无法收敛,而过小的学习率则会导致训练过程缓慢且效果不佳。 训练图像尺寸:训练集的分辨率大小 种子seed:相当于图片的身份证 Clip skip:是指在图像生成过程中控制CLIP模型使用频率的参数。CLIP模型是一种先进的神经网络,能够将输入的文本提示词转换为数值表示,并通过多层处理生成图像。Clip skip参数决定了在生成图像时CLIP模型处理的层数,从而影响图像的质量和与输入文本的匹配度。 学习率调度器:是一种在训练过程中调整学习率的方法,通常会随着训练的进展而降低学习率。这有助于模型在训练开始时当参数远离其最佳值时进行大量更新。 优化器:用于调整神经网络的权重和偏置,以最小化损失函数,从而提高模型的准确性和性能‌。优化器的目标是通过对模型参数的调整,逐步降低损失函数的值,确保每次优化都朝着最快降低损失的方向前进‌ 训练网格大小‌训练网格大小‌通常指的是在机器学习或深度学习中,用于模型训练的数据集的划分方式。具体来说,它将数据集划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型参数,测试集用于评估模型的泛化能力。合理的网格大小划分可以帮助模型更好地学习和泛化,避免过拟合或欠拟合。 Alpha值:‌Alpha值‌在机器学习中通常指的是‌学习率‌,它是一个超参数,用于控制模型在每次迭代中权重更新的步长。学习率的作用是平衡模型的训练速度和稳定性。一个合适的学习率可以帮助模型快速收敛到最优解,而过高或过低的学习率都可能导致训练效果不佳。通常,学习率被设置为一个较小的值,以便模型在训练过程中能够缓慢地探索和学习,避免出现不稳定的情况‌ 噪声偏移:在训练过程中加入全局的噪声,增加生成图像的动态范围(黑的更黑,白的更白)。当不需要生成这类极亮或者极暗的图像时推荐关闭。如果需要开启,推荐设置值为0.1,同时需要增加学习步数作为网络收敛更慢的补偿。 多分辨率噪声袁减率Multires noise discount和多分辨率噪声迭代次数Multires noise iterations:多分辨率噪声减少(Multires Noise Discount)是一种算法,它通过迭代处理来减少图像噪声。这种方法通常用于图像的去噪过程。多分辨率指的是从高分辨率开始处理,逐渐降低分辨率,直到达到某个停止条件。在每次迭代中,处理过程可能包括滤波、图像重建或其他噪声减少技术。多分辨率噪声迭代次数(Multires Noise Iterations)则指的是在满足某些条件之前,需要执行多少次迭代。 卷积层维度conv dim和卷积层Alpha 值conv alpha:卷积层的维度(conv dim)‌是指卷积操作处理的数据的维度。在深度学习中,卷积层主要有三种类型:Conv1d、Conv2d和Conv3d,它们分别处理一维、二维和三维数据。卷积层中的学习率调整或权重初始化相关的参数。‌在卷积神经网络(CNN)中,卷积层是核心组成部分,主要用于特征提取。    
69
5
AI绘画提示词及生成技巧

AI绘画提示词及生成技巧

一、AI绘画prompt词(一)人物相关外貌特征描述对于人物的外貌,详细的描述可以让AI生成更符合预期的图像。例如“a girl with long curly blonde hair, big blue eyes, and a small nose”(一个有着长长的金色卷发、蓝色大眼睛和小鼻子的女孩)。如果想要特定风格的外貌,可以加上风格形容词,像“a girl with anime - style big eyes and long purple hair”(一个有着动漫风格大眼睛和长长的紫色头发的女孩)。描述面部表情也很重要,如“a smiling boy with dimples”(一个带着酒窝微笑的男孩)。另外,还可以提及身材特征,“a tall and slender woman wearing a red dress”(一个穿着红色裙子的高挑苗条的女人)。身份与穿着明确人物的身份有助于构建画面,比如“a police officer in uniform, with a badge on his chest”(一个穿着制服、胸前戴着徽章的警察)。对于穿着,可以详细到衣服的款式、颜色和材质,“a young girl wearing a white lace dress and black leather boots”(一个穿着白色蕾丝裙和黑色皮靴的年轻女孩)。配饰也是丰富画面的元素,“a man with a black hat, a silver watch on his wrist, and a leather belt”(一个戴着黑色帽子、手腕上戴着银色手表并且系着皮带的男人)。动作与姿态描述人物的动作可以使画面更生动,“a dancer in mid - leap, with her arms outstretched”(一个正在跳跃、双臂伸展的舞者)。或者是静态的姿态,“a man sitting on a bench, reading a book”(一个坐在长椅上看书的男人)。(二)场景相关自然场景在描述自然场景时,可以提及各种元素。比如“a forest with tall trees, green moss on the ground, and a small stream running through it”(一片有着高大树木、地上长满绿色苔藓并且有一条小溪穿过的森林)。天气状况也能影响场景氛围,“a sunny beach with white sand, blue waves, and seagulls flying overhead”(一个有着白色沙滩、蓝色海浪并且海鸥在头顶飞翔的阳光海滩)或者“a misty mountain covered with pine trees”(一座被松树覆盖的雾蒙蒙的山)。建筑场景对于建筑,可以描述建筑的风格、颜色和功能等。例如“an old Gothic cathedral with stained glass windows and flying buttresses”(一座有着彩色玻璃窗和飞扶壁的古老哥特式大教堂)。建筑内部场景也可描述,“a cozy living room with a fireplace, a soft colored sofa, and a bookshelf filled with books”(一个有着壁炉、浅色沙发和摆满书的书架的舒适客厅)。(三)风格相关艺术风格从传统艺术风格来看,“a painting in the style of Van Gogh, with bold brushstrokes and vivid colors”(一幅有着梵高风格、笔触大胆且色彩鲜艳的画)。现代艺术风格如“a digital art in the style of cyberpunk, with neon lights and high ”(一幅有着赛博朋克风格、带有霓虹灯和高科技元素的数字艺术作品)。绘画类型风格如果想要特定绘画类型的风格,可以说“a watercolor painting of a flower garden”(一幅花园的水彩画)或者“an oil painting of a still life”(一幅静物油画)。(四)画面质量相关像“high quality, detailed, and realistic”(高质量、细节丰富且逼真)或者“masterpiece, best quality”(杰作、最佳质量)这样的词可以让AI知道要生成高质量的图像。二、AI绘画优质prompt词和参数实例(一)实例一Prompt词“A beautiful princess in a long white dress, with a golden crown on her head, standing in a magical garden full of colorful flowers and a small fountain. The painting is in the style of watercolor, high quality and detailed.”(一位穿着白色长裙的美丽公主,头上戴着金色王冠,站在一个满是五颜六色花朵和小喷泉的魔法花园里。这幅画是水彩画风格,高质量且细节丰富。)(二)实例二Prompt词“A young man in a leather jacket, riding a motorcycle on a desert road at sunset. The scene is in a realistic style, with detailed textures of the motorcycle and the desert sand.”(一个穿着皮夹克的年轻人在日落时骑着摩托车行驶在沙漠公路上。场景是写实风格,摩托车和沙漠沙子有详细的纹理。)四、不同风格AI绘画的prompt词与参数(一)写实风格Prompt词对于写实风格,要注重细节和真实感的描述。例如“An old man sitting on a wooden chair in a dimly lit room. His face is wrinkled, and he is wearing a worn out sweater. There is a small table beside him with a half -empty glass of water. The scene is highly detailed and photo realistic.”(一个老人坐在光线昏暗的房间里的木椅上。他的脸上有皱纹,穿着一件破旧的毛衣。他旁边有一张小桌子,上面有半杯水。这个场景细节非常丰富且像照片一样逼真。)(二)动漫风格Prompt词“A cute anime girl with long pink hair, big purple eyes, and a school uniform. She is standing in a cherry blossom garden, with petals falling around her. The style is anime like, with bright colors and simple lines.”(一个可爱的动漫女孩,有着长长的粉色头发、大大的紫色眼睛,穿着校服。她站在樱花花园里,花瓣在她周围飘落。风格是动漫式的,有着明亮的色彩和简单的线条。)(三)抽象风格Prompt词“A composition of geometric shapes in bright colors. There are triangles, circles, and rectangles overlapping each other, creating a sense of movement and energy. The painting is in an abstract style, with a sense of depth and texture.”(由明亮颜色的几何形状组成的构图。有三角形、圆形和矩形相互重叠,创造出一种运动和活力的感觉。这幅画是抽象风格,有深度和质感。)五、提高AI绘画效果的prompt词和参数技巧(一)明确描述主体和细节主体明确在prompt词中首先要明确画面的主体是什么。如果想要画一只猫,不能只说“a cat”,而是要更详细地描述,比如“a black cat with green eyes, a white patch on its chest, and a long tail”(一只有着绿色眼睛、胸前有一块白色斑块并且长尾巴的黑猫)。这样AI就能够更准确地知道要画什么样的猫。细节补充除了主体的基本特征,补充更多的细节可以让画面更丰富。例如在描述人物时,除了外貌,还可以描述人物的情绪、动作、所处的环境等。“A sad little girl sitting on the floor, hugging her teddy bear, in a dark and empty room”(一个悲伤的小女孩坐在地板上,抱着她的泰迪熊,在一个黑暗空旷的房间里)。(二)控制画面风格直接指定风格直接在prompt词中明确指出想要的风格,如“in the style of impressionism”(印象派风格)或者“a digital art in the cyberpunk style”(赛博朋克风格的数字艺术)。这样可以避免AI生成不符合预期的风格。混合风格创造新效果尝试混合两种风格来创造独特的效果,例如“a painting that combines the style of traditional Chinese painting and surrealism”(一幅结合了中国传统绘画风格和超现实主义风格的画)。不过这种情况下要注意两种风格的平衡描述,以免画面过于偏向某一种风格。(三)调整参数以适应需求尺寸与比例调整根据最终用途来调整图像的尺寸和比例。如果是用于手机壁纸,可以选择9:16的比例和适合手机屏幕分辨率的尺寸。如果是用于电脑桌面壁纸,16:9或者16:10的比例可能更合适。在生成之前要考虑好这些因素,选择合适的参数
47
3
土司LoRA模型训练个人经验总结

土司LoRA模型训练个人经验总结

土司LoRA模型训练个人经验总结对于新手炼丹师来说,看到喜欢的图和风格就想自己练个模型来用,那么就用到LORA训练了!首先明确自己需要训练什么类型的LoRA,看你喜欢的是什么:看到一张美图,你到底喜欢的是哪些,想练的就朝喜欢的方向去。粗略分成:人物角色、画风/风格、概念、服饰、物体/特定元素(光、暗、火冰,色系等)etc。其次是收集素材。按照你喜欢的元素去收集,对照上面的喜欢的分类去收集素材,不是越多越好,一般建议20张左右即可。素材要求:高清,不同角度,不同背景,不同姿势,不同服饰,清晰无遮挡的图片,关键是高清!!!所以炼实物的请找这个物件自己拍照最好。第三步是处理素材,当然主要靠PS啦。不会PS就剪裁吧!清理不喜欢的东西,保留需要的高清部分。模糊、文字等不建议放入。第四步生成/优化标签(可选),土司网站上传后就自动打标签,所以不再多说,用工具即可(建议保留个txt文件,方便校验核对LORA效果)。你要自己打标签的就是同图片,同TXT文件包成.ZIP 文件上传即可,如FLUX、SD3.5用自然语言描述的就要打包。第五步触发词:选个个性化的英文词(要翻译器不认识的!!!),将触发词添加进每个图的标签里(见下图)。第六步选择训练LoRA使用的大模型:目前有SD1、SDXL、PONY、FLUX、SD3.5(这里的算力价格由低到高),其他如(混元、可图等),可选中间出样图(魔法词汇,请参考前面某个图的标签),没有也无所谓的,这里就略过了。第七步开始训练,在网站上炼就是消耗算力,高低扣除后,就是排队等候训练,让后训练中看看进度条,看看中间的样图...这个时间会比较久,慢慢等待就好。(一般扔进去,等一个晚上就好了)第八步,当然收获一堆炼丹结果,开始测试模型啦!从训练好的LoRA模型队列中,找出最后一个文件下载,当然(中间的也可以),本地SD/ComfyUI放到文件夹(sd-webui-aki/models/lora)中,刷新后就可以在SD中看到你训练的那个模型,FLUX/SD3.5就要先上传发布,可以先发个私用,再生图。按照自己图的TXT的标签,对好炼丹底模,通过不同权重去核对LORA效果,是不是很像??!!----------------以下经验:SD1的比较像,图形模糊(对应好底模出图)SDXL:找对底模,基本很像,清晰度一般PONY:NSFW利器,就是比较模糊,皮肤是3D硅胶的,没法看汗毛、毛孔的那种FLUX:高清但是不像,除非用F1.dev-F16的,才有点像。太耗显存了,网站都只用F8的,所以不像,经常输出2D图,累~SD3.5:风格比较像,清晰度也可以,无法NSFW
45
7
真正的立绘法——AI生成立绘图方法

真正的立绘法——AI生成立绘图方法

模型:【立绘法】VUPportrait/l2d立绘- A33 |吐司tusi.cn站内小工具(只能达到25%的效果):虚拟主播人设设计|吐司tusi.cn推荐模型&展示图片【均为本人粗制滥造随机出图,部分细节问题可通过图生图修改(例如:手、头发的错误)】旧的AnythingV3(FT)模型:(已删,想要此效果可以尝试AnythingV5)新的VUPportrait/l2d专用模型:(推荐,更便于拆分和后续制作)【立绘法】VUPportrait/l2d立绘- A33 |吐司tusi.cn目前只推荐使用A3.33/VUPportrait专用模型其余社区模型均不建议用于AI立绘制作。如果使用其他或者旧模型,会出现各种问题(例如经典的“怀旧服”“AI画风”,或者其他不可控因素)制作方法● 提示词:非lora立绘法起手式:(注意这里请不要使用立绘lora)official art,1girl, simple background,[(white background:1.5)::0.2],open-mouth,(whitebackground:1.2)+具体人设tag想加的可以加一个加个(实际上加不加都行)<lora:charturnbetalora:0.2>这个lora,在秋叶视频有这个lora的分享● contronet设置其次是对应的contronet设置,具体参数如下图所示,预处理选无,模型使用openpose,模板图在最下面,分三种体型在吐司工作台就选择点击controlNet选择openpose直接上传控制图就好了● 其他设置采样方式随意,目前测试Euler和DMP一系列还有UniPC都是没啥问题的必须开启高清修复,放大倍率推荐为2,重绘倍率开0.6以上输出图尺寸推荐为320*640放大后为640*1280【也可以跟图中一样,放大倍率4,输出尺寸160*320。放大后统一为640*1280】附带图片体型分别为:萝莉/少女(少年)/成女(成男)AI面补这里附带AI面补的相关内容,效果并不是很好,有条件请自行制作模型yuyuyzl/EasyVtuber: tha3, but run 40fps on 3080 with virtural webcam support (github.com)
40
2
来自AI纯小白的血泪史_入坑1月感受 (AI绘画生坑中摸爬滚打)

来自AI纯小白的血泪史_入坑1月感受 (AI绘画生坑中摸爬滚打)

1月总结:迷茫 啥啥啥?记不住!好难啊!头秃中....置顶:纯新手打怪路线推荐:别直接上来就挑战BOOS!想着开大!提醒:纯新手先别碰comfyui!别碰comfyui!别碰comfyui! 新手会很懵,加大你开始的学习难度! 一、【理解AI绘画】底层逻辑(打地基),赛博菩萨秋叶的30分钟扫盲教学:https://www.bilibili.com/video/BV1x8411m76H/?share_source=copy_web&vd_source=b5a4ab998d4d5ceea4b241206cd7f4b4*新手不用看懂里面的数据,了解个大概原理就可以了; 二、【尝试AI绘图】先别折腾本地部署跑AI,尝试AI网站出图,简单先上手;【线上出图】1、吐司AI(每人每天送100积分) 分享链接:https://tusiart.com/images/782796843861081022?post_id=782796843856886719&source_id=nja2oVjnnUawp_ssa3nz9Bku2、哩布哩布AI (每天300积分)https://www.liblib.art/两个平台每天都有免费积分,都有自己的界面可以都尝试尝试;网页AI学习资料:https://www.bilibili.com/video/BV1Ux421y7yd(可以看轻舟大佬的系列直播课,通俗易懂。)*一定要多看平台上别人的分享的模型、方法、***、工作流等,学习成功人的方法比自己瞎琢磨要好! 三、【进阶分支选择方向】:(目前我还在新手期,学习快的可以先走,后面记得带带我>.<)1、学习本地部署:这个看你的电脑:3090 4060TI这类显卡可以折腾,老电脑老实线上出图吧。(我就不服输用4G的AMD显卡折腾到最后还是老实线上了)2、学习图生图功能(比如换脸、换衣服、老图修复、划痕修复、磨皮等)这些都是未来可以可走商业化的。3、Comfyui:学习一段时间网页出图大概也了解很多英文是什么意思,有那些功能了,想折腾新功能或者专业化的就可以走这个路线,未来出教程、做定制化路线的可以找这方面的视频看了;4、炼丹:就说做自己的大模型、LoRA微调小模型,这个可以创作属于自己风格的风格模型,未来可以在出图网发布赚积分当分享大佬,做平台培训师;*本地部署的安装包、炼丹炉用赛博菩萨秋叶制作的:https://www.bilibili.com/opus/966959582618320965?spm_id_from=333.999.0.0置顶完成:下面是我的踩坑之路(废话篇可无视)看到这篇文章的新/老法师们,不知道你们入坑是哪年?第一脚是如何踩下去的?是看了某个文章/短视频好奇?是朋友画了一个巨好看的二次元卡通?还是觉得有更多收入? 我是后者觉得AI有潜力,学会能跟着产生收入。我是做PS的三线城市小设计师,也就会一些软件的基础操作和排版,简称套模板拖拉拽;基础太差,看专业设计师设计的图只有羡慕的命;2022年身边朋友就用AI来处理给工业零件去划痕,效果是真的好那时候也想学习,苦于当时电脑配置太低(现在也是十年前老电脑,因为PS设计配置要求不高),搭建很复杂,就放弃了。 直到24年10月,看了好多营销号宣传FLUX.1大模型XX厉害,画手XX强,又看了短视频直播好多人在分享comfyui做出的图片都好看,而且那个和蜘蛛网一样全英文的界面一看就好专业呀,我也要学习,踩坑开始。。。。 然后我就无脑的看了B站的那种comfyui的系列课程,一看两天过去了,然后我就脑子哦懂了,动手那是啥啥啥?我这是步子挎着太大,扯着蛋了,基础都没搞不懂,那就想专业的知识,越学越糊涂。后面短视频又看了很多老师直播讲课:想在想想哪是讲课呀,就是不停的说工作流,展示他们的作品,让加粉丝牌进群,然后转私域卖课:什么499、699、899这种系列课割韭菜,新手哪经得起这个诱惑啊,差点就花钱买课了。(最傻的是我纯小白发问:sd和comfyui他们区别是什么?人家压根不理我哈哈哈。) 买课前我心想不得让本地能先运行上在学习呀,要不等等,双11咬咬牙配一台好电脑也行呀,又网上营销号说FLUX:NF4 3G显卡就能运行,瞬间又懂了尝试本地部署的想法。兜兜转转又了解到有一个AI赛博菩萨秋叶大佬,她做了一个一键本地部署安装包,又折腾好几天、结果就是,我不配,老实生电脑或者线上玩吧。 不过好消息是看了秋叶大佬的视频后,也学习了一次基础扫盲,也了解线上有很多人赛博菩萨无私的为AI发展做奉献,真正的在分享知识,吐司里面的文章也有很多大佬在分享自己的教学,AI绘画学习门槛很高,对没接触过编程、AI、英语的人来说学习挺难的,每次都要翻译很多名词才知道意思,有的编程名词压根也没法翻译,所以要长时间的学习,而且AI绘画迭代升级真的很快,营销号/民间科学家(民科)视频看个热闹就好,大部分不是真的在教你知识,都是想赚流量或者想引私欲卖课的多,想要不被人带节奏就得沉下心来,把基础学会,多看别人的工作流,多练习把。 1、新手看轻舟的直播教学:https://www.bilibili.com/video/BV1Ux421y7yd*吐槽:讲的真的很细很适合新手,就是直播太、太长了,容易被弹幕带跑节奏。2、扫盲文章工具书,结合了很多、很多、多的文章,特别全面https://docs.qq.com/doc/p/230e7ada2a60d8e347d639edd5521f5e62332fe9*吐槽:专业信息术语太密集,纯新手看压力打,纯文章学渣压力大,可以先看轻舟大佬的直播教学在来看这个工具书,会事半功倍; 
39
5
AI模型的实际运用方式之一

AI模型的实际运用方式之一

传统流程:约摄影师->商量拍摄风格->找场地->准备服化道->准备相机灯光器材->现场实拍一天->第二天粗选图->再一周精修图,时间精力花的多,效果却不尽人意。AI绘画流摄影:约摄影师->使用自己的清晰照片30-70张->训练专人模型(保持人物一致性和适用性)->客户选择大概想要服装地点背景->出图,选效果满意的写真图。个人特色写真:婚纱,礼服,赛博等
35
10
点击TA 2024回忆报告,查看你深度参与的“环节”

点击TA 2024回忆报告,查看你深度参与的“环节”

点击TA 2024回忆报告,查看你深度参与的“环节”请注意!前方正在向你走来的是,2024 TA年度报告。出乎整个运营团队预料的是,今年站内的年度prompt词是「hair」。这意味着, hair被大量的写入提示词中,且是站内使用频率最高的提示词。hair的使用次数高达惊人的 2亿+ !但仔细想来,如果想对某个人物图像、角色图像做到更精确的控制,头发是必不可少的一环,而头发往往又代表角色的鲜明特征。回顾站内的提示词构成,诸如「long hair」「short hair」「red hair」等简单对头发的描述占大量比重。今年下半年开始,中文提示词的占比也逐渐上升。是的没错,我们很高兴看到中文模型生态在吐司不断孕育发展壮大。从此,生图不用再受英文提示词束缚,有了全新中文语言的可能,可以一起用中文描绘独属于国人的究极浪漫。提示词从“头”开始,和我们从新起航,在即将到来的新的一年里TA也要和大家继续相伴,今天你生图用「hair」了吗~截止目前,我们在全球托管40w+ AI模型,其中热度top5的模型是日均生成量30w+,每天有超过2w+ 个帖子发布在平台上,月均浏览2,700w+,分享内容350w+ ,这是今年热度Top5的帖子在今年,我们拥有过万的工作流和AI小工具,使用场景也更加多样,能够解决更多实际应用场景上的问题很高兴在今年网站用户突破320 w!有超过千位在吐司诞生月份就加入的老朋友依旧保持活跃!翻看站内的作品和社群,我们看到很多在网站建立之初加入,并一直陪伴着我们的用户,小李、今宵、hans、浅笑、千秋九月等等等等,感谢你们在网站还相对简陋不成熟的时候选择我们并一直活跃在吐司这个大家庭里。是因为你们的信任和陪伴,才不断推动着我们,激励着我们越来越好。在城市分布方面,广州、上海等一线城市占比最大,相比较去年东莞、佛山、福州等二三线城市的使用人数也有大量涨幅。用户的年龄结构方面,26岁-35岁占比高达38%,年轻用户对新鲜事物充满好奇,具有较强的创新意识和表达欲望,是推动AI 生图多样化创作风格的主力军。但50+岁的用户也不遑多让,占比也是创意生图的中坚力量,他们可能在职场的间隙,抽空呼吸放松,用AI描绘出心中的诗与远方。对比去年,18-25岁用户占比也有显著提升!从今年的数据上来看,女性用户的数量同比增长5%,占比也来到了20%不论是城市、年龄还是性别,我们团队对比过往数据,能够得到一个令人惊喜的结论:AI技术正在向全民化发展。人们使用AI的壁垒在不断减少,获得AI相关信息更加便捷全面,而这也是我们希望看到的。今年,我们完成了几十次的功能更新和数百次的bug修复,我们始终把用户体验放在第一位,而产品功能更是我们的立身之本。比如,我们创造性的推出AI小工具,可以理解为一个mini版的app!对创作者而言可以把复杂的工作流包装得到更多的传播和使用;对于使用者而言不需要了解背后的复杂逻辑,一键使用。我们目前已经可以做到覆盖设计、视觉、游戏、建筑、艺术等多行业的实际应用场景解决方案。在不久的将来,更将推出全新设计师友好的灵感发散工具今年,吐司一共上线20余场站内活动,30余场站外(社群社媒)活动,更有多场直播、免费b站课程等。我们非常高兴看到越来越多的用户参与到我们的活动中来,更令我们感动的是,许多用户会认真支持每一场活动,醉梦星河、叽里呱啦、天海、剑舞清风、RelianceXL、焦糖拿铁多加奶、青旭、蔚蓝blue,还有更多更多的用户!这些昵称,我们运营团队都妥帖的记在心里。与此同时,今年我们在外部合作上有了更多拓展。在此就不一一穷举,新的一年跟我们一起探索更多可能。今年各类新基座模型百花齐放,我们一直鼎力支持并承载每一新技术的发展!毫不夸张的说,大部分基座模型我们可以做到T+0支持在线生图,T+1支持多种网络模块的在线训练。(产研:在做了!在做了!)在AI快速发展的浪潮下,我们从未放缓过技术创新的脚步。在AI井喷式发展的这两年里,放眼全球,我们的算力价格都是极低的。在用户增长和新技术成本增大的情况下,我们依旧保持原有优势,保障算力充足,并让用户能够用更低的成本体验AI。除了追逐新技术以外,还做了全面的工作流AI小工具的功能,探索各类应用场景。从产品雏形诞生那一日起,我们的初心就从未改变:让每个人都能体验到AI创作的乐趣。而“Trained Once, Thrive everywhere.”这一理念也绝不是说说而已。这句话的意思是,一旦你在我们的平台上训练了一个模型,后续的活动(如发布、运行模型、被他人纳入工作流程或AI小工具)都将持续为你产生收益。当然,我们不仅只有追新,只有探索,我们也有对陪伴我们的创作者有更多的回馈。我们期望平台创作者能够通过创作获得收益反哺。因此,我们设立了创作者中心,以帮助创作者监控他们上传作品的收益,创作者激励相比较去年涨幅523%。显卡基金、充能、订阅,我们给创作者提供了更多的收益方式,创作者人均收入增长8.15倍。我们一直将扶持国内AIGC生态为己任,除了上线功能全面的在线训练,降低训练门槛以外,也一直在探索更多有可能的收益方式使创作者得到应有的物质回报。我们希望创作者在为热爱发电的同时,能感到有更足的底气。即将上线会员模型,这么多收益方式,总有一款适合你!从2022 年底ChatGPT 引发生成式人工智能的热潮,到2024 年初Sora 模型以文生视频技术令世界瞩目,AI 技术在软件代码、文本、语音、高保真图像和交互式视频的创作上取得了显著突破,不断推动着多领域的革新。AI行业的发展绝不仅仅是靠某一公司的成功而前进,我们也在这些优秀的同行身上获得启发,并为之努力奋斗。AI是一片热忱的土地,长满关于科技与梦想的各具特色又生机勃勃的植物,我们在上面种下一颗名为吐司的种子,期待它的不断生长。年度榜单TA有自己的年度榜单,快来看看你上榜了没榜单直通车在此,死手,快点啊!👉年度榜单👈
36
1
黏土风格火了!这些lora效果网友都在找(建议收藏)

黏土风格火了!这些lora效果网友都在找(建议收藏)

"黏土风格"是一种艺术表现形式,它通过对黏土的塑造和处理,创造出具有特定外观和感觉的作品。这种风格在近年来的短视频创作、图像编辑、手工艺品制作等领域中尤为流行。毒法师对黏土这种风格和纹理也是抵抗不住,熟悉毒法师的小伙伴都知道,我在流光器韵这个系列的LORA模型主打一个材质和纹理,所以最近也练了不同观感的几个黏土LORA,这里集中为大家介绍下使用方法和效果。一、风格介绍在手工艺品制作中,"黏土风格"通常指的是使用黏土材料制作的各种作品。这种风格的手工艺品具有较强的可塑性和创造性,可以让人们根据自己的想象和需求,打造出独一无二的作品。基于黏土这种特殊的材质,毒法师也是炼制了不同造型不同效果的几个LORA模型,目前有如下几个:1.黏土神兽2.黏土小人鱼3.黏土风格打工人4.黏土僵尸小女孩/小男孩5.黏土惊悚僵尸6.黏土调皮北鼻这几个LORA模型总体上都是粘土风格,但是在黏土的细腻程度、色彩以及纹理方面有较大差异,有的粗糙、有的细腻,有的色彩丰富、有的色彩单一,当然,造型也是大不一样,可用于游戏角色、海报画面,甚至是文创IP,只为满足大家不同的使用场景和期望的效果。二、使用说明目前这些LORA有的已经发布,有的还没有发布,毒法师这里以前两个为例介绍下画面效果和使用方法。1.模型获取:怎么获取这些LORA模型呢?请移步毒法师主页,https://tusi.cn/u/662557069739585057/models可以在主页看到这些黏土风格的LORA模型,使用可以在线跑图,也可以下载后在本地使用,个人经验,在线和本地跑图效果会有细微差别,不过主体风格是保持一致的。2.使用操作:底模的选择,使用写实类底模一般都能够出效果,不过不同的底模画面效果肯定会有差异,推荐使用GhostMix鬼混、麦橘系列以及天海Tenkai的模型,这几款毒法师在线跑图效果都很美丽。如黏土小人鱼这个,不仅可以出IP效果,使用写实真人模型,可以出真人效果。提示词的书写:这个没什么可说的,毒法师所有的LORA模型主打一个懒人使用、新手无门槛、单词恐惧患者友好,所以你只需要输入基本提示词即可,如1girl、1boy,dragon等等,简化到基本可以不写,当然,权重开大的话,你真的可以不写。另外,每个模型毒法师都会在线跑一些图,也会在每个模型的说明中有不同的关键词,调用更多效果,具体可以在模型的说明中查看。如黏土小人鱼这个,你可以加object on head,粘黏土神兽可以加teeth等。权重的选择,这几款的权重在0.65-0.85效果最好,但要注意,不同底模你的权重可能需要灵活调整,当然,权重的高低根据你想要的效果调整,如果连权重高LORA模型效果明显这种基本都不知道的话,可以退出了。其他参数的选择不用纠结,在线基本默认即可,如果要调建议采样用DPM++ 2M SDE Karras、restart、Euler a等。看起来复杂,用起来基本都是无脑直接出效果,信我,用过你会欲罢不能。
34
1
用几句话拍成一部王家卫风格的电影片段

用几句话拍成一部王家卫风格的电影片段

~ 最新更新~AI虚拟明星培养计划:Eva夏娃,AI歌手、模特、演员 点击前往>~ 写在前面~我打算用三种方式尝试用AI创作短剧片段,分别是:1、混元文生视频2、万相图生视频3、常用云端资源创作图生视频。本文着重介绍第一种:混元文生视频。你也可以点击了解第三种:时下热门的AI短剧创作过程。~ 正文开始~王家卫导演的电影独具风格,其电影画面氛围丰富而忧郁、光影效果对人物性格的塑造令人过目不忘。他的电影,总是以一种独特的艺术风格吸引着观众的目光。他善于运用光影的变化,营造出一种既真实又梦幻的氛围,让观众仿佛置身于一个充满诗意的世界。而他对人物性格的塑造更是细腻入微,通过光影的交织,将人物的内心世界展现得淋漓尽致,令人过目不忘。本文将通过混元文生视频大模型,结合人物LoRA进行作品创作。先欣赏一段AI生成的电影介绍:因为吐司文件上传限制(不能超过5M),因此这段视频效果已经大打折扣,无论从清晰度和色彩上都损失了很多,也无法听到背景音乐,强烈建议点击这里查看清晰原视频。如何创作这样的视频?第一步:你要本地部署混元文生视频工作流,这个不是本文的阐述范围,如果你需要混元部署相关的资源,可以点击这里免费获取。第二步:非常重要的环节,要给自己要创作的片段做脚本规划,你要表现什么内容,这段内容可以分为几个分镜头,每个分镜头用什么文生视频提示词。如果你不好掌控,可以尽量利用deepseek,让ds帮你写一段1分钟的王家卫导演风格的电影片段,反应女主角的生活片段(具体可以简单要求),并设计分镜头,每个分镜头的文生视频提示词。这段23秒的视频内容比较简单,就是女主人公的某个生活瞬间,其实只用了两段提示词,一段描述抽烟,一段描述向镜头走动。因为AI生成内容的随机性,我们得到了丰富多样的动作效果,从抽烟时的悠闲姿态到向镜头走动时的自信步伐,每一个细节都被精准地捕捉和呈现。第三步:有了脚本和分镜头,接下来就是通过混元文生视频工作流创作视频。注意,你可能在这个创作过程中获得更多的灵感,反过来调整你的脚本和分镜头。需要说明的是,为了保证模特脸部的一致性,我专门训练了一个混元文生视频的人物模型LoRA,LoRA对脸部和身体都做了训练,经过多次测试,LoRA模型展现出了出色的泛化能力,无论是在多变的服装还是复杂的场景中,都能稳定地呈现出高质量的视觉效果。这种稳定性,正是得益于混元文生视频大模型的卓越性能。关于LoRA的训练,在几秒钟的短视频中似乎不重要,但如果你要创作短片,主角需要多次出现,那么定脸的LoRA就至关重要了。如果你要学习视频LoRA的训练,可以联系雯雯wenwen061106进行一对一的教学。这段抽烟视频,AI赋予了人物转身的动作(提示词里没有),动作自然流畅:这段脸部特写的正面抽烟视频,虽然没有烟雾,但我很喜欢,在剪辑中全部都用了:第四步:剪辑合成。使用剪映对你在第三步中创作的视频素材进行剪辑加工,增加背景音乐、音效、过场效果等等,最终形成短片成品,点击这里查看清晰原视频。抛砖引玉,这段视频不代表什么,只是一次文生视频的尝试,是在不到几个小时内完成的,你如果对影视创作很熟练,相信效率会更高、效果也会更好。~ 复盘~最后从价值上简要的分析。创作这个片段的目的,最大的意义就是文生视频的锁脸。在传统的AI短视频制作流程中,创作者通常需要先设定一个具有独特个性的IP形象,然后通过文生图技术生成静态图像,再将这些图像转化为动态视频。这个过程不仅耗时,而且在图像到视频的转换过程中,往往会丢失一些细节,导致最终效果不尽如人意。然而,混元、万相等文生视频的出现,为这一流程带来了革命性的变化。通过上述例子,我们可以清晰地看到,混元视频结合LoRA锁脸技术和提示词场景服装行为设定的方式,能够直接通过提示词生成高质量的视频素材,极大地简化了制作流程,提高了创作效率。与现在主流的通过图片锁脸的文生图+图生视频素材准备过程不同,文生视频+LoRA锁脸+提示词场景服装行为设定的方式,完全可以直接通过提示词实现账号素材的准备工作。这种新的创作模式不仅节省了时间和精力,还能够更好地保持IP形象的一致性和连贯性,使得视频内容更加生动和真实。随着技术的不断进步和应用场景的不断拓展,混元视频有望成为未来AI短视频制作的主流方式,为创作者带来更多的创意空间和商业机会。更多视频、短片创作推荐文章:时下热门的AI短剧创作过程如何用文生视频创作商品广告一次叫外卖引发的LoRA创作灵感作者雯雯(VX:wenwen061106),一个八级LoRA炼丹师,设计师,国际PS认证师,AI精品资源站 站长,雯雯AI影视工作室期待你的加入。
34
1
AI视觉革命:广告图片智能设计全流程解析与实战指南

AI视觉革命:广告图片智能设计全流程解析与实战指南

开篇:从PS到SD——设计工具的范式转移 2023年,可口可乐全球创意团队用MidJourney生成的广告图在戛纳创意节摘金,这张融合气泡动力学与梵高笔触的视觉作品,仅用2小时完成从概念到成稿的跨越。这场变革标志着广告设计进入AI原生时代——设计师的核心能力正从操作技巧转向「提示词工程」与「算法审美」。本文将拆解AI广告设计的完整工作流,并提供可落地的实战方法论。---一、AI广告设计双螺旋流程 1. 需求解码阶段 - 关键词蒸馏术:用品牌定位立方体(Brand Cube)分解需求 案例实操:运动品牌新品推广 - 产品属性:气垫跑鞋/减震科技/超轻量化 - 情感诉求:自由感/突破极限/城市穿梭 - 文化符号:霓虹光效/赛博朋克建筑/流体动力学 - 视觉语法转换:将抽象概念转化为AI可识别参数 ``` /imagine prompt: Nike Air Zoom Pulse 2024, cyberpunk cityscape background, neon light trails with fluid dynamics simulation, ultra-detailed 3D rendering, dynamic angle 45 degrees, cinematic lighting, chromatic aberration --v 6 --ar 16:9 ``` 2. 算法共创阶段 - 多模态模型组合拳: - Stable Diffusion XL:基础构图生成 - ControlNet:精确控制姿势/透视(OpenPose+Depth Map) - LoRA微调:注入品牌视觉DNA(如Hermès橙色调校模型) - 迭代进化策略: 1. 批量生成200+变体 2. 用CLIP模型进行美学评分排序 3. 对TOP10作品进行特征解构 4. 重组优势基因二次进化 ---二、三大核心技术教学 1. 提示词炼金术(Prompt Engineering) - 结构化公式: ``` 主体描述+ 风格指令+ 技术参数+ 质量强化 ``` 实战案例:高端香水广告 ``` A crystal perfume bottle exploding into galaxy particles, Baroque floral patterns blending with quantum dots, Octane render 8K, Unreal Engine 5 lumen lighting, --chaos 60 --stylize 850 ``` - 语义杠杆技巧: - 权重分配:`(golden hour:1.3)` 强化黄昏光线 - 否定提示:`--no flat lighting, low contrast` 2. 风格迁移实战 - 三步打造品牌专属模型: 1. 收集品牌历史视觉资产(300+高清图) 2. 使用Dreambooth进行微调训练 3. 输出`.safetensors`格式风格模型 - 实时风格测试指令: ``` /test style_model_X perfume_ad --compare original ``` 3. 动态广告生成技术 - Runway Gen-2视频工作流: ``` 静态图→ 添加动态蒙版→ 设置粒子运动轨迹→ 输出15秒视频广告(含光流补帧) ``` - 交互式广告开发: 使用Three.js+Stable Diffusion API构建网页端实时生成广告系统,用户滑动改变产品颜色时,AI实时渲染对应场景。---三、商业级设计规范 1. 合规性检查清单 - 版权检测:用LAION-5B数据库反向溯源 - 品牌安全:设置负面词过滤器 ``` blocked_words = ["violence", "nudity", "competitor_brand"] ``` - 文化适配:部署地域化审核模型(如中东版本自动添加长袍元素)2. 人机协作SOP - AI负责: - 80%基础素材生成 - 100%风格化渲染 - 动态效果预演 - 人类负责: - 核心创意概念 - 情感温度把控 - 文化隐喻植入 ---四、未来战场:生成式AI的进化挑战 1. 版权困局突破:Adobe Firefly构建的伦理训练模型,使用4亿张授权图片的数据集 2. 实时生成革命:NVIDIA Omniverse+AI工作流,实现广告画面随环境数据动态变化 3. 脑机接口预演:Neuralink动物实验显示,通过脑电波信号调整视觉参数的可行性 设计师生存指南: - 掌握「视觉策展人」新角色:从创造者进化为AI训练师 - 建立「算法审美」评估体系:量化美感要素(黄金分割比/色彩熵值/视觉焦点热力) - 修炼「跨次元叙事」能力:在物理世界与数字孪生空间同步设计 ---结语: 当Canva的最新AI工具能在11秒内生成300张合格广告图,设计师的价值不再体现在鼠标点击次数。那些懂得用提示词吟唱视觉诗篇、能用算法缺陷制造意外惊喜、在数字洪流中坚守人性温度的新世代创作者,正在重新定义广告设计的本质。记住:AI是0与1的排列组合,而人类始终掌握着启动算法的那个「灵感开关」。
34
关于喵?!多概念lora的一些细节

关于喵?!多概念lora的一些细节

lora模型链接:https://tusi.cn/models/718595960474874205喵?!lora使用了约18万张图片进行训练,其中大部分是一些热门动漫/游戏/画师的作品/掺杂了小部分的AI作品所以大部分热门游戏的角色该lora配合hansv35使用时都可以直出,不需要使用xxx角色lora(不过这不是喵?!lora的主要作用)喵?!lora和hansv35都是多画风的,而它们可以在一起使用,以达到风格混合的操作。和novelai3不一样的是。在novelai3中{风格A+风格B=风格C},而在这里它是{风格A+风格B=风格AB}。原因可能是它的训练量不够吧。喵?!有四个质量词,分别是Best-A,Medium-B,Low-C,Bad-D。在正常使用时只需要将质量词置入提示词的第一位即可。它还有约300个画风词。例如Chen_bin,shiratama\(shiratamaco\)这些...在使用时需要将画风词置入提示词的第二位。需要注意的是,置入在第二位的画风词为主导画风(在不增加其他风格提示词的权重的情况下)。例如仅shiratama\(shiratamaco\)风格仅Chen_bin风格在shiratama\(shiratamaco\)提示词的第二位提示词使用了Chen_bin风格由于第二位提示词是主要控制整个画面风格的提示词。如果这个风格提示词在第二位那它就是整个画面的主要风格,不过它依然会被其他风格提示词影响。当然,还有一些其他的奇妙操作。例如分步渲染强混合两种风格像这样[Chen_bin|shiratama\(shiratamaco\)],还可以和底模的风格进行混合(没想到吧!)例如与hansv35的3D_Style,进行混合[Chen_bin|3D_Style],很怪吧!还有一些更高级的操作例如break语句精确控制等高阶提示词编写方法。(虽然在吐司大部分情况下用不了就是了)。其他:喵?!lora是变速箱的升级版。因为底模的不同,所以不算同版本。喵?!仅兼容hansv35。在其他的任何模型上使用都会导致画风的偏移。严重的会无法出图,画面崩坏(所以不要想着融我lora了,只能融到hansv35里的)关于新版本:我的版本更新与hans同步更新,当hans更新新的二次元底模版本时,我会使用他的底模进行训练。这时,更新的lora版本是完整版。平时更新的都是裁剪版。因为我的数据集已经及其庞大了(百万级)。有这么大的数据集为什么不训练全量微调:一个字,穷,全量微调训练起来速度太慢了,烧钱。我又没有自己的显卡。烧不起。关于喵?!lora的训练参数以及训练方法(我是臭民科。别杠,杠就是你对)Unetlr=4e-5(学习率和bs挂钩)textlr=4e-6(学习率和bs挂钩)batchsize=5(低bs训练,追求更好的细节)gradient_checkpointing=true(不开爆显存)gradient_accumulation_steps=1(不开爆显存)optimizer_type=AdaFactor(问就是习惯,用其他的咳嗽(lion,aw8b,轮椅神童都用过,别杠,杠就是你对))resolution="1024,1024"(懂的都懂,不懂的说了也不懂)enable_bucket=true(分桶训练,将数据集按照分辨率划分成不同的桶)min_bucket_reso=768(最小桶分辨率)max_bucket_reso=1_536(最大桶分辨率)不开金字塔与噪声偏移max_train_epochs=1(我的训练方法只训练一个ep,出了就是成了,一切关于训练是否拟合的计算在处理数据集时就已经计算好了)数据集处理操作由于喵?!lora是一个多概念lora。它的每个概念的被训练量都是不同的。而我根据每个数据集的评级(best-A,medium-b,low-C,Bad-D)给他们设定合适的re平衡大数据文件夹和小数据文件夹的原始step量。让他们尽量平衡(而不是re1训练,出来的大概率会有些画风训练过量,而有些欠拟合)再加入泛化集。不让训练的某个概念影响到原始画风。(如果你跑图的时候什么风格词都不加,跑出来的大概率是泛化集的东西在进行数据集处理时我先使用超分辨率工具将所有任意h或w低于832的图片进行超分随后再压缩回任意等宽高最高h,w至1536(因为我的bucket分辨率为1536)随后进行数据集校验(使用脚本跑一遍检查图片格式是否正常图片是否损坏图片是否有对应的标注是否有其他怪东西等操作)数据集打标(第一位为质量词,为我的主观评级“说人话就是第一眼看起来好不好看”,第二位为画师名称,这方面不细说懂得都懂。)(当然我在训练其他lora的时候还有一些其他的奇妙操作(例如多次训练,混合训练等奇妙操作)这些就不讲了,对我有用对其他人就不一定了。每个人的训练方法都不一样。能训练出一个好的模型,那它就是好(如果几张图开256dim的话当我没说)
27
5
手部、脚部崩坏最实用的修复方法!

手部、脚部崩坏最实用的修复方法!

很多人在作图的时候,容易出现手部、脚部蹦坏的情况。其实最实用的办法就是,打开FLUX ,然后使用重绘功能,手部崩坏就涂抹手部重绘,脚部崩坏就涂抹脚部重绘。总之哪里不足就重绘哪里。为什么选择的是用FLUX的重绘功能呢。因为在修复手脚的Ai理解上,更加优秀。基本上重绘几次就能完美的修复手脚。
26
4
提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

前言元素同典:确实不完全科学的魔导书【原文】如下,本文章内容大量借鉴/引用元素同典原本的内容,故本问内容所有资料同样均可被自由引用。最终解释权归元素法典策划组&千秋九所有元素同典:确实不完全科学的魔导书这是一篇提示词指南,旨在为刚刚接触AI绘画 的萌新快速上手AI 作画。笔者(在本处与下文代指本文的所有笔者)将简单分析 parameters 中乱七八糟的基础逻辑和应用,如有错误或疏漏之处,也请多多包涵,或者直接对元素法典策划组进行发癫也行。欢迎各位在批注中留下对于本文的建议/意见。本文基于无数高阶魔法师的经验与对 parameters 相关的内容进行挖掘所得成果总结而成,且包含许多个人理解和主观观点。非常欢迎各位前往元素法典交流群讨论。由于本魔导书内容较多且篇幅较长,请妥善利用目录功能及文档内搜索功能寻找需要的资料。准备工作:神奇AI绘画在哪里?本段内容直接复制Stable Diffusion潜工具书的内容,不想看可以不看,“透明版本”链接:Stable Diffusion 潜工具书● SD WebUI有能力的可以自行部署stable dffusion相关UI,不过一般而言更推荐下面的整合包(工具)- git仓库AUTOMATIC1111/stable-diffusion-webuiSD WebUI秋叶整合包与SD Webui绘世启动器- 【AI绘画·11月最新】Stable Diffusion整合包v4.4发布!- 【AI绘画】绘世启动器正式发布!!SD WebUI秋叶整合包A卡适配版- 【AI绘画】Stable Diffusion A卡专用整合包(DirectML)SD WebUI贴吧一键整合包搭载了dreambooth等插件,方便的自己炼制大模型(最低要求12G显存)。能够有效避免自行安装dreambooth插件时出现的各种问题。同时贴吧整合包适配A和和I卡,更方便使用- WebUI | SD - WebUI 资源站(123114514.xyz)WebUI设置、预设文件搬迁(更换整合包)- 【AI绘画】换整合包/自部署WebUI如何搬家设置与模型?● ComfyUI- git 仓库:comfyanonymous/ComfyUI: The most powerful and modular stable diffusion GUI with a graph/nodes interface.SD Comfy秋叶整合包:- 【AI绘画】ComfyUI整合包发布!解压即用一键启动工作流版界面超多节点☆更新☆汉化秋叶整合包SD ComfyUI 无限圣杯AI节点:无限圣杯工具是由只剩一瓶辣椒酱-幻之境开发小组开发的一款基于SD ComfyUI 核心的Blender AI 工具,它将以开源&免费的方式提供给blender 用户使用。- 无限圣杯AI节点(ComfyUI) 使用者手册(shimo.im)Comfy的其他整合包/工作流:- 懒人一键制作Ai视频Comfyui整合包AnimateDiff工作流_哔哩哔哩_bilibiliComfy使用其他模型- city96/ComfyUI_ExtraModels: Support for miscellaneous image models.书写你的第一段咒语当代赛博法师使用电子魔杖、虚拟魔导书来无中生有创造出美丽的图案,尽管更多人可能认为我们在成为弗兰肯斯坦。咒语是什么?在AI绘画中,我们使用一段prompt 来引导AI 使用“噪点图”反向扩散从而召唤出我们最后的图像。Prompt (提示词,又译为关键词)通常由英文构成,主要内容为以逗号隔开的单词/词组/短句(二次元模型),有一些模型可以使用自然语言进行描述。除了英文之外prompt 还可以识别一些特殊符号。AI 会通过寻找符合关键词描述的方向而有明确指向地去噪点(diffuse)。同样,如果包含Negative Prompt(负面关键词),AI 就会尽可能避免含有负面相关要素的部分。换句话说,prompt 就像是哈利波特里面的咒语,它直接决定了最终我们会得到什么。AI 对于关键词的辨识以从前到后为顺序,以逗号为分割。对于基本操作,可以以大括号、小括号、中括号调整权重。在 WEB-UI 中,小括号增加为1.1 倍权重,中括号减弱为0.91 倍权重(相当于除1.1),多次嵌套括号效果相乘。但大括号在WEB-UI 中默认并没有用,在NovelAI 上则会增加为1.05 倍权重。Cheat sheet: a (word) - increase attention to word by a factor of 1.1 a ((word)) - increase attention to word by a factor of 1.21 (= 1.1 * 1.1) a [word] - decrease attention to word by a factor of 1.1 a (word:1.5) - increase attention to word by a factor of 1.5 a (word:0.25) - decrease attention to word by a factor of 4 (= 1 / 0.25) a \(word\) - use literal () characters in prompt With (), a weight can be specified like this: (text:1.4). If the weight is not specified, it is assumed to be 1.1. Specifying weight only works with () not with []. If you want to use any of the literal ()[] characters in the prompt, use the backslash to escape them: anime_\(character\). On 2022-09-29, a new implementation was added that supports escape characters and numerical weights. A downside of the new implementation is that the old one was not perfect and sometimes ate characters: "a (((farm))), daytime", for example, would become "a farm daytime" without the comma. This behavior is not shared by the new implementation which preserves all text correctly, and this means that your saved seeds may produce different pictures. For now, there is an option in settings to use the old implementation. NAI uses my implementation from before 2022-09-29, except they have 1.05 as the multiplier and use {} instead of (). So the conversion applies: their {word} = our (word:1.05) their {{word}} = our (word:1.1025) their [word] = our (word:0.952) (0.952 = 1/1.05) their [[word]] = our (word:0.907) (0.907 = 1/1.05/1.05) See https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features for full details and additional features.因此,一针见血的关键词才是我们所需要的,不建议咏唱不必要的咒语音节。擦亮你的法杖工欲善其事,必先利其器。伏地魔都会追随老魔杖,那赛博法师又怎能不入乡随俗?在AI绘画中,如果说prompt 是咒语,那旁边的参数面板就是法杖。这一些参数就是你的杖芯、杖柄,或许还有其他世界穿越来的附魔也说不定?选择你的采样方法与调度类型:Sampler & Scheduler开始调整所有参数之前,请选择你的采样方法。“请选择你的捍卫者”。 WEB-UI 都内置了许多采样方法,包括且不限于最常用的Euler A 和Euler, 以及原生默认的LDM 等 。采样方法组成了图片生成的第一大要素,它决定同样的prompt 下AI 会选择以何种方式去噪点化以得到最终图片。同时,它还会决定运算速度。其中,你是否注意到某些采样器名字里带了一个字母a: Euler a / DPM2 a / DPM++ 2S a。这些就是Ancestral 采样器,这些采样器会在每个采样步对图像添加噪声,就是其采样结果图片不会收敛。调度类型简单而言就是去噪速度。常见的调度类型有:Karras / Sgm_uniform / Exponential / ddim_uniform……,目前推荐使用Exponential 方法,可以得到更好效果。迭代数量/采样次数:Sampling Steps首先,在介绍关于迭代的理论之前,需要说明的是迭代并不总是越多越好。对于不同的模型也有不同的理论:例如 DPM A 和Euler A 都是所谓的非线性 迭代方法,它们的结果并不会因为迭代增加而无休止地变得更加优秀,在大于一定的迭代值之后反而质量会快速下滑。而DDIM / Euler 等线性 迭代方法则恰恰相反,质量往往依托于迭代的次数。但也存在边际效应的问题,当迭代大于一定程度时,再增加迭代次数也不会让画面产生显著变化。因此,实际使用时往往需要根据画布大小和目标是否复杂来综合考虑。对于正常画布,使用Euler A /UniPC 等低数要求算法的迭代次数通常推荐 12 或以上(笔者本人一般使用Euler A 20Steps),而使用DPM2 A 等高步数要求算法则往往要求更高一些。使用LCM等优化方式,迭代次数可以非常低,部分模型甚至可以“一步出图”我的魔导书在哪里?咒语的基础理论已经了解了,但此时此刻我们对于魔法的释放还是一头雾水:哪里去获得prompt?又有哪些prompt 是我们真的需要的?在最理想的情况下,一位赛博魔法师首先应当试着去理解danbooru.donmai.us,这是NAI 和一些二次元模型的重要训练来源,也是绝大多数关键词的出处(至少覆盖80%+),所以在里面找到的引用数大于2000 的tag 在绝大部分二次元模型里基本都可以直接当作prompt 使用往往都能出效果,你甚至还能发现诸如颜文字当做prompt 的惊人用法——而这都是可行的。但danbooru 的访问需要跨越屏障,较为不便。而除此之外还应该自己去收集可以用做prompt 的材料,但是一个人上路太孤独了,拿着这把全村最好的法杖吧!Stable Diffusion 潜工具书去寻找各种各样的帖子或者指南。抽丝剥茧地借鉴前人经验,批判思考地获取其中的精华(前人可能会因错误习惯而被干扰),也能得到不少效果很棒的prompt。闭目凝神,咏唱咒语总而言之,你查阅资料或突发奇想,得到了一些咒语。将它填入第一栏,然后再在第二栏填入随处可见的通用反咒(Negative Prompt),点击Generate,你的第一段咒语就完成了(笔者在此演示最简单的召唤术):masterpiece, 1 girl, cute face, white hair, red eyes以防有人没查到——反咒是:lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet如果充分理解了前文内容,并且咏唱地不那么夸张,那么第一次施法往往将无惊无险地获得成功。现在你已经脱离麻瓜范畴,拥有成为魔法学徒的潜质了,向着魔法的大门前进吧!咒法二次不完备进阶Once we accept our limits, we go beyond them.我们至今为止的所有努力,并非全部木大。权与重上文提到了关于()、[] 的使用。以防刚把魔杖捂热的新魔法师看到这里已经忘了它们是什么意思—— 一对小括号意味着把括起来的prompt 权重* 1.1,中括号则是/ 1.1,大括号在WEB-UI 中无调整权重作用,且会被作为文本而解析。如果因为某些需求而要大量抬升权重,可以对prompt 进行多次括号,比如((((prompt)))),这意味着将它的权重* 1.1 四次,也就是1.4641。但这个写法太吓人了,数括号也很浪费时间,所以应该直接为一个prompt 赋予权重:(prompt:权重乘数)外层一定是小括号而非其它括号。比如(red hair:1.5) 将直接给red hair 赋予* 1.5 权重,清晰简洁,便于自己回顾和他人理解,强烈推荐。但务必请不要做出诸如((red hair:1.5)) 的奇怪写法。虽然在大多数情况下,它们的确会产生互相叠乘的正常效果,但在某些离谱的情况下则会导致权重无效。而除了整词权重之外,也可以进行部分权重,比如如下例子:1 girl, white long (messy:1.2) hair, red eyes将专门对messy 部分赋予* 1.2 权重,其它部分不受影响。高权重的元素会在画面中有着更大的占比或更强烈的存在感或更多的数量,是能可观地影响构图的原因之一。笔者非常不建议给出十分离谱的权重值,这个也包括负面权重,三个小括号也只有1.3 左右,而一般来说1.6 就已经很极端了,再高至例如2.0 只会在大多数情况下让咒语变成召唤古神。高级咒术解析上述的小括号、中括号与带权重小括号都属于低阶语法,比如(((prompt)))。而接下来要介绍的是更长更复杂一些的高阶语法。高阶语法都以[] 作为外层包括,包括分步描绘、融合描绘两种,使用高阶语法时这一对中括号不会让权重降低。高阶语法内可以嵌套低阶语法,低阶语法内也可以嵌套高阶语法——但为了交流方便不建议嵌套,高阶语法之间能否互相嵌套因具体情况不同而异,下文会做出介绍。下列介绍全部基于编纂本篇时推出的最新版 WEB-UI,对于Comfy 或较远古版WEB-UI 可能不适用。首先介绍分步描绘的各种形式:[from:to:step] [from::step] (to 为空) [:to:step] (from 为空) [to:step] (奇怪但没问题的格式,非常不建议)它的作用是让prompt 在达到 step 之前被视为from,在达到后视为to。若是在对应位置留空则视为无对应元素。step 为大于1 的整数时表示步数,为小于1 的正小数时表示总步数的百分比。比如a girl with [green hair:red hair flower:0.2] 会在前20% 步数被视为a girl with green hair,在后80% 步数被视为a girl with red hair flower。需要注意这两个描述之间的兼容性和覆盖——在步数合适的情况下,最后形成的人物会拥有绿色头发和红色花饰,但也可能因为颜色溢出导致头发也变为红色,毕竟后80% 没有绿色头发的限定,AI 完全可以自己理解一个随机的发色。在最新版中,分步描绘可以嵌套,形如[from:[to:end:step2]:step1] 的语句是可以被正确识别的。且分步描绘现在支持逗号分割,形如[1 girl, red hair: 2 girls, white hair:0.3] 的语句也可以被正确识别。分步描绘不特别擅长细化细节,与其分步描绘不如将细化部分直接写入持续生效的部分。分步描绘更擅长在画面初期建立引导,大幅影响后续构图或画面生成。需要注意的是,分步描绘具有视觉延后性——当要求AI 在比如第20 步开始描绘另一个不同的物体时,可能在比如第24 步(或更晚)才能从人眼视觉上感知到另一个物体勉强出现在画面中。是因为steps的原因,很多时候前面的step,人眼可能是看不出来新的事物的(这跟你不开启LCM等加速的情况下step开到5以内是一个道理)。然后介绍融合描绘的两种形式:[A | B]它还有可无限延长版:[A | B | C | ...]对于形如[A | B] 的第一种,AI 将在第一步画A、第二步画B、第三步画A...交替进行。而对于无限延长版,则变为第一步画A、第二步画B、第三步画C...循环往复交替进行。融合描绘不可嵌套,但同样支持逗号分割。融合描绘擅长将两种事物混合为一起,比如a [dog | frog] in black background。这两个高阶语法有着明显的区别,尤其是在高步数下更不可以一概而论。分步描绘的40 步A 再加上40 步B 最后可能形成一个带有B 基底特征的A,但它会表现出明显的分立感。而融合描绘的40 步A 再加上40 步B 最后将形成简直像是化在一起的融合体。短元素,中元素与长元素咏唱大致有着三种不同形式——最常见的直接咏唱、稍不常见的短句咏唱和堪称行为艺术一般的长咏唱。假设要生成一个有着黄色头发、蓝色眼眸、白色上衣、红色裙子、黑色裤袜的全身坐姿二次元美少女,且强调服饰颜色,那么这三种咏唱分别看上去大概是这样的:直接咏唱(pitch 式咏唱):masterpiece, best quality, 1 girl, (blue eyes), (yellow hair), (white clothes), (red skirt), (black leggings), sitting, full body短句咏唱(AND 强调咏唱):masterpiece, best quality, 1 girl, (blue eyes) AND (yellow hair), (white clothes) AND (red skirt) AND (black leggings), sitting, full body长咏唱(自然语言咏唱):masterpiece, best quality, (1 girl with blue eyes and yellow hair wearing white clothes and red skirt with black leggings), sitting, full body注意短句咏唱的AND 必须是三个大写字母,AND 两侧的小括号是不必要的(但建议加上),这是一个专用语法。此外,该语法并不能应用于所有采样方法,例如DDIM 就不支持AND,会导致报错。我的法杖不听话了?有的时候会返回黑色图片或者直接没了,黑色图片俗称黑图。图直接没了的最简单直接的原因是显存爆了,查看后台是否出现类似于CUDA out of memory,如果出现那就真的是显存爆了,提高配置或降低画布大小吧。不过在更多时候,法杖不听话的表现并不是黑图。例如在比2k*2k 稍小一些的1.2k*1.2k 画布中,可能会出现如下情况:masterpiece, 1 girl, white hair, red eyes明明要求1 girl,但为什么它生成了2 个人?简单来说就是图太大了,超过了模型适合的使用范围。但对于这段如此简单的咒语而言,将画布缩减为1.2k*1.2k 依然显得有些太过自由了。画完一个美少女之后该怎样填充剩下的画布呢?AI 可能会使用纯色背景、构筑一个简单的空间,但它更可能会做的事情是——把已有的东西重复再画一份。(如果往深处讲,那就要涉及到目前SD 训练模型时的方法导致目前AI 的局限性。SD 训出来的模型其实并不理解数字,对于AI 而言1 girl 和2 girls 并不互相冲突,再加上懂得都懂的那些训练集里的各种共有tag 会给它们一定程度上的联系,所以在无物可画但必须要填充画面时倾向于多画一份。)所以要解决这个问题也不难。减小画布,限制它的自由度即可。masterpiece, 1 girl, solo, white hair, red eyes, black gown, in room, chair, vase, red carpetHigh res. fix 也能解决此类问题,但它是利用先在小分辨率渲染再放大到目标分辨率的方法。最符合字面意义的做法还是直接从根源下手。最后是一些碎碎念...不必为每个prompt 都加上过多小括号来提高权重,如果你发现你真的需要给绝大多数元素都加上四五个小括号才能让你想要的东西确保出现,那么更建议酌情普遍删掉一些括号,改为拉高CFG Scale ,比如12 甚至14。在极端情况下,给单个prompt 加上过多权重,可能会导致古神。除非明确清楚重复prompt 意味着什么、且有强烈的对应需求,否则不建议重复输入prompt。重复输入prompt 的语义相当复杂,不在入门范畴内。不必保持如此神秘的敬畏...既知が世界だ,未知はいらない!未知的,不需要。已知的,才是世界!魔法的极致或许是科学了解各类prompt 的存在并不意味着就掌握了一切,摘抄别人的prompt 囫囵吞枣地使用也不是上乘。如果想要让AI 创作出更佳的作品,那么还需要深入了解各个prompt 到底有着何等作用,以备日后使用。各个prompt 之间的互相影响如同魔法反应一样,大多数情况下并不像是仅仅简单字面意义上的互相叠加那样简单。举个例子,比如an extremely delicate and beautiful girl 其实就会导致不少风格化表达被覆盖;而light 用作颜色在很多情况下不是指淡而是发光,甚至在某些稀有的组合里还专指黄光;让一个角色手上握着武器可能不仅仅要holding weapon 还需要加上weapon 本身,诸如此类。因此,各类科学分析方法甚至是研究方法都是有必要的。元素魔法?定性定量分析法!授人与鱼不如授人与渔。对于同一组prompt 而言,魔法师们常以良品率作为无意识的定性分析的结果,但对于其它方面也可以进行分析,比如单个prompt。SD 模型基于种子(seed)来进行生成,如果条件都相同,则生成的图必然相同。利用这个特性可以对不同的prompt 进行定定性分析,填写一个种子,固定其它参数,固定绝大多数prompt,然后调整/添加想要测试的那一个prompt,来确定它的作用、效果。想知道一个prompt 是否真的有意义吗?是否真的有传言所说的种种作用?它和某些组合的搭配真的很好吗?来定性分析它吧。介绍如何使用Script 中的X/Y plot(X/Y 坐标图)来辅助分析。注意seed。在输入框输入等待被替换的prompt,然后使用X/Y 的Prompt S/R 功能。在右侧的X values 中进行填写。第一个prompt 是被替换位点,而后面的则是希望替换为的prompt,最后生成即可得到结果。字数限制请看下篇:提示词入门教程·下篇:《元素同典:确实不完全科学的魔导书》
26
4
AI绘画prompt食用指南(简化版)

AI绘画prompt食用指南(简化版)

Stable Diffusion Prompt Tips(描述的注意事项)如果你不指定任何东西(例如"a kawaii girl"),你将只得到一张平面图片。 因此,你需要找到缺少的细节,并将其添加到提示中。 指定多种颜色的提示语很难控制,因为提示语的词序在前面更有影响力,而后面的词更容易被忽略。 例如,在"a loli girl with long white hair wares pink dress and blue shoes."这样的提示中,蓝色的鞋子往往被忽略。 如果把蓝鞋带到句首,衣服和头发可能会变成蓝色。"trending on art station "很难改变结果。 然而,如果没有指定绘画风格,绘画将采用Art Station的风格,即模型最拟合的默认风格(过拟合风格)。词语可以有额外的含义(内涵)。 例如,blonde通常用于女性,而不仅仅是金发女郎;要去除blonde的女性含义,需要在否定提示(negative prompt)中输入woman或girl。要创建一个人,你可以把以下五要素放在提示中。 但是,提示的词序在前面更有影响力,所以如果人比背景更重要,就应该先描述人。 如果先描述背景,那么无论对人的描述多么详细,都可能被忽略。 相反,如果先对人物进行描述,往往会产生肖像式图像。·天气/白天的时间·地点/背景·人·摄像机(视觉角度)·风格颜色光亮度Taglight(光亮)dark(黑暗)pale(苍白)deep(加深)天气/时间带由于背光不能作为一个单独的词来指定,用逗号隔开的",golden hour lighting, strong rim light, intense shadows,"更有可能产生一个背光的图像。golden hour lightingstrong rim lightintense shadowsin the rainrainy dayssunsetcloudy地点/背景如果你对背景不讲究,你可以指定以下词语之一:bokeh 虚化、soft focus柔焦、F1.4等来模糊背景。 还建议使用一个季节性词语,因为它在结尾处效果很好。建物in the baroque architecturein the romanesque architecture streetsin the palaceat the castle(在城堡外部背景)in the castle(在城堡内部背景)in the streetin the cyberpunk cityrainy night in a cyberpunk city with glowing neon lightsat the lighthousein misty onsen(温泉)by the moonin a bar, in barsin a tavern(居酒屋)Japanese arch(鸟居)in a locker roomcityspacepower lines 山on a hill(山区)the top of the hill(山顶)海on the beachover the seabeautiful purple sunset at beachin the ocean(在海里)on the ocean(在海上,在船上或者别的)陆地in a meadow(牧草地)plateau(台地高原)"on a plateau" 将意味着"停滞不前on a desert(沙漠) 季节in springin summerin hawaiiin autumnin winter幻想与暗黑元素granblue fantasyoctopath travelerbloodbornedark soulagainst backlight at duskin the alice in wonderlandluminous particles☢启示录lightning effectno humans(没有人类)nobodyscenery人物人们有许多可以被指定的要素。 反射范围、发型、头发长度、颜色、皮肤颜色、眼睛颜色、张嘴、姿势、面部表情、服装、服装图案、年龄等。highly detailed symmetric faces 和 extremely detailed symmetric faces 和 very gorgeous face来设定。 然而,最好是裁剪脸部,用img2img只重新生成脸部,然后用绘画软件ps,sai2合成。如果你想强调眼睛,可以加上"symmetric highly detailed eyes, fantastic eyes, intricate eyes"。人数当服务对象超过一人时,皮肤往往会融合,因此建议使用长袖和长裤以防止融合。solo1girl2girls, 3girlseveryone(集合绘)absolutely everyone(成人的集合绘)snuggled(分身? 批量生产分身)snuggled up selfie(粘在一起自拍;当你想做一些类似于百合的事情时)in a ((crowd)) of people(背景是人群)可爱化?kawaiiflat chest(loli)ojousama(loli)bishoujomesugakisuccubus(梦·魔)demon girl(恶魔)adorable girl, adorable face肤色---褐色类,黑皮tannedred skinsuntanned red skintanlines(晒痕)bikini tan(泳装晒黑)dark skin映射的范围构成和要显示的面积主要由种子决定,所以与其在提示上下功夫,不如在种子上做文章。"如果你按照'mid shot中景、背景描述、人物描述'的顺序写提示,你更有可能得到人物在背景中的构图。如果强调的是身体,则包括所有的词语,如full body全身、tachi-e立绘或breasts胸、navel肚脐、thighhighs大腿等。 指定鞋子也是有用的。角度from above(从上面)from below(从下面)straight-on(正面)selfiefrom side(横向)拉,鸟瞰,全身aerialtachi-e(立絵)full bodywide shot其他close-uppantyshotcowboy shot(头部至大腿中部)cowboy 如果你不把"牛仔"放在负面的位置上,那就是牛仔landscape(风景拍摄)portrait(肖像)等身chibi(Q版)nendoroidnendroid-like(下半身高度)mini girldwarf(矮人)toddler body年龄中年可以直接指定,例如30 years old或40 years old;缩写形式的30yo也被认可。 然而,Danbooru标签中没有yo和year old,因此在旧版本中无法使用。aged down(老化)teenageoffice ladymature female(成人女性)old woman(老年女性)表情gloating(心满意足)mesugaki smile(杂鱼~杂鱼~)grinevil grinexcitedhappy:d, XDtempting mesugaki smile with blush cheeks(挑逗)seductive smileshowing ahegao, mesugaki smile, torogao with (frown eyebrows), excited(诶嘿颜)(Seductive face), (nervous smile)expressionless, bored, half-closed eyes, light frown感情angrybitterdisgustembarrassedevil smilescaredhorrifiedlonelysadSurprised口部closed mouthopen mouthmole under mouth(嘴下有痣)chestnut mouth, triangle mouth(三角口)ahegao(张嘴)smirk(傻笑):3(嘴像猫一样ω):q(呸罗呸罗,舌头向上):p(呸罗呸罗,舌头向下):t(不嫌弃):|tongue out(吐舌头)long tongue吃(行为动作)如果eat不起作用,让他们吐出来(vomit, spitting)。eatvomitblowing ramen out of her mouthSpitting脸颊Blush(腮红)鼻dot nose眼睛long eyelashes(长睫毛)closed eyeshalf-closed eyesjitometaremeupturned eyes(翻白眼)heart-shaped pupilsheterochromia(异色瞳,随机不可控)jewelry eyes, jewel like eyes(宝石)mind control eyesempty eyesexpressionless eyeshollow eyes@_@| |0 0> <= =^ ^^o^眼镜(装饰)glassessemi-rimless eyewearrimless eyewearunder-rim eyewearover-rim_eyeweareyewear on head头发forehead(额头露出来,可以玩圈圈叉叉)blunt bangs(钝化的刘海)long hairstreaked hearhair over one eye(头发遮住一只眼睛)colored inner hair(彩色的头发阴影部分)hair ornament(发饰)解像度在衣服和面孔前面加上分辨率词,会产生复杂的纹理,如highly detaiiled face高度详细的面孔、extremely detailed lace极其详细的蕾丝和insanely detailed frills令人难以置信的详细褶皱。highresabsurdresDetailed衣服otokoyaku(宮廷衣装)nun(修道女)jirai kei(地雷系)olympic 运动名称competition(比如lacrosse, wrestling, rhythmic gymnastics 等等)fantasy priestethnic costume-like bikini armorchina dressknightess(女骑士铠甲)Highleg (高腿?)highleg leotardhighleg pantieshighleg swimsuithighleg bikinihighleg dressblue dungarees(工装)pelvic curtain(像前胸或腰带的衣服)oversized clothescenter frills(前面有褶皱的衣服)yukatakoshihimo(浴衣)wrapped a large white towelpantyhosegarter beltgarter strapspleated skirtlifebuoy(救生圈)school uniformschool swimsuitone-piece swimsuitcompetition swimsuitbarefoot(玉足)shoe soles(靴底)Navel 有时与"服装指定,Navel  "相呼应。例:"navel, black sleeveless shirt, bare arms, bare shoulder"bare shoulder(露肩)cleavage cutout(开胸)breast rest(莱莱放在某处)breasts on tablechoker, black chokerVictorianfiligree(金丝)latex ~(光泽胶服)latex rubbershiny slik(光泽丝绸)no bra(与其他服装一起使用)skindentation(穿膝袜时在大腿上形成的凸起)student training wear(体操服)(((Japanese school student gym class uniform underpants))) (和谐)如果不包括负面提示((sport gym)) ,则成为健身服。sleeves past wristssleeves past fingers透明度有一些方法,如AUTOMATIC1111中的Prompt Editing中的[cloth:wet:0.5]等,或者通过在img2img中输入一个有衣服的图像,然后用wet等提示创建。(要锁种子)translucent(半透明)transparent(透明)see-throughsweaty_clothescovered by thin translucent clothclear acrylic resin glass figma-like 衣服名体形abs(腹肌)plump(饱满)skinny(瘦身)voluptuousThicc姿势standingwalkingrunningsitting on(跪坐)kneeling(跪)tilting head(歪头)dakimakura of (床上睡觉)dakimakura of ~ from backdakimakura of ~ looking backdakimakura medium from behindlying on back(躺)lying on sidelying on lap(膝枕)arms upflirtfinger to mouthfinger to cheekspread legsarmpitturning aroundsitting thighhighslooking back, from behind, looking at viewerlooking back, from behind, looking at cameraembrace each otherhug from behindhug each other tight2girls kiss (百合行为)a girl kissing a girlholding handstouch each other's lips face to face影响(线条,粒子)heart shape particle?, ??!, !!...+++(你笑的时候出现的那个)^^^(注意,冲击效果)notice lines(3条注意线)!?spoken question markmotion linesjaggy lines(运动模糊)speed linesemphasis lines(集中线)steaming bodyheavy breathing(沉重的呼吸)
23
2
带刺的守护

带刺的守护

你眼中的我,是温柔的玫瑰,还是满目的荆棘?而这浑身的带刺,又是为了守护什么?是满是疮痍的内心,还是你?
21
5
在线FLUX出图 到本地修图放大全流程讲解

在线FLUX出图 到本地修图放大全流程讲解

19
8
MIST & MIST FXXKER Lora Trianing TEST

MIST & MIST FXXKER Lora Trianing TEST

"主不在乎" ----《三体·黑暗森林》"光锥之内就是命运"mist github url/项目地址mist fxxker本次测试所用训练数据集和成品LORA/train data&lora file in this test相关清理代码/测试图片/训练设置在本页附件内原文地址:MIST & MIST FXXKER Lora Trianing TEST | Civitai微博上看到个很有趣的项目,声称可以保护图片使其无法训练。”Mist是一项图像预处理工具,旨在保护图像的风格和内容不被最先进的AI-for-Art应用程序(如Stable Diffusion上的LoRA,SDEdit和DreamBooth功能和Scenario.gg等)模仿。通过在图像上添加水印,Mist使AI-for-Art应用程序无法识别并模仿这些图像。如果AI-for-Art应用程序尝试模仿这些经Mist处理过的图像,所输出的图像将被扰乱,且无法作为艺术作品使用。“https://weibo.com/7480644963/4979895282962181https://mist-project.github.io/下载,这个项目环境配置本身比较困难,而且刚性需求bf16(在一台2080ti设备测试,其实有一部分可以运行在fp16上,但急着测试没时间修改代码,本机有4090重新配环境太麻烦),最后还是请朋友帮忙处理了图片。本次测试所用训练集/原图/lora文件已附上,请自取。MIST & MIST FXXKER Lora Trianing TEST LORA and Dat - train_data | 吐司tusi.cn测试介绍/Introduction to testing测试图片/Testing images本次测试图片分为四组。通过爬虫获取的原图。经过mist v2在默认配置下处理的原图。mist-fxxker,使用第一阶段clean 处理[2]图片(注:该阶段处理耗时约25s/106张图@8c zen4)mist-fxxker, 使用clean+SCUNET+NAFNET 处理[2]图片(注,该阶段8s/每张图@4090)测试模型&参数/base model &parameter testing1.训练使用nai 1.5 ,7g ckpt.MD5: ac7102bfdc46c7416d9b6e18ea7d89b0SHA256:a7529df02340e5b4c3870c894c1ae84f22ea7b37fd0633e5bacfad96182280322.出图使用anything3.0MD5:2be13e503d5eee9d57d15f1688ae9894SHA256:67a115286b56c086b36e323cfef32d7e3afbe20c750c4386a238a11feb6872f73.参数因本人太久没有训练1.5lora,参考琥珀青叶推荐&经验小幅度修改。4.图片采用narugo1992 所推荐的three stage切片方法处理(小规模测试里,未经three stage处理放大特征的话,很难学习到mist v2的效果)测试流程/Testing Process通过爬虫获取booru上一定数量柚鸟夏图片通过mist v2 & mist fxxker 处理,获取剩余三组图片。把四组图片当作下载后原图,引入训练工作流,进行打标,识别,切片,处理后获取四组训练集。用这四组训练集训练产生对应lora测试lora测试结果/Results说明:结合图片观感,本人认为在15ep以后,已经基本达成了角色拟合和训练需求,正常训练时也不会超过这么多ep,因而测试基于15ep,其余lora和训练集请自取测试。总测试参数/Total test parameterDPM++ 2M Karras,40steps,512*768,cfg 7if Hires. fix:R-ESRGAN 4x+ Anime6B 10steps 0.5all neg:(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers, comic) ,Trigger Words:natsu \(blue archive\)直接出图测试/Direct testing测试1:prompts:natsu \(blue archive\),1girl, halo,solo, side_ponytail, simple_background, white_background, halo, ?, ahoge, hair_ornament, juice_box, looking_at_viewer, milk_carton, drinking_straw, serafuku, blush, long_sleeves, red_neckerchief, upper_body, holding, black_sailor_collar,测试2:natsu \(blue archive\),1girl, solo, halo, pleated_skirt, black_sailor_collar, side_ponytail, milk_carton, chibi, black_skirt, puffy_long_sleeves, ahoge, white_cardigan, white_footwear, black_thighhighs, shoes, white_background, v-shaped_eyebrows, full_body, +_+, blush_stickers, standing, sparkle, two-tone_background, holding, twitter_username, :o, red_neckerchief, serafuku, pink_background, open_mouth测试3:prompts:natsu \(blue archive\),1girl, cherry_blossoms, outdoors, side_ponytail, solo, black_thighhighs, halo, drinking_straw, ahoge, tree, white_cardigan, looking_at_viewer, milk_carton, long_sleeves, pleated_skirt, day, neckerchief, open_mouth, holding, juice_box, black_sailor_collar, blush, black_skirt, serafuku, building, zettai_ryouiki小结:测试原图放在附件了,可以自行对比查看。就目前测试而言,单步骤的clean过后,即便放大后仔细查看,肉眼也很难分辨图片是否经过mistv2污染。即便不经过任何处理,mist的污染也需要放大图片同时提高显示器亮度才能发现(这是100%污染图源作为训练素材)项目地址展示结果目前暂时无法复现。直接出图后高清修复测试after Hires. fix经过上一步,下面我们只测试经过mistv2处理后训练集直出的lora在higher fix后的表现高清修复参数: R-ESRGAN 4x+ Anime6B 10steps 0.5出图后清洗只经过clean特别加测不使用three stage的结果:SD1.5 补充测试/add test论文里使用的是sd1.5底模,因此简单尝试了一下在sd1.5能否复现论文所展示的model attack性能。图片显示即便被攻击过的数据集也并没有影响到对角色特征的学习,mistv2带来的污染在使用对应lora后也能够清除。其他方面不太能确定,毕竟sd1.5模型对于二次元角色本身就是个灾难,自己看图吧。MIST & MIST FXXKER Lora Trianing TEST LORA and Dat - lora_sd1.5 | 吐司tusi.cn总结/Summary什么样情况下lora会受到mistV2的影响1.训练集没有经过常见的预处理流程2.使用了three stage方法3.mist v2处理后图片比例占绝对优势。1,2,3任何一项的缺失都会让mist V2的效果显著下降。污染了怎么办1.训练前:请使用最简单的方法清除即可,0.25s/per image。2.训练后:请以适当的负数权重合并调整loraAdjusting Mist V2 effect / Mist V2 效果调节- v1.0 | 吐司3.出图阶段: 同上,可以请谁写个小扩展?评价/Evaluationit is better than nothing.
18
2
材质纹理LORA究竟怎么用?这个操作开眼了!

材质纹理LORA究竟怎么用?这个操作开眼了!

但凡玩AIGC的小伙伴,一定对于LORA模型不陌生,不过很多人钟情于人像不可自拔,而对于材质纹理类LORA嘛,很多人不知道有啥用,更不清楚怎么用。其实,质纹理类LORA模型在产品渲染、海报设计以及字体设计等等领域都有很广泛的应用,这里毒法师就介绍下自己炼制的材质纹理类LORA,同时以在字体设计领域的应用为例,教你掌握此类模型。一、材质纹理类LORA介绍毒法师有一个“流光器韵”的LORA模型系列,该系列主打一个器物之美和创意设计的泛化应用。这个模型系列有陶瓷材质、红铜材质、青铜材质、古玉材质、金属材质、流体材质等等,同时,在纹理上以中国传统纹理龙纹、花纹等为主,这些模型把材质和纹理相结合,效果喜人。以下是一些流光器韵系列的模型:1.商周style青铜纹饰2.绿松石遇见金3.远古石刻4.瓷雕石刻5.瓶中星河6.皮囊之下7.神龙纸雕8.玉质龙雕有些小伙伴可能问了,材质就材质吧,为啥还要搞纹理?这是因为单纯的材质或者是纹理,跑图出来的效果都一般般,当然,主要是毒法师偏爱中国传统材质和效果,所以会把纹理材质一起炼制,当然,还有龙、少女等等造型也会一起炼制,而不是简单的材质或者纹理。毒法师炼制的流光器韵系列模型,背景大多是极简干净风格,一是为了突出字的视觉效果,再就是为了方便抠图,让你的字可以随心使用。该系列模型是用于设计字、海报效果极佳,当然,对于人物背景和服饰效果控制也有一定效果。二、字体设计领域的应用那么,这些材质纹理类LORA怎么用?一般直接在跑图时添加LORA模型即可出效果,毒法师所有的LORA模型主打一个懒人使用、新手无门槛、单词恐惧患者友好,所以你只需要输入基本提示词即可,如bronze,dragon等等,简化到基本可以不写,当然,权重开大的话,你真的可以不写。这里重点分享下这些模型在字体设计领域的应用。1.前期准备接触过字体设计的小伙伴应该知道,出街的字体效果,一方面是笔画造型方面的设计,另一方面就是视觉特效方面的打造,而材质纹理类LORA模型就是在后者层面发挥作用。所以,在使用LORA模型打造字的效果前,需要你提前设计好字形,要不然就直接用字库里的字形。如下效果,是的,准备的这张字形图片,就是白底黑字的字形图。然后,我们就可以在字形的基础上打造材质纹理效果了,核心操作其实就是使用Controlnet功能。2.Controlnet设置底模的选择、采样器以及提示词等等基本操作毒法师这里就不啰嗦了,我们直接进入Controlnet的操作,把上面准备好的字形图片直接拖进来,启用、低显存模式(电脑配置低可选择上)、完美像素、允许预览,打上勾。3.Controlnet操作控制类型这里选择Canny,也就是“硬边缘检测”,这是一种线稿提取方式,该模型能够很好的识别出图像内各对象的边缘轮廓。此外,深度、线稿也是常用的选择,可以根据自己想要的效果来。最后一步就是调节控制权重,这个操作非常重要,一般在0.6左右,要想字形更清晰,可以适当提高权重。换言之,控制权重越高字形就更清晰。以下这个是我使用瓶中星河LoRA的效果,无需过多提示词,即可触效果。以下是使用毒法师的瓶中星河LORA模型效果:使用毒法师的上周出土LORA模型效果:使用毒法师的国风好物LORA模型效果:使用毒法师的皮囊之下LORA模型效果:4.效果优化如果出图效果整体满意,但是对细节还是不满意,那么你还可以利用图生图使用title功能,再次优化细节。这样一张不错的字体效果图就可以收工了。以上就是今天分享的所有内容,感谢你的阅读,祝你高质高效用好材质纹理类LORA。
18
2

关于圣诞攻略AI视频小工具开发的一点心得(不太成熟,抛砖引玉,各位见谅)

#圣诞攻略#工作流#AI小工具从这次活动的教程来看,有Cogvideo、Mochi、Pyramid-Flow三种节点可以选择,对我来说,这些都没用过,工作流目前对我来说是停留在用的阶段,在对工作流进行优化上能力欠缺。所以,我找到了这几个视频节点的例子拿来用,再慢慢调整成我想要的效果。这里选择Mochi进行说明,这个对我来说比较简单。通常你导入了json文件后,结合各个平台的情况,并不一定能够直接使用,所以就需要对他进行调整了。一开始直接起步运行工作流就好,然后根据报错信息慢慢排除问题就好,问题不一定很复杂,但是需要结合具体情况来看,有些问题百度就能找到答案,有的可以去找专业的人问一下,而且不必过于纠结,玩不转的就先放放,去找一些可以替代的方式,实在不行就放弃,如果想很系统性的了解的话,可以在B站找专业的知识学习,我这里谈的只是速成使用的方法,就好像训练有素的程序员和面对百度的程序员,我就菜鸟一个,说的不好的地方还请多多担待。最开始什么也没改的时候,遇到的就是这个报错,属于是第零版了,结合信息来看,就是UNETLoader这个出问题了,对应的节点就是UNET加载器,问题在于UNET名称也就是unet_name这个值不合法,不在所允许的值的范围之中,我们展开这个UNET名称菜单来看根据这个下拉菜单,json文件中原本的值是mochi_preview_bf16.safetensors,gentamicin相近的只有三个值,最接近的只有mochi/mochi_preview_vae_bf16.safetensors,我们先选这个试试,再次运行,还是失败,出现弹窗点击showReport查看,问题还是在这个加载器那里,点击findIssues查看有没有人遇到一样的问题有一个类似的方案,我们可以进去看看,略过信息过滤,我们直接看最后面的回答:It seems that you are using invalid model.Why did you download that model file?由此可见,当前模型无效,我们要换一个模型试试了,这次我们选上面这个试试这次没有很快报错,我们可以期待一下,不过速度不太快,耐心等一会儿,进度条可能会卡在某个点上,不用急,耐心等,只要没报错就说明还没问题,你也可以点击旁边的刷新按钮,虽然好像没什么用,先干点别的,一会再回来这次失败了,不过没报错,不要慌,这是正常情况,让我们再跑一次,运气不错,这次成功了,推测上一次失败应该是服务器和显卡压力导致失败,暂且不提,到这里就是成功在吐司跑起来了,后面就是看情况改改了。当下保存的是webp格式,在吐司展示的效果不佳,我们可以考虑修改一下保存格式,比如mp4,找到视频节点帧率保持一致,改成24,格式选择mp4,先选video/h264-mp4,实在太慢(跑了大概十分钟),忍不了了,我选择改成video/nvenc_h264-mp4,效果不太明显,不过我已经尽力了,就这样吧,辛苦大家看到这里了看看效果吧保存成mp4比webp要好,可以更好看到效果开始发布设置好参数,填写信息,选好展示图就可以发布了
17
2
提示词入门教程·下篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

提示词入门教程·下篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

字数原因,链接上篇:提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书》除此之外还可以尝试其它不是Prompt S/R 的选项,比如用Seed 比较不同种子,用Step 比较不同步数,诸如此类。更深一步则是进行多组分析,以及通过排列组合或其它统计方法来确定多个要素之间的作用等。如果不做定性/定量分析,那么可能将持续沉浸在知其然不知其所以然的程度,也可能仅满足于妙手偶得而产生相对片面的理解。始终记得赛博魔法的本质是科学。力大砖飞,超级步数出奇迹【此部分现已不建议参考】在上文基础部分,笔者推荐在简单情况下将步数设为不算高的数值,因为在简单画面的情况下步数过高也似乎没有什么好细化的。但要是在一个细节稍复杂的场景里把步数做得很高很高那么会发生什么?(masterpiece), best quality, 1 girl, red eyes, white hair, white gown, forest, blue sky, cloud, sun, sunlight不难发现画面的确变得精细了。空中的云变得更真实,人物背景从简单的树林过度到有层次的树林再变成土丘上的树林。当然,最显著的还是人物体态的变化——虽然手部的举起与放下之间似乎无法分辨出什么规律,但似乎也有着被进一步细化的情况。总得来说,简略与详细都有独到之处,是萝卜白菜各有所爱的程度,也难怪大多数情况下认为步数过高没有特别的收益...等等。我们刚刚是不是提到了手?(masterpiece), best quality, 1 girl, red eyes, white hair, white gown, hands人物整体在20 步就已经奠定完毕,后续步数没有显著改动,但是手却不一样。20 步的手就是一团错位的麻花,40 步虽然显得扭曲但是已经能和胳膊接上,60 步除了部分手指以外都做得不错,80 步更是在此基础上进一步降低了融化程度。虽然80 步的手也没有达到理想中的效果,但是不难发现高步数下,人物手部的表现有着明显提升。这个结论在绝大多数情况都适用——如果想要特别细化手部表现力,那么请忽略上述步数建议,将步数拉到80 甚至更高。而进一步推论是,高步数在合适prompt 的引导下,对于大多数细小、解构复杂的区块都效果拔群,只是对于大块非复杂场景方面的营造存在显著边际效应。魔法公式入门首先,prompt 并不可以随意堆积,不是越多越好。模型读取promot 有着明确的先后顺序,这体现为理解顺序的不同。比如又一个著名的“少女与壶”试验所展示的:masterpiece, 1 girl, red eyes, white hair, blue potmasterpiece, blue pot, 1 girl, red eyes, white hairmasterpiece, blue pot, ((1 girl)), red eyes, white hairmasterpiece, blue pot, ((1 girl)), red eyes, white hair在种子相同且其它参数也完全相同的情况下,仅仅是颠倒了1 girl 与blue pot 的顺序,构图就产生了极大的变化。不难发现,1 girl 在前的情况下,画面围绕着人物展开,blue pot 体现为环绕着人物的场景物件。而blue pot 在前的情况下,画面围绕着盆展开,人物反而退出了画面中心,甚至哪怕加大1 girl 权重也无法让人物比盆在画面中更重要。这其中的原理不适合在入门魔导书中详细解释,但可以提供启发—— prompt 的顺序将影响画面的组织方式,越靠前的prompt 对构图的影响越“重”,而越靠后的则往往会成为靠前prompt 的点缀或附加物。顺序对于构图的影响在大多数情况下甚至大于权重的影响。对于SD1.5来说可以使用早期法典时期搞出来的三段式提示词,前缀+需要重点突出的物件/背景+人+人物特征/元素+人物动态+服饰整体+服饰细节元素+大背景+背景元素+光照效果+画风滤镜+微小辅助元素+后缀而到了SDXL,请根据模型作者所标注的提示词顺序来进行编辑,有些人会在使用SDXL模型的时候继续沿用SD1.5的习惯格式而不用模型卡的推荐设置,这会导致出图达不到预期。请记住:在SDXL的模型中,不存在“三段式”或者所谓“4W1H”这种提示词的固定格式,一切需要按照模型卡来当然出图达不到预期这只是现象,这实际上只是模型作者在训练的时候使用的标注格式不同。比如kohakuXL就是使用的如下:<|special|>, <|characters|>, <|copyrights|>, <|artist|>, <|general|>, <|quality|>, <|meta|>, <|rating|>那么我在使用其他的tag格式的时候,出图就很难达到预期(有些效果出不来,有些效果乱出)。下面是另外两个模型的tag格式。而最近讨论度较高的ArtiWaifu Diffusion,则是有着更严格的格式限制奏咒术一曲蔌蔌,浩渺无声我曾见过,你们新魔法师永不会相信的东西。在⚪山上面堆积着的咒语,在论文式长文中崩坏的结构。然而所有这些都将随时光而去,就像咒语中的音节。一个词要见另一个词并不容易掌握上文的顺序公式,其实也只是开始中的开始。大致顺序固然很重要,但它太过大致了。不难发现实际应用并不是那么简单的“后者叠加在前者之上”关系,与理想中的一一对应式叠加相差甚远。既然现实与理想不符合,那么是时候看看为什么会这样了。试一下吧。假设现在我们需要生成一个在有着许多花的平原里的二次元美少女,这个美少女没有花发饰。假设我们同时还需要在画面中生成特别特别多的花,那么就应该给flower 一个比较高的权重,比如1.35。masterpiece, 1 girl, blue eyes, white hair, (flower:1.35), in field, blue sky, sun, cloud情况不符合没有花发饰的预期。事实上不仅仅是这一张图,上述咒语生成的大多数图片都会让人物带上发花装饰。这不难理解,flower 的权重过大,导致它在画面中倾向于占有更大的比率、更强的表现,迫使元素与元素被错误地绑定了——是与上文提及的元素不绑定相反的情况。降低flower 的权重可以一定程度上解决问题,但在实际应用中,很可能出现某个物件必须要有较高权重才能达成预期效果的情况,或者权重已经非常低了依然出现这种尴尬情况。既然不可以降低权重,那还能怎么办呢?两倍的长度,一半的意义那么有没有办法让花也不出现在衣服上?如果继续维持权重不可改变的限制,也不应用其它技巧,那么最简单的思考方向是让flower 和一切形容人物的咒语部分都拉开更远的距离,加上一些用于描绘其它画面元素的词就能做到。但如果情况要求不应该为画面引入新元素,就不能这么做。注意到此时加入词的目的仅仅是为了拉开两个词的距离。但首先(虽然其实已经有些迟了),我们应当定义一下什么是“距离”。这个数字会出现在WEB-UI 的负面咒语输入框右上角。它严格的叫法其实是这段咒语“生成的向量/token 数”,但作为不需要深究法杖炼成原理、只需要掌握应用赛博魔法师,我们只需要清楚它代表一段咒语的“物量”就行了。(在实际使用中clip的有效token数就是75,当token数量大于75的时候webui会采用clip拼接的方式处理提示词,也就是绘本分在多段clip里,我们这里的定义只要两个词跨过75、150、225……这几个点,那么就说明这两个词“距离远”)物量可以用来衡量咒语的长度,而两个词之间的间隔物量数就是它们的距离。新加入的词本身应该是尽可能无意义的,并且在此基础上多占用一些物量来产生距离骗过自然语言处理部分,我们将这样的词称之为占位词。诸如 what which that 等在自然语言中无明显指代对象的词都一定程度上可以用作占位词,所以当你在一些老旧的提示词中找到了诸如“//////////”这种无异于的字符,不用怀疑这就是占位词。现在我们有更好的方式来强行进行clip分段,这就是BREAK这个词的作用masterpiece, 1 girl, blue eyes, white hair, BREAK, in field, blue sky, sun, cloud, BREAK, (flower:1.35)花彻底从人物身上移开了。虽然AI 的不稳定性让它依然有作为服饰或发花出现的情况,但概率被进一步降低了。占位词可以用于进一步调整词与词的距离,从而加强切割某些不希望绑定在一起的元素,是“元素污染”情况的又一有力解决方案。这就是“最简发花”试验。词与词之间也不能毫无节制地加入占位词来降低关系。根据测试,词与词之间的关联度似乎和距离有着一定程度上的反比例关系或保底关联度,因此加入过多占位词不会有额外的好处,适量添加即可。当然占位词现在已经不再使用了,直接用BREAK就行。而更深入的原因还可以是,WEB-UI 对于词的分割是每75 物量一组,使用占位词来略过接近75 物量的部分,可以避免连续的描述状态被切割。连续的描述状态被切割会导致无法预期的糟糕后果,所以应当避免。赛博音节会梦见电子杖心吗从SD 框架的自然语言处理部分可以提取出关联性和占位词的应用,而从训练集则还可以提取出其它知识。如上文所述,NAI 的重要训练来源是danbooru.donmai.us,而其它绝大多数模型也或多或少与这个网站的素材有所关联。如果各位赛博魔法师们真的前去调查了它的tag 标识,那么不难发现一些有趣的现象——许多tag 有着逻辑上合理的“前置”关系,比如存在sword 这个tag 的作品往往还存在weapon 这个tag、存在sleeves past finger 这个tag 的作品往往还存在sleeve past wrists 这个tag。这样在训练集中往往共存且有强关联的tag,最终会让模型处理包含它的咒语时产生一层联想关系。不过上述联想关系似乎不够令人感兴趣,毕竟这些联想的双方都是同一类型,哪怕sword 联想了weapon 也只是无伤大雅。那么是否存在不同类型的联想呢?答案是存在的:masterpiece, 1 girl, blue eyes, white hair, white dress, dynamic, full body, simple backgroundmasterpiece, 1 girl, blue eyes, white hair, white dress, (flat chest), dynamic, full body, simple background不难发现flat chest 除了影响人物的胸部大小之外还影响了人物的头身比,让人物的身高看上去如同儿童身高一般,如果调整画布为长画布还会更明显。因此称flat chest 与child 有着联想关系。人物胸部大小和身高是不同的两个类型,两个看似类型完全不同的词也可以产生联想关系。对flat chest 加大权重,会让这种联想关系会表现地更为突出。它的原理和上述同类型的联想一样,都是训练来源导致的。平胸美少女和儿童身高在同一个作品内出现的概率非常大,而模型训练的时候又没有很好的进行区分。这种联想关系在社区中曾被称为“零级污染”。除此之外最为常见的还是再CF3模型里,rain提示词必定会出现伞这一现象。掌握了联想关系的知识之后的用途仅限于灵活应用它来更准确地营造画面,联想词之间极易互相强化,进而提高画面的稳定性。例如给人物稳定添加一把剑的最好做法不是仅加上sword,而是加上weapon, sword。同理,其他存在强联想且希望出现的元素也可以同时在咒语内连续出现。为了在画面内取消两个词之间的联想,最简单但不一定有效的做法是将被联想词写入负面咒语并加上较高权重。如果没有效果,那么不妨试一试在咒语内加上被联想词的对立面,比如用aged up 对抗flat chest 对于child 的强联想。向着魔导科学的最根源嘟嘟嘟——魔导列车启动啦!请各位乘客注意安全,系好安全带,防止双轨漂移时被甩出车gdjhgvdjkhgvdfhdgvjfhhd重新解析咒语构成既然上文补充了标准顺序公式遗漏的细节,那现在能不能让它再给力一点?当然能!无数个疑问都指向了由词性分析与联想关系理论所引发的新思考方式。既然用于描述一个元素的词与用于描述另一个元素的词之间的距离会影响叠加的程度,那么不如直接将一切元素与其对应描述词的组合都抽象为一个“物”。人是一个物,人身上的一些小挂饰也是一个物(无论这个挂饰的数量是多少),背景里的建筑也是一个物,诸如此类。物!每个物都有能力成为主要描绘对象。如果是人,那么可以是人的立绘或特写,如果是挂饰,可以是它的展览模样,甚至背景大建筑也可以成为全景的视觉中心。而当画面中存在多个物时,将不可避免地分出主要的物和次要的物,次要的物还可以有相对它而言更次要的物。这和此前的基础顺序公式不同,因为基础顺序公式默认一切事物都可以互相叠加——但事实证明不是那样。无法被叠加的次要物不难注意到有些“物”像是无视了叠加式构图原则那样,除非权重高到让它占满屏幕,否则往往只能作为配角存在、难以被其它“物”作为叠的目标。这些“物”天生有着被视作次要的特征,和许多能做主能做次的物并不相同。那么什么因素决定哪些物更倾向于被视为次要呢?终极答案是生活经验。当1 girl 和earring 简单结合时,无论两者谁先谁后,最后都会变成“一个二次元美少女带着耳环”的样子,不会在简短描述下就轻易地出现诸如“美少女向前抬手捧着耳环、耳环在镜头前是一个特写、美少女的身体被景深虚化”的情况。因为在我们的生活常识中,大多数这两个“物”结合的情况都是前者,后者在作品描绘里出现的情况极少,因而这两者即使是顺序调换也只是让美少女是否摆出展示耳环的姿势,无法轻易地切换主次(继续深讲就到训练集的部分了,虽然它的本质是训练集与LatentDiffusion 对于自然语言的处理,但考虑到大多数组成训练集的作品都取自于生活经验/ 常见创作想象,且自然语言处理本就是努力拟合生活经验的过程,所以实际上并无明显不同,因而在此打住话题)masterpiece, 1 girl, earringmasterpiece, earring, 1 girl但当1 girl 和lake 结合就不一样了。lake 虽然往往被当做背景,但它完全可以成为风景画的主要描述对象,所以在除去刻意设置了镜头的情况下——当1 girl 在前,重要的“物”为人物,所以画面往往会让人物占据主要部分(包括人物全身像站在景物前、人物半身像加远景,甚至人物直接泡水),而当lake 在前,重要的“物”为湖,湖在我们的生活经验中的确可以成为主要对象,因此画面往往会让人物显得更小、更融入风景或距离视角更远。masterpiece, 1 girl, lakemasterpiece, lake, 1 girl当“物”的数量大于2,这个规律也依然适用, 1 girl 和lake 和bike 以及earring 之间的排列组合符合上述情况:earring 总是忽略顺序作为次要装饰在人物的耳边,人物、湖、自行车则根据顺序不同而有不同的强调位置,其中bike 即使靠后也往往不会过度隐入lake。masterpiece, 1 girl, lake, bike, earring但更重要的是,运用得当的次要物可以一定程度上打破叠加式顺序结构。因为AI 会努力把所有咒语中的内容都画出来,而次要物们恰好大多数是小块结构。在如第二张图一样的远景中画出让earring 被AI 认为是不可能的,所以它会强行打破叠加式结构,让人物被聚焦到画面相对更前的位置,作为对次要物的强调。masterpiece, lake, earring, bike, 1 girllake 在前,但是效果更接近于想象中lake 在后的情况。在这种强调情况下,甚至1 girl 在前也无法让它显著地再次提高强调。masterpiece, lake, 1 girl, earring, bike无论怎么说,它从原理和实际表现效果都和人有(一点点)相似之处。虽然AI 绘画看上去是一步成型,但它一定程度上还是会根据“物”与“物”之间的关系来决定构图,并结合场景与反常情况无视部分顺序。其中“物1、2、3...”是逻辑上能轻易成为主要聚焦点、占据大画面比率的物件,“次要物”则反之。物按照希望的构图主次顺序排列,而将次要物顺序放在其附着对象之后是为了结构简洁明确,也是为了避免超出预期的反常强调。“次要物”往往都具有能以各种存在形式附着于多种主要物件之上的特性,因此单个主要物的多个次要物按顺序集群排列,有助于避免相对重要的次要物错误绑定的情况。归根结底,这就是训练集“不平衡”造成的,除非自行训练,不然很难避免这种情况的产生当然了,再往后我们甚至就可以推导出NAI1.0训练的时候提示词大致的顺序了,这再很多其他模型上是并不适用的,《元素同典》之前是编辑再nai1的时代,很多东西都是围绕nai1这一个模型来研究的。是结束也是开始以上内容显然也不是一切的答案,毕竟它标志的是入门而不是大成——本魔导书所详细解释的一切内容都是入门级内容。它更像是对于如何理解AI 运作方式的思考帮助,而不是能无脑解决所有难题的万用工具,实际操作依然需要更多经验总结来灵活变通。但仅仅是入门也许并不能满足某些有着雄心壮志、求知欲强的赛博魔法师。赛博魔法似乎无法被穷尽,该如何再次启程呢?这里不作过多展开,仅留下一些思考线索:长咏唱能绑定元素,但为什么它的不稳定度反而比其它咏唱方式还高?分步绘画的画面在分步前后之间有什么关系?为什么分布绘画能一定程度上“识别”从何处替换物?每1 step 在不同完成度下对于AI 而言到底意味着多大的变化?不同种子同咒语的镜头为何在绝对意义上频频产生混乱?叠加式构图中“叠加”的根源是什么?当一个prompt 含有多个元素意义时,AI 会如何对颜色、形状等分别处理?为什么超高步数可以修手?为什么修手一定要那么高的步数?权重到底意味着什么?数量?画面占比?结构复杂度?重复输入prompt 到底意味着什么?单个单词也会被拆分吗?......魔法的殿堂恢宏而瑰丽,无尽的回廊里昭示着无限的可能性。朝更远处进发吧。♿ 蚌埠感言♿非常感谢各位的观看,但是非常感谢,总之非常感谢。前面忘了,中间忘了,后面忘了。一开始这本魔导书是一位可爱JK的个人经验集,但后来又不知道怎么回事莫名其妙变成了为新人提供从入门到精通的一条路径。又更后来,笔者仔细想了想,世界之大无奇不有,五花八门的技巧总会迭代,我们何德何能敢说读完这一本就算精通啊?所以就变成了从麻瓜到入门()安装、第一句话、注意事项、技巧补充、公式总结,一切都是那么水到渠成。有许多技术都是随着本魔导书的编写一同被研究而出的,就比如标准顺序公式、分步描绘应用和通用顺序公式。当时笔者还在群内说,通用顺序公式就是入门时期的最强武器了,写完通用顺序公式就结束吧,这个阶段也没什么可写的啦——结果,就在2022 年11 月2 日晚上20 点左右,笔者为这魔导书编写感言的时候,关于emoji 的认知出现了。这确确实实是打乱了一切,我们都绷不住了。紧急加章之后,在“啊差不多得了,这个世界还是毁灭了算了吧”这样的想法之下,我们为这本确实不完全科学的魔导书重新写下了另一版感言——也就是你现在正读到的这一版。😅 抱歉,流汗黄豆请不要出现,我们讨厌你。总之,这本魔导书在这里也算是完结了,感谢所有在编写过程中支持笔者的大家。我们下一本典(也许没有)再见!当然,某种超自然神秘的力量促使我在2年之后的2024重写这一样一本AI绘画提示词的入门文档。那可能是法典组所践行的,“开拓”的意志吧
18
2
【吐司创造营】特训班第二课:正则化训练!Lora的更多训练方法等你来解锁!

【吐司创造营】特训班第二课:正则化训练!Lora的更多训练方法等你来解锁!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Vt421j7hc概念本质上是dreambooth的内容,通过添加额外的约束和惩罚项,来改进学习算法的表现,以减少过度拟合问题,能提高模型的泛化能力。正则化是一种先验知识。就像临摹字帖,提前学习数据,让AI知道它的训练范围在哪儿。 好处避免了过拟合可能会带来的各种崩坏情况;给机器一个参考图片,机器就会根据参考图片去学习;提高模型的精准度数据集质量不高或者数量少,就需要正则化来限制模型的复杂程度,避免过拟合 正则化图片的选取原则正则化图片放训练集以外的内容但是和原训练集有某些共通之处图片数量一般多余数据集不需要打标训练细节且原本模型里面体现不出来的特征相同底模,对想泛化的特征出图 多类型lora的详细用法多合一lora:通过不同触发词来调用强调面部特征 10_face 10_body多服装进一个lora 10_reddress 10_bluedress强调姿势 5_dance 10_body 功能性lora:加强特征加强某个关键词的特征,让他更稳定效果更好,如果prompt词里面出现了正则化里的关键词,则效果会被放大正则化- 先验损失权重prior_loss_weight:默认1,正则本身的影响权重,1的话代表你在正则里放的图片和训练集里图片的权重是一样的,你的正则100%影响你的训练集dim和alpha尽量小一点,让原本画风对他的污染效果变低 手动正则法:泛化特征,在少量数据集的情况下使用数据集更少的情况下可以使用镜像翻转,数据集不足势必要在更多地方花更多的时间。比如粗略的用1张图出lora,然后通过lora出图再作为训练集进行下一步的训练。通过控制repeat数可以控制三个文件夹中图片的权重。原因:不适用系统正则是因为图片少,正则的权重不好控制,不如直接调控repeat内容:4-5张各种姿势,内容可以通用。使用nsfw的内容可以不污染服装,脸部需要涂黑(遮罩)并且绑定在faceless上,只要不输入faceless是不会出现黑块的。保证reg文件夹中的图片数×repeat等于或略微大于body文件夹中的图片数×repeat 、tag原则发色瞳色等简单特征全部删除为头部、上半身、下半身、脚分别设置触发词细节,头饰、纹身之类的建议保留补充locon:随机洗像素,也是提高泛化性的一个手段,不用卷积会更偏向原数据集的图片,缺点是人物姿势比较固定,比较适合炼画风,更有随机性。卷积和正则化都是降低模型的拟合度增加模型的泛化性,让模型更有随机性,不适合人物的训练。
16
【吐司创造营】第一期第四课:ControlNet!一网打尽全16种控制方式!

【吐司创造营】第一期第四课:ControlNet!一网打尽全16种控制方式!

 该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Ep421y7KX一、ControlNet定义以特定信息引导,实现一些我们通过文生图、图生图不好精准控制的特征。预处理器可以从图片里提取特征信息,训练过的controlnet模型读取这些信息,并引导SD生成过程。ControlNet 的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的,所以我们首先要先了解下ControlNet 各种预处理器的功能。 二、参数详解控制权重:主要影响控制力度引导实际:生成过程中controlnet的生效时间控制模式:更倾向于提示词还是controlnet改变控制力度的方式:加大力度:提高权重降低开始引导步数并提高结束引导步数选用controlnet更重要模式降低力度:减小权重提高开始引导步数并降低结束引导步数选用提示词更重要模式 三、ControlNet详解ControlNet的大致分类轮廓类Canny:边缘检测预处理器可很好识别出图像内各对象的边缘轮廓,常用于生成线稿。控制线条轮廓,线条粗细是一样的,白底黑线线稿应该用inver,反色成黑底白线才可以正常识别,线条不宜太过密集。MLSD:M-LSD 线条检测用于识别画面里的直线条,生成房间、直线条的建筑场景效果比较好。M-LSD 直线线条检测预处理后只会保留画面中的直线特征,而忽略曲线特征。Lineart:跟canny比较像,但是会有一些艺术化的处理,它的使用场景会更加细分,包括Realistic 真实系和Anime 动漫系2 个方向。Lineart 是有的明显笔触痕迹线稿,更像是现实的手绘稿。SoftEdge:控制线条轮廓,但更加柔和,放松,线条有粗有细;几种预处理器没有太大差别,与canny对比,对轮廓线条的还原更生动,不会太过于刻板。它的特点是可以提取带有渐变效果的边缘线条,由此生成的绘图结果画面看起来会更加柔和且过渡自然。在官方介绍的性能对比中,模型稳定性排名为PiDiNetSafe > HEDSafe > PiDiNet > HED,而最高结果质量排名HED > PiDiNet > HEDSafe > PiDiNetSafe,综合考虑后PiDiNet 被设置为默认预处理器,可以保证在大多数情况下都能表现良好。Scribble:涂鸦引导画面生成,应用一些灵魂画手,它检测生成的预处理图更像是蜡笔涂鸦的线稿,在控图效果上更加自由。Segmentation:语义分割,用颜色把不同类型的对象分割开,它可以在检测内容轮廓的同时将画面划分为不同区块,并对区块赋予语义标注,从而实现更加精准的控图效果,让AI能正确识别对象类型和需求生成的区界。比如说绿色代表的是草地,蓝色代表的是天空。景深类Depth:深度图,通过提取原始图片中的深度信息,生成具有原图同样深度结构的深度图,越白的越靠前,越黑的越靠后。leres精度高,midas较为泛用,精度越高的预处理,花费时间一般越久。 对比来看,LeReS 和LeReS++的深度图细节提取的层次比较丰富,其中LeReS++会更胜一筹。而MiDaS 和ZoE 更适合处理复杂场景,其中ZoE 的参数量是最大的,所以处理速度比较慢,实际效果上更倾向于强化前后景深对比。 NormalMap:法线贴图,法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图,便于AI给图片内容进行更好的光影处理,它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多,常用于贴在低模上模拟高模的复杂光影效果。更精准的识别物体的凹凸体积关系,甚至是材质,常见用于室内设计,产品设计。对比Bae 和Midas 预处理器的出图效果,也能看出Bae 在光影反馈上明显更胜一筹。对象类Openpose:姿势生成,可生成图像中角色动作姿态的骨架图,控制姿势、手部、面部。 重绘类Inpaint:类似局部重绘,但是融合会更好。局部重绘这里提供了3 种预处理器,Global_Harmonious、only 和only+lama,整体来看出图效果上差异不大,但在环境融合效果上Global_Harmonious 处理效果最佳,only 次之,only+lama 最差。Tile:无缝拼接,用来添加细节和高清放大;Tile 中同样提供了3 种预处理器:colorfix、colorfix+sharp、resample,分别表示固定颜色、固定颜色+锐化、重新采样。看到三种预处理器的绘图效果,相较之下默认的resample 在绘制时会提供更多发挥空间,内容上和原图差异会更大。Shuffle:随即洗牌,打乱噪声和像素点,提取颜色信息和色彩。随机洗牌是非常特殊的控图类型,它的功能相当于将参考图的所有信息特征随机打乱再进行重组,生成的图像在结构、内容等方面和原图都可能不同,但在风格上你依旧能看到一丝关联。pix2pix:指令性的controlnet,指导图生图,它的功能可以说和图生图基本一样,会直接参考原图的信息特征进行重绘,因此并不需要单独的预处理器即可直接使用。比如说着火。特殊类Reference:参考信息,根据原有的图像信息去生成。这里提供了3 个预处理器adain、adain+attn、only。其中adain、adain+attn 是V1.1.171 版本后新增的预处理器,其中adain 表示Adaptive Instance Normalization 自适应实例规范化,+attn 表示Attention 链接。Recolor:重新上色,黑白图像变成有颜色的。它的效果是给图片填充颜色,非常适合修复一些黑白老旧照片。但Recolor 无法保证颜色准确出现特定位置上,可能会出现相互污染的情况,因此实际使用时还需配合如打断等提示词语法进行调整。这里也提供了intensity 和luminance2 种预处理器,通常推荐使用luminance,预处理的效果会更好。T2I-Adapter 文生图适配器:它的作用是为各类文生图模型提供额外的控制引导,同时又不会影响原有模型的拓展和生成能力。IP-Adapter 图生图适配器:要用来提升文生图模型的图像提示能力Clip_vision:腾讯出的,color adapter是用图控制色彩,style adapter是用图控制风格。
15
膨胀工作流

膨胀工作流

展示图:如何直接使用:方法一:直接使用此链接:https://tusi.cn/template/run/727198960355304059?source_id=601113246111368709点击生成后,直接上传图片再点在线生成即可方法二:①在吐司(tusi.cn)搜索:膨胀图标LOGO或者直接打开以下链接:https://tusi.cn/template/727198960355304059②在右侧点击上传你需要处理的图片,点击在线生成即可原理:工作流是很常见的ControlNet工作流:利用ControlNet使用输入的LOGO图作为控制图,再通过专用模型来实现效果。如何搭建类似工具:搭建类似的工作流可以查看以下教程文档:如何DIY模板小工具
15

圣诞攻略CogVideo 图生视频工作流

可在线CogVideo 图生视频工作流 (12-8号任务可用)可直接平台运行,无报错,无缺失节点,工作流可直接用大家只需要加载图片改下关键词生成视频就可以发布小工具了工作流地址:deo图生视频吐司在线工作流| ComfyUI Workflow | Tensor.Arthttps://tusiart.work/workflows/804830859302650737记得发布AI小工具哦,发布加圣诞攻略标签
14

【圣诞攻略】12-8日视频工作流攻略及小工具发布流程

有多少今天这个视频工作流懵逼的,我今天研究一天社群探讨和大佬交流制作和上传很好了工作流,、大家只需要改下关键词生成视频就可以发布小工具了★:注意:发布加圣诞攻略标签点我头像或者下面链接进入https://tusiart.work/workflows/804829201445272567相关平台技术大佬解答贴:https://tusiart.com/articles/804148483494963333
14
全网独家丨pony原神全角色124位丨使用指南—璃月篇

全网独家丨pony原神全角色124位丨使用指南—璃月篇

全网独家丨pony原神全角色124位丨使用指南—璃月篇感谢@苍凉如梦和他的舍友帮忙整理提示词文档璃月白术/baizhu_(genshin_impact)触发词:baizhu_\(genshin_impact\), 1boy, glasses, changsheng_\(genshin_impact\), white_snake, crop_top, short_sleeves, hair_stick, tassel, animal_around_neck, black_gloves, cropped_shirt, midriff, bead_bracelet行秋/xingqiu_(bamboo_rain)_(genshin_impact)触发词:xingqiu_\(genshin_impact\), xingqiu_\(bamboo_rain\)_\(genshin_impact\), 1boy, official_alternate_costume, official_alternate_hairstyle, long_sleeves, short_ponytail, white_shorts, blue_socks, low_ponytail, blue_jacket, shoes行秋雨话竹身xingqiu_(aoi_no_okina)_(genshin_impact)触发词:xingqiu_\(aoi_no_okina\)_\(genshin_impact\), xingqiu_\(genshin_impact\), monocle, 1boy, long_sleeves, wide_sleeves, frilled_sleeves, white_cape, holding_book, japanese_clothes, sidelocks, chinese_clothes申鹤冷花幽露shenhe_(frostflower_dew)_(genshin_impact)触发词:shenhe_\(frostflower_dew\)_\(genshin_impact\), shenhe_\(genshin_impact\), black_dress, detached_sleeves, 1girl, official_alternate_costume, bare_shoulders, sleeveless_dress, large_breasts, thighs, long_sleeves, hair_over_one_eye, black_sleeves, parted_lips雷电真/ makoto_(genshin_impact)触发词:raiden_shogun, japanese_clothes, kimono, flower, 1girl, sash, braid, purple_kimono, obi, mole_under_eye, 2girls, mole, purple_flower, hair_flower, breasts, long_sleeves刻晴霓裾翩迁/keqing_(opulent_splendor)_(genshin_impact)触发词:keqing_\(opulent_splendor\)_\(genshin_impact\), keqing_\(genshin_impact\), 1girl, cone_hair_bun, bare_shoulders, double_bun, cleavage, official_alternate_costume, strapless_dress, black_dress, black_pantyhose, detached_sleeves, medium_breasts, hair_ribbon甘雨暮光之花/ ganyu_(twilight_blossom)_(genshin_impact)触发词:ganyu_\(genshin_impact\), ganyu_\(twilight_blossom\)_\(genshin_impact\), bare_shoulders, official_alternate_costume, detached_sleeves, 1girl, blue_dress, black_gloves, black_dress, thighs, long_sleeves, sleeveless_dress, medium_breasts, official_alternate_hairstyle嘉明/ gaming_(genshin_impact)触发词:gaming_\(genshin_impact\), 1boy, fingerless_gloves, black_gloves, long_sleeves, chinese_clothes, tassel, mole_on_neck, red_shirt, hooded_jacket归终/guizhong_(genshin_impact)触发词:1girl, guizhong_\(genshin_impact\), bare_shoulders, detached_sleeves, white_dress, sleeves_past_fingers, wide_sleeves, short_hair_with_long_locks, long_sleeves, barefoot, sidelocks钟离zhongli_(genshin_impact)触发词:zhongli_\(genshin_impact\), 1boy, long_sleeves, black_gloves, single_earring, low_ponytail, tassel_earrings, collared_shirt, red_eyeshadow, standing, white_necktie钟离摩拉克斯/zhongli_(archon)_(genshin_impact)触发词:zhongli_\(genshin_impact\), zhongli_\(archon\)_\(genshin_impact\), 1boy, official_alternate_costume, hood_up, ponytail, arm_tattoo, single_earring, sleeveless, tassel_earrings, bare_shoulders, hooded_cloak, hooded_coat云瑾/ yun_jin_(genshin_impact)触发词:1girl, yun_jin_\(genshin_impact\), bonnet, long_sleeves, pink_capelet, lolita_fashion, qi_lolita, vision_\(genshin_impact\), tassel, black_headwear烟绯/yanfei_(genshin_impact)触发词:1girl, yanfei_\(genshin_impact\), red_headwear, detached_sleeves, bare_shoulders, midriff, crop_top, long_sleeves, cleavage, stomach, navel瑶瑶/yaoyao_(genshin_impact)触发词:1girl, yaoyao_\(genshin_impact\), hair_bell, yuegui_\(genshin_impact\), long_sleeves, sidelocks, jingle_bell, backpack_basket, braid, :d夜兰/ yelan_(genshin_impact)触发词:1girl, yelan_\(genshin_impact\), large_breasts, bare_shoulders, bob_cut, cleavage, earrings, dice, mole_on_breast, black_gloves, fur-trimmed_jacket, white_gloves, armpits, mismatched_gloves辛焱/ xinyan_(genshin_impact)触发词:xinyan_\(genshin_impact\), 1girl, dark-skinned_female, spikes, black_nails, cleavage, holding_instrument, medium_breasts, nail_polish, hair_down, spiked_hairband行秋/xingqiu_(genshin_impact)触发词:1boy, xingqiu_\(genshin_impact\), long_sleeves, single_earring, frilled_sleeves, tassel_earrings, chinese_clothes, holding_book, wide_sleeves魈xiao_(genshin_impact)触发词:xiao_\(genshin_impact\), 1boy, forehead_mark, white_shirt, arm_tattoo, bead_necklace, sleeveless_shirt, black_gloves, tassel, red_eyeshadow, long_sleeves闲云/ xianyun_(genshin_impact)触发词:1girl, xianyun_\(genshin_impact\), cloud_retainer_\(genshin_impact\), glasses, red-framed_eyewear, large_breasts, semi-rimless_eyewear, tassel_earrings, bodystocking, long_sleeves, gloves, aqua_lips, black_gloves, thighs香菱/xiangling_(genshin_impact)触发词:xiangling_\(genshin_impact\), 1girl, hairclip, fingerless_gloves, guoba_\(genshin_impact\), bare_shoulders, braided_hair_rings, black_gloves, thick_eyebrows, china_dress, small_breasts申鹤/ shenhe_(genshin_impact)触发词:shenhe_\(genshin_impact\), 1girl, blue_eyes, hair_over_one_eye, white_hair, large_breasts, hair_ornament, long_hair, very_long_hair, grey_hair, nipples, hip_vent, tassel_earrings凝光/ningguang_(genshin_impact)触发词:ningguang_\(genshin_impact\), 1girl, hair_stick, large_breasts, white_hair, black_gloves, bare_shoulders, red_eyes, elbow_gloves, china_dress, sidelocks, long_hair, sitting, tassel_hair_ornament凝光纱中幽兰/ningguang_(orchid's_evening_gown)_(genshin_impact)触发词:ningguang_\(orchid's_evening_gown\)_\(genshin_impact\), ningguang_\(genshin_impact\), official_alternate_costume, 1girl, blue_dress, bare_shoulders, cleavage, large_breasts, vision_\(genshin_impact\), bracelet, sidelocks, detached_sleeves,七七/qiqi_(genshin_impact)触发词:1girl, qiqi_\(genshin_impact\), hat, long_sleeves, qingdai_guanmao, bead_necklace, jiangshi, ofuda, purple_headwear, white_thighhighs, vision_\(genshin_impact\), black_nails刻晴/keqing_(genshin_impact)触发词:keqing_\(genshin_impact\), 1girl, bare_shoulders, medium_breasts, thighs, large_breasts, detached_sleeves, purple_dress, black_pantyhose, cleavage锅巴/guoba_(genshin_impact)触发词:guoba_\(genshin_impact\), red_panda, xiangling_\(genshin_impact\), hairclip, 1girl, fingerless_gloves, chinese_clothes, twin_braids, sidelocks, black_gloves, :d, thick_eyebrows, braided_hair_rings, chili_pepper, bare_shoulders胡桃/hu_tao_(genshin_impact)触发词:1girl, hu_tao_\(genshin_impact\), flower-shaped_pupils, long_sleeves, black_nails, boo_tao_\(genshin_impact\), black_headwear, hat_flower, black_shorts, nail_polish, thighs甘雨/ganyu_(genshin_impact)触发词:ganyu_\(genshin_impact\), 1girl, neck_bell, bare_shoulders, detached_sleeves, black_gloves, bodystocking, sidelocks, medium_breasts, video, animated, sitting, large_breasts, outdoors重云/chongyun_(genshin_impact)触发词:chongyun_\(genshin_impact\), 1boy, chinese_clothes, fingerless_gloves, hood_down, black_gloves, long_sleeves, black_bodysuit, popsicle北斗/beidou_(genshin_impact)触发词:beidou_\(genshin_impact\), 1girl, large_breasts, eyepatch, cleavage, hair_stick, hair_over_one_eye, fingerless_gloves, colored_eyepatch, one_eye_covered, thighs, black_gloves, bare_shoulders, hairpin萍姥姥/ madame_ping_(genshin_impact)触发词:madame_ping_\(genshin_impact\), bare_shoulders, detached_sleeves long_sleeves, wide_sleeves, chinese_clothes, aged_down, black_gloves, hair_stick,应答/ indarias_(genshin_impact)触发词:indarias_\(genshin_impact\), 志琼/zhiqiong_(genshin_impact)触发词:zhiqiong_\(genshin_impact\), 1girl, cleavage, green_headwear, red_necktie, sidelocks, medium_breasts, backpack, hair_bun, green_dress, speech_bubble, english_text, single_hair_bun
14
1
给所有想学习AI辅助绘画的人的入门课

给所有想学习AI辅助绘画的人的入门课

重绘学派法术绪论 V1.X本文档是基于【腾讯文档】重绘学派法术绪论1.1更改的Invoke版,相比于WebUI,InvokeAI更加的适合专业的AI辅助绘画。本文将会基于InvokeAI V3.7.0的UI界面讲解,是AI辅助绘画的入门级文档。在修习本课程之前,请确保你已经修习过了了提示词基础,或者已经会使用你接下来将要使用的模型(提示词格式正确,且可以根据自己的想法进行图生图)警告:在本地部署使用过程中请时刻关注你得GPU/硬盘等硬件状态,并在必要的时候强行停止AI生成以防止您的GPU/其他设备损坏。本文档内容完全公开、免费,InvokeAI为开源软件。如发现有人售卖此文档或此文档的部分内容、售卖Invoke安装包/整合包或所谓“破解版”,请立即退款并举报商家。文档基于公开材料和经验编写,作者不对内容准确性负责。另外因您的数据的产生、收集、处理、使用等任何相关事项存在违反法律法规等情况而造成的全部结果及责任均由您自行承担。前言:图生图时常被轻视,有人觉得不稳定,有人觉得效果差,还有人觉得它难以控制,不像正统文生图那样确定,因此有兴趣的人愈少,使用者更是寥寥。然而重绘学派的实际价值却并不低,相反,它还能做到更多单纯文生图做不到的事情。借助图生图,可以在AI随机的海洋中强行撞出一条路来,能化不可能为可能。重绘,实际上就是借助更多的输入、借助对输入图片预先的修改、借助在AI生成过程中的人工干预,达到一种介乎人与机器之间的效果,使其逐渐倾向于能够精准控制,这是图生图的本质,而重绘学的终极——其实是手绘。想象你可以具体到单独控制每一个像素点,这不就是人工绘画吗?不过重绘毕竟是介于两者之间的,不是人人都有绘画的天分,但人人都有的基本智能——光这就已经超出了机器太多。只要将其赋予一部分给AI,给它一把推力,人机协同便能产生1+1>2的效果。本文将分为三个部分,分别从工具、应用、研究三部分讲述重绘学派的基础,其中工具部分不讲具体运用,只讨论使用方法;应用部分以课题的方式展开,通过几个具体案例,提供几种用法的参考;研究部分是一些对于重绘法术中不明晰的地方的探讨。如果仅仅希望了解如何使用,那么可以只读前两章;如果希望灵活使用,则不要局限于第二章的用法,应该将各种材料有机的结合,开发自己的用法。若有问题,可查阅研究部分-常见错误一节。重绘学派法术变化万千,恕本文不能一一包含。落辰星2023年7月1日工具部分1. invokeAI:工欲善其事必先利其器1.1. InvokeAIinvoke是一个线上可用,带有本地部署UI的开源软件,线上使用需要付费且很贵。本地部署则需要使用自己的显卡,推荐使用RTX4090。本地UI链接:https://github.com/invoke-ai/InvokeAI● 硬件需求说明:最低推荐配置的意思是配置低于这个就完全不建议入坑AI绘画了,如果强行想要使用,有些也是没问题的,但是还是建议硬件水平低于最低推荐配置时更换为更为强劲的硬件。当然使用云端部署也是没问题的(纯新人建议使用windows server)● 软件需求Linux:用Linux当主力系统的还用我教?Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本。windows7就不要想了,建议直接升级到win10/win11macOS:没用过,不会当然,你部署好Invoke的第一步,大概率是想要调成中文:(在这里调)1.2. 推荐模型SDAS Prem:https://tusiart.com/models/697051880532204841ANYT Simpler:https://tusiart.com/models/647970544756545190暂时不推荐使用别的模型,暂时不推荐使用SDXL的模型2.文生图:有总比没有强传统的文生图,如果你学习过AI绘画,那么应该会非常熟练的调整这些参数。虽然这里的图生图可以调整的东西,以及相关的插件或者其他,都不如使用Webui,但是也够用了,没必要单独再开一个webui来处理文生图3.图生图:最简单的重绘工具图生图是最简单的重绘工具,讲解将从这里开始,首先,我们来看看图生图的界面:界面中间的左侧是上传参考图的位置,支持直接拖入,也可以从右侧的历史记录里拖入,最左侧是生成的图片①为生成尺寸设定,当拉动拉条时,参考图上会显示比例关系。②为当参考图与设定尺寸不符合时的处理方法,仅调整大小就是拉伸,会改变比例;下方是为图生图的灵魂,重绘幅度设定,根据具体的需要,重绘度的变化较大,所以绝对值参考意义较小。应该看相对值,太过了减小,不足加大。0表示完全为原图,1表示完全为新图。经验上以0.5为区分:0.5以前都能保持原图大部分内容,反之则再创作更多。界面下方则是插件,与文生图一致,不多赘述。③为生成的AI参数,分别可以更改模型,采样器,steps和CFG4.统一画布:你的最强画笔在这里4.1. 选择框选择框是一切的基础,任何模式的范围都是以选择框为依据,进行AI处理的时候,只会对选择框内的部分进行处理。画布分别有:局部重绘、图生图、外扩重绘、文生图等功能而根据选择框的不同,有4种不同的模式,这4种不同的模式均为自动切换,你只需要注意选择框的位置即可:当选择框完全在已经存在的图内并且涂有蒙版时,则是局部重绘模式;当选择框完全在已经存在的图内并且没涂蒙版的时候,则是图生图模式;当选择框完全在已有图的外面时,则是文生图;当选择框一半在已有图内一半在外面时,则是外扩重绘。4.2. 工具区看图基本就知道是干嘛的,下面的顺序是从左到右左侧:蒙版/画笔切换、蒙版选项、画笔、橡皮、颜料桶、删除区域、吸色管、画笔调节。中间:选择拖动,和重置视图。右边是合并图层、保存至右侧快捷栏、复制到剪贴板、下载、撤销/重做、上传图片、删除图片、设置两个二级菜单分别如上图可见。分别是蒙版选项和画笔选项。4.3. CountrolControlnet本质是提供额外的参数以施加多维控制,所有的controlnet模型都需要参考图,可以看作一类特殊的图生图。ControlNet使用需要下载专用的ControlNet模型,并且许多模型在SDXL中效果并不好用。模型是可选的,无需一股脑的全下了,看清楚自己需要什么模型,用的时候临时下也不迟。另外invoke也提供了IPAdapter和T2IAdapter使用:4.4. Photoshop这里虽然说不需要跟Webui中实现部分操作一样硬性需求PS。但是按照惯例这里提一下:这里以本机装的2022版为例,说明一些基础的不能再基础的操作。①为菜单栏,你可以在这里找到各种操作,如果你看不到某些工作区,布局也是在这里设置。②为快捷工具栏,需要用到的大部分工具都在这里选择,然后再到图上涂抹。③为调色盘区域。④为图层工作区,添加图层添加蒙版都在这里。应用举例1.图生图基本理论在开始本章之前,需要说几个常识,也是图生图修图的基础。本章中各种方法,根本思想都起源于下面的简单事实。当然,很多人早就知道了,也可以直接略过。SD模型对于画面占比越大的事物越容易画好,反之占比越小就越画不好,举个例子,中远景人物崩脸的概率显著高于特写,另一个例子是,以画不好手出名的AI,在强调手的tag下,例如beckoning之类,出好手的概率顿时暴增,这是由扩散模型本身的性质决定的,而我们可以顺应这种特性。例如,将手部裁剪下来,这不就是一张手部特写图了吗?再请AI重绘,抽卡难度瞬间下降。同理,AI画大的事物清晰,小的不清晰,同样将小的物品转化为大物品经过重绘再放回原图,就可以保证处处清晰。1.图生图也是需要提示词的,虽然在多维度约束下,提示词对于AI的参考意义一定程度上被削弱,但这仍然是参考的主要成分。提示词可以反推,但相比反推模型,一定是你的眼睛分辨更加精准,只有传递给模型正确的指引——至少不要和重绘内容打架,才能抽卡出好的结果。图生图使用的提示词应该是希望AI画成的内容,比如说,图生图更换风格,那么你就需要描述画面中不希望改动的内容,并且加上风格词,甚至还需要加权;再比方说,将车局部重绘成马,那么你的提示词就应该是有关马的详细描述;最好,当你发现局部重绘的对象丧失了与全图的关联,那么你还需要适当描述一点蒙版以外的内容,便于模型理解。2.图生图修图的本质是施加多维约束。试想,当你写上提示词生图的时候、当你涂上蒙版重绘的时候,你究竟告诉了AI多少信息?这些信息能够唯一的锁定你要的东西吗?显然不是的,一个很简单的道理,如果你不告诉画师更具体的要求,那么他就只能猜来猜去,当你所给信息较少,那么实际上只是在挤眉弄眼的暗示,怎么可能一发命中呢。所以越强的约束操控者的自主性越强,相应的,AI的发散性就越差。如果你不满AI的天马行空了,那就应该有色蒙版/PS/controlnet结合着灵魂画技给它比划,总好过使眼色对吧。3.图生图需要将原图反推为潜空间数据,因此占用会比文生图更高,并且参考图尺寸越大占用越高。对于局部重绘,占用会比单纯图生图再略高,但这并不意味着低显存就不能局部重绘,实际上Invoke只会将选取框内的内容裁剪下来重绘。另外由于图生图会经过两次VAE,在使用VAE异常的模型时,每次重绘都会导致画面变得更灰。4.图生图的模型选择要符合参考图画风,或者至少接近、不矛盾。例如你不能用SD1.5原模来重绘一张纸片人图。但不代表就必须要一模一样,相反用截然不同的模型来出图和重绘,偶尔还能做出风格交融的效果。5.用图生图的方法应该具有一种阶段性的思想,即:不强求一次成图,可以分别抽出好的背景、好的人物、好的构图、好的姿势,通过图生图将它们有机结合在一起。而且也并非只能出全图,比如可以让AI产生某些素材,用来贴进画面。最后,实际上模型的能力也是有限的。当模型中根本就没有相关数据,那么这就是不可能画出来的,比如某些特殊视角、构图。那么此时,就只有通过手中的笔了。2.修手:对AI任何不满意的地方都可以通过AI解决本章第一个案例是修手,毕竟,SD画不好手是老生常谈的问题,好不容易出了一张满 意的图却坏了手,这也是常见的事。如法炮制,另一边也修好了3.添加元素:你可以随意的控制这个世界本课题中,我们将从背景图开始,通过逐渐添加元素完成一张图。首先,用ControlNet的涂鸦模型通过灵魂画技随便整张背景。然后我们就可以涂一块区域进行生图(当然,灵魂画手稍微画一下效果比这更好,涂色块纯粹是因为我懒),当然你还可以进行其他操作,比如加个广告牌加个鸟等,总是这些都是相当简单的。4.差分:任何事物随意更换也是灵魂画手即可,略微画一下我想要的表情,并且输入提示词,然后选框+蒙版直接生图即可:5. 更改画风:你的烂模型拯救助手简单换个模型,然后低去噪强度图生图就可以用了,甚至都不需要统一画布6.LoRA协同:1+1当然可以等于2先来看原始图,这是两个LoRa的效果,这两个lora同时调用会发生什么我想不用多说。那么步骤的开始,是先跑一张合适的底图,先单独调用左图lora,使用合适的动作 tag,得到下图左,然后再画右图LoRA的角色,生图就大功告成了。   可见思路就是跑出合适构图的雏形,再将具体所要的人物通过局部重绘加入画面中。7.画多人:超高的可控性,超高的上限无论是SD1.5还是SDXL,画多人图都是很困难的,更别提我还想要指定的特征。但是在图生图里,一切都是相当简单的:跟LoRA协同一样,我们可以先画左侧的人物(甚至可以直接文生图),然后再利用图生图画上右侧的人物。这里需要注意一个点:画多人的时候,如果是进入了外扩绘制模式,那么效果是很差的。这时候我们就需要点一下油漆桶,先涂满色块,然后再从色块上绘画(这时候可以使用蒙版重绘),这样效果才是好的。8.远景图/全身图:你想要的都能画首先原图是这个:这个原图上面已经出现过了远景你可以使用外扩重绘(简单色块涂鸦即可),下图是外扩了一部分,并且涂鸦了下半身的内容:点击生图,生成如下图所示的图。我们可以利用这个功能一点一点的实现扩大画布(远景大图)、画出全身等效果9.命题作文:谁都可以妙手生花本课题将综合运用各种图生图功能,以达到目的为准,不拘一格,可谓是命题作文, 题材不限。那么先说命题,一个坐在窗边望着窗外的少女,视角是从窗外看的。首先灵魂画手,先简单涂鸦出我想要的内容:其次,拖入ControlNet使用涂鸦模型,生成大概下面这种图(左图),然后反复进行图生图增加一些细节(右图)。房间内确实细化了一些,但有个问题是,它把我要的窗帘吞掉了。这个时候画上去就行(简单灵魂画手涂鸦即可,提示词记得改成窗帘,不然不容易出图),点击生成即可。研究部分1.图生图是难以复刻但并非完全无法复刻如下所示,进行了两次同参数图生图(右2图),固定种子,可见,图生图和文生图一样是可以稳定复现的。但通常情况下,即使拿到别人图生图的原图,图里并不会存储参考原图、重绘度,蒙版 处理方式等信息,参数不足无法保持一致,局部重绘更是几乎无法复刻,因为蒙版为手画, 不可能完全一致,这都是导致图生图难以复刻的原因。但这不代表图生图是完全无法复刻的 随机黑箱!图生图与文生图一样,确定的参数产生确定的结果2.高清修复与图生图的关系  有人注意到,在以前的WebUI的图生图中没有高清修复(现在有没有不是很清楚),这是因为高清修复本身就是图生图。来看一 组对比,我们固定包括种子在内的参数,先生成一张小图,再同种子高清修复,再用此前的小图进行图生图放大(保持放大算法与高清修复一致),左侧为原图,右侧为两次放大的效果:你玩过Comfy那就更好解释了:玩过的话应该会知道非潜空间的高清修复应该是怎么连的
13
1
模型理论科普·第一辑

模型理论科普·第一辑

本文仅为科普说明,并非研究性/新技术的讲解如有理论错误,欢迎联系修改。本文中所有资料均可被自由引用。最终解释权归作者 所有。特别鸣谢:元素法典作者群/秋叶甜品店潜工具书:Stable Diffusion 潜工具书(中文最全文档)部分引用资料:stable-diffusion-webui-model-toolkit/README.mdSkip/Reset CLIP position_ids FIX (rentry.org)【腾讯文档】元素同典:确实不完全科学的魔导书一、 使用工具修复/检查模型所使用的工具的下载和安装这里模型常用的模型检测与处理工具为:Clip check tensors/model toolkit/model converter注意:部分插件仅能对于SD1.5的模型使用,SDXL无法使用1. 工具下载这3个插件都不是web-ui自带的,所以需要先安装,以下是安装步骤。Clip check tensors:iiiytn1k/sd-webui-check-tensors (github.com)model toolkit:arenasys/stable-diffusion-webui-model-toolkitmodel converter(模型格式转换)Akegarasu/sd-webui-model-convertera.使用webUI直接安装将网址打开后的链接直接填入WebUI插件下载区,等待自动加载完毕即可b.压缩包下载【PS:请在任何其他手段均无法下载时使用此方法,极不推荐使用】github界面点击【Download ZIP】完整解压后放在扩展文件夹:你的WebUI所在文件夹/extensions能在顶部栏看到即为安装成功(这里是Kitchen theme折叠了一部分顶部栏)2. 功能介绍CLIP tensors checker用于查询偏移的Clipmodel toolkit用于修复损坏的Clip,导出/更换模型的Unet/VAE/Clip等model converter转换模型格式、修复clip、压缩模型二、 模型问题这部分为模型理论知识以及常见的模型问题有关Stable Diffusion的部分基本原理可以查看:【AI绘画】大魔导书:AI 是如何绘画的?Stable Diffusion 原理全解(一) - 哔哩哔哩 (bilibili.com)有能力的也可以查看生肉文章:What are Diffusion Models? | Lil'Log (lilianweng.github.io)这里只讲解通俗易懂的模型相关的内容,所以这里不会摆出一大堆晦涩难懂的“基础知识”来唬人或者是撑篇幅。3. 【基础】模型三大件:clip、unet、VAETextEncoder(Clip):会把tag转化成U-net网络能理解embedding形式【简单的说就是将“人话”转换成AI能够理解的语言】U-net:对随机种子生成的噪声图进行引导,来指导去噪的方向,找出需要改变的地方并给出改变的数据【简单的说就是死盯着乱码图片,看他像什么】VAE:AI原本的生成图不是人能看的正常图片,VAE的作用就是把AI的这部分输出转化为人能够看的图片。【简单的说就是把AI输出翻译成人能看到的图片】模型问题修复前后对比(上面是修复后的)4. VAE问题a.VAE问题的原因模型输出图发灰说明这个模型的VAE出现问题了,常见于融合模型中。不同VAE之间的任何Merge都会导致VAE中的某些东西被破坏。并且很多融合的模型再拿去融合,那么VAE就会跟着破坏。这就是为什么很多模型输出图是灰色的,以及人们热衷于单独使用加外置VAE的原因。遇到这种情况,一般而言需要修复VAE才能使得模型正常使用。不过web UI提供了外置VAE的选项,可以在生成时忽略模型的VAE而使用外置VAE替代。例如这种图就是典型的VAE损坏b.更换模型VAE更换/使用其他VAE并非很好的解决方案,部分模型在更换VAE后会出现输出图模糊或者线条混乱的情况。不过不能更换其他VAE并非不能使用原本模型的VAE,Merge模型可以使用原本合并之前的模型VAE,这样效果上就不会出现各种各样的问题。c.VAE重复VAE重复:有的人喜欢自己重命名一些现有的VAE,然后把这个VAE当作自己模型的VAE来使用,这就造成了下载了很多VAE,但是一检查哈希发现都是一模一样的。下面是我这里所有的VAE的哈希对照:d.常见误区/错误说法【1】“VAE没有注入到模型里,可以自由选用想用的VAE”"VAE是加滤镜的" "VAE可有可无"这种说法都是错误的【2】VAE颜色深度排序相关的内容同样的不科学的,例如什么“NAI的VAE颜色最浅、840000VAE的颜色最深”之类的。随意更换VAE会影响输出图,部分模型的输出模糊或者线条爆炸就是因为这样产生的。使用没有问题的外置VAE发现输出图发灰那是模型本身的问题,与VAE无关。【3】VAE的作用并非纠正色调或者是“模型滤镜”5. clip损坏a.clip偏移通常意义上的clip损坏指代clip出现偏移,类似于下面这种这些东西的是一个 值从 0 到 76int64 张量,模型Merge会将这些张量转换为浮点数并引入错误数值。例如在 AnythingV3 中,值 76 变为 75.9975,当由 webui 加载时该值被转换回 int64结果为 就变成了75。(所以上面这张图其实只有值41会影响模型的正常使用,在toolkit上只显示了会影响模型正常使用的clip值,这也是两个检测工具输出不同的原因)b.clip偏移的影响clip偏移会影响模型对于对应位置的token语义的理解,详情可以查看早期“微笑测试”实验(下面的链接),这里引用部分实验内容。测试参数如下:seed是固定的、clip skip=1、eta=0smile sleepy girl standing bearSteps: 40, Sampler: Euler a, CFG scale: 7.5, Seed: 651296271, Face restoration: CodeFormer, Size: 512x512我们对其修改如下:1-0:tensor([[ 0,0,2,3,4,5 …2-0:tensor([[ 0,1,0,3,4,5 …3-0:tensor([[ 0,1,2,0,4,5 …3-1:tensor([[ 0,1,2,1,4,5 …顶部是常规的8528d-fix,smile被忽略。keychange_8528dfix是修复后的, smile又回来了。3. break_1-0 smile再次消失4. break_2-0 sleepy没有体现5. break_3-0 girl不见了,变成了熊。6. break_3-1 girl部分的值为1, 女孩没有消失,1的笑容也没有消失。 break_3-1 结果比较难以分辨【更详细的测试在链接指向的文章】引用自:[調査] Smile Test: Elysium_Anime_V3 問題を調べる #3|bbcmc (note.com)当然了,详情也可以查看下面链接的文章简单说明/修复:Skip/Reset CLIP position_ids FIX (rentry.org)很久之前有人通过裁剪FP16的方式“修复”clip,不过现在使用toolkit等插件可以很轻松的修复clip。6. junk dataa.垃圾(无效)数据的产生模型融合经常会出现很多webui在跑图过程中实际用不上的junk data,模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。很多的融合模型都带有这么一堆的垃圾数据,并且很多人总是认为这些junk data删掉会影响模型本身而不去删除。【1】其中影响最大的是模型EMA:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。如果你希望大家能有效的使用EMA,那么请使用训练模型。(融合模型前建议先把模型的EMA全部删掉,因为只要是Merge模型,那么EMA就可以等同于垃圾数据)【2】部分将LoRA注入到ckp大模型中的操作会产生一部分无效数据【3】其他不知道哪来的无法使用的数据(原因有很多,不展开讲,真要塞我甚至可以在模型里塞一个原神)比如有10G多Junk data的传世经典17G模型:b.模型一般大小一般模型大小为1.98Gb和3.97Gb有的为7.17G,除非模型各部分精度不同造成的其他模型大小之外,一般而言奇怪大小的模型都会或多或少的存在junk data。此外,noVAE模型的大小为1.8G左右,noVAE&clip的模型为1.6G7. 无效精度a.实际使用更高的精度是没意义的默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度是没啥意义的,不使用--no-half这些模型将完全相同。而实际上哪怕使用--no-half,模型的差别也并不会很大。很多人对精度本身是没有什么认知的,普遍的直觉是"单精到半精的性能损失是线性的",即一半精度,性能为原本的一半,但在SD推理上事实上的差别是非常小的。不看标题你能分辨出哪个效果好哪个效果差吗,不叠图的话啥什么都看不出来↓FP32与FP16的叠图对比:https://imgsli.com/MTgwOTk2b.作妖的float64一般而言最常见的是旧版本SuperMerge插件整出来的问题(新版本已修复)。通过检测发现,在一个3.5GB的“FP16”模型里面混又有不少float64的weight,导致了模型出现奇怪的大小。早些时候的toolkit会存在bug无法处理这些float64的weight,更新最新版本后应该解决了这一问题
13
📖 小工具教程-让你从此写真自由!

📖 小工具教程-让你从此写真自由!

🔥 [ Flux.1 ] 个人写真自由!!!1️⃣ 上传照片2️⃣ 设置参数3️⃣ 等待生成4️⃣ 崭新的个人写真就出炉啦~
13
1
个人所有模型说明

个人所有模型说明

提前说明:Anything系列模型现已全部使用FairAIPublicLicense1.0-SD进行开源。本人的任何模型及衍生模型,禁止转载LiblibAI&ShakkerAI。若不同意此条内容,请立即删除您存储设备内本人的任何模型以及衍生模型。许可协议:本人所有模型(除特殊说明/继承原模型许可证之外)全部使用FairAIPublicLicense1.0-SD开源,关键点:修改共享:如果您修改模型,您必须共享您的更改和原始许可证(任何衍生模型必须同样使用FairAIPublicLicense1.0-SD开源)。源代码可访问性:如果您的修改版本是网络可访问的,请至少提供一种方法(如下载链接)让其他人获得源代码。这也适用于衍生模型。分发条款:任何分发都必须在本许可证或其他类似规则下进行。合规性:必须在30天内解决不合规问题,以避免许可证终止,强调透明度和遵守开源价值观。选择此许可证的原因是其中部分模型使用了此开源许可的,并且即使不存在以上内容我自己也会选择此许可证。它保护了贡献者和用户,鼓励建立一个协作的、合乎道德的开源社区。这确保了该模式不仅受益于社区投入,而且尊重开源开发自由。此外针对国内社区增加的额外注意事项:使用本人任意(除特殊说明/继承原模型许可证之外)的模型以及任何本人模型的衍生模型,制作任何可在线运行的Comfy workflow或者吐司AItools等,请至少提供一种方法让其他人能够查看或者获得此工作流,这也适用于衍生模型。免责声明:模型生成的所有图像均为用户自行生成,模型开发者无法控制用户生成图像的行为。对于可能涉及侵权或不安全的图像,模型作者将不承担任何责任。模型的使用应遵循与其他模型相同的原则,但用户必须遵守所在地区的法律法规(详见第1条,我们不对此负责)。如果用户违反规定使用模型,对我们造成负面影响,用户有责任消除这种负面影响。作者团队及本人不承担任何因非本人转载或分发模型而产生的任何后果。如果因此给我们造成损失,我们保留向转载者追究责任的权利。不建议使用:对于以下几类人群,我们不建议使用此模型,我们对此表示遗憾:无法容忍原始艺术风格/角色特征有任何偏差的人,即使是最微小的细节。面临对艺术风格/角色特征再现准确性要求极高的应用场景的人。无法接受基于Stable Diffusion算法的AI生成图像可能存在的随机性的人士。无法接受使用全自动化流程进行LoRA模型训练的的人,或者那些认为为了保持原始艺术视野的完整性,艺术风格训练必须完全通过手动操作来完成的人士。认为生成的图像内容冒犯了他们价值观的人。认为AI生图技术和自动训练技术是不尊重他们的人
12
2
【吐司创造营】第一期第一课:从0开始成为提示词高手!

【吐司创造营】第一期第一课:从0开始成为提示词高手!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Ux421y7ydAI现状分析与发展从0开始成为提示词高手
12