AI算圖是人類的一切經驗的結合與反覆驗證
這篇notion是教你如何使用Stable Diffusion的資料收集庫
文字 -> token -> CLIP處理 -> 神經網路能理解的文字資訊 文字資訊+隨機噪點 -> diffusion process -> 神經網路理解的圖 神經網路理解的圖 -> VAE -> 人類理解的圖
<aside> 👉 Dall.e-2 https://openai.com/dall-e-2/ +midjourney - nijijourney https://www.midjourney.com/ +stable diffusion https://github.com/AUTOMATIC1111/stable-diffusion-webui +webui Forge https://github.com/lllyasviel/stable-diffusion-webui-forge ChatGPT https://chat.openai.com/ GigaPixel https://www.topazlabs.com/gigapixel-ai Leonardo.Ai https://leonardo.ai/
</aside>
SD基礎功能介紹
文字生成圖片 txt2img
一般又稱為 Text-to-image 功能,也是2022年後這一波圖像生成工具的最核心功能,只要輸入文字的提示,就能隨機產生圖片。
Sampling Step : 在同樣Denoise的強度情況下 從起點(雜訊) 到達終點(成品)的距離是固定的 Step則是決定要走幾步到達終點 不同Sampler會讓每步計算有些差異 所以低Step代表幾步就要抵達終點 而高Step代表每步距離短很多 CFG : Classifier-free guidance scale 假設模型分成兩種output 第一種是不看prompt的 第二種是看prompt的 CFG可以想像成結果要多接近第二種 所以CFG為0的情況等於不管你prompt 而CFG過大的情況prompt的影響會過大所以也很難成圖
隨機種子 Seeds
賦予生成內容的混亂性,確保每次生成圖片都會產生不一樣的圖像。
圖片生成圖片img2img
一般又稱為 image-to-image,雖然字面上是以圖生圖,但大部分的工具都是以某一張圖片為底圖或稱為墊圖,然後另外配合輸入的文字提示再重新生成,所以通常這個功能是「文字加圖片生圖」。
模型 Model/Checkpoint
每一個生成圖像工具都有自己訓練的模型,一個大的模型裡面可能還包含了許多我們看不到的小模型,很多使用者會訓練自己的模型進行生成圖像。
模型訓練 Training
包含的所有類型的模型訓練,也可以在現有的模型上更精確的生成特定的風格、概念、角色、物件,網路上大多大型模型是基於Stable Diffusion1.5為基礎的fine-tune模型(Dreambooth),抑或是將多個模型組合起來。
另有LoRA,Textual Inversion等附加於大型模型上的小型模型,小型模型通常附加於生成過程中,訓練成本不高,可自行訓練。