Stable Diffusion 零基礎新手入門!Part 2 - 提示詞技巧 & 算圖參數簡介

PAPAYA 電腦教室
20 Nov 202312:05

TLDR本视频教程介绍了Stable Diffusion 1.5版本和新模型Stable Diffusion XL (SDXL)的使用方法,包括如何利用提示词和算图参数生成高质量图像。讲解了提示词的构成、Negative Prompt的使用、以及通过Refiner和VAE模型优化图像的细节和清晰度。同时,提供了提高算图效率和图像质量的技巧,如调整提示词权重、选择合适的Sampling Method和Steps,以及使用CFG Scale控制AI的创造力。最后,介绍了如何通过Upscaler和img2img功能放大图像尺寸,以及使用Hires .fix简化高解析图像生成流程。

Takeaways

  • 📝 提示词(Prompt)是使用Stable Diffusion生成图片的关键,类似于搜索引擎中的关键词。
  • 🖼️ 在Stable Diffusion 1.5版本中,建议生成图片的尺寸与训练时使用的512 x 512像素相近,以获得更好的品质。
  • 🚫 Negative Prompt(反向提示)用于指定不希望出现在图片中的元素,有助于进一步提升生成图片的质量。
  • 🆕 Stable Diffusion XL(SDXL)模型允许用户用更少的提示词生成更高质量的图片,模型使用1024 x 1024像素进行训练。
  • 🔍 Refiner和VAE是两个优化模型,分别用于增加图片细节和提升清晰度与色彩饱和度。
  • 📌 使用SDXL时,可以通过调整提示词的具体性来生成更精确的图片,无需过多的关键词堆砌。
  • 🎨 艺术家名字和画作风格在提示词中具有较大影响力,能够显著改变生成图片的风格。
  • 🌱 Seed参数控制图片生成的初始状态,相同提示词下,不同Seed值会产生不同结果。
  • ⚖️ 通过调整提示词中关键词的权重值,可以更细致地控制生成图片的元素表现。
  • 🔄 使用Upscaler或img2img功能可以放大图片尺寸,同时保持或提升图片质量。
  • 🛠️ 控制CFG Scale参数可以平衡AI生成图片的创意性与遵循提示词的程度。

Q & A

  • Stable Diffusion 1.5版本在生成图片时使用的提示词有什么特点?

    -Stable Diffusion 1.5版本在生成图片时使用的提示词类似于使用Google搜索,由多个关键字组成,关键字之间使用逗号分隔。由于模型是使用512 x 512像素的图片进行训练的,建议生成图片的尺寸不要与此相差太多,以获得较好的品质。

  • Negative Prompt的作用是什么?

    -Negative Prompt的作用是告诉Stable Diffusion在图片中不希望出现的内容。例如,如果只想在街景中保留行人而不希望出现任何车辆,可以使用Negative Prompt来实现。此外,它也可以用来输入关于画质方面的关键字,比如不希望出现变形、丑陋和模糊的物体。

  • Stable Diffusion XL模型(SDXL)相比于SD 1.5有何改进?

    -Stable Diffusion XL模型(SDXL)允许用户用更少的提示词生成品质更好的图片。SDXL模型使用1024 x 1024像素的图形进行训练,因此可以生成更细腻且精致的细节。此外,SDXL对于自然语言的理解能力更高,可以使用完整的英文句子来描述想要画的东西,而不需要填入大量重复的关键字。

  • Refiner和VAE模型的作用是什么?

    -Refiner模型可以在生成的图片上加入更多的影像细节,而VAE模型则用来提升图片的清晰度和色彩饱和度。这两个模型并非使用SDXL生成图片的必要文件,但它们可以进一步优化算图结果。

  • 如何使用Seed参数来控制图片生成的一致性?

    -Seed参数用来控制图片生成的初始状态。当Seed值为-1时,系统会随机决定图片生成的初始状态,即使使用相同的提示词,生成的图片也会不一样。但如果我们点击了“回收”按钮,系统会从当前图片中获取Seed值并固定下来。这样,即使修改了Prompt,图片的初始状态由于已被Seed值固定,整体构图不会有太大变化。

  • 提示词中关键字的权重如何调整?

    -在提示词中,可以通过添加圆括号或方括号来调整关键字的权重。圆括号愈多,该元素对画面的影响力就愈大,例如,一个圆括号代表影响力提高1.1倍,两个圆括号则代表1.21倍。相反,使用方括號可以减少关键字的影响力。此外,还可以通过按住Ctrl键配合键盘的上下方向键直接用数值来调整权重。

  • 不同的取樣方法对图片生成有什么影响?

    -不同的取樣方法会影响图片的精确度和随机性,同时也会影响算图的速度。例如,Euler a取樣器的算图速度快,精确度较低,适合用来做算图的测试和效果评估。而DPM++ 2M Karras取樣器的精确度较高,算图速度较慢,但能够生成细节较多的高品质影像。

  • 如何使用Upscaler和img2img功能来放大图片?

    -如果需要生成分辨率更高的图片,可以使用Upscaler功能,将原始尺寸的图片送到Extras标签,并选择一个放大器来放大图片。对于初学者,可以记住两个放大器:R-ESRGAN 4x+用于放大照片或写实风格的画作,而标注Anime6B的放大器用于放大动漫风格的图片。另一种放大图片的方式是通过img2img功能,对图片进行二次绘制,可以指定缩放的倍数和降噪的强度。

  • CFG Scale参数是用来控制什么的?

    -CFG Scale参数用来控制AI绘图时的创造力。这个数值越低,生成的图像会包含更多的创意与变化,但是与输入的提示词关联性也会越少。相反,这个数值越高,AI会越严格地遵循输入的提示词,但图片的艺术性和多样性也会变差。一般来说,CFG Scale维持在5 - 7之间是一个较合理的范围。

  • 在Stable Diffusion中,如何优化生成图片的品质?

    -在Stable Diffusion中,可以通过多种方式优化生成图片的品质。首先,可以通过使用SDXL模型来生成更细腻且精致的细节。其次,可以使用Refiner和VAE模型进一步优化图片的影像细节、清晰度和色彩饱和度。此外,合理设置取樣方法和取樣步驟,以及调整CFG Scale参数,都可以帮助提升最终生成图片的品质。

  • 如何使用Hires .fix功能来生成高分辨率的图片?

    -Hires .fix功能允许用户一鍵生成高分辨率的图片。用户可以指定放大的倍数和放大器的类型,重绘的次数可以设为大约Sampling Steps的一半,降噪强度需要设小一点以维持画面的一致性。通过这种方式,Stable Diffusion能够一次完成整个流程,直接生成一张高分辨率的图片。

  • 在使用Stable Diffusion时,如何避免生成的图片出现不希望的内容?

    -为了避免生成的图片出现不希望的内容,可以使用Negative Prompt功能来指定不希望出现在图片中的元素。此外,通过精确的提示词和合理的权重调整,也可以有效地控制最终生成的图片内容。

  • 在Stable Diffusion中,如何控制图片生成的风格?

    -在Stable Diffusion中,可以通过在提示词中加入艺术家的名字和画作风格来控制生成图片的风格。例如,加入'Comic Book Style'会生成美漫风格的画作,而'Flat Vector Illustration'则会产生向量插画的风格。此外,使用著名艺术家的名字,如梵谷、莫內和畢卡索等,也可以影响生成图片的风格。

Outlines

00:00

🎨 Introduction to Prompt Techniques and Parameters in Stable Diffusion 1.5

This paragraph introduces the concept of using prompts in Stable Diffusion 1.5 (SD 1.5) to generate images, akin to using Google search with multiple keywords separated by commas. It emphasizes the importance of aspect ratio and resolution settings, suggesting a 512x512 pixel size for optimal quality as the model was trained with this resolution. The paragraph also discusses the use of Negative Prompt to exclude undesired elements from the generated images, such as vehicles in a street scene. It highlights the limitations of SD 1.5 compared to Midjourney in generating high-quality images with fewer keywords and introduces the new Stable Diffusion XL (SDXL) model for better image generation with simpler prompts. The paragraph provides guidance on downloading and installing the SDXL model, as well as additional models like Refiner and VAE for enhancing image details and clarity.

05:04

📝 Tips on Crafting Effective Prompts for Stable Diffusion XL

This paragraph delves into the art of crafting effective prompts for the Stable Diffusion XL (SDXL) model. It likens a good prompt to a well-told story, emphasizing the need for specificity and clarity to improve the model's understanding and the quality of the generated image. The paragraph explains the significant impact of artist names and art styles in the prompts, as well as the use of Seed values for consistency in image generation. It also introduces the concept of adjusting keyword weights using parentheses and the importance of Sampling Method, Sampling Steps, and CFG Scale for balancing image quality, creativity, and adherence to the prompt. The paragraph provides practical advice on using these parameters to achieve the desired results in image generation.

10:05

🔍 Methods for Upscaling Images in Stable Diffusion

The final paragraph discusses methods for upscaling images generated by Stable Diffusion. It introduces the use of Upscaler tools under the Extras tab for放大照片 or realistic artworks, and the img2img feature for secondary drawing based on an existing image. The paragraph explains the process of specifying the scaling factor and noise reduction strength for the img2img feature to maintain content consistency. It also mentions the Hires.fix feature for a streamlined process of generating high-resolution images by combining upscaling and redrawing in one operation. The paragraph concludes with a teaser for the next video, promising to cover special style drawing models and important expansion features like ControlNet for Automatic1111.

Mindmap

Keywords

💡Stable Diffusion

Stable Diffusion(稳定扩散)是一种深度学习模型,用于根据文本提示生成图像。在视频中,Stable Diffusion 1.5 (SD 1.5) 版本被提及,它通过接收由多个关键字组成的提示词来生成图片,类似于使用搜索引擎。

💡提示詞 (Prompt)

提示詞(Prompt)是在使用Stable Diffusion时输入的文本指令,由多个关键字组成,用以指导AI生成特定主题或风格的图像。关键字之间的分隔使用逗号,而提示詞的精确度会影响生成图像的质量和相关性。

💡算圖參數

算圖參數是指在使用Stable Diffusion生成图像时可以调整的各种设置,包括图像尺寸、采样方法、采样步驟等。这些参数的调整会影响图像的生成质量、细节丰富度以及生成速度。

💡Negative Prompt (反向提示)

Negative Prompt(反向提示)是Stable Diffusion中的一个功能,允许用户指定在生成的图像中不希望出现的元素或特征。这有助于减少不期望内容的出现,提高图像的相关性和准确性。

💡Stable Diffusion XL (SDXL)

Stable Diffusion XL(SDXL)是Stable Diffusion的一个更新版本,它允许用户使用更少的提示词生成质量更高的图像。SDXL模型使用更高分辨率的图像进行训练,因此能够产生更细致和精致的图像细节。

💡Refiner

Refiner是Stable Diffusion的一个附加模型,它可以在已经生成的图像上增加更多的细节,提升图像的质量。通过Refiner,用户可以获得更加精致和细腻的图像结果。

💡VAE

VAE(变分自编码器)是Stable Diffusion中的一个模型,用于提升图像的清晰度和色彩饱和度。通过VAE,用户可以改善生成图像的视觉质量,使其看起来更加逼真和生动。

💡降噪強度 (Denoising Strength)

降噪强度(Denoising Strength)是Refiner模型中的一个设置,用于控制对生成图像进行修改的程度。数值越高,图像被修改的幅度越大;如果只想进行小幅度的修改,这个数值就应该调低。

💡Seed (種子)

Seed(种子)是Stable Diffusion中用于控制图像生成初始状态的一个参数。当Seed的值为-1时,系统会随机决定图像生成的初始状态,导致即使使用相同的提示词,生成的图像也会有所不同。通过固定Seed值,可以保持图像的初始构图不变。

💡CFG Scale

CFG Scale是Stable Diffusion中用于控制AI绘图时创造力的一个参数。数值越低,生成的图像包含的创意和变化越多,但与输入的提示词关联性也越少;数值越高,AI会越严格地遵循输入的提示词,但图像的艺术性和多样性可能会变差。

💡Upscaler (放大器)

Upscaler(放大器)是用于提高生成图像分辨率的工具。在Stable Diffusion中,可以通过Upscaler对原始尺寸的图像进行放大,以获得更高清晰度的图像。不同的Upscaler采用不同的算法,适用于不同风格和类型的图像放大。

Highlights

Stable Diffusion 1.5 (SD 1.5) 使用提示詞生成圖片,類似於使用 Google 搜索。

提示詞由關鍵字組成,關鍵字間使用逗號分隔。

生成圖片的建議尺寸接近 SD 1.5 訓練時使用的 512 x 512 像素。

SD 1.5 需要多個關鍵字來生成精美圖片,而 SDXL 可以用更少的提示詞生成更好的圖片。

Negative Prompt 用於指定圖片中不希望出現的元素。

SDXL 模型使用 1024 x 1024 像素的圖形進行訓練。

Refiner 模型用於在生成的圖片上加入影像細節。

VAE 用於提升圖片的清晰度和色彩飽和度。

SDXL 模型對自然語言的理解能力更高,不需要填入大量關鍵字。

藝術家名字和畫作風格在提示詞中具有顯著影響力。

Seed 值控制圖片生成的初始狀態,相同 Seed 值下修改 Prompt 可產生畫風相似的圖片。

調整關鍵字的權重值可以影響元素在畫面中的出現頻率和重要性。

不同的 Sampling Method 影響圖片的精確度、隨機性和算圖速度。

CFG Scale 用來控制 AI 繪圖時的創造力,值越低創意越高。

使用 Upscaler 可以放大圖片,提高解析度。

啟用 Hires .fix 可以一鍵生成高解析圖片。

SDXL 相比 SD 1.5 生成的圖片細節更為精緻。

Refiner 可以基於一張圖片生成具有更多細節的新圖片。

降噪強度 (Denoising Strength) 影響 Refiner 模型對圖片的修改幅度。

Batch Count 和 Batch Size 影響每次算圖產生的圖片數量和計算方式。