🐼【AI电商实战】如何用Stable Diffusion生成相同人物相同街景不同角度的图片 独家思路公开 SD电商应用高级篇 stable diffusion角色设计

氪學家
16 Oct 202313:50

TLDR在这个高级电商应用教程中,氪学家展示了如何使用Stable Diffusion和谷歌街景生成同一人物在同一街景下不同角度的图片。首先,通过谷歌街景选取并处理背景街景图,然后利用openpose的骨骼模型和lineart控制网来绘制人物和场景的线稿。随后在Stable Diffusion中,通过详细的提示词和Controlnet的设置,生成写实风格的图片,并对图片进行了后期修复和面部统一处理,提高了图片的真实感和统一性。本视频提供了一系列创新的方法和技术,为电商图像生成和连续性故事分镜提供了新的可能性。

Takeaways

  • 🎨 使用Stable Diffusion(SD)技术可以生成具有相同角色和街景但不同角度的连贯图片。
  • 📈 通过15宫格加openpose骨骼控制,可以在一定程度上生成相同角色不同角度的面部图片。
  • 🌐 利用谷歌地图街景模式可以找到相同街道不同角度的图片,作为生成图片的参考。
  • 🖼️ 通过图片处理工具,如Fireworks或Photoshop,合并和剪裁图片,为SD出图提供所需的线稿图。
  • 📏 使用两个controlnet控制街景内容和角度,以及人物主体的生成,是生成多角度街景图的关键步骤。
  • 🧩 在线稿图中擦除人物区域,以便SD生成人物主体,这是生成连贯人物街景图的重要环节。
  • 🖌️ 通过图生图工具对生成的图片进行优化,如增加景深和面部修复,以提高图片的真实感。
  • 📱 通过手机或相机拍摄或使用谷歌地图街景获取图片,宅男也可以轻松获取所需街景素材。
  • 🔍 在生成图片时,如果人物穿着不统一,可以通过多次尝试或在提示词中明确穿着打扮来获得更精确的控制。
  • 🧐 对于面部修复,可以使用高清化工具、图生图的局部重绘功能或换脸插件来改善面部细节。
  • 🔄 面部统一性问题可以通过使用特定模型、换脸插件或添加自定义Lora来解决,以确保人物面部的一致性。

Q & A

  • 如何使用Stable Diffusion生成相同人物在相同街景下不同角度的图片?

    -通过结合两个controlnet,一个是lineart模型控制街景内容和角度,另一个是openpose骨骼模型控制人物主体。首先,使用谷歌地图街景模式找到相同街道不同视角的图片作为参考,然后通过图片处理工具合并和剪裁这些图片,生成线稿图和骨骼图。接着在Stable Diffusion中上传这些图片,并设置相应的controlnet和模型,最后通过图生图进一步优化生成的图片,包括增加景深和修复面部等细节。

  • 为什么要使用15宫格加openpose来生成角色设计?

    -15宫格加openpose的方法可以在一定程度上生成相同角色不同角度的面部图片,这对于后期训练LORA模型非常有帮助,能够提高角色设计的连贯性和一致性。

  • 如何找到相同背景的不同角度图片?

    -可以利用谷歌地图的街景模式获取不同角度的街景图片,这种方法不仅避免了自己拍摄的麻烦,而且能够获得各种不同风格和场景的街景图片。

  • 在Stable Diffusion中,如何控制生成图片的街景内容和角度?

    -通过使用lineart模型作为controlnet来控制街景内容和角度,可以上传预处理后的线稿图到Stable Diffusion,从而在生成图片时保持街景的一致性。

  • 在生成人物主体时,如何确保人物的连贯性和一致性?

    -使用openpose骨骼模型作为controlnet来控制人物主体的生成,可以通过调整骨骼模型的姿势来生成不同角度的人像,从而确保人物的连贯性和一致性。

  • 为什么要对生成的图片进行后期优化?

    -后期优化包括增加景深和修复面部等细节,这可以使生成的图片更加写实和具有真实感,提高图片的质量。

  • 如何提高生成的人物穿着的统一性?

    -如果发现人物穿着不统一,可以通过多次生成图片来尝试,或者在提示词中明确写出人物的具体穿着打扮,以实现更精确的控制。

  • 面部修复有哪些方法?

    -面部修复可以通过发送图片到高清化工具进行面部修复,或者使用图生图的局部重绘功能,甚至可以使用换脸插件进行面部重建和换脸。

  • 面部统一性问题如何解决?

    -使用麦橘写实模型生成的人脸相似度较高,如果需要更高程度的统一,可以使用换脸插件或者在出图时添加自己模特训练的Lora模型。

  • 在Stable Diffusion中,controlnet的作用是什么?

    -controlnet在Stable Diffusion中用于控制生成图片的特定方面,如轮廓、颜色和细节等,以确保生成的图片符合预期的效果和风格。

  • 如何设置Stable Diffusion中的controlnet以获得最佳效果?

    -根据需要生成的图片效果,选择合适的controlnet模型(如lineart、tile或color模型),并调整相应的参数(如重绘强度、权重等),以达到最佳的效果。

Outlines

00:00

🎨 Generating Multi-Angle Images with Consistent Character and Scenery

The paragraph discusses the challenge of maintaining character and scene uniformity in image generation. The speaker references a previous video on character design using a 15-grid and openpose skeletal control to generate images of the same character from different angles. This method aids in training LORA models. The speaker credits an unnamed foreign expert for the initial concept and builds upon it by demonstrating how to generate images of the same character in the same scene from various shooting angles. The process involves using two control networks, one for the street scene (lineart model) and one for the character (openpose skeletal model), to generate a series of images with the character in different street angles. The speaker also mentions using Google Maps Street View to find consistent street scenes from different angles without the need for physical photography.

05:00

📐 Preprocessing and Combining Street Scene Images for SD

This section details the process of preparing images for the image generation software, SD. The speaker explains how to obtain a preprocessed line drawing from the street scene images by using the controlnet with a canny line model. The resolution of the image is set to match the original, and the preprocessed image is then downloaded and imported into an image editing tool. The speaker guides on how to erase parts of the image to create space for the character, using a skeletal template as a guide. The final step involves saving the edited line drawing, which now has a clear character space, and uploading it back to SD for the next stage of image generation.

10:01

🖼️ Enhancing Realism in Generated Images with Post-Processing

The final paragraph focuses on enhancing the realism of the generated images. The speaker describes using the controlnet to control the outline and color of the generated images, ensuring they align with the original scene. The use of the canny model in the first controlnet unit helps maintain the original composition with minor alterations. The second controlnet unit employs a tile model to control color and detail, enhancing the photorealistic quality. The speaker also addresses common issues such as image similarity and facial repair and uniformity, suggesting methods like high-definition face repair, local redrawing, and the use of face-swapping plugins for improvement. The paragraph concludes with an invitation for viewers to like the video for more tutorials on AI image generation and a thank you note for watching.

Mindmap

Keywords

💡Stable Diffusion

Stable Diffusion是一种深度学习模型,用于生成高质量的图像。在视频中,它被用来生成相同人物在相同街景下不同角度的图片,这是AI电商应用中的高级技术。

💡15宫格

15宫格是一种布局方式,通常用于展示一个角色的不同角度或表情。在视频中,通过15宫格结合openpose骨骼控制,生成了不同角度的面部图片,为训练LORA模型提供素材。

💡openpose

openpose是一种用于检测人体姿态的技术,可以识别人体的关键点。在视频中,openpose用于控制生成的人物主体的骨骼,以生成不同角度的人像。

💡controlnet

controlnet是控制网络的简称,用于指导和优化图像生成过程。在视频中,使用了两个controlnet来分别控制街景内容和角度以及人物主体的生成。

💡谷歌地图街景

谷歌地图街景是一种在线服务,可以查看街道的360度全景照片。在视频中,利用谷歌地图街景模式获取不同角度的街道图片,作为生成AI图像的参考。

💡LORA

LORA是一种用于训练深度学习模型的技术,特别是在生成模型中用于微调特定特征。在视频中,提到了使用LORA来训练模型以生成特定角色的面部图片。

💡麦橘写实模型

麦橘写实模型是一种AI生成模型,专注于生成写实风格的图像。在视频中,使用该模型来生成具有写实效果的人物和街景图片。

💡图生图

图生图是指将一张图片通过AI技术进行优化和重绘,以提升其质量或风格。在视频中,通过图生图功能对生成的图片进行优化,增加景深和细节,使其更加写实。

💡Canny模型

Canny模型是一种边缘检测算法,用于从图像中提取有用的结构信息。在视频中,Canny模型被用作controlnet的一部分,用于控制图像重绘的轮廓。

💡景深

景深是摄影术语,指的是照片中看起来清晰的区域。在视频中,通过增加景深效果,模拟真实照片的聚焦特性,使AI生成的图片更加逼真。

💡面部修复

面部修复是指对图像中人物面部的优化处理,以提升其清晰度和逼真度。在视频中,提到了几种面部修复的方法,包括高清化处理、局部重绘和使用换脸插件,以改善人物面部的统一性和真实感。

Highlights

使用Stable Diffusion技术生成连贯的多角度图片,解决角色和场景统一性问题

通过15宫格加openpose骨骼控制生成相同角色不同角度的面部图片

利用谷歌地图街景模式获取不同角度的相同街道图片

图片处理工具如Fireworks或Photoshop用于图片合并和剪裁

使用controlnet和lineart模型控制街景内容和角度

openpose骨骼模型用于控制人物主体的生成

通过图生图工具进行图片优化,增加景深和面部修复

使用麦橘写实模型进行图片生成,提高图片真实感

在生成过程中,可以通过改变提示词来控制人物穿着打扮

面部修复可以通过高清化、局部重绘或换脸插件实现

使用Lora模型或换脸插件提高面部统一性

最终成图与原始街景图在细节上可能有所不同,但构图保持一致

通过这套方法,可以有效地生成电商出图或连续性分镜所需的图片

教程提供了独家思路改进和拓展,全网首发多角度出图方法

详细演示了如何找到并使用谷歌街景图片作为AI画图的参考

提供了1328*800尺寸的图片处理模板,适应腾讯云16G显存下的最优出图分辨率

教程中还介绍了如何通过后期放大图片的方式获取更高分辨率的图像

通过3D openpose插件可以摆出各种骨骼图,增加生成人物姿势的多样性

教程最后鼓励观众点赞支持,以更新更多AI实战相关教程