Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在线运行 #138

Open
happy-liuzhixuan opened this issue Nov 27, 2024 · 17 comments
Open

在线运行 #138

happy-liuzhixuan opened this issue Nov 27, 2024 · 17 comments

Comments

@happy-liuzhixuan
Copy link

您好,请问在线运行中的各个选项,保持默认选项效果最佳吗,还是说需要自己多次调整不同选项去找出最佳情况

@happy-liuzhixuan
Copy link
Author

比如这样一张图像,我想要重建4倍,如何效果最好呢
动态1原图
下面这个是我用您之前发布的模型推理出来的图像,我想知道是否v2.1会有更好的效果,并且其中参数大概需要调为多少
diffbir动态1
ru'g如果您能解答,非常感谢!

@happy-liuzhixuan
Copy link
Author

我之前测试的结果,对于一些地方还会产生一些如奇怪的线条状等不存在的东西,不知v2.1是否能在这方面取得较好的效果

@happy-liuzhixuan
Copy link
Author

在在线演示中,我选择了扩散平铺,但是运行还是会显示显存不够。输入图像为512×512,显卡是4070s,12g。麻期待您的回复,谢谢

@0x3f3f3f3fun
Copy link
Collaborator

您好!

  1. 代码中给的选项并不是最优的,只是在大部分情况下有不错的效果。每一张图可能都有属于自己的最优参数。如果之后模型能更稳定一些的话,可能就不需要特殊调参了。
  2. 您给的这张图,我这边简单调了个效果:https://imgsli.com/MzIyNzMy
    参数:代码中将captioner设置为"none",4个tiled选项全部打开并保持默认tile size,classifier-free guidance scale设置为8,Noise level of condition设置为150。显存消耗为7.8GB。如果您觉得这张图跟原图相差太多的话,可以把noise level调小。

最后一个参数比较重要,因为您给的这张图退化比较复杂,已经脱离训练的退化范围了,所以可以给输入图(condition)加入噪声,让模型充分发挥它的生成能力。

@0x3f3f3f3fun
Copy link
Collaborator

关于"一些地方还会产生一些如奇怪的线条状等不存在的东西"这个问题,目前主要出现在将tile选项打开的时候。这是因为当tile选项打开时,模型会将输入图进行切片,然后分别处理每一小块,但是我们给模型的文本描述是整张图片的,因此模型处理某一个小块时,就会产生一些不属于这个小块的东西。目前没有很好的解决办法,只能将文本描述关闭来缓解这个问题,也就是将captioner设置为none。

@happy-liuzhixuan
Copy link
Author

谢谢您的答复,但您测试的这张图感觉生成了许多不存在的细节,与原图差距确实稍大。我上面测试出的那个图,用的您之前训练的模型版本来测试的,感觉效果感官上来说比目前v2.1好,请问您对此有什么建议。因为我更想在修复细节的图像保证原图细节的准确性。期待您的答复,我将非常感谢

@happy-liuzhixuan
Copy link
Author

我将Noise level of condition设置为0,依然还是有部分影响,这个重建的图像确实很清晰,但细节总会生成不存在的东西。
image
或许我得采用自己的数据集重新训练一下?但目前来说,我个人的4070s12g运行实在很慢。如果您对以上问题有什么好的建议,我将非常感谢。再次感谢您的回复。

@happy-liuzhixuan
Copy link
Author

对我来说,似乎captioner设置成none效果更好一点,设置LLaVA容易过度生成完全不相干的东西,特别是图像中风机叶片上的细节。我目前来说需要尝试对风机叶片细节最好的重建,您认为基于您的模型该如何做到,我拥有自己的特定数据集。期待您的回复答疑

@happy-liuzhixuan
Copy link
Author

值得一提的是,在我用您的预训练模型测试时,发现cfg scale调为1时更符合我的重建效果,请问这是什么情况,谢谢

@0x3f3f3f3fun
Copy link
Collaborator

谢谢您的答复,但您测试的这张图感觉生成了许多不存在的细节,与原图差距确实稍大。我上面测试出的那个图,用的您之前训练的模型版本来测试的,感觉效果感官上来说比目前v2.1好,请问您对此有什么建议。因为我更想在修复细节的图像保证原图细节的准确性。期待您的答复,我将非常感谢

v2.1在训练的时候给condition加了噪声,所以它的保真度(也就是跟原图的符合程度)就是会低一些。想改善的话,最根本的方法就是把noise augmentation设置为0重新finetune一下。如果不想训练的话,可以试试:

  1. 增加control strength。
  2. 降低采样步数,让结果具备的细节少一些。
  3. 更换采样器,不同采样器之间可能会有较大的效果差异。

@0x3f3f3f3fun
Copy link
Collaborator

对我来说,似乎captioner设置成none效果更好一点,设置LLaVA容易过度生成完全不相干的东西,特别是图像中风机叶片上的细节。我目前来说需要尝试对风机叶片细节最好的重建,您认为基于您的模型该如何做到,我拥有自己的特定数据集。期待您的回复答疑

可以在您的数据集上finetune v2.1模型。具体步骤我抽空写一下。

@0x3f3f3f3fun
Copy link
Collaborator

值得一提的是,在我用您的预训练模型测试时,发现cfg scale调为1时更符合我的重建效果,请问这是什么情况,谢谢

cfg_scale=1时会关闭classifier-free guidance,此时模型生成的细节是最少的。

@0x3f3f3f3fun
Copy link
Collaborator

谢谢您的答复,但您测试的这张图感觉生成了许多不存在的细节,与原图差距确实稍大。我上面测试出的那个图,用的您之前训练的模型版本来测试的,感觉效果感官上来说比目前v2.1好,请问您对此有什么建议。因为我更想在修复细节的图像保证原图细节的准确性。期待您的答复,我将非常感谢

v2.1在训练的时候给condition加了噪声,所以它的保真度(也就是跟原图的符合程度)就是会低一些。想改善的话,最根本的方法就是把noise augmentation设置为0重新finetune一下。如果不想训练的话,可以试试:

  1. 增加control strength。
  2. 降低采样步数,让结果具备的细节少一些。
  3. 更换采样器,不同采样器之间可能会有较大的效果差异。

如果您的关注点是风机叶片的话,还可以试着调一下prompt。

@happy-liuzhixuan
Copy link
Author

对我来说,似乎captioner设置成none效果更好一点,设置LLaVA容易过度生成完全不相干的东西,特别是图像中风机叶片上的细节。我目前来说需要尝试对风机叶片细节最好的重建,您认为基于您的模型该如何做到,我拥有自己的特定数据集。期待您的回复答疑

可以在您的数据集上finetune v2.1模型。具体步骤我抽空写一下。

期待您的答复,对您的工作提前表示衷心感谢

@happy-liuzhixuan
Copy link
Author

值得一提的是,在我用您的预训练模型测试时,发现cfg scale调为1时更符合我的重建效果,请问这是什么情况,谢谢

cfg_scale=1时会关闭 classifier-free guidance,此时模型生成的细节是最少的。

目前来说,关闭cfg所得图像更符合我认为的实际效果

@happy-liuzhixuan
Copy link
Author

谢谢您的答复,但您测试的这张图感觉生成了许多不存在的细节,与原图差距确实稍大。我上面测试出的那个图,用的您之前训练的模型版本来测试的,感觉效果感官上来说比目前v2.1好,请问您对此有什么建议。因为我更想在修复细节的图像保证原图细节的准确性。期待您的答复,我将非常感谢

v2.1在训练的时候给condition加了噪声,所以它的保真度(也就是跟原图的符合程度)就是会低一些。想改善的话,最根本的方法就是把noise augmentation设置为0重新finetune一下。如果不想训练的话,可以试试:

  1. 增加控制强度。
  2. 降低采样步数,让结果具备的细节少一些。
  3. 更换采样器,不同采样器之间可能会有较大的效果差异。

如果您的关注点是风机叶片的话,还可以试着调一下prompt。

感谢您的建议,接下来我会继续尝试。希望后续还能向您交流咨询与学习,非常感谢。另外我还想请问一下您以下两个问题。
1,我的特定场景数据集只有几千张的话,重新训练能否发挥模型的全部效果,就是对风机叶片重建效果比您提供的泛用模型更有效果?
2,对于几千张的数据集,一二两阶段训练的话,想要几天内完成两阶段各100轮的训练,需要什么类型或者多大显存的显卡,目前我使用的4070s 12g训练显得过于缓慢了,特别是针对第二阶段训练。

@happy-liuzhixuan
Copy link
Author

如果我用三四张4090,是否训练会变得十分方便,期待您的回复,非常感谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants