40hx的半精度是由全精度计算去算的,所以速度上比全精度还慢,但全精度又费内存,所以跑Stable Video Diffusion时只能在慢与内存不够二种状态,经过不断的测试,找到一个速度够用,内存够用的办法:

采用fp16的SVD模型,详见我另外一个贴子,启动用下面这个参数。

python3 main.py --listen --force-fp32 --fp32-vae --normalvram --disable-smart-memory --fp8_e4m3fn-text-enc --fp8_e4m3fn-unet

速度对比,

* 全精度优化速度后出图3it/s,但SVD内存不够

* 半精度优化内存后出图 30-50s/it

* 全优化后,12s/it, 速度稳定
 

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐