同样一张2080Ti,跑30G的bisenet轻轻松松,反而跑十几G的更轻量化的网络就跑不动了,会不会因为深度可分离卷积和非对称卷积这些pytorch没有优化呢? 比如我一张2080ti,512x1024下bisenetv2可以bs=4,反而跑今年TMM一篇flops只有十G的FBSnet 两张2080ti都跑不起?
和分辨率有关吧,太大的输入size也会,再不行就把奇奇怪怪的增广关了,比如muti scale这种。build model之后,rand一个nchw的tensor进去看看,没有溢出就是训练框架的设置问题。
换3.080跑跑
没有显卡跑过
2080TI?
位宽多少?