メモメモ RP
FlashAttention2入れて更に10%位早くなってメモリ使用量が減った
←TensorRT+FA2
→TensorRTのみ
https://x.com/vqmp7pwqbefqkog/status/1715637983850959133?s=61&t=GnHjD8dDP7a-nB6x42kEPg
あとFA2入れる過程でまたcudnnなんたらdllのエラーポップが出るようになったんだけど、やっぱりtorch内のdllをコピーしてnvidia内に上書きしたら直った
torch とnvidiaで違うファイルになってると出るエラーなんか?
https://x.com/vqmp7pwqbefqkog/status/1715639122067653119?s=61&t=GnHjD8dDP7a-nB6x42kEPg