AIモデルを量子化(quantize)は、具体的には、モデルがリリースされる際の元の高い精度から、8ビットやさらに低い4ビットなどに下げて運用する手法である。この主な目的は、推論(inference)コストを大幅に削減することにある。
量子化によるメリット:
メモリ使用量が減ることでハードウェアリソースを節約でき、結果としてクラウドでの推論コストが低下する。
量子化の潜在的なデメリットと性能低下の可能性:
量子化はモデル自体を変更するため、性能が「かなり大きく(quite a bit)」低下するリスクがある。エンド利用者が高い精度を期待しているのに、実際は低精度で動作していると気づかない場合、性能が思ったほど出ない理由がわからず困惑する事態が生じる。
https://youtu.be/jLVu3rYe8AE?si=JhSHBzrDv39D2AZS