Post

Conversation

去年の9月にメディアに大きく取り上げていただいた、LLMの 1bit量子化技術を OneCompressionテクノロジーとしてOSS化しました。(URLはリプライに記載します) AI研究者にとっては釈迦に説法ですが、AIの世界ではGPUメモリが足りなさすぎるので、いかにメモリを節約するかというのがキーテクノロジの1つ。最初はふつうにFP32で行列計算していたのが、NVIDIA GPUが2020年のAmpereからBF16サポート、2022年のHopperからFP8サポートと、低精度サポートに進んで来ました。 単に低精度レジスタ使うだけだと計算精度がボロボロになるため、ソフトウェア面の研究も競争が進んでおり、去年の段階で4bitぐらいならまあいけるかなぐらいの世界になっていました。 というところで、富士通が2025年9月に1bit量子化で実用的な精度でるって発表して話題をさらったというのが、ここまでの話。 それで、この技術のキモは1bitで動くことじゃなくて任意のbit数で精度落ちを防ぐところにあるため、 result = estimate_wbits_from_vram(MODEL_ID, total_vram_gb=0.8) みたいにRAMサイズ指定すると、そのRAMに収まるようにいい感じに精度落すところと高精度のままにするところとを調整してくれるAutoBitを新たに搭載、特にEdgeやオンプレなどのGPUのRAMサイズに制約がある環境でLLMを数倍賢くすることが出来ました。 現在、Llama、Qwen3に対応済みです(仕組み自体にはモデル依存性がないため、今後対応モデルは増やしていけるとおもいます) 開発者たちが、パートナーや大学の研究者たちとの連携を加速していきたいのでフィードバック欲しいといっていますので、よければ使ってやってください。 ※ 一応ですが, onecomp <model_id> だけでいま動かしているGPUの使えるメモリ使用量を算出して, それに合うように量子化が動きます。
GIF