LLMの量子化についてはQiitaの「日本語LLM 9種を量子化して回答内容を比較調査してみた」という記事が興味深い。
DOORSの「LLMの推論を効率化する量子化技術調査【技術動向調査】」という記事も良い。