AIを調べているとGGML/GGUF/GPTQなどのフォーマットが登場します。
http://ggml.ai/
https://github.com/ggerganov/ggml
llamaで使われているGGMLのフォーマット
量子化手法です。