大規模言語モデル (LLM)における低精度数値表現

Preferred Networks

PRO

May 13, 2024

Technology

大規模言語モデル (LLM)における低精度数値表現

2024年5月8日のHPC研究会で使用したスライドです。
https://www.ipsj.or.jp/kenkyukai/event/hpc194.html

Preferred Networks
PRO

May 13, 2024

More Decks by Preferred Networks

See All by Preferred Networks

Developing image pull secrets provisioner / Kubernetes Meetup Tokyo #65

pfn

PRO

110

マルチテナントマルチクラスタKubernetesでもUXを損なわない認証認可の勘所

pfn

PRO

300

個人的、Kubernetes の最新注目機能！ (2024年5月版) / TechFeed Experts Night#28 〜コンテナ技術最前線

pfn

PRO

260

LLMの現在

pfn

PRO

188

83k

実際に運用してわかった！多種GPU混載Kubernetesクラスタの使われ方と運用省力化

pfn

PRO

PFN の機械学習向け Kubernetes クラスタにおけるノード障害の運用自動化・省力化

pfn

PRO

470

ハイパーパラメータ最適化フレームワーク Optunaの最新機能紹介 - 2023/10/28 PyCon APAC 2023

pfn

PRO

1.1k

containerlabで作るIP Closファブリック / Kubernetes Meetup Tokyo 61 Lightning Talk

pfn

PRO

740

PFN Internship 2023 / Hagai Masaya: Towards Neural Network Potential for Excited states

pfn

PRO

1.8k

Other Decks in Technology

See All in Technology

CyberAgent AI事業本部2024年度MLOps研修応用編 / mlops-handson

tyaba

5.8k

社内 TSKaigi 実施を経た Full Stack TypeScript 強化の道

niwatakeru

110

Dompter le chaos de l'information : Construire un Allié IA avec Langchain4J

magnette

120

未知の原因によるDB負荷の上昇とその対応プロセス

tshimizu470

140

RAGのサービスをリリースして1年が経ちました

segavvy

2.5k

BFが動くCPUを作りたい！ @第3回CPUを語る会

chizuchizu

170

組合せ最適化による問題解決の実践的アプローチ

recruitengineers

PRO

910

cloudugnight2nd-20240531

nina01

110

Practices_for_improving_freee_development_productivity

hikarumiyazawa

190

そうだったのか！札幌速報のしくみ

suicadesu

150

テストスライド

kokorozashiseki

150

初めてのRubyKaigi! / my-first-rubykaigi

judeeeee

6.9k

Featured

See All Featured

Helping Users Find Their Own Way: Creating Modern Search Experiences

danielanewman

Clear Off the Table

cherdarchuk

310k

Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything

marktimemedia

1.8k

JavaScript: Past, Present, and Future - NDC Porto 2020

reverentgeek

4.6k

Build your cross-platform service in a week with App Engine

jlugia

227

17k

Imperfection Machines: The Place of Print at Facebook

scottboms

261

12k

Making Projects Easy

brettharned

110

5.6k

Making the Leap to Tech Lead

cromwellryan

126

8.6k

[RailsConf 2023] Rails as a piece of cake

palkan

4.1k

How to train your dragon (web standard)

notwaldorf

5.3k

Why You Should Never Use an ORM

jnunemaker

PRO

8.7k

Infographics Made Easy

chrislema

238

18k

Transcript

大規模言語モデル (LLM) における低精度数値表現株式会社 Preferred Networks リサーチャー三上裕明
2 • 三上裕明 (みかみひろあき) • (主な) 業務: DNN学習等の高速化/分散処理
◦ LLMの事前学習高速化 ▪ PLaMo-13Bを公開しました ◦ MN-Core 向けコンパイラの開発 ◦ その他GPUを用いた分散処理の最適化 • 経歴 ◦ 株式会社 Preferred Elements (2023/11 〜) ◦ 株式会社 Preferred Networks (2019/9 〜) ◦ ソニー株式会社 (2017/4 〜 2019/8) ◦ 東京大学大学院 (2015/4 〜 2017/3) 自己紹介
3 • Preferred Networks (PFN), Preferred Elements (PFE) について •
LLMと低精度数値表現 • 低精度数値表現の手法 ◦ フォーマット ◦ cast (量子化) 手法 • LLMにおける利用事例・課題 ◦ 学習における事例 ◦ 推論における事例 • まとめ目次
4 Preferred Networks, Preferred Elementsについて
5 Preferred Networks（PFN）会社概要 PFNは深層学習などのソフトウェア技術と、それを支える計算インフラなどのハードウェア技術を融合し、様々な産業領域で最先端技術の実用化・事業化に取り組んでいます。事業化領域研究領域計算インフラ  機械学習・深層学習  
シミュレーション      画像認識        自然言語処理          ロボティクス        最適化      製造業  交通  システム  エンタメ  その他プラント  最適化  材料探索  創薬・  ヘルスケア  ロボット    データ  生成補完      異常検知     
6 • LLMを含む基盤モデルの研究開発を行うPFNの子会社 • NEDOの採択 (GENIAC, Generative AI Accelerator Challenge)
を受けマルチモーダル基盤モデルの開発中 Preferred Elements (PFE) 会社概要
7 LLMと低精度数値表現
8 Deep Neural Networkにおける低精度数値表現 16bit浮動小数点一部の最適化したケースで利用 • ResNet-50 • BERT
• Instant NGP • … 8bit整数推論高速化で主に利用 [Practical Quantization in PyTorch] [Introduction to Quantization on PyTorch] [NVIDIA TensorRT] 低精度数値表現とは? 32bit未満のフォーマット
9 Deep Neural Networkにおける低精度数値表現 16bit浮動小数点一部の最適化したケースで利用 • ResNet-50 • BERT
• Instant NGP • … ※ 統計はみつかりませんでしたが、PFN社内の状況やQuantizationについてのpytorchのドキュメントをもとにしています 8bit整数推論高速化で主に利用 [Practical Quantization in PyTorch] [Introduction to Quantization on PyTorch] [NVIDIA TensorRT] LLM以外のDNNではいまだに32bit浮動小数点が主流 ※ 低精度数値表現は特殊な最適化の一つ低精度数値表現とは? 16bit以下のフォーマット
10 LLM における状況の変化 BERT (large) [Accelerated Large Batch Optimization of
BERT Pretraining in 54 minutes] パラメータ数 334M (1.3 GB w/ FP32) 学習時間 (16bit) 1時間 (V100 1536台)
11 LLM における状況の変化 BERT (large) [Accelerated Large Batch Optimization of
BERT Pretraining in 54 minutes] パラメータ数 334M (1.3 GB w/ FP32) 学習時間 (16bit) 1時間 (V100 1536台) FP32でも動作する低精度表現は必須ではない
12 LLM における状況の変化 BERT (large) LLaMA-65B [Accelerated Large Batch Optimization
of BERT Pretraining in 54 minutes] パラメータ数 65 B (260GB w/ FP32) 学習時間 (16bit) 3週間 (A100 2048台) [LLaMA: Open and Eﬃcient Foundation Language Models] パラメータ数 334M (1.3 GB w/ FP32) 学習時間 (16bit) 1時間 (V100 1536台) FP32でも動作する低精度表現は必須ではない
13 LLM における状況の変化 BERT (large) LLaMA-65B [Accelerated Large Batch Optimization
of BERT Pretraining in 54 minutes] パラメータ数 65 B (260GB w/ FP32) 学習時間 (16bit) 3週間 (A100 2048台) [LLaMA: Open and Eﬃcient Foundation Language Models] パラメータ数 334M (1.3 GB w/ FP32) 学習時間 (16bit) 1時間 (V100 1536台) FP32でも動作する低精度表現は必須ではない FP32では現実的な条件で動かない低精度化は前提となることが多い
14 低精度数値表現の手法
15 低精度数値表現例: 数値フォーマット浮動小数点整数その他 16 bit 1 bit
2 bit 8 bit BFloat16 FP8 (E4M3 / E5M2) FP6 [FP6-LLM] int8 int4 int2 [HQQ] 3値 [BitNet] NormalFloat4 [QLoRA] Dynamic Tree Quantization [8-bit optimizer] 4 bit FP4
16 低精度数値表現例: 数値フォーマット浮動小数点整数その他 16 bit 1 bit
2 bit 8 bit BFloat16 FP8 (E4M3 / E5M2) FP6 [FP6-LLM] int8 int4 int2 [HQQ] 3値 [BitNet] NormalFloat4 [QLoRA] Dynamic Tree Quantization [8-bit optimizer] 4 bit FP4 GPUでの計算高速化に利用できる
17 低精度数値表現例: 数値フォーマット浮動小数点整数その他 16 bit 1 bit
2 bit 8 bit BFloat16 FP8 (E4M3 / E5M2) FP6 [FP6-LLM] int8 int4 int2 [HQQ] 3値 [BitNet] NormalFloat4 [QLoRA] Dynamic Tree Quantization [8-bit optimizer] 4 bit FP4 GPUでの計算高速化に利用できる 4bit未満の精度では整数型が一般的
18 低精度数値表現例: 数値フォーマット浮動小数点整数その他 16 bit 1 bit
2 bit 8 bit BFloat16 FP8 (E4M3 / E5M2) FP6 [FP6-LLM] int8 int4 int2 [HQQ] 3値 [BitNet] NormalFloat4 [QLoRA] Dynamic Tree Quantization [8-bit optimizer] 4 bit FP4 GPUでの計算高速化に利用できる 4bit未満の精度では整数型が一般的速度が重要でない用途に向く
19 低精度数値表現例: 数値フォーマット浮動小数点整数その他 16 bit 1 bit
2 bit 8 bit BFloat16 FP8 (E4M3 / E5M2) FP6 [FP6-LLM] int8 int4 int2 [HQQ] 3値 [BitNet] NormalFloat4 [QLoRA] Dynamic Tree Quantization [8-bit optimizer] 4 bit FP4
20 低精度数値表現例: cast手法 (量子化) 高精度 (BFloat16 or FP32) 低精度表現 (~8bit)
[Mixed Precision Training]
21 低精度数値表現例: cast手法 (量子化) 高精度 (BFloat16 or FP32) 低精度表現 (~8bit)
[Mixed Precision Training] - オーバーフロー / アンダーフロー [Mixed Precision Training] - その他の数値誤差
22 低精度数値表現例: cast手法 (量子化) スケーリング s = max(abs(x)) qx =
Quantize(x / s) # 値を[-1:1]の範囲にしてから量子化 # ⇒ オーバーフロー/アンダーフローを防ぐ -100 1 100 1000 BFloat16 int8 -100 1 100 -24 -12 0 12 127 scale = 1000 / 127 w/o scaling w/ scaling
23 低精度数値表現例: cast手法 (量子化) block-wise (ﬁne-grained) 量子化 -1 1 1
10 per-tensor (coarse-grained) 量子化 0 0 0 1 3値量子化 scale=10 0 0 0 10 復元 -1 1 1 10 block-wise (ﬁne-grained) 量子化 -1 1 0 1 3値量子化, block-size=2 scale=1, 10 -1 -1 0 10 復元
24 低精度数値表現例: cast手法 (量子化) block-wise (ﬁne-grained) 量子化 -1 1 1
10 per-tensor (coarse-grained) 量子化 0 0 0 1 3値量子化 scale=10 0 0 0 10 復元 -1 1 1 10 block-wise (ﬁne-grained) 量子化 -1 1 0 1 3値量子化, block-size=2 scale=1, 10 -1 -1 0 10 復元 Tensorごとに単一のscaleを用いる
25 低精度数値表現例: cast手法 (量子化) block-wise (ﬁne-grained) 量子化 -1 1 1
10 per-tensor (coarse-grained) 量子化 0 0 0 1 3値量子化 scale=10 0 0 0 10 復元 -1 1 1 10 block-wise (ﬁne-grained) 量子化 -1 1 0 1 3値量子化, block-size=2 scale=1, 10 -1 -1 0 10 復元一定の要素数ごとにscaleを用意する ⇒ 量子化誤差が小さくなる 4bit以下への量子化で特に重要 [ZeROQuant(4 + 2)] Tensorごとに単一のscaleを用いる
26 LLMにおける利用事例・課題
27 LLMにおける利用事例・課題：学習 Icon pack by Icons8 - https://icons8.com optimizer state
計算 (fwd + bwd) 作業領域 optimizer state 計算 (fwd + bwd) 作業領域通信
28 LLMにおける利用事例・課題：学習 Icon pack by Icons8 - https://icons8.com optimizer state
計算 (fwd + bwd) 作業領域 optimizer state 計算 (fwd + bwd) 作業領域通信計算の高速化 - BF16 TensorCoreの利用 - FP8 TensorCoreの利用
29 LLMにおける利用事例・課題：学習 Icon pack by Icons8 - https://icons8.com optimizer state
計算 (fwd + bwd) 作業領域 optimizer state 計算 (fwd + bwd) 作業領域通信通信の高速化 - collectiveの量子化 - モデル並列による削減メモリ消費の削減 - 値の量子化 - モデル並列による削減計算の高速化 - BF16 TensorCoreの利用 - FP8 TensorCoreの利用
30 要素数 (Llama2 70Bの場合の一例) M=K=8192の時 :B/F = 5.0 e-4 H100
w/ FP8 :B/F = 1.7 e-3 ※ LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W: M x K x: K x N y: M x N M 8192 ~ 28672 K 8192 ~ 28672 N 4096 ※ B/Fの計算には入出力の総和を利用
31 要素数 (Llama2 70Bの場合の一例) M=K=8192の時 :B/F = 5.0 e-4 H100
w/ FP8 :B/F = 1.7 e-3 ※ LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W: M x K x: K x N y: M x N TensorCoreの活用によりGPUの計算能力 (FLOP/s) をあげることが重要 M 8192 ~ 28672 K 8192 ~ 28672 N 4096 ※ B/Fの計算には入出力の総和を利用
32 LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W:
M x K x: K x N y: M x N cast (BFloat16 → FP8) cast (BFloat16 → FP8)
33 LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W:
M x K x: K x N y: M x N cast (BFloat16 → FP8) cast (BFloat16 → FP8) - per-tensor scaling - forwardではE4M3をbackwardではE5M2を使う [FP8 Formats for Deep Learning]
34 LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W:
M x K x: K x N y: M x N cast (BFloat16 → FP8) cast (BFloat16 → FP8) - per-tensor scaling - forwardではE4M3をbackwardではE5M2を使う [FP8 Formats for Deep Learning] qx = Cast(x / s_prev, to=fp8) s_prev = max(abs(x)) n_amax_history = 1の時の疑似コード Delayed Scaling [Transformer Engine] scale factorとして過去の結果を使う ⇒ メモリアクセスを1回省略できる
35 LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W:
M x K x: K x N y: M x N cast (BFloat16 → FP8) cast (BFloat16 → FP8) M=K=8192, N=4096の時の性能 (H100 SXM + Transformer Engine) 処理実行時間 [us] 行列積 (FP8) 451 Cast (W) 67 Cast (x) 34 行列積 350 行列積 (BF16) 670
36 LLMにおける計算のボトルネック = 行列積 LLMにおける利用事例・課題：学習 (計算高速化) 行列積 (MatMul, y=Wx) W:
M x K x: K x N y: M x N cast (BFloat16 → FP8) cast (BFloat16 → FP8) M=K=8192, N=4096の時の性能 (H100 SXM + Transformer Engine) 処理実行時間 [us] 行列積 (FP8) 451 Cast (W) 67 Cast (x) 34 行列積 350 行列積 (BF16) 670 BFloat16を使う処理の時間が無視できない
37 LLMにおける利用事例・課題：推論 Icon pack by Icons8 - https://icons8.com パラメータ KV
キャッシュ KV キャッシュ KV キャッシュ生成token 生成token 生成token
38 LLMにおける利用事例・課題：推論 Icon pack by Icons8 - https://icons8.com パラメータ KV
キャッシュ KV キャッシュ KV キャッシュ生成token 生成token 生成token 計算の高速化・効率化 - パラメータの量子化 - モデルサイズの削減
39 LLMにおける利用事例・課題：推論 Icon pack by Icons8 - https://icons8.com パラメータ KV
キャッシュ KV キャッシュ KV キャッシュ生成token 生成token 生成token 省メモリ化 - パラメータの量子化 - KVキャッシュの量子化 - モデル並列による推論計算の高速化・効率化 - パラメータの量子化 - モデルサイズの削減
40 Mixed Precision Decomposition [LLM.int8()] LLMにおける利用事例・課題：推論 (省メモリ化) 学習済LLMでは一部のchannelだけ scaleが大きくなる [KVQuant]
[AWQ] 外れ値のchannelだけは16bitのまま保持することで性能を維持する
41 Mixed Precision Decomposition [LLM.int8()] LLMにおける利用事例・課題：推論 (省メモリ化) 学習済LLMでは一部のchannelだけ scaleが大きくなる [KVQuant]
[AWQ] 外れ値のchannelだけは16bitのまま保持することで性能を維持するどうやって外れ値をみつけるか? - 適当な閾値を決める [LLM.int8()] - 小さいデータセットを流して計算途中の値を使う [AWQ] (data dependent quantization)
42 パラメータ LLMにおける利用事例・課題：推論 (省メモリ化) KV キャッシュ処理 scaling format mixed-prec.
decomposition bitsandbytes block-wise NormalFloat4 no LLM.int8() block-wise int8 yes AWQ block-wise int4 yes HQQ block-wise int1/int2/int4 no 処理 scaling format mixed-prec. decomposition FlexGen block-wise int4 no KVQuant block-wise int3 yes
43 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) 高精度 (BFloat16) 低精度表現 (3値 or
2bit) 量子化
44 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) 高精度 (BFloat16) 低精度表現 (3値 or
2bit) 量子化量子化は多くの場合性能と消費メモリのトレードオフで優れている [Pruning vs Quantization]
45 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) 高精度 (BFloat16) 低精度表現 (3値 or
2bit) 量子化量子化は多くの場合性能と消費メモリのトレードオフで優れている [Pruning vs Quantization] 符号化可逆圧縮 - 3値からのさらなる量子化は限界がある - アンダーフローにより0の割合は増えていく可逆圧縮によりメモリ消費の削減を狙う (0.80 ~ 0.93 bit/要素にできる [QMoE])
46 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) モデル Bﬂoat16 HQQ (int4) +zstd
HQQ (3値) +zstd 3B 5.6GiB 1.8GiB (31%) 1.5 GiB (27%) 1.1GiB (19%) 0.64GiB (11%) 10B (MoE) 21 GiB 6.7 GiB (31%) 5.4 GiB (25%) 4.0GiB (19%) 2.2GiB (10%) ※ bit幅以外の設定はhqqのデフォルトを使用
47 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) モデル Bﬂoat16 HQQ (int4) +zstd
HQQ (3値) +zstd 3B 5.6GiB 1.8GiB (31%) 1.5 GiB (27%) 1.1GiB (19%) 0.64GiB (11%) 10B (MoE) 21 GiB 6.7 GiB (31%) 5.4 GiB (25%) 4.0GiB (19%) 2.2GiB (10%) scale factorのサイズは無視できない割合をしめる ※ bit幅以外の設定はhqqのデフォルトを使用
48 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) モデル Bﬂoat16 HQQ (int4) +zstd
HQQ (3値) +zstd 3B 5.6GiB 1.8GiB (31%) 1.5 GiB (27%) 1.1GiB (19%) 0.64GiB (11%) 10B (MoE) 21 GiB 6.7 GiB (31%) 5.4 GiB (25%) 4.0GiB (19%) 2.2GiB (10%) ※ bit幅以外の設定はhqqのデフォルトを使用
49 ロスレス符号化 [QMoE] LLMにおける利用事例・課題：推論 (省メモリ化) モデル Bﬂoat16 HQQ (int4) +zstd
HQQ (3値) +zstd 3B 5.6GiB 1.8GiB (31%) 1.5 GiB (27%) 1.1GiB (19%) 0.64GiB (11%) 10B (MoE) 21 GiB 6.7 GiB (31%) 5.4 GiB (25%) 4.0GiB (19%) 2.2GiB (10%) - 汎用的な圧縮アルゴリズムは効果が薄い - DNNモデルの種類の影響はみえない ※ bit幅以外の設定はhqqのデフォルトを使用
50 まとめ
51 • LLMでは様々な低精度数値表現が提案・利用されている ◦ 学習: 8bitでの計算が主流となりつつある ◦ 推論: 1~2bit表現が実用化されつつある •
成熟した技術ではなく、多数の課題が残っている ◦ 学習: 行列積以外の処理をボトルネックにしない方法 ◦ 推論: ▪ 1要素あたり1bit以下での保存 ▪ 低精度化したあとのLLMの精度評価まとめ
Making the real world computable