動かざることバグの如し

近づきたいよ 君の理想に

2024-10-26から1日間の記事一覧

per_device_train_batch_sizeとgradient_accumulation_stepsの違い

llm

機械学習モデルのトレーニングにおけるバッチサイズと勾配蓄積について per_device_train_batch_sizeとは per_device_train_batch_sizeとは、GPUで一度に処理するデータのサンプル数を指定するパラメータである。 例えば、per_device_train_batch_size=8と設…