2024-10-26から1日間の記事一覧

2024-10-26

per_device_train_batch_sizeとgradient_accumulation_stepsの違い

llm

機械学習モデルのトレーニングにおけるバッチサイズと勾配蓄積について per_device_train_batch_sizeとは per_device_train_batch_sizeとは、GPUで一度に処理するデータのサンプル数を指定するパラメータである。例えば、per_device_train_batch_size=8と設…

動かざることバグの如し

近づきたいよ君の理想に

2024-10-26から1日間の記事一覧

per_device_train_batch_sizeとgradient_accumulation_stepsの違い