列数、列名、値がまったく同じ2つのデータセットAとBがあります。唯一の違いは、それらの列の順序です。次に、次の手順で2つのデータセットのそれぞれでLightGBMモデルをトレーニングします
- 各データセットをトレーニングとテストに分割します(AとBの両方に同じランダムシードと比率を使用します)
- ハイパーパラメータをほぼデフォルトのままにします
- ランダムな状態を固定数として設定(再現用)
- グリッド検索を使用してlearning_rateを調整する
- トレーニングセットでLightGBMモデルをトレーニングし、テストセットでテストする
- テストセットで最高のパフォーマンスを持つ学習率が選択されます
2つのデータセットの出力モデルは非常に異なるため、列の順序はLightGBMを使用したモデルトレーニングのパフォーマンスに影響を与えると思います。
これが事実である理由を知っていますか?