したがって、正規分布では、平均と分散つのパラメーターがあります。本「パターン認識と機械学習」では、エラー関数の正則化項にハイパーパラメーターが突然現れます。
ハイパーパラメーターとは何ですか?なぜそのような名前が付けられているのですか?そして、それらは一般的にパラメーターとどのように直感的に異なっていますか?
したがって、正規分布では、平均と分散つのパラメーターがあります。本「パターン認識と機械学習」では、エラー関数の正則化項にハイパーパラメーターが突然現れます。
ハイパーパラメーターとは何ですか?なぜそのような名前が付けられているのですか?そして、それらは一般的にパラメーターとどのように直感的に異なっていますか?
回答:
用語ハイパーパラメーターはかなりあいまいです。他のパラメーターよりも高いレベルの階層にあるパラメーターを参照するために使用します。例として、既知の分散(この場合は1)を持つ回帰モデルを考えます。
そして、パラメータの事前、例えば
ここではの分布を決定するとのための分布を決定する。私はを参照したい場合は私は、パラメータ、それを呼び出すことができますし、私はを参照したい場合、私はハイパーそれを呼び出すことができます。
パラメーターが複数のレベルに表示される場合、または階層レベルがより多い場合(およびハイパーハイパーパラメーターという用語を使用したくない場合)、命名はより複雑になります。著者がハイパーパラメーターまたはパラメーターという用語を使用する場合、その意味を正確に指定するのが最善です。
ハイパーパラメーターは、他のパラメーターに完全にまたは部分的に影響を与える単なるパラメーターです。直面する最適化問題を直接解決するのではなく、問題を解決できるパラメーターを最適化します(したがって、ハイパーは最適化問題の一部ではなく、「アドオン」であるため)。私が見たものの、私は参照を持っていませんが、この関係は単方向です(ハイパーパラメーターは、影響を与えるパラメーターによって影響を受けることはできないため、ハイパーも影響します)。それらは通常、正則化またはメタ最適化スキームで導入されます。
たとえば、パラメーターは、およびに自由に影響を与えて、正規化コストを調整できます(ただし、およびは影響しません)。したがって、はおよびハイパーパラメーターです。に影響する追加のパラメーターがある場合、それはハイパーパラメーターになり、およびハイパーハイパーパラメーターになります(ただし、この命名法は見たことがありませんが、間違っているとは思わないでしょう見たら)。
ハイパーパラメーターの概念は、パラメーターの階層を思い出させるため、クロス検証に非常に便利であることがわかりました。また、まだ(ハイパー)パラメーターを変更している場合、クロス検証し、一般化しないため、 (循環的な思考を避けるために)結論に注意してください。
厳密に定義された用語ではないため、先に進み、一般的な使用法と一致していると思われる別の定義を示します。
ハイパーパラメーターは、機械学習アルゴリズムで推定される量であり、最終的な予測関数の関数形式に関与しません。
リッジ回帰の例でそれを解きましょう。リッジ回帰では、次の最適化問題を解決します。
β * = argmin λ(Y ' - X ' β (λ ))T(Y ' - X ′ β (λ ))
正確@jaradniemiで指摘したように、用語の一つを使用ハイパーパラメータを使用すると、統計モデルのカスケードを持つ階層またはマルチレベルのモデリング、通常、条件付き確率文を使用して他の人の下で/オーバー建て1、から来ています。
ただし、意味が異なる他のコンテキストでも同じ用語が使用されます。たとえば、ハイパーレベルという用語は、マルチレベルの結果ではない確率モデルのシミュレーションのパラメーター(実行時間、独立した複製の数、各複製における相互作用する粒子の数など)を指すために使用されましたモデリング。