名前に含まれるもの:ハイパーパラメーター


19

したがって、正規分布では、平均と分散つのパラメーターがあります。本「パターン認識と機械学習」では、エラー関数の正則化項にハイパーパラメーターが突然現れます。μσ2λ

ハイパーパラメーターとは何ですか?なぜそのような名前が付けられているのですか?そして、それらは一般的にパラメーターとどのように直感的に異なっていますか?


3
個人的には、それは人々がハイパーになりすぎているということだと思います。ハイパーこれ、ハイパーそれ。ハイパースフィア-球体、d @ manit、次元が3を超えただけでハイパーになるのをやめる階層レベルまたは何かを示します。いずれにせよ、最適化の問題がある場合は、どのパラメーターが最適化されているか、および制約を明確に記述してください(マルチレベル最適化の場合は、それを記述してください)。このコメントで過度になりすぎないように願っています。
マークL.ストーン

2
私は常に「超球体」を「一次元の同一次元」を意味するために使用していましたので、少なくとも数学では、何かを意味するようです。または、少なくとも数学について話すときは。落ち着きます。
マシュードゥルーリー

回答:


18

用語ハイパーパラメーターはかなりあいまいです。他のパラメーターよりも高いレベルの階層にあるパラメーターを参照するために使用します。例として、既知の分散(この場合は1)を持つ回帰モデルを考えます。

yNバツβ

そして、パラメータの事前、例えば

βN0λ

ここではの分布を決定するとのための分布を決定する。私はを参照したい場合は私は、パラメータ、それを呼び出すことができますし、私はを参照したい場合、私はハイパーそれを呼び出すことができます。λββyβλ

パラメーターが複数のレベルに表示される場合、または階層レベルがより多い場合(およびハイパーハイパーパラメーターという用語を使用したくない場合)、命名はより複雑になります。著者がハイパーパラメーターまたはパラメーターという用語を使用する場合、その意味を正確に指定するのが最善です。


これはいい説明です。私はそれを「機能のようなもののようなもの」と考えています。シンボルに入れたものを翻訳するために、は平均で正規分布しますが、は順番に正規分布します。ありがとうyXβbeta
cgo

10

ハイパーパラメーターは、他のパラメーターに完全にまたは部分的に影響を与える単なるパラメーターです。直面する最適化問題を直接解決するのではなく、問題を解決できるパラメーターを最適化します(したがって、ハイパーは最適化問題の一部ではなく、「アドオン」であるため)。私が見たものの、私は参照を持っていませんが、この関係は単方向ですハイパーパラメーターは、影響を与えるパラメーターによって影響を受けることはできないため、ハイパーも影響します)。それらは通常、正則化またはメタ最適化スキームで導入されます。

たとえば、パラメーターは、およびに自由に影響を与えて、正規化コストを調整できます(ただし、およびは影響しません)。したがって、はおよびハイパーパラメーターです。に影響する追加のパラメーターがある場合、それはハイパーパラメーターになり、およびハイパーハイパーパラメーターになります(ただし、この命名法は見たことがありませんが、間違っているとは思わないでしょう見たら)。λμσμσλλμστλλμσ

ハイパーパラメーターの概念は、パラメーターの階層を思い出させるため、クロス検証に非常に便利であることがわかりました。また、まだ(ハイパー)パラメーターを変更している場合、クロス検証し、一般化しないため、 (循環的な思考を避けるために)結論に注意してください。


7

他の説明は少しあいまいです。これを明確にするより具体的な説明を次に示します。

ハイパーパラメータは、モデルのパラメータでのみしないモデル化される物理的プロセスの。それらを「人工的に」導入して、有限データおよび/または有限計算時間の存在下でモデルを「機能させる」。何かを測定または計算する無限の力がある場合、ハイパーパラメーターは実際のシステムの物理的側面を記述しないため、モデルには存在しなくなります。

一方、通常のパラメーターは物理システムを記述するものであり、単なるアーティファクトのモデリングではありません。


6

厳密に定義された用語ではないため、先に進み、一般的な使用法と一致していると思われる別の定義を示します。

ハイパーパラメーターは、機械学習アルゴリズムで推定される量であり、最終的な予測関数の関数形式に関与しません。

リッジ回帰の例でそれを解きましょう。リッジ回帰では、次の最適化問題を解決します。

β * = argmin λY ' - X ' β λ TY ' - X β λ

βλ=argminβyバツβtyバツβ+λβtβ
β=argminλyバツβλtyバツβλ

バツyバツy

fバツ=バツβ

λβλ


3

正確@jaradniemiで指摘したように、用語の一つを使用ハイパーパラメータを使用すると、統計モデルのカスケードを持つ階層またはマルチレベルのモデリング、通常、条件付き確率文を使用して他の人の下で/オーバー建て1、から来ています。

ただし、意味が異なる他のコンテキストでも同じ用語が使用されます。たとえば、ハイパーレベルという用語は、マルチレベルの結果ではない確率モデルのシミュレーションのパラメーター(実行時間、独立した複製の数、各複製における相互作用する粒子の数など)を指すために使用されましたモデリング。


1
FWIW私は通常、チューニングパラメーターとして、ランニングの長さ、相互作用する粒子の数などを参照します。
ジャラドニエミ

同意する。私には、ハイパーパラメーターよりも適切な選択に聞こえます。それにも関わらず、他の人にとっては、他の知識分野では、それはまだ十分に妥当であるように聞こえました。
マルセロベンチュラ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.