カテゴリカルベクトルを取得し、ワンホットエンコーディングを使用してバイナリ表現に変換する演算子の名前は何ですか?私は科学論文を書いていて、そのための適切な名前が必要なので、私は不思議に思っています。
カテゴリカルベクトルを取得し、ワンホットエンコーディングを使用してバイナリ表現に変換する演算子の名前は何ですか?私は科学論文を書いていて、そのための適切な名前が必要なので、私は不思議に思っています。
回答:
統計学者は、ワンホットエンコーディングをダミーコーディングと呼びます。他の人が提案したように(コメントのScortchiを含む)、これは正確な同義語ではありませんが、これは通常0-1エンコードされたカテゴリー変数に使用される用語です。
それはあなたの対象者に依存します。
ティムが言った、統計学者は、それがコーディングダミー呼び出して、それは私が回帰モデルのようなものを記述する際に参照するために期待するものです。「店の場所を調整するために、ダミーのコード化された変数が含まれていました。」ここでは、ワンホットエンコーディングと呼ぶのは少し奇妙に思えるかもしれません。
ただし、別のティムも言ったように、ワンホットエンコーディングは機械学習の文献ではかなり一般的です。少なくとも私には、ノード(ニューラルネットワークなど)、物理的なワイヤー(デバイス内)などの存在がかすかに暗示されています。
正式には、インジケーター関数のセット適用していると思いますが、これはおそらく証明の外ではあまりにも形式的すぎるでしょう。
この用語は電子工学に由来します。誰が1を「ホット」と呼ぶでしょうか?「ホット」または「ライブ」とは、電線に電位があることを意味する、電気で作業する人のみです。「ワンホット」とは、1本のワイヤの個別の電気信号レベルが1組のワイヤのホット/コールドにデコードされる回路設計を指します。EEのバックグラウンドを持つ一部の機械学習の人は、このアナロジーが説得力があると思ったと思います。
計量経済学と統計では、dummy
またはindicator
変数が発生する可能性があります。これらは、個別のインジケーターで個別のカテゴリを表すために使用されるため、非常によく似ています。ただし、微妙な違いがあります。たとえば、ベースカテゴリが0に設定されたすべてのダミーに対応するため、KカテゴリのK-1ダミーを作成します。対照的に、1つのホットエンコーディングでは、ベースカテゴリが独自のワイヤ(変数)。
私は統計的に訓練を受けており、最近、機械学習/ comp sci litの「ワンホットエンコーディング」について聞いたことがあります。通常、ワンホットマトリックスを単に設計マトリックス/データマトリックス/設計フレームと呼びます。
物理科学と工学では、(一般化された)クロネッカーデルタと呼ばれます。
最も単純な形式では、クロニカーデルタはとして定義されこれは簡単に一般化されて δ [ 条件] ≡ { 1 なら[ 条件] 0 他に。
したがって、「」は、として読み取られる傾向があります 最も多いカテゴリーが文脈から明らかである場合、著者は「」に切り捨てる傾向があります。δ I ∈カテゴリ ≡ { 1 かのI ∈カテゴリ0 他に、 δ I
クロネッカーのデルタは、本当に便利ですシグマ / パイ / アインシュタインの/ etc。用語を条件付きで指定できるため、表記法。
これを一般的なプログラミング構造であるクロネッカーデルタに関連付けるだけです。condition?1:0
ここ?:
で、は条件演算子です。
接線の注記として、私は著者に一般化された同等のを優先して古い方法のを放棄することをお勧めします。一般的な表記法はより明示的で拡張可能ですが、昔ながらの表記法には利点はありません。δ iの= jで
Christopher Bishopによるパターン認識と機械学習では、 -of-スキームという用語を使用しています。
これは本からの引用です、
バイナリ変数を使用して、2つの可能な値のいずれかを取ることができる数量を説明できます。ただし、多くの場合、相互に排他的な可能な状態の1つをとることができる離散変数に遭遇します。そのような変数を表現するさまざまな代替方法がありますが、特に便利な表現は、変数が次元ベクトルで表される -of-スキームであることを間もなく確認します。要素はに等しく、残りのすべての要素は等しくなり。したがって、たとえば、とることができる変数がある場合1 K K x x k 1 0 K = 6 x 3 = 1 x状態と変数の特定の観測値が状態に対応する場合、 は次のように表されます。