MLアルゴリズム、たとえばVowpal Wabbitや、クリックスルーレートコンペティション(Kaggle)に勝ついくつかの因数分解マシンが、機能が「ハッシュ化されている」と言及するとき、実際にはモデルにとって何を意味するのでしょうか?インターネットアドのIDを表す変数があり、「236BG231」などの値をとるとしましょう。次に、この機能がランダムな整数にハッシュされることを理解しています。しかし、私の質問は:
- モデルで現在使用されている整数(整数(数値)または
- ハッシュされた値は、実際にはまだカテゴリー変数のように扱われ、ワンホットエンコードされていますか?したがって、ハッシュのトリックは、単に大きなデータで何らかの形でスペースを節約することですか?