非アトミック機能を使用した予測

予測機能として、非原子データを利用したい。これらの機能を備えたテーブルがあるとします。

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

たとえば、列2を予測/分類したいと思います。

「フーはどこで生まれたの？」など、どんな種類の質問にも自動的に答える何かを作っています。...

まず検索エンジンにクエリを送信し、結果としてテキストデータを取得し、次にすべての解析（タグ付け、ステミング、解析、分割など）を実行します。

私の最初のアプローチは、各行にテキスト行と「最初の単語」、「最初の単語のタグ」、「チャンク」などの多くの機能を備えた表を作成することでした...

しかし、このアプローチでは、文の間の関係がありません。

ツリー構造（またはベクトル）の内部を調べて関係を作成し、予測/分類に関連するものを抽出するアルゴリズムがあるかどうかを知りたいです。私が実装しなければならないアルゴリズムよりも、それを行うライブラリについて知りたいと思います。

machine-learning

— user3798928
ソース

明確にしてください：列2を機能として使用したいが、列2を予測/分類したいとします。また、この機能を「非アトミック」と呼びます...これはカテゴリではないという意味ですか？

— logc

多くの異なる種類のデータを処理することになると、特にそれらの間の関係が不明確な場合は、決定木に基づく手法を強くお勧めします。私の知る限り、今日最も人気のあるものはランダムフォレストであり、非常にランダム化されています木。

どちらもsklearnに実装されており、使用は非常に簡単です。非常に高いレベルで、decision tree複数の異なる種類のデータに対してに基づくアプローチが有利である理由は、意思決定ツリーが、表現を理解できる限り、処理する特定のデータから大きく独立しているためです。

それでもデータを何らかの特徴ベクトルに適合させる必要がありますが、非常に簡単なタスクのように思える例に基づいており、実装をもう少し深く進んでいく場合は、確かに思い付く可能性があります基になるアルゴリズムで実際に何も変更する必要がないカスタムツリー分割ルール。オリジナルの論文では、あなたが撮影することを与えたい場合は開始するかなりまともな場所です。

テキストデータから疑似構造データが必要な場合はdoc2vec、最近Googleが開発したを調べることをお勧めします。良いオープンソース実装は今のところないと思いますがword2vec、少なくともCおよびで実装されているアルゴリズムのかなり単純な改善pythonです。

お役に立てば幸いです。他にご不明な点がありましたらお知らせください。

— インディコ
ソース