予測機能として、非原子データを利用したい。これらの機能を備えたテーブルがあるとします。
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
たとえば、列2を予測/分類したいと思います。
「フーはどこで生まれたの?」など、どんな種類の質問にも自動的に答える何かを作っています。...
まず検索エンジンにクエリを送信し、結果としてテキストデータを取得し、次にすべての解析(タグ付け、ステミング、解析、分割など)を実行します。
私の最初のアプローチは、各行にテキスト行と「最初の単語」、「最初の単語のタグ」、「チャンク」などの多くの機能を備えた表を作成することでした...
しかし、このアプローチでは、文の間の関係がありません。
ツリー構造(またはベクトル)の内部を調べて関係を作成し、予測/分類に関連するものを抽出するアルゴリズムがあるかどうかを知りたいです。私が実装しなければならないアルゴリズムよりも、それを行うライブラリについて知りたいと思います。