これは、意見が多すぎて幅広い質問かもしれませんが、SQL Server Analysis Serviceデータマイニングプロジェクトを使用したさまざまなアルゴリズムの実行とRの使用についての情報を探すのは本当に難しいと感じています。 SSASについては誰も使用していないようなので、SSASについては何も考えていません。:)
データベースガイ
始める前に、はっきりさせておきます。私はデータベース担当者であり、データサイエンティストではありません。私は主にRを使用するデータサイエンティストである人々と協力しています。私は、これらの人たちがデータを分析および処理できる大きなデータセットを作成するのを支援します。
ここでの私の目的は、SQL Serverに付属しているツールを活用することです。R、SAS、SSPSなどの他のメソッドやツールと比較して、だれもそれがどのように機能するかについての手がかりがないためです。キャンプ。
SSAS
OLAPキューブの作成以外にSQL Server Analysis Services(SSAS)を実際に使用したことはありません。SSASを知っている人は、キューブでデータマイニングタスクを実行したり、SQL Serverのデータで直接実行したりすることもできます。
SSASデータマイニングには、さまざまなアルゴリズムタイプが用意されています。
- 分類アルゴリズムは、データセット内の他の属性に基づいて、1つ以上の離散変数を予測します。
- 回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの1つ以上の連続変数を予測します。
- セグメンテーションアルゴリズムは、類似したプロパティを持つアイテムのグループまたはクラスターにデータを分割します。
- アソシエーションアルゴリズムは、データセット内の異なる属性間の相関関係を見つけます。この種のアルゴリズムの最も一般的なアプリケーションは、マーケットバスケット分析で使用できる相関ルールの作成です。
- シーケンス分析アルゴリズムは、Webパスフローなど、データ内の頻繁なシーケンスまたはエピソードを要約します。
離散列の予測
これらのさまざまなアルゴリズムオプションを使用して、データから一般的な予測を始めることができます。たとえば、入力列Ageに対して、予測可能な列Bike Buyersに基づいて自転車を購入する人を簡単に見つけるなどです。ヒストグラムは、人の年齢がその人が自転車を購入するかどうかを区別するのに役立つことを示しています。
連続列の予測
Microsoftディシジョンツリーアルゴリズムが連続した予測可能な列に基づいてツリーを構築すると、各ノードには回帰式が含まれます。分割は、回帰式の非線形点で発生します。たとえば、次の図について考えます。
比較
その一部については、データに対してさまざまなアルゴリズムを実行でき、SSASでデータに対して実行するさまざまな機能を利用できるように思えます。また、Visual Studioで独自のアルゴリズムを開発し、SSASに展開できるようです(間違いではない場合)。
では、Rの言語とツールに関して、ここで何が欠けているのでしょうか。SSASなどよりも複雑なアルゴリズムを展開および編集する柔軟性が高いだけですか?