SQL Server Analysis ServicesとRの違いは何ですか？

これは、意見が多すぎて幅広い質問かもしれませんが、SQL Server Analysis Serviceデータマイニングプロジェクトを使用したさまざまなアルゴリズムの実行とRの使用についての情報を探すのは本当に難しいと感じています。 SSASについては誰も使用していないようなので、SSASについては何も考えていません。:)

データベースガイ

始める前に、はっきりさせておきます。私はデータベース担当者であり、データサイエンティストではありません。私は主にRを使用するデータサイエンティストである人々と協力しています。私は、これらの人たちがデータを分析および処理できる大きなデータセットを作成するのを支援します。

ここでの私の目的は、SQL Serverに付属しているツールを活用することです。R、SAS、SSPSなどの他のメソッドやツールと比較して、だれもそれがどのように機能するかについての手がかりがないためです。キャンプ。

SSAS

OLAPキューブの作成以外にSQL Server Analysis Services（SSAS）を実際に使用したことはありません。SSASを知っている人は、キューブでデータマイニングタスクを実行したり、SQL Serverのデータで直接実行したりすることもできます。

SSASデータマイニングには、さまざまなアルゴリズムタイプが用意されています。

分類アルゴリズムは、データセット内の他の属性に基づいて、1つ以上の離散変数を予測します。
回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの1つ以上の連続変数を予測します。
セグメンテーションアルゴリズムは、類似したプロパティを持つアイテムのグループまたはクラスターにデータを分割します。
アソシエーションアルゴリズムは、データセット内の異なる属性間の相関関係を見つけます。この種のアルゴリズムの最も一般的なアプリケーションは、マーケットバスケット分析で使用できる相関ルールの作成です。
シーケンス分析アルゴリズムは、Webパスフローなど、データ内の頻繁なシーケンスまたはエピソードを要約します。

離散列の予測

これらのさまざまなアルゴリズムオプションを使用して、データから一般的な予測を始めることができます。たとえば、入力列Ageに対して、予測可能な列Bike Buyersに基づいて自転車を購入する人を簡単に見つけるなどです。ヒストグラムは、人の年齢がその人が自転車を購入するかどうかを区別するのに役立つことを示しています。

ここに画像の説明を入力してください

連続列の予測

Microsoftディシジョンツリーアルゴリズムが連続した予測可能な列に基づいてツリーを構築すると、各ノードには回帰式が含まれます。分割は、回帰式の非線形点で発生します。たとえば、次の図について考えます。

ここに画像の説明を入力してください

比較

その一部については、データに対してさまざまなアルゴリズムを実行でき、SSASでデータに対して実行するさまざまな機能を利用できるように思えます。また、Visual Studioで独自のアルゴリズムを開発し、SSASに展開できるようです（間違いではない場合）。

では、Rの言語とツールに関して、ここで何が欠けているのでしょうか。SSASなどよりも複雑なアルゴリズムを展開および編集する柔軟性が高いだけですか？

data-mining r algorithms

— 気難しい
ソース

RはSQL Server 2016と統合されます。これで両方の利点が得られます。

— マイケルグリーン

ええ、私はそれを見ましたが、あなたはまだ2016年をアップグレードするか購入する必要があります。帽子を一滴でそれを行うのは簡単ではありません。

— 厳格な2015年

私たちは同じ質問をしています。Rはfrom.toからSQLへの読み取り/書き込みをすでに実行できるようです。そのため、SQL 2016で何が提供されるのかわかりません。SQL内でRパッケージを実行できますか？

— Swears-a-lot卿2016

私の意見では、SSASは次のような人にとってより理にかなっているようです。

マイクロソフトのテクノロジースタックとプラットフォームに大幅に投資しました。
コマンドラインよりもポイントアンドクリックインターフェイス（GUI）を優先します。
データウェアハウジング（OLAPキューブなど）に焦点を当てます。
統計的方法とアルゴリズムの多様性の点でニーズが限られています。
言語間統合のニーズは限られています。
は、オープン性、クロスプラットフォーム統合、ベンダーロックインについてはあまり気にしません。

Sami Badawiによるこのブログ投稿を参考にしてください。ただし、投稿は最近のものではないため、一部の情報が古くなっている可能性があります。さらに、投稿には最初のレビューが含まれていますが、これはあまり正確または包括的ではない場合があります。データサイエンスについて考えている場合は、Microsoftエコシステム内にとどまることを検討しているときに、Microsoft独自の機械学習プラットフォームAzure MLを検討することをお勧めします。このブログ投稿では、（初期の）Azure MLとSSASの簡単な比較を示します。

— アレクサンドル・ブレフ
ソース

ありがとう。私が分析しているデータのほとんどは、多次元形式です。NoSQLソリューションや他のクラウドベースのソリューションは、私にとって本当に選択肢ではありません。したがって、Azureに目を向けても意味がありません。ただし、ブログの投稿をチェックします。残念ながら、SSASは長年にわたってそれほど改善されておらず、私は2008 R2を使用しています。

— 2015年

ところで、限られた統計手法とアルゴリズムの多様性について、さらに洞察を加えることはできますか？Rと同じように、SSASを使用して独自のメソッドとアルゴリズムを開発できると思いましたか？それとも、これらのパッケージの可用性はオープンソースコミュニティほど一般的ではないということですか？

— 2015年

@Fastidious：どういたしまして。Re：最初のコメント（次のコメントで2番目のコメントを扱います）。Azure MLを拒否する理由を理解できません。私はMicrosoftソリューションの大ファンではありませんが、そのテクノロジスタックに縛られている人にとっては、Azure MLは賢明なオプションのように見えます（一部のユーザーにとっては、まだ最善ではないかもしれません）。Azure MLは、一般的なクラウドプラットフォームであるAzureと直接関係しており、Azure MLは、あらゆるものをサポートします。使用する環境とツールを仮想マシンにラップ（または個別にインストール）して起動します。しかし、安くはありません。

— Aleksandr Blekh 2015年

心配ない。Rを使用し、SQL Serverを介してデータをフィードします。SQLでもすべてを活用できるかどうかを確認したかっただけです。

— 2015年

私の最初の箇条書きを削除することを提案した人に：編集の提案を拒否しましたまず、マイクロソフトはオープンソースプロジェクトであるRを所有していません。MSがRevolution Analytics（RA）を取得し、R巨大なエコシステムのサブセットであるRをMSスタックに統合したという事実は、RをSSASと同等に「快適な」環境にするわけではありません。第2に、いずれにしても、SSASおよびその他の関連するMS製品は、少なくとも短期的には、MSエコシステムとの統合がさらに進んでいます。これは私の意見であり、私はそれを支持します。このように、私の答えはそのままにしておきたいと思います。理解していただきありがとうございます。

— Aleksandr Blekh 2017年