私は頭をOLAPに巻き込もうとしている初心者ですが、いくつか質問があります。
- 質問1: OLAPキューブは中央値、モード、パーセンタイルを格納できますか?
- 質問2:ユーザー作成のMDXクエリは、行レベルのデータの概要を返すことができますか?(例:%トランザクション> $ 100)。または、キューブデザイナーはこれをキューブに追加する必要がありますか?
- 質問3:行レベルのデータにアクセスするためのメカニズムを提供するOLAP製品はありますか?どっち?
当社のIT部門は、特定のMS Analsis Services ROLAPキューブでどのような問題が発生しているかについてのフィードバックを求めています。その背後にあるリレーショナルデータベースへのアクセス権がないため、現在キューブ内のメジャーとして使用できない計算を実行する必要があります。
私にこの権利があるかどうか見てみましょう。
- キューブは、カウント、平均、比率、標準偏差の統計を提供できます。
- キューブデザイナが提供するメジャーで特定の統計が提供されていない場合、MDXクエリを記述してそれを取得できますか?または、行レベルのデータから事前計算するためにキューブを変更する必要がありますか?
- キューブは、中央値、モード、パーセンタイルなどの統計を提供できません。これらの統計は適切に集計されないためです。
Leland WilkinsonのThe Grammar of Graphicsと、Data MiningとOLAPに関する彼の章を読んでいると彼は言う
これらの[キューブ操作]は、カウント、平均、比率、標準偏差などの統計でうまく機能します。サブクラスの単純な集計は、和、二乗和、および線形関数で結合されて基本的な要約統計量を生成する他の項を操作することによって計算できます。
これらの統計の集計はそれらの集計の統計ではないため、中央値、モード、パーセンタイルなどの統計では正しく機能しません。たとえば、中央値の中央値は、集計の中央値ではありません。
彼は続けて追加します:
しかし、より洗練されたROLAPモデルが最近登場しました。いくつかのテクノロジーを通じて、統計アルゴリズムがリレーショナルモデルを通じて生データにリアルタイムでアクセスできるようにすることができます。このアプローチは、データキューブなどの構造によって提供される固定集計よりも有望です。
このアーキテクチャの最もエレガントな形式では、アプリケーションはリモート接続を要求して、データ処理方法に関する情報を提供し、返された情報に応じて適切なアクションを実行できます。この形式では、コンポーネントアーキテクチャは、分散コンピューティングの真の期待、つまりサイト、オペレーティングシステム、または言語に依存しない設計と実行を実現できます。
それは2005年頃に書かれました。行レベルのデータアクセスを可能にするためにこの方法論を採用している製品を知っている人はいますか?