中央値、モード、パーセンタイル、およびOLAP


9

私は頭をOLAPに巻き込もうとしている初心者ですが、いくつか質問があります。

  • 質問1: OLAPキューブは中央値、モード、パーセンタイルを格納できますか?
  • 質問2:ユーザー作成のMDXクエリは、行レベルのデータの概要を返すことができますか?(例:%トランザクション> $ 100)。または、キューブデザイナーはこれをキューブに追加する必要がありますか?
  • 質問3:行レベルのデータにアクセスするためのメカニズムを提供するOLAP製品はありますか?どっち?

当社のIT部門は、特定のMS Analsis Services ROLAPキューブでどのような問題が発生しているかについてのフィードバックを求めています。その背後にあるリレーショナルデータベースへのアクセス権がないため、現在キューブ内のメジャーとして使用できない計算を実行する必要があります。

私にこの権利があるかどうか見てみましょう。

  1. キューブは、カウント、平均、比率、標準偏差の統計を提供できます。
  2. キューブデザイナが提供するメジャーで特定の統計が提供されていない場合、MDXクエリを記述してそれを取得できますか?または、行レベルのデータから事前計算するためにキューブを変更する必要がありますか?
  3. キューブは、中央値、モード、パーセンタイルなどの統計を提供できません。これらの統計は適切に集計されないためです。

Leland WilkinsonのThe Grammar of Graphicsと、Data MiningとOLAPに関する彼の章を読んでいると彼は言う

これらの[キューブ操作]は、カウント、平均、比率、標準偏差などの統計でうまく機能します。サブクラスの単純な集計は、和、二乗和、および線形関数で結合されて基本的な要約統計量を生成する他の項を操作することによって計算できます。

これらの統計の集計はそれらの集計の統計ではないため、中央値、モード、パーセンタイルなどの統計では正しく機能しません。たとえば、中央値の中央値は、集計の中央値ではありません。

彼は続けて追加します:

しかし、より洗練されたROLAPモデルが最近登場しました。いくつかのテクノロジーを通じて、統計アルゴリズムがリレーショナルモデルを通じて生データにリアルタイムでアクセスできるようにすることができます。このアプローチは、データキューブなどの構造によって提供される固定集計よりも有望です。

このアーキテクチャの最もエレガントな形式では、アプリケーションはリモート接続を要求して、データ処理方法に関する情報を提供し、返された情報に応じて適切なアクションを実行できます。この形式では、コンポーネントアーキテクチャは、分散コンピューティングの真の期待、つまりサイト、オペレーティングシステム、または言語に依存しない設計と実行を実現できます。

それは2005年頃に書かれました。行レベルのデータアクセスを可能にするためにこの方法論を採用している製品を知っている人はいますか?


1
誰もいない?質問を改善して回答を引き出す方法に関する提案はありますか?
Tommy O'Dell、2011年

回答:


5

質問に順番に答えるには:

  1. キューブには中央値、モード(または平均値)は格納されませんが、それらを計算し、計算されたメジャーとしてキューブに埋め込むクエリを作成できます。この種の計算を埋め込む機能は、OLAPテクノロジの主な独自のセールスポイントの1つです。
  2. 個々の行を識別できるディメンション(ファクトテーブルの識別子から派生した縮退または「ファクト」ディメンションである可能性があります)がある場合は、個々の行に基づいてクエリを実行できます。ただし、OLAPはディメンションと集計の観点から機能するため、個々の行を識別することができるディメンションが必要です(1つの値で構成される集計で)。
  3. 任意のOLAPツールは、(2)で説明されていることを実行できます。さらに、それらは一般に、ドリルスルーと呼ばれるメカニズムをサポートします。このメカニズムは、ドリルスルーする特定のスライスの基になるトランザクションデータの境界をキューブが返します。

キューブスクリプトで直接利用できない計算を実行する場合は、遅れて嘆かれるProClarityなどの多くのOLAPツールを使用して、カスタムMDXベースの計算を含むクエリを作成できます。キューブに実際の計算に必要な情報がない限り、カスタムMDX計算は必要な計算をサポートできるはずです。

OLAPクエリは伝統的に統計クエリに集約的に関連付けられていますが、詳細にドリルダウンできるディメンションがある場合は、中央値、百分位数、またはモードを推定または計算できるヒストグラムクエリを計算するクエリを作成することは確かに可能です。

たとえば、これはランキングに基づくパレート分析クエリの例です。

多くのキューブ製品は、ハイブリッドまたはリレーショナルOLAPモードで動作でき、データ自体を永続化するのではなく、基礎となるデータベースからクエリを実行します。さらに、Business Objects、Report Builder、Discovererなどの純粋なROLAPツールは、基になるデータベースからクエリを実行し、行ごとに作業を行うことができます。ただし、専用のOLAP製品の高度な機能に欠ける傾向があり、すぐに使用できる統計分析機能はほとんどありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.