プロットのために異なる桁のデータをスケーリングする


9

次のデータセットを見てください。

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

これをグラフにプロットするように依頼されました。日付にはX軸があり、残りのデータにはY軸があります。問題は、データの規模が劇的に異なることです。訪問数が数千で、作成されたオーダーが数十である場合、データはグラフにうまくプロットされません。

このシナリオで統計担当者が何をするのだろうと思っていました。訪問数を1000で割り、説明(訪問数(K))を入力できましたが、作成されたカートで同じ問題が発生します。何百ものその他すべてが低い数十にあります

このシナリオではどのようなことが行われますか?

回答:


14

最初は折れ線グラフを一連の小さな倍数としてプロットし、Y軸のスケールは異なるがX軸(日付)を揃えることは不合理ではありません。 ここに画像の説明を入力してください

生データを調べることができ、異なる折れ線グラフ間の傾向を比較できるので、これは良いスタートだと思います。IMO最初に生データを調べ、次に生データを調べた後、変換を比較したり、チャートを正規化して比較できるようにする方法を検討する必要があります。

Kingがすでに述べたように、変数には名前と番号に基づいた自然な順序があり、適切であると仮定して、各州で変換されたパーセンテージに基づいて3つの新しい変数を作成しました。新しい変数は次のとおりです。

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

パーセンテージを作成することは、シリーズを共通のスケールに近づける方法ですが、それでも、すべての線を1つのチャート(以下)に配置しても、シリーズを効果的に視覚化することは困難です。作成された注文のレベルとバリエーション、およびカートの変換シリーズは、他のシリーズのそれよりも小さくなっています。このスケールのシリーズで作成されたカートには、どのようなバリエーションもありません(そして、これが最も興味のあるものだと思います)。 ここに画像の説明を入力してください

繰り返しますが、IMOでこれを調べるより良い方法は、異なるスケールを使用することです。以下は、さまざまなスケールを使用したパーセンテージチャートです。

ここに画像の説明を入力してください

これらのグラフィックスを使用すると、シリーズ間で実際に意味のある相関関係はないように見えますが、各シリーズ(特に変換された比率)には興味深いバリエーションがたくさんあります。どうしたの2011-11-13?作成された注文の比率ははるかに低くなっていますが、作成された注文のすべてが変換されたカートでした。サイトへの訪問、またはカートの作成された比率または割合の傾向を説明する可能性のある他の介入はありましたか?

これはすべて単なる探索的データ分析であり、これ以上の手順を実行するには、データについてより深い洞察が必要になります(ただし、これが良いスタートであることを願っています)。他の方法で折れ線グラフを正規化して、同等のスケールでプロットできるようにすることもできますが、これは難しい作業です。デフォルトの正規化スキーム。多くの折れ線グラフを同時に表示するもう1つの興味深いアプリケーションは、地平線グラフですが、これは、さまざまな折れ線グラフを一度に表示する場合に適しています。


回答の詳細をありがとうございます、私は元々複数のチャートを持っていました。私の上司は、グラフ上のすべてのシリーズを希望することを決定しました(おそらくシリーズが多すぎると思いますが、それを見るのは私ではありません:))データの正規化を検討するつもりだと思います。 0から1に変換します。グラフを使用して傾向を表示するだけで、通常はテーブルデータがグラフの下に表示されます。
Mike

@マイク、それは合理的な要求です。系列の正規化によって傾向が変わることはありません(各系列のレベルと変動のみ)。うまくいけば、シリーズをいくつかの効果的でありながら意味のある方法で正規化する方法について、より洞察に満ちた答えが得られることを願っています。ただし、一般的には、1つのグラフに3〜5本の線をプロットするだけでよく、それらすべてを比較することは非常に困難です(ただし、小さな倍数はこの問題の回避策です)。
アンディW

1
@マイクはい、この場合(数値なしでデータを視覚化するだけ)、並列表示で行われるように、データを最小/最大スケールで簡単に表現できます表の下に数字を表示するのも良い考えです。
ch

1
@chlが示唆しているように、最小/最大スケールへの正規化についての補足です。最初に生データを確認することをお勧めします。大きな外れ値がある場合は、その値を正規化プロセスに含めないことを検討する必要がある場合があります(ただし、正規化されたグラフ(たとえば、折れ線グラフがある場合) 1つの高/低値で、残りはフラットです)。マイケルフレンドリーもグラフの下の表を含めることに同意すると思います。
アンディW

2

2つの個別のy軸、訪問(k)とカートを1つに作成し、他の2つを別の(または目的に合った)方法で作成できます。

これは明らかにエレガントな方法ではありませんが、何年も前に、時間の経過に伴う傾向を比較したかっただけのことを覚えています。

または

目的に合っている場合は、時間の経過に伴う変化率をプロットできます。


2つの異なるY軸を使用してあなたが言及したルートを検討しましたが、それについて私が気に入らなかったのは、2つのY軸の1つに収まらない新しいシリーズが導入された場合、おそらく行き詰まることでした。提案をありがとう、多分私はこれをもっと検討するかもしれません:)
マイク

パーセントの使用に関する2番目の提案はどうですか?つまり、開始日に100ですべてのインデックスを作成します(または、チャートをきれいにする日付)。新しいシリーズをいくつでも追加できます!
キング

それはオプションです。私は現在、このデータを正規化する方法とそれが機能するかどうかを理解するために優れています。パーセンテージのアイデア
Mike

2

最終的に、各値を最大値で除算してから100を掛けて、データを正規化することにしました。

  1. 最大値を見つけます:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. 各数値を最大値で割り、100を掛けます。

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. 次に、これをグラフにプロットしました。明らかにこれは傾向を示すだけで、ユーザーはページの下部にデータの表を持っています。


0

それも私のアプローチです--Xで除算して異なるスケールを同じスケールに調整するには、最大値や最小値ではなく、平均値を使用します。理由は-時間の経過とともにデータを追加すると、最大値または最小値が変化する可能性が高く、最後のグラフで100%だったものが今回は別のものになる-グラフが以前のグラフと簡単に一致しない場合- avgを使用すると、変更はそれほど劇的ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.