平均勾配の計算:調和または算術平均?


11

大規模なデータセットの平均上り勾配パーセント勾配を計算する必要があります。基本的な方法はここで詳しく説明します。 しかし、技術的には変化率であるため、調和平均の方が標準算術平均よりも適切かどうか疑問に思っています。ポイント、エリア、ラインなどの勾配の平均化に関する他の議論では、このような結果は見られませんでした。達成するのはかなり簡単です。

編集:この場合の平均勾配を計算する目的は、チャネル開始しきい値のモデリングに使用される1つ(多数)のパラメーターを生成することです。現場で収集されたチャネルヘッドのセットを使用して、流れの蓄積、さまざまな平均上り勾配パラメーターなどを収集し、多重線形回帰を使用して、他のパラメーターに関して蓄積しきい値を記述しようとします。


4
これは、平均勾配を計算する理由に依存します。目的は何ですか?どの物理量を測定しようとしていますか?多くの形式の平均は正当ですが、調和平均に注意してください。勾配がゼロの場合、頻繁に発生する問題を引き起こします。
whuber

回答:


10

平均勾配は自然な量のように聞こえますが、それはむしろ奇妙なことです。 たとえば、平坦な水平平野の平均勾配はゼロですが、その平野のDEMにごくわずかなランダムなゼロ平均ノイズを追加すると、平均勾配は上昇します。 他の奇妙な挙動は、ここ文書化したDEM解像度への平均勾配の依存性と、DEMの作成方法への依存性です。たとえば、等高線マップから作成されたDEMには、実際にはわずかに段々になったものがあります(等高線がある小さな急激なジャンプがあります)が、そうでない場合は、表面全体の正確な表現です。これらの急激なジャンプは、平均化プロセスで多すぎるまたは少なすぎる重みを与えられた場合、平均勾配を変更する可能性があります。

育て重み付けする効果に関連するので、調和平均(及び他の手段)が差動的勾配の重み付けされています。これを理解するために、2つの正数xyの調和平均を考えます。定義により、

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

ここで、重みはa = y /(x + y)およびb = x /(x + y)です。(これらは正で合計が1であるため、「重み」と呼ぶに値します。算術平均の場合、重みはa = 1/2およびb = 1/2です)。明らかに、xyに比べて小さい場合、y /(x + y)に等しいxに付加された重みは大きくなります。したがって、高調波とは、小さい値を過剰に重み付けすることを意味します。

質問を広げるのに役立つかもしれません。 調和平均は、実数値pでパラメーター化された平均のファミリーの1つです。調和平均がxyの逆数を平均することで得られるように(そしてそれらの平均の逆数をとる)、一般にxyの p乗を平均します(そして結果の1 / p乗を取ります) )。ケースp = 1とp = -1は、それぞれ算術平均と調和平均です。(p = 0の平均を定義するには、制限を設定することにより、このファミリーのメンバーとして幾何平均を取得します。)As p1から減少すると、値が小さいほど重みが大きくなります。また、pが1から増加すると、値が大きくなるほど重みが大きくなります。平均値としてのみ増加させることができることを、次のp増加し、減少しなければならないとして、pが減少しています。(これは次の2番目の図で明らかです。3つの線はすべて平坦であるか、左から右に向かって増加しています。)

問題の実用的な観点から、代わりにさまざまな斜面の手段の挙動を研究し、分析ツールボックスにこの知識を追加することができます:斜面がより小さな斜面がより多く与えられるような方法で関係に入ることを期待するとき影響がある場合は、pが1未満の平均を選択できます。逆に、最大の勾配を強調するために、pを 1より大きくすることもできます。この目的のために、ポイントの近くのさまざまな形式の排水プロファイルを考えてみましょう。

何が起こり得るかを示すために、3つの定性的に異なるローカルテレインを検討しました。もう1つは、ローカルにボウルの底に位置する場所です。周囲では勾配はゼロですが、徐々に増加し、最終的にはリムの周囲で任意に大きくなります。この状況の逆は、近くの斜面が中程度であるが、その後私たちから水平になった場合に起こります。それは現実的に広い範囲の行動をカバーするように思われるでしょう。

これらの3種類の排水形式の擬似3Dプロットは次のとおりです。

3Dでのプロット

ここでIはそれぞれの平均勾配を計算した-コーディング同じ色で-の関数としてのP、せるのP 2を介してから-1(調和平均)範囲。

勾配平均とp

もちろん、青い線は水平です。値pがどの値をとっても一定の勾配の平均はその定数(参照用に1に設定されています)以外にはなりません。赤いボウルの遠縁の周りの高い勾配は、pが変化するにつれて平均勾配に強く影響します。pが1を超えると、それらが大きくなることに注意してください。 1)ゼロになる。

3つの曲線の相対位置がp = 0(幾何平均)で変化することは注目に値します。pが0より大きい場合、赤のボウルは青よりも大きな平均傾斜を持ち、負のpの場合、赤のボウルは平均が小さくなります青よりも斜面。したがって、p選択すると、平均勾配の相対的なランキングでさえも変更される可能性があります。

黄緑の形状に対する調和平均(p = -1)の深遠な効果により、一時停止が得られます。排水に十分な小さな傾斜がある場合、調和平均は非常に小さくなり、あらゆる影響を圧倒することがわかります。他のすべての斜面。

探索的データ分析の精神では、極端な重みを避けるために、おそらく0から1よりわずかに大きい範囲のpを変化させ、どの値が平均勾配と変数との最適な関係を作成するかを検討することができますモデリング(チャネル初期化しきい値など)です。「最良」とは、通常、回帰モデルで「最も線形」または「一定の(同相)残差を作成する」という意味で理解されます。


徹底的な分析をありがとう!これについて少し反論する必要があります。
ジェイ・ガルネリ

1

私は、whuberによる優れた理論的答えに対する補完的な答えを見つけるために、経験的なアプローチを取りました。私は度で勾配を計算して、角度平均を使ってそれを平均することに決めました。次に、パーセント勾配の算術平均と調和平均を計算し、調査エリアにランダムに配置されたサンプルポイントのセットを作成しました。最小距離100mで2000ポイントを要求し、1326ポイントを得ました。各ポイントで各平均勾配ラスターの値をサンプリングし、式を使用してパーセント平均を度に変換しましたDegrees = atan(percent/100)。ここでの私の仮定は、角度平均が「正しい」平均勾配を度単位で生成し、どちらのパーセンテージ平均がそれに近づいたとしても正しい手順になるということです。

次に、Kruskal-Wallace検定を使用してすべてのゼロ以外の値を比較しました(ほとんどのゼロスロープ値については、3つすべてでゼロであり、ゼロ値はメソッド間の違いをマスクすると仮定しています)。3つの間に有意な差が見つかった(カイ2乗= 17.9570、DF = 2、p = 0.0001)ので、アルファ= 0.05を使用したダンの手順を使用してデータをさらに調べました(Elliot and Hynan 2011)。最終的な結果は、算術平均と調和平均は互いに大きく異なりますが、近傍は角平均とは大きく異なります。

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

私の仮定がすべて正しかった場合(非常によくないかもしれません)、これは、調和および算術平均が互いに異なる値を作成する一方で、許容できる角度平均に「近い完全」であることを意味します。ここには、考えられる他の2つの警告があります(それらについて考える場合は、他に追加してください)。

  1. サンプルサイズを大きくすると、パーセント平均と角度平均の間に大きな違い見つかる場合があります。ただし、ゼロ以外の値については、サンプルサイズは約1000ポイントでした。
  2. 私のサンプルポイントは、流域に関係なく配置されたため、平均勾配はその上の平均勾配に関連するため、いくつかの疑似複製が含まれる場合があります。

1
これは興味深い(+1)ですが、制限に注意してください。(1)はい、より大きなサンプルサイズを選択すると、すべての違いが重要であることがわかります。したがって、統計的仮説検定を実施することは意味がありません。手順間の差異のに注目する必要があります。(2)結果は、データの実際のプロパティに完全に依存します。それらは他のデータセットによって異なります。(3)角度平均は参照として有用ですが、決して好ましい値ではありません。どちらを参照として使用するかは、さらなる分析またはマッピングで平均がどのように使用されるかに完全に依存します。
whuber

0

勾配を定義するパラメーターが不明であるという仮定を考えると、統計学者は、それからのデータのRMS偏差を最小化する勾配を使用すると言うでしょう。(もちろん、whuberの例は数学的に生成された地形を選択しているので資格がありませんが、実際の地形の場合はパラメーターが不明であるという仮定が有効である必要があります。)


この返信はありがたいですが、状況を誤解していると思います。最も重要なことは、これらの勾配は曲線のあてはめには使用されていないことです。「データのRMS偏差」の概念は適用できません。第二に、私は、実際に遭遇するものの幅広いスペクトルにまたがる定性的な地形タイプを選択したので、私はそれらが期待するものについて有用な情報を提供することを維持します。実際のデータセットは、ここで何が起こっているかを理解するのにあまり貢献しません。なぜなら、「真の」平均勾配のようなものはないからです。主な質問は、どの平均が有用または有益であるです。
whuber

1
ところで、私は統計学者としての資格持っていると思います。それはこの問題について私の意見を良くも悪くもしません:他の人と同じように、私はできる限り明確かつ客観的にそれをバックアップする必要があり、間違っていると私の心を変える必要があります:- )。あなたの「統計学者」の発言に対するカウンターとして、この点を提供します。
whuber

どの適合が有用かという質問は、斜面が何に使用されるかに依存します。たとえば、土地のスランプポテンシャルの場合、スランプポテンシャル対スロープモデルに従って、緩やかなスロープに比べて急なスロープに高い重みが付けられ、RMSフィットアプローチが有効になります。他の用途に合わせて他の重み付けモデルが使用されます。要するに、私たちが知っているすべてを重みやその他の方法でモデル化し、そうでないすべてのモデルとしてRMSに依存することが、私が提案していることです。
ジョンサンキー

私はそのコメントの前提、ジョンに同意しますが、あなたの結論がどのように続くかわかりません。より急な勾配がより重い重みを受け取る場合、勾配に関係なくすべての偏差に均等に重みを付けるため、RMSは望ましくありません。さらに、二次損失関数としてのRMSは、勾配の非線形再表現や代替の損失関数の使用(たとえば、ロバスト近似法で利用される)を含む、他の手法が達成できるものの普遍的な代替にはなり得ません。
whuber

RMSには重量が含まれています
ジョンサンキー'20年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.