統計の枝は何ですか?


30

数学には、代数、分析、トポロジーなどの分岐があります。機械学習には、教師あり、教師なし、強化学習があります。これらの各ブランチ内には、メソッドをさらに分割するより細かいブランチがあります。

統計との類似点を描くことができません。統計(およびサブブランチ)の主要なブランチは何ですか?完全なパーティションはおそらく不可能ですが、大きな空白のマップよりも優れています。

視覚的な例: ここに画像の説明を入力してください ここに画像の説明を入力してください


6
この質問が答えられない別の理由を提供するため(そして、おそらく、前提が誤っている):ハードな理論科学(数学のような)の目的は、専門化するのではなく一般化することであるとはあまり理解されていません。したがって、フィールドへの成功した調査の軌跡を視覚化する場合、より小さく、より洗練されたブランチに分岐するように見えるのではなく、より抽象的な概念と思考に拡大するレンズになります。
AdamO

@Rob Hyndmanの答えは今でも私には強引に思える。ここでの分類には非常に懐疑的です。さらに、これは誰かに発生したトピックのリストがツリーベースの分類にはるかに及ばないことをフラグするのに適した場所です。また、樹状図や毛玉の表現はやや興味をそそるものですが、フィールドの多様な性質を実証する以外に、実際の使用または関心は何ですか?
ニックコックス

回答:


52

これらの分類システムは非常に役に立たず矛盾しています。例えば:

  • ニューラルネットワークは教師あり学習の一種です
  • 微積分は微分幾何学で使用されます
  • 確率論は集合論の一部として形式化できます

等々。数学の明確な「分岐」はなく、統計もありません。


11
「ニューラルネットワークは教師あり学習の一種です」。それも完全に真実ではありませんか?つまり、教師あり学習、教師なし学習、強化学習などでもNNを使用できます(使用します)。少なくともニューラルネットワークの概念(これは、SL、UL、RLなどのさまざまな最適化方法で最適化できる巨大な非線形関数です)。しかし、用語は単にあなたがそれを使用している方法で使用されているだけかもしれません。その場合、誰でも正しいことができます。
ブルーラインS

7
確かに、真実はありませんが、それは本当に有用ではありません。OPのニーズを満たすモデルはありますか?
ジェイシラーラート

3
ロブは正しい。デシジョンツリーは回帰で使用され、AdaBoostは分類方法ですが、マップにはこれが表示されません。

4
私はこの見方を本当に理解していないと告白します。統計教科書には、章の順序を何らかの方法で編成する必要があり、その内容ページにはその編成が反映されています。コンテンツページの構造は、フィールドの概念がどのように構成されているに関する少なくともいくつかの情報を伝達します。教科書のコンテンツページの存在に問題がない場合でも、フィールドの複雑さを把握できなくても、OPが期待しているような視覚化に反対する理由はわかりません。
mkt-モニカの復元

4
教科書は階層構造ではなく、線形構造です。本の後半では、初期の章間のリンクがしばしば開発され、以前に別々に紹介されたトピックが実際にリンクされていることを示しています。例として、後の章で動的回帰モデルを紹介する予測に関する私自身の教科書で、前に紹介した回帰モデルとARIMAモデルをリンクします。
ロブハインドマン

29

これは、Rob Hyndmanの答えに対する小さな反論です。コメントとして始まり、それから複雑になりすぎました。これが主な質問に対処するにはあまりにも遠すぎる場合、私は謝罪し、削除します。


生物学は、ダーウィンの最初の落書きのずっと前から階層関係を描いてきました(リンクについては、ニックコックスのコメントを参照してください)。ほとんどの進化的関係は、このタイプのきれいで枝分かれした「系統樹」で示されています。

ここに画像の説明を入力してください しかし、最終的に、生物学はこれよりも厄介であることに気付きました。時折、異なる種と、ツリーのある部分に存在する遺伝子との間の遺伝的交換が(交配や他のプロセスを介して)ツリーの別の部分に「ジャンプ」します。水平方向の遺伝子導入は、上記の単純なツリー表現を不正確にする方法で遺伝子を動かします。ただし、ツリーを放棄するのではなく、このタイプの視覚化に変更を加えただけです。

前の図と同じですが、ブランチ間での遺伝子導入が示されています

これを追跡するのは難しいですが、現実のより正確な状況を伝えます。

もう一つの例:

ここに画像の説明を入力してください

ただし、これらの基本的な概念を理解せずに把握するのは難しいため、これらのより複雑な図を最初に紹介することはありません。その代わりに、単純な図で基本的な考え方を教え、その後、より複雑な図とストーリーの新しい複雑さをそれらに示します。

同様に、統計の「マップ」は不正確であり、貴重な教育ツールです。OPが示唆する形式の視覚化は、学生にとって非常に有用であり、現実を完全に把握できないという理由だけで無視すべきではありません。基本的なフレームワークが整ったら、写真に複雑さを追加できます。


4
FWIW、生物間の関係のツリー表現は、ダーウィンよりもずっと前に存在します。後で参照を追加します。
ニックコックス

2
jhupbooks.press.jhu.edu/title/trees-lifeは学術的でありながら魅力的です。
ニックコックス

3
支持点の議論ほどではない。つまり、木の有効性に疑問を投げかける。少なくとも、系統発生では、データを使用して、化石記録、遺伝子発現など、そのような構造を作成します。データがなければ、我々は真剣に広がり誤報ことをブロックし、矢印を選択する権限を持っている人頼む、。
アダモ

2
@AdamO単一のユニバーサル統計「マップ」が存在するとは思わない。2人が異なる構造と異なるリンクのセットを使用することは完全に合理的ですが、広い構造が適度に堅牢であることが期待されます(同じデータセットから構築された系統樹の間でも低レベルの違いが発生しますが、この時点ではメタファーを伸ばしすぎます)。一般的な統計の教科書を書いたり、一般的な統計を教えたりした多くの人々の間には、専門知識(現時点では権威の概念はさておき)が存在すると言えます。
mkt-モニカの復活

2
この図は、これを支持するのに十分なほど気に入っていますが、実際には質問に答えません。
ニックコックス

24

Cross Validated Webサイトのキーワード/ タグを調べることができます。


ネットワークとしての枝

これを行う1つの方法は、キーワード間の関係(同じ投稿内で一致する頻度)に基づいてネットワークとしてプロットすることです。

このsql-scriptを使用して、サイトのデータを(data.stackexchange.com/stats/query/edit/1122036)から取得する場合

select Tags from Posts where PostTypeId = 1 and Score >2

次に、スコアが2以上のすべての質問のキーワードのリストを取得します。

次のようにプロットすることにより、そのリストを調べることができます。

タグ間の関係

更新:色(リレーションマトリックスの固有ベクトルに基づく)と自己学習タグなしで同じ

タグ間の関係

このグラフをもう少しきれいにして(たとえば、ソフトウェアタグのような統計概念に関係しないタグを取り出し、上記のグラフでは「r」タグに対して既に行われています)、視覚表現を改善できますが、上記のこの画像はすでに良い出発点を示しています。

Rコード:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

階層ブランチ

上記のタイプのネットワークグラフは、純粋に分岐した階層構造に関する批判のいくつかに関連していると思います。必要に応じて、階層クラスタリングを実行して強制的に階層構造にすることができると思います。

以下は、このような階層モデルの例です。それでも、さまざまなクラスターの適切なグループ名を見つける必要があります(ただし、この階層的なクラスター化が良い方向だとは思わないので、それを開いたままにします)。

階層的クラスタリング

クラスタリングの距離測定は、試行錯誤によって発見されました(クラスターが適切に表示されるまで調整を行います)。

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

StackExchangeStrikeによって書かれました。


2
たぶん、グラフをよりきれいにするためにいくつかの仕事をするでしょう。このWebサイトのトピックをマップするいくつかの明確なグラフがあると便利です。
セクストゥスエンピリカス

1
これは素晴らしいアプローチです!よくできました。
アンドリュー・ブルザ

カラーグラフの3つの大きな領域は、確率、回帰、機械学習です。
マットF.

@MattF。グラフは実際には少し問題があり、使用頻度に対応しています。周波数で行列をスケーリングしようとしました(共分散行列から相関行列への切り替えなど)が、あまり変化しませんでした。2Dグラフは構造をあまりうまく表示せず、パスを文字列として扱う物理モデルがノードを六角形/三角形に配置します(これが最も効率的です)。
Sextus Empiricus

1
スタックオーバーフローでは、確率、回帰、機械学習の5つの主要なカテゴリだけでなく、仮説検定と時系列もあると思います。
Sextus Empiricus

9

質問に答える簡単な方法は、一般的な分類表を調べることです。たとえば、一部の出版物では、2010数学主題分類を使用して論文を分類しています。これらは、多くの著者が自分の論文を分類する方法であるため、関連しています。 ここに画像の説明を入力してください

同様の分類の多くの例があります。たとえば、arxivの分類や、すべての出版物や研究に広く使用されているロシア教育省のUDK(Universal Decimal Classifictaion)です。

ここに画像の説明を入力してください

別の例は、米国経済協会のJEL分類システムです。Rob Hyndmanの論文「自動時系列予測:Rの予測パッケージ」JELによると、C53、C22、C52に分類されます。Hyndmanには、ツリーの分類を批判する点があります。より良いアプローチはタグ付けです。たとえば、彼の論文のキーワードは「ARIMAモデル、自動予測、指数平滑化、予測間隔、状態空間モデル、時系列、R」です。階層的ではなく、複数の階層を構築できるため、これらは論文を分類するより良い方法であると主張することができます。

@whuberは、機械学習などのいくつかの最新の進歩が現在の分類の統計の下にないことを指摘しました。たとえば、Catherine F. Higham、Desmond J. Higham の論文「Deep Learning:An Introduction to Applied Mathematicians」をご覧ください。彼らは、前述のMSCの下で彼らの論文を97R40、68T01、65K10、62M45として分類しました。これらは、統計に加えて、コンピューターサイエンス、数学教育、数値解析の対象です


3
これは多くの著者が 論文を分類するように求められいる。私の仕事にこのような先験的なカテゴリーを採用するように頼まれたとき、私は決して満足しないことを知っています。
アレクシス

6
これは、数学統計のブランチを識別するための良い基礎です。 それを知ることは、機械学習の多くの部分を含む、除外されたものを識別するのに役立ちます。実際、2010年の数学の主題分類を「1950年時点の統計」と記述し、その後、地球統計学、ゲノミクス、ブートストラップなど、後に出現するすべてのものを投入するのは公平かもしれませんカテゴリ、おそらく)。
whuber

4

この問題に取り組む1つの方法は、統計学ジャーナル、Biometrika、JASA、JRSS-Bなどの統計ジャーナルで引用ネットワークと共著ネットワークを調べることです。これは以下によって行われました:

Ji、P.、&Jin、J.(2016)。統計学者向けの共著および引用ネットワーク。応用統計学、10(4)、1779-1812。

彼らは統計学者のコミュニティを特定し、ドメインの理解を使用して、コミュニティに次のラベルを付けました

  • 高次元データ分析(HDDA-Coau-A)
  • 理論的な機械学習
  • 次元削減
  • ジョンズ・ホプキンス
  • 公爵
  • スタンフォード
  • 分位点回帰
  • 実験計画
  • 客観的ベイズ
  • 生物統計学
  • 高次元データ分析(HDDA-Coau-B)
  • 大規模な複数のテスト
  • 変数選択
  • 空間およびセミパラメトリック/ノンパラメトリック統計

この論文には、コミュニティの詳細な議論と、より大きなコミュニティのさらなるサブコミュニティへの分解が含まれています。

これは質問に完全に答えているとは限りません。なぜなら、もはや活動していない分野を含むすべての分野ではなく、統計学者の研究分野に関するからです。それでもうまくいけば、それが役立っています。もちろん、他の警告(これらの4つのジャーナルのみを考慮するなど)があります。


2
このウェブサイトでこれを行うことを考えていました。「共著者」を、同じ質問に回答/回答する人として定義します。
Sextus Empiricus

@MartijnWeteringsええ、あなたの答えはこのアプローチと非常に似た方向にあるようです!
user257566

2

多くの驚くべき答えがあり、謙虚な自作分類がどのように受け取られるかわかりませんが、要約を示すすべての統計の包括的な本は知りません、@ mktは、コメントを寄せてくれました。研究分野の分類が役立つことがあります。だから、ここに私のショットがあります:

  • 記述統計
    • 簡単な推論
      • 簡単な仮説検定
    • プロット/データの視覚化
  • サンプリング設計
    • 実験計画
    • 調査デザイン
  • 多変量統計(unsipervised)
    • クラスタリング
    • 成分分析
    • 潜在変数モデル
  • 線形モデル(実際には多変量でもある)
    • 通常の最小二乗
    • 一般化線形モデル
      • ロジットモデル
    • 他の線形モデル
      • コックスモデル
      • 分位回帰
    • 多変量推論
      • 多重仮説検定
      • 調整された仮説検定
    • 構造化データのモデル
      • 混合効果モデル
      • 空間モデル
      • 時系列モデル
    • 非線形拡張
      • 一般化された加法モデル
  • ベイジアン統計(実際にベイジアン法は、私が既にリストした多くのものに存在します)
  • ノンパラメトリック回帰と分類
    • 多くの機械学習方法がここに適合します

もちろん、これは過度に単純化されており、フィールドをほとんど知らない人にアイデアを直接伝えることを目的としています。あまり有名ではないか、単に忘れてしまったためにリストします。あなたがそれを好き願っています。


1

この情報を整理する1つの方法は、良い本を見つけて目次を調べることです。あなたが統計について具体的に尋ねたので、これはパラドックスです。一方、トピックに関するほとんどの入門的な大学院レベルのテキストは統計と確率理論を一緒にしています。現在、回帰について読んでいる本には、次の目次があります。

  • 頻繁な推論
  • ベイジアン推論
  • 仮説検定と変数選択
  • 線形モデル
  • 一般回帰モデル
  • バイナリデータモデル

  • 一般回帰モデル

  • ノンパラメトリック回帰の予備[...の前兆]
  • スプラインとカーネルメソッド
  • 複数の予測子を使用したノンパラメトリック回帰

(残りのセクションは数学と確率理論をサポートしています)

  • 行列式の微分
  • マトリックス結果
  • いくつかの線形代数
  • 確率分布と生成関数
  • 通常のランダム変数の機能
  • 古典統計からのいくつかの結果
  • 基本的な大規模サンプル理論

2
一つは、伝えるために、このような書籍考えるかもしれない一部一方の分岐規律のを。しかし、すべての統計の百科事典調査であると主張しない限り、その章の見出しはほとんど分野の主要な枝と見なすことはできません!
whuber

3
@whuberは同意しました。この本は回帰に関するものであり、「統計」のトピックに関する本は、統計学者がレイアウトされたトピックを十分であるとみなすのに十分なレベルまたは適切なレベルであるとは考えないことに注意しました。この特定の例は、Wakefieldのテキストからのものであり、非常に一般的な扱いです(不等分散推定によるT検定は、たとえば、2項共変量とロバストエラー推定による線形回帰のコンテキストで説明されています)。
AdamO
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.