統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
t-SNEが誤解を招くのはいつですか?
著者の一人からの引用: t-Distributed Stochastic Neighbor Embedding(t-SNE)は、高次元データセットの視覚化に特に適した次元削減のための(受賞した)テクニックです。 とても素晴らしいように聞こえますが、それは著者が話していることです。 著者からの別の引用(再:前述の競争): このコンペティションから何を奪いましたか? データの予測子のトレーニングを開始する前に、必ず最初にデータを視覚化してください!多くの場合、私が作成したような視覚化は、どのタイプの予測モデルを試すかを決定するのに役立つデータ分布に対する洞察を提供します。 情報は 失われる必要があります1-それは結局次元削減技術です。ただし、視覚化する際に使用するのが良い手法であるため、失われた情報は強調表示された情報よりも価値がありません(2次元または3次元に縮小することで可視化/理解可能になります)。 だから私の質問は: tSNEはいつジョブの間違ったツールになりますか? どのようなデータセットが機能しないのか、 どのような質問に答えられるように見えますが、実際には答えられませんか? 上記の2番目の引用では、データセットを常に視覚化することをお勧めします。この視覚化は常にtSNEで行う必要がありますか? 私は、この質問が逆に最もよく答えられることを期待しています。すなわち、答え:tSNEはいつ仕事に適したツールですか? 下の2枚の画像のために、生成モデル、ということ、それは誤解を招くことの例だった- (差別的モデルをクラス分け)私は分類されますどのように簡単にデータを私に教えてtSNEに依存しないように警告されている2が悪化していました最初/左で視覚化されたデータ(精度53.6%)は、2番目/右で同等のデータ(精度67.2%)よりも 1 私はこれについて間違っている可能性があります、私は座って後で証明/カウンターの例を試してみるかもしれません 2 生成モデルは識別モデルと同じではありませんが、これは私が与えられた例です。

3
PCAまたはFAのスコアまたは負荷のサインには意味がありますか?記号を逆にすることはできますか?
2つの異なる関数(prcompおよびprincomp)を使用してRで主成分分析(PCA)を実行し、PCAスコアの符号が異なることを観察しました。どうすればいいの? このことを考慮: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 [1,] 4.508620 0.2567655 [2,] 3.373772 1.1369417 [3,] 2.679669 -1.0903445 [4,] …
37 r  pca  factor-analysis 

3
Rの乱数-Set.seed(N)[複製]
この質問にはすでに答えがあります: 乱数ジェネレーターのシードとは正確には何ですか? 3つの答え set.seed()Rで擬似乱数生成に使用していることに気付きました。また、set.seed(123)結果を再現できることを保証するように、同じ番号を使用することも認識しています。 しかし、私が得られないのは、値自体の意味です。私はいくつかの機能で遊んでいます、そしていくつかの使用set.seed(1)またはset.seed(300)またはset.seed(12345)。その番号の意味(もしあれば)-そしていつ別の番号を使用すべきか。 set.seed(12345)たとえば、私が取り組んでいる本の中で、決定木用のトレーニングセットを作成するときに使用しています。次に、別の章でset.seed(300)、ランダムフォレストの作成に使用しています。 番号を取得しないでください。

4
予測と予測の違いは?
予測と予測の間にはどのような違いと関係があるのだろうか?特に時系列と回帰で? たとえば、私はそれを修正していますか: 時系列では、予測とは、時系列の過去の値から将来の値を推定することを意味するようです。 回帰では、予測は、与えられたデータに対して将来、現在、または過去の値を推定することを意味するようです。 よろしくお願いします!

2
負の二項分布内のパラメーターを理解する
私は自分のデータをさまざまなモデルに当てはめようとしており、fitdistrライブラリMASSの関数Rが私Negative Binomialに最適だと判断しました。今からのwikiページ、定義は、以下のように与えられます。 NegBin(r、p)分布は、最後の試行で成功したk + r Bernoulli(p)試行でのk失敗およびr成功の確率を記述します。 を使用Rしてモデルの近似を実行するmeanと、2つのパラメーターとが得られますdispersion parameter。これらのパラメーターをWikiページに表示できないため、これらの解釈方法が理解できません。私が見ることができるのは次の式だけです: ここkで、観測数とr=0...nです。では、これらのパラメータをどのように関連付けるのRですか?ヘルプファイルも多くの情報を提供しません。 また、私の実験について一言言っておくと、私が行っていた社会実験では、各ユーザーが10日間に連絡した人数を数えようとしていました。実験の母集団サイズは100でした。 さて、もしモデルが負の二項に適合するなら、その分布に従うと盲目的に言うことができますが、この背後にある直感的な意味を本当に理解したいと思います。被験者が接触した人数は負の二項分布に従うとはどういう意味ですか?誰かがこれを明確にするのを手伝ってもらえますか?

3
ブートストラップと置換仮説のテスト
ブートストラップ、置換テスト、ジャックナイフなど、実際によく使用されるいくつかの一般的なリサンプリング手法があります。たとえば、Philip I Good(2010)Permutation、Parametric、Bootstrap Tests仮説の 私の質問は、どのリサンプリング手法がより人気があり、実装しやすいのですか?ブートストラップまたは置換テスト?

5
時系列分析の相互検証
R のキャレットパッケージを使用して、分類と回帰の予測モデルを構築しています。Caretは、クロス検証またはブートストラッピングによってモデルハイパーパラメーターを調整するための統一されたインターフェイスを提供します。たとえば、分類のために単純な「最近傍」モデルを構築している場合、いくつの近傍を使用する必要がありますか?2?10?100?Caretは、データを再サンプリングし、さまざまなパラメーターを試し、結果を集計して、どれが最良の予測精度をもたらすかを決定することにより、この質問に答えるのに役立ちます。 モデルハイパーパラメーターを選択するための堅牢な方法論を提供し、最終ハイパーパラメーターを選択すると、分類モデルの精度を使用して、モデルがどれだけ「良い」かを相互検証した推定値を提供するため、このアプローチが好きですおよび回帰モデルのRMSE。 おそらくランダムフォレストを使用して、回帰モデルを構築したい時系列データがいくつかあります。データの性質を考慮して、モデルの予測精度を評価するための優れた手法は何ですか?ランダムフォレストが実際に時系列データに適用されない場合、時系列分析用の正確なアンサンブルモデルを構築する最良の方法は何ですか?

2
予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか?
統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します(図6.9)。 なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません(例でMSEが大幅に低下するのはどうですか?)。 リッジでは、多くの予測子が応答にほとんど影響を与えない場合(少数の予測子が大きな効果を持つ場合)、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ?それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか?

8
予測と推論の違いは何ですか?
私は " 統計学入門 "を読んでいます。第2章では、関数を推定する理由について説明します。fff 2.1.1なぜ推定?fff 我々が推定することを望むかもしれない2つの主な理由がありますfは:予測と推論。それぞれについて順に説明します。 何度か読みましたが、予測と推論の違いについてはまだ部分的に不明確です。誰かが違いの(実用的な)例を提供できますか?

4
ニューラルネットワークがうまく一般化されない場合はどうすればよいですか?
私はニューラルネットワークをトレーニングしていますが、トレーニング損失は減少しますが、参照損失または非常に類似したアーキテクチャとデータを使用した実験に基づいて、検証損失は減少しません。どうすれば修正できますか? 質問は ニューラルネットワークが学習しない場合はどうすればよいですか? この質問に触発された質問は、ニューラルネットワークの一般化誤差を達成可能であることが証明されているレベルまで下げる方法に関する他の質問をこの質問の複製として閉じることができるように、意図的に一般的に残されています。 Metaの専用スレッドも参照してください。 「なぜ私のニューラルネットワークが一般化されないのか」というタイプの質問をリダイレクトできる一般的な質問はありますか?


1
MantelのテストがMoranのIよりも優先されるのはなぜですか?
Mantelのテストは、動物の空間的分布(空間内の位置)と、たとえば遺伝的関連性、攻撃率、またはその他の属性との相関関係を調べるために、生物学的研究で広く使用されています。多くの優れたジャーナルがそれを使用しています( PNAS、動物行動、分子生態学...)。 自然界で発生する可能性のあるパターンをいくつか作成しましたが、マンテルのテストはそれらを検出するのにまったく役に立たないようです。一方、モランの私はより良い結果を得ました(各プロットの下のp値を参照)。 なぜ科学者はモランのIを代わりに使用しないのですか?見えない隠れた理由はありますか?そして、何らかの理由がある場合、マンテル検定またはモラン検定を適切に使用するためにどのように知ることができますか(仮説をどのように構成する必要があるか)?実際の例が役立ちます。 この状況を想像してください。カラスが各木に座っている果樹園(17 x 17本)があります。各カラスの「ノイズ」のレベルが利用可能であり、カラスの空間分布が彼らが作るノイズによって決定されるかどうかを知りたいです。 (少なくとも)5つの可能性があります。 「羽の鳥が集まってきます。」カラスが似ているほど、それらの間の地理的距離は小さくなります(単一クラスター)。 「羽の鳥が集まってきます。」繰り返しますが、似ているカラスは、それらの間の地理的距離が小さくなります(複数のクラスター)が、ノイズの多いカラスの1つのクラスターは、2番目のクラスターの存在に関する知識を持ちません(そうでなければ、1つの大きなクラスターに融合します) 「単調トレンド。」 「反対は引き付ける。」同様のカラスは互いに立つことができません。 「ランダムパターン。」ノイズのレベルは、空間分布に大きな影響を与えません。 それぞれの場合について、ポイントのプロットを作成し、マンテル検定を使用して相関を計算しました(その結果が重要でないことは驚くことではありません。そのようなポイントのパターン間の線形関連を見つけることは決してありません)。 サンプルデータ:( 可能な限り圧縮) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal <- colorRampPalette(c("blue","red")) my.data <- data.frame(x …

1
線形混合効果モデルの解釈が簡単な適合度の尺度は何ですか?
現在、Rパッケージlme4を使用しています。 私はランダム効果を持つ線形混合効果モデルを使用しています: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3 <- lmer(r1 ~ p1 + p2 + (1 | site), data = sample_set) #Two …

5
「自己敗北」予測モデルの処理方法
私は大手小売業者のMLスペシャリストによるプレゼンテーションを見ていました。そこでは、在庫切れイベントを予測するモデルを開発していました。 しばらくの間、彼らのモデルが非常に正確になったと仮定しましょう。それはどういうわけか「自己敗北」ではないでしょうか?つまり、モデルが本当にうまく機能していれば、在庫切れイベントを予測して回避することができ、最終的に在庫切れイベントがほとんどまたはまったくない状態になります。しかし、その場合、モデルを実行するのに十分な履歴データがないか、モデルが脱線します。これは、在庫切れイベントを示すために使用されていたのと同じ要因がもはや実行されないためです。 そのようなシナリオに対処するための戦略は何ですか? さらに、反対の状況を想定することもできます。たとえば、2つのアイテムが実際にはそうでなくても、リコメンダーシステムは、リコメンダーシステムの出力によって駆動されるアイテムペアの売上の増加とともに「自己実現予言」になる場合があります関連。 どちらも、予測子の出力とそれに基づいて実行されるアクションの間で発生する一種のフィードバックループの結果であるように思えます。このような状況にどのように対処できますか?

2
確率的勾配降下法を発明したのは誰ですか?
勾配降下法と確率勾配降下法の歴史を理解しようとしています。グラディエントディセントは1847年にコーシーで発明されました。システムエクイテーションシステムの同時解法により作成されました。pp。536–538詳細については、こちらを参照してください。 それ以来、勾配降下法は開発を続け、私はそれらの歴史に精通していません。特に、確率的勾配降下法の発明に興味があります。 学術論文で歓迎される以上に使用できるリファレンス。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.