統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
外挿v。内挿
外挿と内挿の違いは何ですか?また、これらの用語を使用する最も正確な方法は何ですか? たとえば、次のような補間を使用した論文の文を見ました。 「手順は、ビン点間の推定関数の形状を補間します」 外挿と内挿の両方を使用する文は、たとえば次のとおりです。 前のステップでは、カーネル法を使用して補間関数を左と右の温度テールに外挿しました。 誰かがそれらを区別し、例を使用してこれらの用語を正しく使用する方法を導くための明確で簡単な方法を提供できますか?


2
段階的な選択を実行した後にp値が誤解を招くのはなぜですか?
たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。

3
Brain-teaser:均一な[0,1]分布から引き出されたときに単調に増加しているiidシーケンスの予想される長さは何ですか?
これは、ここで報告されている定量アナリストの立場に対するインタビューの質問です。均一な分布から描画し、描画がiidであると仮定すると、単調に増加する分布の予想される長さは何ですか?つまり、現在の描画が前の描画以下である場合、描画を停止します。[0,1][0,1][0,1] 最初の数個を取得しました: \ Pr (\ text {length} = 2)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \、\ mathrm {d} x_2 \、\ mathrm {d} x_1 = 1/3 \ Pr(\ text {length} = 3)= \ int_0 ^ 1 \ int_ {x_1} ^ …

2
統計のホワイトノイズ
さまざまな統計モデルについて読むと、ホワイトノイズという用語がよく表示されます。ただし、これが何を意味するのか完全にはわかりません。通常は省略されWN(0,σ2)WN(0,σ2)WN(0,σ^2)ます。それはそれが通常配布されていることを意味しますか、それとも何らかの配布に従うことができますか?

4
多くのp値の一様分布は、H0が真であるという統計的証拠を提供しますか?
単一の統計的検定により、帰無仮説(H0)が偽であり、したがって対立仮説(H1)が真であるという証拠が得られます。ただし、H0を拒否しなくてもH0が真であることを意味しないため、H0が真であることを示すために使用することはできません。 しかし、互いに独立した多数のデータセットがあるため、統計テストを何度も実行できる可能性があると仮定しましょう。すべてのデータセットは同じプロセスの結果であり、プロセス自体に対して何らかのステートメント(H0 / H1)を作成し、各単一テストの結果には関心がありません。次に、結果のp値をすべて収集し、ヒストグラムプロットを介して、p値が明らかに均一に分布していることを偶然確認します。 私の今の推論は、これはH0が真の場合にのみ起こり得るということです。それ以外の場合、p値は異なって分布します。したがって、これはH0が真であると結論付けるのに十分な証拠ですか?または、ここで不可欠なものが欠けています。「H0が正しいと結論する」と書くのに多くの意志が必要だったからです。

1
XGBoost損失関数テイラー展開による近似
例として、番目の反復でXGBoostモデルの目的関数を使用します。ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ここで、は損失関数、は番目のツリー出力、は正則化です。高速計算のための(多くの)重要なステップの1つは近似です:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), ここで、およびは損失関数の1次および2次導関数です。gigig_ihihih_i 私が求めているのは、上記の近似がなぜ機能するのかを説明する説得力のある説得です: 1)上記の近似のXGBoostは、完全な目的関数のXGBoostと比較してどうですか?どのような潜在的に興味深い、高次の動作が近似で失われますか? 2)視覚化するのは少し難しい(損失関数に依存する)が、損失関数に大きな3次成分がある場合、近似は失敗する可能性が高い。これがXGBoostに問題を引き起こさないのはどうしてですか?

1
仮定が満たされない場合、回帰モデルはどの程度間違っていますか?
回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか: 残差が等分散でない場合はどうなりますか?残差対残差対適合プロットでパターンが増加または減少する場合。 残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか?Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。 1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか? 私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです: 正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか? 偏差はどの程度許容されますか、それともまったく許容されますか? 正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合(Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合)、または役に立たない場合(同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか?

1
閉じた形のなげなわソリューションの派生が正しくないのはなぜですか?
投げ縄問題には閉じた形式のソリューションがあります:\ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS }} |-\ alpha)^ + Xに正規直交列がある 場合。これは、このスレッドに示された:閉じた形投げ縄ソリューションの導出を。βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX ただし、一般に閉じた形式のソリューションがない理由はわかりません。亜微分を使用して、以下を取得しました。 (XXXはn×pn×pn \times p行列です) f(β)=∥y−Xβ∥22+α∥β∥1f(β)=‖y−Xβ‖22+α‖β‖1f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1 =∑i=1n(yi−Xiβ)2+α∑j=1p|βj|=∑i=1n(yi−Xiβ)2+α∑j=1p|βj| =\sum_{i=1}^n (y_i-X_i\beta)^2 + …

1
Rの秒/分間隔データの「頻度」値
予測にR(3.1.1)とARIMAモデルを使用しています。私が次のような時系列データを使用している場合、ts()関数で割り当てられる「頻度」パラメータはどうあるべきかを知りたい 分単位で区切られ、180日間に分散(1440分/日) 秒で区切られ、180日間(86,400秒/日)に広がります。 定義を正しく思い出せば、Rのtsでの「頻度」は、「季節」ごとの観測数です。 質問パート1: 私の場合の「季節」とは何ですか? 季節が「日」の場合、分数の「頻度」は1440、秒数の86,400ですか。 質問パート2: 「頻度」は、達成/予測しようとしているものにも依存しますか? たとえば、私の場合、非常に短期的な予測が必要です。毎回10分先に進みます。 季節を1日ではなく1時間と見なすことは可能でしょうか? その場合、分数の頻度は60、秒の頻度は3600ですか? たとえば、分データに頻度= 60を使用しようとしましたが、頻度= 1440と比較してより良い結果が得られました(使用されfourierているリンクはHyndmanによる下記のリンクを参照してください) http://robjhyndman.com/hyndsight/forecasting-weekly-data/ (予測は、予測精度の測定にMAPEを使用して行われました) 結果が完全に任意であり、頻度を変更できない場合。私のデータでfreq = 60を使用することの実際の解釈は何でしょうか? また、私のデータには1時間ごとおよび2時間ごとの季節性が含まれていることに言及する価値があると思います(生データと自己相関関数を観察することにより)


2
「アイリス」データセットのどの側面が、サンプル/ティーチング/テストデータセットとして非常に成功したか
「アイリス」のデータセットは、おそらくここにほとんどの人々によく知られている-それは、標準的なテスト・データ・セットとゴーの例データセットのデータの可視化から、機械学習へのすべてのための一つです。たとえば、この質問の全員が最終的に、治療別に分けられた散布図の議論にそれを使用しました。 何が作るアイリス便利なように設定データを?それが最初にあったというだけですか?誰かが有用なサンプル/テストデータセットを作成しようとした場合、それからどのような教訓を得ることができますか?
28 dataset 

7
フリップの数が増えるにつれて、テールと同じ数のヘッドをフリップする可能性が低くなる理由を説明する統計概念?
数冊の本を読んでコードを書くことで確率と統計の学習に取り組んでいます。コインフリップをシミュレートしているときに、私は自分の素朴な直感にわずかに反するものに気づきました。フェアコインを回裏返すと、が増加するにつれて、予想どおり、ヘッドとテールの比率が1に収束します。しかし、一方で、が増加すると、尾とまったく同じ数の頭をひっくり返す可能性が低くなり、それによって正確に 1の比率が得られるように見えます。nnnnnnnnn 例(私のプログラムからの出力) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments until we got an exact match …

5
ベイジアンネットワークとマルコフ過程の違いは?
ベイジアンネットワークとマルコフプロセスの違いは何ですか? 私は両方の原則を理解していると信じていましたが、今、2つを比較する必要があるとき、私は失われたと感じます。それらは私にとってほぼ同じ意味です。確かにそうではありません。 他のリソースへのリンクも歓迎します。

7
過去のコインフリップの結果が後続のコインフリップに関する信念に影響を与える統計的誤acyの名前は何ですか?
私たちが知っているように、尾を振るのと同じ確率で頭を着陸させるコインをフリップした場合、コインを何度も裏返すと、半分の時間が頭を獲得し、半分の時間が尾を獲得します。 友人とこれを議論するとき、彼らはあなたがコインを1000回ひっくり返して、最初に100回頭に着いたと言ったら、尾を着陸させる機会が増えたと言いました(論理が偏っていない場合、その後、1000回フリップした時点で、約500のヘッドと500のテールが得られるため、テールが発生する可能性が高くなります。 過去の結果は将来の結果に影響を与えないため、誤解であることを知っています。その特定の誤acyの名前はありますか?また、なぜこれが間違っているのかについてのより良い説明はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.