統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

7
RのLOESS回帰で使用するスパンを決定するにはどうすればよいですか?
RでLOESS回帰モデルを実行していますが、12の異なるモデルの出力をさまざまなサンプルサイズで比較したいと思います。質問への回答に役立つ場合は、実際のモデルをより詳細に説明できます。 サンプルサイズは次のとおりです。 Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: 330 Curveballs vs RHH 2008-09: 488 Curveballs vs LHH …
26 r  regression  loess 

5
フィッシャーの「より多くのデータを取得する」アプローチが意味を持つのはいつですか?
gungの素晴らしい答えを引用する 伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。 ネイマン・ピアソンの観点から、これは露骨なハッキングですが、フィッシャーのgo-get-more-dataアプローチが理にかなっているユースケースはありますか?ppp

2
ニューラルネットワーク:バイナリ分類では、1つまたは2つの出力ニューロンを使用しますか?
バイナリ分類を行うと仮定します(クラスAまたはクラスBに属するもの)。ニューラルネットワークの出力層でこれを行う可能性がいくつかあります。 1つの出力ノードを使用します。出力0(<0.5)はクラスAと見なされ、1(> = 0.5)はクラスBと見なされます(シグモイドの場合) 2つの出力ノードを使用します。入力は、最高の値/確率(argmax)を持つノードのクラスに属します。 これを議論する(また)書かれた論文はありますか?検索する特定のキーワードは何ですか? この質問はすでにこのサイトですでに尋ねられています。たとえば、実際の答えのないこのリンクを参照してください。私は選択する必要があります(修士論文)ので、各ソリューションの賛否両論の洞察を得たいと思います。

1
トレーニングの損失は再び減少します。何が起こっている?
トレーニングの損失が減少し、再び増加します。とても奇妙です。交差検証損失は、トレーニング損失を追跡します。何が起こっている? 次の2つのスタックLSTMSがあります(Kerasで)。 model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 100エポックでトレーニングします。 model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803サンプルのトレーニング、31951サンプルの検証 そして、それは損失がどのように見えるかです:

5
ウィキペディアの可能性に関するエントリはあいまいに見える
「条件付き確率」と「可能性」に関する簡単な質問があります。(私はすでにこの質問をここで調査しましたが、役に立ちませんでした。) ウィキペディアの可能性に関するページから始まります。彼らはこう言います: 結果与えられたパラメーター値のセットの尤度は、パラメーター値が与えられた場合に観測された結果の確率に等しい、つまりθθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) すばらしいです!そう英語で、私はこれを読んで、「シータ、所与のデータX = X、(左辺)を、等しいパラメータの可能性は、データXがXに等しい確率に等しい所定のパラメータことシータに等しい」。(太字は強調のためのものです)。 ただし、同じページの3行以上後に、Wikipediaのエントリは次のように続きます。 ましょ離散確率分布を持つ確率変数 、パラメータに応じて、。次に、関数XXXpppθθ\theta L(θ∣x)=pθ(x)=Pθ(X=x),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 関数と見なされるものは、(確率変数結果が与えられた場合の)尤度関数と呼ばれます 。時には値の確率のパラメータ値のためのとして書き込まれる。多くの場合のように記述を強調するために、このから異なる 条件付き確率されていないので、パラメータとしない確率変数です。θθ\thetaθθ\thetaxxxXXXxxxXXXθθ\thetaP(X=x∣θ)P(X=x∣θ)P(X=x\mid\theta)P(X=x;θ)P(X=x;θ)P(X=x;\theta)L(θ∣x)L(θ∣x)\mathcal{L}(\theta \mid x) θθ\theta (太字は強調のためのものです)。したがって、最初の引用では、文字通り条件付き確率について説明されていますが、その後すぐに、これは実際には条件付き確率ではなく、実際には?P(x∣θ)P(x∣θ)P(x\mid\theta)P(X=x;θ)P(X=x;θ)P(X = x; \theta) それで、どれが?尤度は、実際には最初の引用の条件付き確率を暗示していますか?または、2番目の引用の単純な確率を暗示していますか? 編集: これまでに受け取った有益で洞察に満ちたすべての答えに基づいて、私の質問を要約しました。 で英語「可能性が観測されたデータを考えると、パラメータの関数である。」:、我々はと言います で数学:、我々は、のように記述。L(Θ=θ∣X=x)L(Θ=θ∣X=x)L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) 尤度は確率ではありません。 尤度は確率分布ではありません。 尤度は確率質量ではありません。 ただし、英語では、尤度は「であり、パラメーター化された確率分布の積(連続的な場合)、または確率質量の積(離散的な場合)。 " 数学、我々は、次に、そのように書く:(連続ケース、はPDF)、および(離散ケース、は確率質量)。ここで重要なことは、ここではまったくX=xX=x\mathbf{X} …

3
Rのピアソン相関のp値を見つける
Rのピアソン相関のp値を見つけることは可能ですか? ピアソン相関を見つけるために、私は通常これを行います col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 しかし、どのようにしてこのp値を見つけることができますか?

3
サンプルサイズが大きいと、ベイジアン事前分布は無関係になりますか?
ベイジアン推論を実行する場合、パラメーターについて持っている事前確率と組み合わせて尤度関数を最大化することにより動作します。対数尤度がより便利であるため、MCMCを使用して、または事後分布を生成する(PDFを使用してを効果的に最大化し各パラメーターの事前確率と各データポイントの尤度)。∑ln(prior)+∑ln(likelihood)∑ln⁡(prior)+∑ln⁡(likelihood)\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) 大量のデータがある場合、そこから得られる可能性は、単純な数学によって、以前のデータが提供する情報を圧倒します。最終的に、これは設計上適切です。事後は、想定されているため、より多くのデータで尤度に収束することがわかっています。 共役事前分布によって定義された問題の場合、これは正確に証明できます。 与えられた尤度関数とサンプルサイズに対して事前分布が重要でない場合を決定する方法はありますか?
26 bayesian  prior 

5
線形回帰は正規分布をどのように使用しますか?
線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。 しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?

4
なぜ誰もが回帰にKNNを使用するのでしょうか?
私が理解していることから、訓練データの間隔内にある回帰関数のみを構築できます。 例(パネルの1つだけが必要です): KNNリグレッサーを使用して将来をどのように予測しますか?繰り返しますが、トレーニングデータの間隔内にある関数のみを近似しているようです。 私の質問:KNNリグレッサーを使用する利点は何ですか?私はそれが分類のための非常に強力なツールであることを理解していますが、回帰シナリオではパフォーマンスが悪いようです。

4
標準偏差の背後にある直感
私は標準偏差のより直感的な理解を得ようとしています。 私が理解していることから、それはそのデータセットの平均からのデータセットの一連の観測値の差の平均を表している。ただし、実際には、平均値から離れた観測値により大きな重みを与えるため、差の平均と等しくなりません。 Iは、値の次の集合を持っていると言う- {1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\} 平均はです。555 絶対値に基づいてスプレッドを測定すると、 ∑5i=1|xi−μ|5=2.4∑i=15|xi−μ|5=2.4\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4 標準偏差を使用してスプレッドの測定を行うと、 ∑5i=1(xi−μ)25−−−−−−−−−−−−√=2.83∑i=15(xi−μ)25=2.83\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83 標準偏差を使用した結果は、平均から離れた値に余分な重みが与えられるため、予想どおり大きくなります。 しかし、私はちょうど私が、平均して人口を扱ったことが言われた場合はとの標準偏差2.83私が推測するだろう人口のような値が何かで構成されたことをどのように{ 1 、3 、5 、7 、9 }?2.83の数字は非常にarbitrary 意的であるように思えます...あなたがそれをどのように解釈すべきかわかりません。2.83は、値が非常に広い範囲に広がっていることを意味しますか?5552.832.832.83{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\}2.832.832.832.832.832.83 平均がで標準偏差が2.83の母集団を扱っているというステートメントが表示されたら、母集団について何がわかりますか?5552.832.832.83

3
Lassoで特定された変数のサブセットでOLS推定よりもLasso推定を使用する理由
なげなわ回帰、最適なソリューション(最小テストエラーなど)でk個の特徴が選択され、その結果、帽子{\ベータ} \ \帽子{\ベータ} ^ {投げ縄} = \左(\ハット{\ベータ} _1 ^ {投げ縄} \帽子{\ベータ} _2 ^ {投げ縄}、... _k ^ {lasso}、0、... 0 \ right)。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我々はそれを知っている(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)です\ left(\ beta_1、\ beta_2、...、\ beta_k \ right)の偏った推定値な(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right)ので、なぜ「合理的」ではなくβ^lassoβ^lasso\hat{\beta}^{lasso}を最終解として採用するのですか?β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right)、ここでβ^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}は、部分モデルLnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。(X1:kX1:kX_{1:k}は、選択されたk個のフィーチャに対応するXの列を示します)。XXXkkk 手短に言えば、変数選択だけでなく、選択した特徴の推定をOLSに任せるのではなく、特徴選択とパラメーター推定の両方にLassoを使用するのはなぜですか? (また、「Lassoは最大でnnn機能を選択できる」とはどういう意味ですか?nnnはサンプルサイズです。)


7
さまざまなソースからの確率/情報の組み合わせ
3つの独立したソースがあり、それぞれが明日の天気を予測するとします。最初の人は明日の雨の確率が0であると言い、2番目の人は確率が1であると言い、最後の人は確率が50%であると言います。その情報が与えられた場合の合計確率を知りたいです。 独立したイベントに乗算定理を適用すると、0になりますが、これは正しくないようです。すべてのソースが独立している場合、3つすべてを乗算できないのはなぜですか?新しい情報が得られたときに事前を更新するベイジアンの方法はありますか? 注:これは宿題ではなく、私が考えていたものです。

2
モデルをlmerで正しく指定しましたか?
私は多くのヘルプサイトを精査しましたが、混合モデルでより複雑なネストされた用語を指定する方法についても混乱しています。私もの使用など混乱しています:と/と|使用してランダムな因子と相互作用し、ネストを指定する際lmer()にlme4パッケージR。 この質問の目的のために、この標準統計モデルでデータを正確に描写したと仮定しましょう: は固定されており、Yijk=u+stationi+towj(i)+dayk+(station×day)ik+(tow×day)j(i)kYijk=u+stationi+towj(i)+dayk+(station×day)ik+(tow×day)j(i)k Y_{ijk} = u + \text{station}_i + \text{tow}_{j(i)} + \text{day}_k + (\text{station}\times \text{day})_{ik} + (\text{tow}\times\text{day})_{j(i)k} stationtowdayランダムです。 Towは(暗黙的に)内にネストされていますstation。 つまり、モデルにStation(i、fixed)、Tow(j、random、暗黙的にネストされたStation)、Day(k、random)、TowとDayの相互作用、およびDay間の相互作用が含まれることを望んでいますと駅。私は統計学者と相談してモデルを作成しましたが、現時点ではそれが私のデータの代表であると信じていますが、混乱しないように私の投稿の下部に興味がある人のために私のデータの説明も追加します。 これまでのところ、私がつなぎ合わせたのは次のとおりですlmer。 lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day), data=my.data) これは統計モデルを正確に表していますか?コードが正しく読み取れない場合のコードの改善方法に関する提案はありますか? lmer式で指定するのが難しい特定の用語を太字で示しています #1。towがランダムでステーションが固定されているときにステーション内にネストされたtowは 混乱しますが、とを使用してランダムなネスト用語と相互作用用語を区別することについては混乱し:てい/ます。上記の例では(1|station:tow)、ステーション内にネストされた読み取りトウを望んでいます。私が使用しているかどうか、私は様々なサイトにコメントを相反する読んだ:か、/ランダム以内にこちら(1|...)のフォーマットlmer。 #2。駅が固定され、日が変わるときの駅と日の相互作用はランダム ですが(1|station:day)、今回は駅と日の相互作用を読み取ることを望んでいます。station * dayを使用して、駅と曜日の個々の効果とその相互作用を説明できるようです(上記の3つの用語を個別に含めるのではなく)が、これを指定する方法がわかりません一方が固定され、もう一方がランダムな場合。でしょうかstation*(1|day)しますか? #3。牽引は(固定)駅にネストされている牽引日(両方ともランダム)の間の相互作用 次に、最後に、私が持っている(1|tow:day)、私は願っていたが、の相互作用を読み込み、towそしてday、私は牽引がネストされていることを再び指定する必要がある場合、私は思ったんだけど(暗黙的に)駅で? 私は両方に新しいですRし、lmer及び統計モデリングし、可能な場合は大幅に私の質問への応答での徹底した説明の手間を感謝しています。 データの詳細:プランクトンの濃度が近海の物理的な前線で変化するかどうかを尋ねています。この前線の内陸部、内陸部、沖合に3つのステーションがあります。したがって、ステーションは固定されています。各ステーションで、3つの複製プランクトントウを取り出します(そこから、水1立方メートルあたりのバグの数で分類、カウント、および集中度を取得します)。けん引はランダムです。3つのけん引で、その特定のステーションでのプランクトンの一般的な変動を説明したいと考えています。トウには固有のIDがないため、トウは本質的にステーションにネストされています(123,123,123は各ステーションのトウのIDです)。その後、独立した複数の日に、形成された新しい戦線でこれを行いました。私は日をブロッキング要因と考えることができると思いますか?独立した複数のフロント日でこれを繰り返すことは、日々の変動を捉え、このフロントが存在するすべての日を代表することを試みるため、日はランダムです。相互作用の用語について知り、Towsが日々変動するかどうか、またステーションが常に同様のデータを生成するのか、それとも日に依存するのかを確認したいのですが。 繰り返しますが、あなたの時間と助けに感謝します、私はそれを感謝します!

4
二項、負の二項、ポアソン回帰の違い
二項回帰、負の二項回帰、ポアソン回帰の違いに関する情報と、これらの回帰が最も適している状況を探しています。 SPSSで実行できるテストで、これらの回帰のうちどれが自分の状況に最適かを判断できますか? また、SPSSでポアソンまたは負の二項式を実行するにはどうすればよいですか?回帰部分に表示されるようなオプションはありませんか? 役に立つリンクがあれば、とても感謝しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.