統計とビッグデータ

3

ロジスティック回帰が二項分布を使用する方法を理解しようとしています。私は鳥の巣の成功を研究しているとしましょう。巣が成功する確率は0.6です。二項分布を使用して、n回の試行（学習した巣の数）が与えられた場合のr成功の確率を計算できます。しかし、モデリングの文脈で二項分布はどのように使用されますか？平均気温が巣の成功にどのように影響するかを知りたいとし、ロジスティック回帰を使用してこの質問を調べます。説明したコンテキスト内で、ロジスティック回帰はどのように二項分布を使用しますか？私は直感的な答え、したがって方程式のない答えを探しています！方程式は、直感的なレベルで理解が得られた場合にのみ役立つと思います。

19 logistic binomial

4

なぜ疑似ラベル付けを使用すると、結果に大きな影響があるのですか？

私は半教師あり学習方法を調査しており、「疑似ラベル付け」の概念に出くわしました。私が理解しているように、疑似ラベル付けでは、ラベル付けされたデータのセットとラベル付けされていないデータのセットがあります。最初に、ラベル付きデータのみでモデルをトレーニングします。次に、その初期データを使用して、ラベルなしデータを分類（仮ラベルを添付）します。次に、ラベル付きデータとラベルなしデータの両方をモデルのトレーニングにフィードバックし、既知のラベルと予測されたラベルの両方に（再）適合させます。（このプロセスを繰り返し、更新されたモデルでラベルを付け直します。）主張されている利点は、ラベルなしデータの構造に関する情報を使用してモデルを改善できることです。次の図のバリエーションがよく示され、プロセスが（ラベルなし）データの場所に基づいてより複雑な決定境界を作成できることを「示しています」。 Techerin CC BY-SA 3.0によるWikimedia Commonsからの画像しかし、私はその単純な説明を完全には購入していません。単純に、元のラベル付きのみのトレーニング結果が決定境界の上限である場合、疑似ラベルはその決定境界に基づいて割り当てられます。つまり、上の曲線の左手は白の疑似ラベルが付けられ、下の曲線の右手は黒の疑似ラベルが付けられます。新しい疑似ラベルは単に現在の決定境界を強化するだけなので、再トレーニング後は曲線の決定境界が得られません。別の言い方をすれば、現在のラベル付きのみの決定境界は、ラベルなしデータに対して完全な予測精度を持ちます（それを作成するために使用していたため）。疑似ラベル付きデータを追加するだけで、その決定境界の位置を変更する原因となる原動力（勾配）はありません。図で具体化された説明が不足していると私は思うのですか？それとも私が見逃しているものはありますか？ない場合は、何である擬似ラベルの利点は、擬似ラベルの上に完璧な精度を持って事前に再訓練決定境界与えられ、？

19 machine-learning semi-supervised

3

回帰のランダムフォレストは「真の」回帰ですか？

回帰にはランダムフォレストが使用されます。しかし、私が理解していることから、彼らは各葉に平均目標値を割り当てています。各ツリーのリーフは限られているため、回帰モデルからターゲットが達成できる特定の値のみがあります。したがって、それは単なる「離散」回帰（ステップ関数のような）ではなく、「連続」な線形回帰ではないのでしょうか？これを正しく理解していますか？はいの場合、ランダムフォレストは回帰においてどのような利点を提供しますか？

18 regression random-forest cart

1

オーバーフィッティングの数学的/アルゴリズム的定義

オーバーフィッティングの数学的またはアルゴリズム的な定義はありますか？多くの場合、定義は、ポイントが1つ1つのポイントを通過し、検証損失曲線が突然上昇する、ポイントの古典的な2次元プロットです。しかし、数学的に厳密な定義はありますか？

18 mathematical-statistics optimization overfitting

3

MCMCにはメモリがありませんか？

フランスのウィキペディアのページから、マルコフ連鎖モンテカルロ（MCMC）が何であるかを理解しようとしています。彼らは、「マルコフ連鎖モンテカルロ法は、ベクトルデータからのみベクトルを生成することで構成されるため、「メモリなし」のプロセスであると言います。バツ私バツ私x_ {i}バツi − 1バツ私−1x_ {i-1} マルコフのシャトーヌ・ド・モンテカルロ・レ・メトデスは、ベクトル一貫性とベクトルユニークさを兼ね備えています。c'est donc un processus«sansmémoire»、バツ私バツ私x_{i}バツi − 1バツ私−1x_{{i-1}} ベクトルデータからの情報を使用してを生成する限り、MCMCが「メモリなし」であると言う理由がわかりません。バツi − 1バツ私−1x_ {i-1}バツ私バツ私x_i

18 mcmc

1

「バイアス」という言葉は、を意味するように造られたのはいつですか？

「バイアス」という言葉は、を意味するように造られたのはいつですか？E [ θ^- θ ]E[θ^−θ]\mathbb{E}[\hat{\theta}-\theta] 私が今このことを考えている理由は、ジェーンズの確率論のテキストで、この式を説明するのに使用される「バイアス」という言葉の使用を批判し、代替案を示唆しているようだからです。 Jaynesの確率理論、セクション17.2「不偏推定量：」正統派の人々がなぜそのような誇張を強調しているのでしょうか？私たちは、主な理由は、彼らが自分自身の精神心理学的なtrapに捕らえられているからだと考えています。量「バイアス」と呼ぶと、ひどく非難できる何かのように聞こえますが、それは何としても取り除く必要があります。（17.2）のピタゴラス形式で示唆されているように、代わりに「分散に直交する誤差の成分」と呼ばれていれば、誤差に対するこれら2つの寄与は等しい立場にあることが明らかでした。他方を増やすことを犠牲にして一方を減らすことは愚かです。これは、感情的な負荷を伴う技術用語を選択するために支払う価格であり、価値判断を意味します。正統性は常にこの戦術的な誤りに陥ります。（⟨ β⟩ − α ）(⟨β⟩−α)(\langle\beta\rangle-\alpha)

18 terminology bias history

2

バイナリの結果と予測子でロジスティック回帰を使用するのは理にかなっていますか？

バイナリの結果変数{0,1}と予測変数{0,1}があります。私の考えでは、他の変数を含めてオッズ比を計算しない限り、ロジスティックを行うのは理にかなっていません。 1つのバイナリ予測子では、確率の計算はオッズ比に対して十分ではないでしょうか？

18 r regression probability logistic odds-ratio

4

標準偏差が無限大になると、正規分布は均一な分布に収束しますか？

標準偏差が際限なく大きくなる場合、正規分布は特定の分布に収束しますか？PDF開始は、によって与えられた境界を持つ一様分布のように見えるように私には見える[−2σ,2σ][−2σ,2σ][-2 \sigma, 2 \sigma]。これは本当ですか？

18 normal-distribution convergence

3

統計的に有意になるようにデータをシミュレートする方法は？

私は10年生で、機械学習サイエンスフェアプロジェクトのデータをシミュレートしたいと考えています。最終モデルは患者データで使用され、特定の時間帯と、これが単一患者のデータ内の服薬遵守に与える影響との相関関係を予測します。順守値はバイナリになります（0は薬を服用しなかったことを意味し、1は服用したことを意味します）。私は、週の時間の関係から学習できる機械学習モデルを作成し、週を21の時間帯に分けています。1時間ごとに3つ（1は月曜日の朝、2は月曜日の午後、等。）。1,000人の患者に相当するデータをシミュレートしたいと考えています。各患者には30週間分のデータがあります。週の時間とアドヒアランスに関連する特定のトレンドを挿入したいと思います。例えば、あるデータセットでは、週の時間帯7は順守と統計的に有意な関係があると言えます。関係が統計的に有意であるかどうかを判断するには、1つのタイムスロットを他のタイムスロットと比較する2サンプルt検定を実行し、有意値が0.05未満であることを確認する必要があります。ただし、自分のデータをシミュレートして挿入した傾向が重要かどうかを確認するのではなく、逆方向に作業して、特定のタイムスロットに重要な傾向を順守して割り当てることができるプログラムを使用すると、戻りますその中に私が求めたトレンドを含むバイナリデータ、およびノイズを含むが統計的に有意なトレンドを生成しない他のタイムスロットのバイナリデータ。このようなことを達成するのに役立つプログラムはありますか？それとも、Pythonモジュールですか？どんな助けでも（私のプロジェクトに関する一般的なコメントでさえ）非常に感謝されます！

18 machine-learning statistical-significance t-test python simulation

3

事後確率は1を超えることができますか？

ベイズの公式では： P(x|a)=P(a|x)P(x)P(a)P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} 事後確率 1を超えることができますか？P(x|a)P(x|a)P(x|a) たとえば、で、で、と仮定すると可能だと思います。しかし、私はこれについて確信がありません。なぜなら、確率が1よりも大きいとはどういう意味でしょうか？0<P(a)<10<P(a)<10 < P(a) < 1P(a)<P(x)<1P(a)<P(x)<1P(a) < P(x) < 1P(a)/P(x)<P(a|x)<1P(a)/P(x)<P(a|x)<1P(a)/P(x) < P(a|x) < 1

18 probability bayesian conditional-probability

2

LASSOには、段階的回帰と同じ問題がありますか？

段階的アルゴリズムの変数選択方法は、回帰モデルのすべての推定値（およびそのSE、p値、F統計量など）に多かれ少なかれバイアスをかけるモデルを選択する傾向があり、ほぼ真の予測子を除外する可能性が高い適度に成熟したシミュレーション文献によると、誤った予測変数を含めます。ββ\beta LASSOは、変数を選択するために使用される場合、同じ特定の方法で影響を受けますか？

18 regression feature-selection lasso regression-strategies stepwise-regression

2

たたみ込みニューラルネットワークで最大プーリングが必要なのはなぜですか？

最も一般的な畳み込みニューラルネットワークには、出力フィーチャの次元を削減するプーリングレイヤーが含まれています。畳み込み層のストライドを単純に増やすだけで同じことを達成できないのはなぜですか？プール層が必要な理由は何ですか？

18 deep-learning conv-neural-network pooling

11

行列の「列数」の用語

行列の「列数」を示す単一の英語の単語はありますか？たとえば、行列の「次元」はです。この例では用語が必要です。もちろん、「列の数」と言うことはいつでもできますが、一言でもいいですか。2 × 32×32\times 32 × 32×32\times 3333

18 terminology matrix

7

機械学習のバイアスデータ

私は、既にデータ選択によって（かなり）偏っているデータを使用した機械学習プロジェクトに取り組んでいます。ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか？物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。今、あなたが持っている唯一の（ラベル付けされた）データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか（明らかに）を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか？この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf（x）の値を推定したいと思います。

18 machine-learning classification data-mining bias extrapolation

1

t検定とANOVAが2つのグループの比較で異なるp値を与えるのはなぜですか？

ANOVAに関するウィキペディアの記事では、最も単純な形式では、ANOVAはいくつかのグループの平均が等しいかどうかの統計的検定を提供するため、t検定を3つ以上のグループに一般化します。これについての私の理解は、ANOVAは2グループ比較に関してt検定と同じであるということです。ただし、以下の私の簡単な例（R）では、ANOVAとt検定は似ていますが、わずかに異なるp値を与えます。誰でもその理由を説明できますか？ x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(>F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(>F)`[1] # 0.8190279

18 r hypothesis-testing anova t-test