統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
打ち切りと切り捨ての違いは何ですか?
生涯データの統計モデルと方法の本には、次のように書かれています。 打ち切り:何らかのランダムな原因により観測が不完全な場合。 切り捨て:観察の不完全な性質が、研究デザインに固有の体系的な選択プロセスに起因する場合。 切り捨ての定義における「研究デザインに固有の体系的な選択プロセス」とはどういう意味ですか? 打ち切りと切り捨ての違いは何ですか?


2
L1の正則化はL2よりもうまく機能しますか?
注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。 使用する正則化(L1またはL2)の決定方法 L1 / L2正則化のそれぞれの長所と短所は何ですか? 最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?

2
教師あり学習、教師なし学習、強化学習:ワークフローの基本
教師あり学習 1)人間が入力データと出力データに基づいて分類器を構築する 2)その分類器はデータのトレーニングセットでトレーニングされます 3)その分類器はデータのテストセットでテストされます 4)出力が満足できる場合の展開 「このデータを分類する方法を知っているので、ソートするためにあなた(分類器)が必要なだけ」の場合に使用します。 メソッドのポイント:ラベルをクラス分けするか、実数を生成する 教師なし学習 1)人間は入力データに基づいてアルゴリズムを構築します 2)そのアルゴリズムは、データのテストセット(アルゴリズムが分類子を作成する)でテストされます。 3)分類子が満足できる場合の展開 「このデータを分類する方法がわからない場合、アルゴリズムを使用して分類子を作成できますか?」 方法のポイント:ラベルを分類する、または予測する(PDF) 強化学習 1)人間は入力データに基づいてアルゴリズムを構築します 2)そのアルゴリズムは、ユーザーがアルゴリズムが行ったアクションを介してアルゴリズムに報酬を与えるか罰する入力データに依存する状態を提示します。これは時間とともに継続します 3)そのアルゴリズムは報酬/罰から学び、それ自体を更新します、これは続きます 4)常に本番環境にあり、州からのアクションを提示できるように実際のデータを学習する必要があります 「このデータを分類する方法がわかりません。このデータを分類してもらえますか。それが正しい場合は報酬を、そうでない場合は罰します。」 これはこれらのプラクティスの種類の流れですか、彼らが何をするかについて多くを聞きますが、実用的で模範的な情報は驚くほど少ないです!

2
歪んだ分布の平均に対して信頼できるノンパラメトリックな信頼区間はありますか?
対数正規分布などの非常に歪んだ分布では、正確なブートストラップ信頼区間が得られません。これは、Rでどのブートストラップ方法を試しても、左右のテール領域が理想的な0.025から遠く離れていることを示す例です。 require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

4
mean = modeは対称分布を意味しますか?
mean = medianの場合にこの質問が行われたことは知っていますが、mean = modeに関連するものは見つかりませんでした。 モードが平均に等しい場合、これは常に対称分布であると結論付けることができますか?この方法の中央値も知る必要がありますか?

7
推論対推定?
機械学習のコンテキストでの「推論」と「推定」の違いは何ですか? 初心者として、私はランダム変数を推測し、モデルのパラメーターを推定すると感じています。私のこの理解は正しいですか? そうでない場合、違いは正確に何であり、どれをいつ使用する必要がありますか? また、「学習」の同義語はどれですか?

2
通常のエラーの代わりにtエラーを使用する必要があるのはなぜですか?
で、このアンドリュー・ゲルマンによって、ブログの記事、次の一節があります: 50年前のベイジアンモデルは絶望的に単純に見えます(もちろん、単純な問題を除いて)。そして、今日のベイジアンモデルは50年後には絶望的に単純に見えると思います。(簡単な例として:ほぼどこでも通常のエラーの代わりに日常的にtを使用する必要がありますが、馴染み、習慣、数学的利便性のため、まだ使用していません。政治では、保守主義には賛成で多くの良い議論がありますが、最終的には、より複雑なモデルに慣れると、その方向に進むと思います。) なぜ「ほぼどこでも通常のエラーの代わりに通常tを使用する」必要があるのでしょうか?


3
潜在クラス分析とクラスター分析-推論の違い?
潜在クラス分析(LCA)とクラスター分析から作成できる推論の違いは何ですか?クラスター分析はクラスター化アルゴリズムからの相関属性の経験的記述であるのに対し、LCAはクラスを生じさせる潜在的な潜在変数を想定しているのは正しいですか?社会科学では、LCAが人気を得ており、クラスター分析では得られない正式なカイ2乗有意性検定があるため、方法論的に優れていると考えられます。 「LCAはこれに適していますが(クラスター分析ではありません)、クラスター分析はこれに適しています(ただし、潜在クラス分析ではありません)」の形式で例を提供できれば素晴らしいと思います。 ありがとう!ブライアン

6
「相関関係が因果関係を意味しない」場合、統計的に有意な相関関係が見つかった場合、どのようにして因果関係を証明できますか?
相関関係は因果関係ではないことを理解しています。2つの変数間に高い相関関係があると仮定します。この相関関係が実際に原因であるかどうかをどのように確認しますか?または、どのような条件下で、正確に、実験データを使用して2つ以上の変数間の因果関係を推測できますか?

2
FIFAパニーニアルバムを完成させるには、何枚のステッカーが必要ですか?
FIFA Panini Online Sticker Albumをプレイしています。これは、サッカーワールドカップ、欧州選手権、およびその他のトーナメント向けに通常公開されている古典的なPaniniアルバムをインターネットで採用したものです。 アルバムには、424種類のステッカーのプレースホルダーがあります。ゲームの目的は424個すべてを集めることです。ステッカーは5パック入りで、オンラインで見つけたコードから入手できます(または、古典的な印刷アルバムの場合は、地元の新聞売り場で購入します)。 私は次のことを仮定しています: すべてのステッカーは同じ量で発行されます。 ステッカーの1パックには重複が含まれていません。 424個のユニークステッカーがすべて揃っていることを合理的に(90%の場合)確認するために取得する必要があるステッカーのパックの数を調べるにはどうすればよいですか?

2
畳み込みニューラルネットワーク:中央ニューロンは出力で過剰に表現されていませんか?
[この質問はスタックオーバーフローでも発生しました] 要するに質問 私は畳み込みニューラルネットワークを研究していますが、これらのネットワークはすべての入力ニューロン(ピクセル/パラメーター)を同等に処理するとは限りません。入力画像に畳み込みを適用する深いネットワーク(多くのレイヤー)があるとします。画像の「中間」にあるニューロンには、多くのより深い層のニューロンへの多くのユニークな経路があります。つまり、中間のニューロンの小さな変動が出力に強い影響を与えます。しかしながら、画像のエッジでのニューロンしか持た(の順序または、正確な実装に応じて、方法1それらの情報はグラフを通って流れる経路)。これらは「過少表示」されているようです。111111 エッジニューロンのこの区別は、ネットワークの深さ(層の数)に応じて指数関数的にスケーリングするため、私はこれを心配しています。最大プーリング層を追加しても指数関数的な増加は止まりません。完全な接続のみがすべてのニューロンを同じ足場にします。しかし、私は自分の推論が正しいと確信していないので、私の質問は次のとおりです。 この効果が深い畳み込みネットワークで発生するのは正しいですか? これについて何か理論はありますか、それは文献で言及されたことがありますか? この影響を克服する方法はありますか? これで十分な情報が得られるかどうかわからないので、問題の説明と、これが懸念事項であると考える理由についてもう少し詳しく説明します。 より詳細な説明 入力として画像を受け取るディープニューラルネットワークがあるとします。画像にピクセルの畳み込みフィルターを適用し、そのたびに畳み込みウィンドウを4ピクセルずつシフトするとします。これは、入力のすべてのニューロンが、活性化をレイヤー2の16 × 16 = 265ニューロンに送信することを意味します。これらのニューロンはそれぞれ、その活性化を別の265に送信し、最上位のニューロンが265 2個の出力ニューロンで表されるようにします。64×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2 ただし、これはエッジのニューロンには当てはまりません。これらは少数の畳み込みウィンドウでのみ表される可能性があり、そのため、次のレイヤーでニューロンのみをアクティブにします。エッジに沿ってミラーリングするなどのトリックを使用しても、これは役に立ちません。投影される第2層ニューロンはまだエッジにあります。エッジニューロンも同様です)。ご覧のように、この不一致は層の数とともに指数関数的に増加します。111 問題を視覚化するために画像を作成しました。これはここにあります(投稿自体に画像を含めることはできません)。このネットワークには、サイズ畳み込みウィンドウがあります。ニューロンの隣の数字は、最深ニューロンまでの経路の数を示しています。画像はパスカルの三角形を連想させます。333 https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0 なぜこれが問題なのですか? この効果は一見問題ではないようです。原則として、ネットワークが機能するように重みを自動的に調整する必要があります。さらに、画像のエッジは、画像認識ではとにかくそれほど重要ではありません。この効果は、日常の画像認識テストでは目立たないかもしれませんが、次の2つの理由で依然として懸念されます。1。他のアプリケーションへの一般化、 2。非常に深いネットワークの場合に発生する問題。 1.音声認識や音声認識など、真ん中のニューロンが最も重要であるとは言えない他のアプリケーションがあるかもしれません。畳み込みの適用はこの分野でよく行われますが、私が関心を持っている効果について言及している論文を見つけることができませんでした。 2.非常に深いネットワークが気づく指数関数的に中枢ニューロンは、大きさの複数の順序によって過剰に存在することができることを意味する境界ニューロンの識別、の悪い効果を(我々は想像の層を、上記の例では、与えること265の10の方法中枢ニューロンを情報を投影できます)。レイヤーの数を増やすと、重みがこの効果を適切に補正できない限界に到達することになります。1010102651026510265^{10} ここで、すべてのニューロンをわずかに摂動させたとします。中央ニューロンは、エッジニューロンと比較して、出力を数桁大きく変化させます。一般的なアプリケーションや、非常に深いネットワークの場合、問題の回避方法を見つける必要があると思いますか?

2
準二項分布とは何ですか(GLMのコンテキストで)?
準二項分布とは何か、それが何をするのか、直感的な概要を誰かが提供できることを望んでいます。私は特にこれらの点に興味があります: 準二項分布が二項分布とどのように異なるか。 応答変数がプロポーションの場合(例の値には0.23、0.11、0.78、0.98が含まれます)、準二項モデルはRで実行されますが、二項モデルは実行されません。 TRUE / FALSE応答変数が過度に分散しているときに準二項モデルを使用する理由。

9
なぜベクトル誤差補正モデルを使用するのですか?
Vector Error Correction Model(VECM)について混乱しています。 技術的背景: VECMは、統合された多変量時系列にベクトル自己回帰モデル(VAR)を適用する可能性を提供します。教科書では、VARを統合時系列に適用する際にいくつかの問題を挙げていますが、その中で最も重要なのは、いわゆるスプリアス回帰です(t統計は非常に重要であり、変数間に関係はありませんがR ^ 2が高い)。 VECMを推定するプロセスは、おおよそ次の3つのステップで構成されていますが、混乱を招く1つは最初のステップです。 統合された多変量時系列のVARモデルの仕様と推定 尤度比検定を計算して、共和分関係の数を決定します 共和分数を決定した後、VECMを推定します 最初のステップでは、適切な数のラグを使用してVARモデルを推定し(通常の適合度基準を使用)、残差がモデルの仮定に対応しているかどうか、つまり、シリアル相関と不均一分散がなく、残差が正規分布していることを確認します。そのため、VARモデルが多変量時系列を適切に記述しているかどうかを確認し、記述している場合にのみ次のステップに進みます。 そして今私の質問に:VARモデルがデータをうまく記述しているのなら、なぜVECMが必要なのですか?私の目標が予測を生成することである場合、VARを推定して仮定をチェックするだけでは十分ではありませんか?また、それらが満たされている場合は、このモデルを使用しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.