統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

6
主成分分析は、連続変数とカテゴリー変数が混在するデータセットに適用できますか?
連続データとカテゴリデータの両方を含むデータセットがあります。PCAを使用して分析していますが、分析の一部としてカテゴリ変数を含めることは問題ないでしょうか。私の理解では、PCAは連続変数にのみ適用できるということです。あれは正しいですか?カテゴリデータに使用できない場合、分析にはどのような選択肢がありますか?

5
ニューラルネットワークが学習しない場合はどうすればよいですか?
ニューラルネットワークをトレーニングしていますが、トレーニングの損失は減りません。どうすれば修正できますか? 過剰適合や正則化については質問していません。ネットワークのパフォーマンスがトレーニングセットで改善されない問題を解決する方法について質問しています。 この質問は意図的に一般的なものであるため、ニューラルネットワークのトレーニング方法に関する他の質問は、この質問の複製として閉じることができます。釣りをする人、あなたは彼の人生の残りの間彼を養うことができる 議論については、このメタスレッドを参照してください。「私のニューラルネットワークが機能しないので、修正してください」という質問に答える最良の方法は何ですか? ニューラルネットワークが一般化されていない場合は、次を参照してください:ニューラルネットワークが一般化されていない場合はどうすればよいですか?

7
中心極限定理にはどのような直感的な説明がありますか?
いくつかの異なるコンテキストで、中央限界定理を呼び出して、採用したい統計的方法を正当化します(たとえば、二項分布を正規分布で近似します)。私は定理が真である理由に関する技術的な詳細を理解していますが、中央極限定理の背後にある直感を本当に理解していないことに気づきました。 それでは、中心極限定理の背後にある直観は何ですか? レイマンの説明が理想的です。技術的な詳細が必要な場合は、pdf、cdf、ランダム変数などの概念を理解しているが、収束の概念、特性関数、または測定理論に関係する知識はないと仮定してください。


6
ディープニューラルネットワークのシグモイド関数に対するReLUの利点は何ですか?
最先端の非線形性は、ディープニューラルネットワークでシグモイド関数の代わりに整流線形ユニット(ReLU)を使用することです。利点は何ですか? ReLUが使用されているときにネットワークをトレーニングする方が速くなることを知っています。それはより生物学的なインスピレーションです。他の利点は何ですか?(つまり、シグモイドを使用することの欠点)?

5
「他の変数をどのように」制御するのでしょうか?
この質問の動機付けになった記事は次のとおりです。 私はこの記事が好きで、問題の2つの変数間の真の関係を最もよく分離するために、「他の変数の制御」(IQ、キャリア、収入、年齢など)の概念をうまく示しています。 典型的なデータセットの変数を実際にどのように制御するか説明していただけますか? たとえば、同じ焦りとBMIを持ち、収入が異なる2人の場合、これらのデータをどのように扱いますか?それらを、同様の収入、忍耐、BMIを持つ異なるサブグループに分類しますか?しかし、最終的に制御する変数(IQ、キャリア、収入、年齢など)は数十個あります。これらの(潜在的に)100のサブグループをどのように集約しますか?実際、私はこのアプローチが間違ったツリーをbarえていると感じています。 ここ数年、私が最後までやりたいと思っていたことに光を当ててくれてありがとう...!

5
相互検証後の完全なデータセットでのトレーニング?
相互検証後に完全なデータセットでトレーニングすることは常に良い考えですか?別の言い方をすれば、データセット内のすべてのサンプルでトレーニングを行っても、この特定のフィッティングがオーバーフィットするかどうかを確認できないのですか? 問題の背景: 私が持っていると言うモデルの家族によってパラメータ。また、データポイントのセットがあり、データを最も一般化するモデルを選択するために、k分割交差検証を使用してモデル選択を行うとします。α⃗ α→\vec\alphaNNN モデルの選択では、たとえば、各候補に対してk分割交差検証を実行することにより、検索(たとえば、グリッド検索)を実行できます。交差検証の各フォールドで、学習モデルます。α⃗ α→\vec\alpha βαβα\beta_\alpha 交差検証のポイントは、これらの各フォールドについて、「見えないデータ」でテストすることにより、学習したモデルに過剰適合があるかどうかを確認できることです。結果に応じて、グリッド検索でのクロス検証中に最適化されたパラメーターについて学習したモデル選択できます。βbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} ここで、モデルの選択後に、データセット内のすべてのポイントを使用し、できればより良いモデルを学習したいと考えています。このために、モデル選択中に選択したモデルに対応するパラメーター使用し、完全なデータセットでトレーニングした後、新しい学習モデル取得します。問題は、トレーニングのためにデータセットのすべてのポイントを使用 する場合、この新しい学習モデル目に見えないデータにオーバーフィットするかどうかを確認できないことです。この問題を考える正しい方法は何ですか?NNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full}

14
Amazonインタビューの質問-2回目のインタビューの確率
Amazonのインタビューでこの質問を受けました。 最初のインタビューを受けるすべての人の50%が2番目のインタビューを受ける 2回目のインタビューを受けた友人の95%が、最初のインタビューが良かったと感じた 2回目のインタビューを受けなかった友人の75%が、最初のインタビューが良かったと感じた あなたが最初の面接が良かったと感じた場合、2回目の面接を受ける確率はどのくらいですか? 誰かがこれを解決する方法を説明できますか?単語の問題を数学に分解するのに苦労しています(インタビューはもう終わりです)。実際の数値的な解決策はないかもしれないと理解していますが、この問題をどのように通り抜けるかについての説明が役立つでしょう。 編集:まあ、2番目のインタビューを取得しました。誰かが興味があるなら、私は以下の回答の組み合わせである説明に行きました:情報が足りない、代表的なサンプルではない友人など、いくつかの確率を通して話をしました。しかし、すべての回答に感謝します。

8
Facebookは終了しますか?
最近、この論文は多くの注目を集めました(例えばWSJから)。基本的に、著者はFacebookが2017年までにメンバーの80%を失うと結論付けています。 彼らは、疫学でよく使用されるコンパートメントモデルであるSIRモデルの外挿に基づいて主張しています。彼らのデータは「Facebook」のGoogle検索から得られ、著者はMyspaceの終miseを利用して結論を​​検証します。 質問: 著者は「相関は因果関係を暗示するものではない」という間違いを犯していますか?このモデルとロジックはMyspaceで機能していたかもしれませんが、どのソーシャルネットワークでも有効ですか? 更新:Facebookが反撃 「相関は因果関係に等しい」という科学的原則に沿って、私たちの研究は、プリンストンが完全に消滅する危険があることを明確に示しました。 私たちは、プリンストンや世界の空気供給がすぐにどこかへ行くとは考えていません。私たちはプリンストン(と空気)が大好きです」と、「すべての研究が平等に作成されているわけではありません。また、いくつかの分析方法はかなりおかしな結論に導く」という最後のリマインダーを追加します。

4
K分割交差検定でのKの選択
いくつかの学習アルゴリズムのパフォーマンスを評価するために、倍交差検証を数回使用していますが、の値をどのように選択すべきかについては常に困惑していました。KKKKKKK 私はよく見ての値が使用されてきた、これは私には全く任意のようだ、と私は今ちょうど使用代わりにそれを超える思考の習慣で。私には、の値を改善するにつれて、より良い粒度が得られるように思えます。理想的には、非常に大きくする必要がありますが、偏るリスクもあります。10 K KK=10K=10K = 10101010KKKKKK 私は、の値が何に依存すべきか、そしてアルゴリズムを評価するときにこれについてどう考えるべきかを知りたいと思います。クロスバリデーションの階層化バージョンを使用するかどうかによって、何かが変わりますか?KKK

15
標準偏差を計算するときにで除算するための直感的な説明
あなたがで二乗誤差の合計を割り、なぜ私はクラスで今日聞かれた代わりにとの、標準偏差を計算します。n − 1n−1n-1nnn 私は、私は(私は公平な推定に行きたいしませんでしたので)クラスでそれに答えるつもりはありませんと述べたが、その後、私は疑問に思った- があり、このための直観的な説明は?

7
線形カーネルを持つSVMでのCの影響は何ですか?
現在、線形カーネルを備えたSVMを使用してデータを分類しています。トレーニングセットにエラーはありません。パラメーターいくつかの値 (10 − 5、… 、10 2)を試しました。これは、テストセットのエラーを変更しませんでした。CCC10− 5、… 、10210−5、…、10210^{-5}, \dots, 10^2 今私は疑問に思う:これは誤りであるルビーのバインディングによって引き起こされるためにlibsvm、私は(使用しているRB-LIBSVMを)か、これは理論的に説明できますか? パラメーター常に分類器のパフォーマンスを変更する必要がありますか?CCC

2
ニューラルネットワークで使用されるコスト関数のリストとアプリケーション
ニューラルネットワークのパフォーマンスの評価に使用される一般的なコスト関数は何ですか? 詳細 (この質問の残りの部分は自由にスキップしてください。ここでの私の意図は、回答が一般読者に理解しやすくするために使用できる表記法を明確にすることです) 共通のコスト関数のリストを、それらが実際に使用されているいくつかの方法と一緒に持っていると便利だと思います。だから、他の人がこれに興味があるなら、コミュニティwikiがおそらく最良のアプローチだと思うか、トピックから外れている場合は削除することができます。 表記法 まず、これらを説明するときに全員が使用する表記法を定義したいので、回答が互いにうまく適合するようにします。 この表記は、ニールセンの本からのものです。 フィードフォワードニューラルネットワークは、互いに接続されたニューロンの多くの層です。次に、入力を受け取り、その入力はネットワークを「トリクル」し、ニューラルネットワークは出力ベクトルを返します。 より正式には層のニューロンの活性化(別名出力)と呼びます。ここでは入力ベクトルの要素です。 j t h i t h a 1 j j t haijajia^i_jjthjthj^{th}ithithi^{th}a1jaj1a^1_jjthjthj^{th} 次に、次の関係を介して、次のレイヤーの入力を前のレイヤーの入力に関連付けることができます。 aij=σ(∑k(wijk⋅ai−1k)+bij)aji=σ(∑k(wjki⋅aki−1)+bji)a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j) どこ σσ\sigmaはアクティベーション関数です。 k t h(i − 1 )t h j t h i t hwijkwjkiw^i_{jk}から重量であるのニューロンにレイヤのニューロン層、kthkthk^{th}(i−1)th(i−1)th(i-1)^{th}jthjthj^{th}ithithi^{th} j t h i t …

2
どの分布がデータに最も適しているかを判断する方法は?
データセットがあり、どの分布がデータに最も適しているかを把握したいと思います。 fitdistr()関数を使用して、必要なパラメーターを推定し、想定される分布(つまり、ワイブル、コーシー、正規)を記述しました。これらのパラメーターを使用して、コルモゴロフ・スミルノフ検定を実施して、サンプルデータが想定分布と同じ分布からのものかどうかを推定できます。 p値が0.05より大きい場合、サンプルデータは同じ分布から引き出されたと仮定できます。しかし、p値は適合度に関する情報を提供しませんよね? したがって、サンプルデータのp値がワイブル分布と同様に正規分布で0.05を超える場合、どの分布がデータに適合するかをどのように知ることができますか? これは基本的に私がやったことです: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 52.45 53.13 47.92 …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.