統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

10
難しい統計概念について、あなたのお気に入りの素人の説明は何ですか?
複雑な問題の簡単な説明を聞くのは本当に楽しいです。難しい統計概念を説明するお気に入りのアナロジーや逸話は何ですか? 私のお気に入りは、酔っぱらいと彼女の犬を使用した共和分についてのマレーの説明です。マレーは、2つのランダムプロセス(さまよえる酔っ払いと彼女の犬、オリバー)がどのように単位根を持つことができるかを説明します。 酔っぱらいはバーから出発し、ランダムウォーク形式であてもなくさまよう。しかし、彼女は定期的に「オリバー、どこにいるの?」と口調を変え、オリバーは彼の目的のない樹皮へのさまようことを中断します。彼は彼女を聞いた。彼女は彼の声を聞きます。彼は、「ああ、私は彼女をあまりにも遠くに行かせることはできません。彼女は私を締め出すでしょう。「ああ、私は彼にあまりにも遠くまで行かせることはできない。彼は夜中に彼のbarえ声で私を起こすだろう」と彼女は考えます。それぞれが、相手がどれだけ離れているかを評価し、そのギャップを部分的に閉じるように動きます。

2
glmnetの解釈方法は?
約60の予測変数と30の観測値を持つ多変量線形回帰モデルを近似しようとしています。そのため、p> nであるため、正規化回帰にglmnetパッケージを使用しています。 私はドキュメントや他の質問を行ってきましたが、結果を解釈することはまだできません。サンプルコード(簡単にするために20の予測子と10の観測値を使用)を次に示します。 num rows = numの観測値とnum cols = numの予測子、および応答変数を表すベクトルyを含む行列xを作成します > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) アルファをデフォルトのままにしてglmnetモデルに適合します(投げ縄ペナルティの場合= 1) > fit1=glmnet(x,y) > print(fit1) ラムダの値が減少すると異なる予測が得られることを理解しています(つまり、ペナルティ) Call: glmnet(x = x, y = y) Df %Dev Lambda [1,] 0 0.00000 0.890700 [2,] 1 0.06159 0.850200 [3,] 1 0.11770 0.811500 [4,] 1 0.16880 0.774600 . . . …


3
Tufteスタイルの視覚化をサポートする実験的証拠?
Q:ナイジェル・ホームズなどのチャートジャンク化された視覚化に対して、Tufteスタイルのミニマリストのデータを話す視覚化をサポートする実験的証拠はありますか? ここでRプロットにチャートジャンクを追加する方法を尋ねると、レスポンダーは私に大量のスナークを投げ返しました。したがって、確かにいくつかの実験的証拠がなければならないが、私はそれらの反チャートジャンクポジションをサポートする私にはよくわからない---「Tufteがそう言った」よりも多くの証拠。右? そのような証拠が存在する場合、人間、彼らの記憶の想起、およびパターンの識別に関して私たちが持っている多くの心理学的研究と矛盾します。だから、私はそれについて読むことを確かに楽しみにしています。 ちょっとした逸話:会議で、私はエドワード・タフテに、ジャンクアニメーションとビデオが人間の理解と記憶想起を改善するという実験的証拠をどのように見ているかを尋ねました[ 脳のルールで引用された研究を参照]。彼の応答:「彼らを信じないでください。」科学的方法はこれで終わりです! PSもちろん、私はここで少し人を必要としている。私はタフテの本をすべて所有しており、彼の作品は素晴らしいと思います。私は彼の支持者が彼の議論のいくつかを売り過ぎたと思う。 注:これは、StackOverflowで私が尋ねた質問の再投稿です。プログラミング固有ではないため、モデレーターはそれを閉じました。CrossValidatedはより良い家かもしれません。 更新:私の元の質問のコメントセクションに、いくつかの便利なリンクがあります。つまり、Chambers、Cleveland、およびStanfordのdatavisグループの仕事です。 更新:この質問は、同様の主題を扱っています。

4
従来のプログラミング言語を使用して、既知の平均と分散を持つ正規分布からサンプリングする方法は?
統計学のコースを受講したことがないので、ここで適切な場所で質問することを望みます。 正規分布を記述する2つのデータ、平均および分散ます。コンピューターを使用して、この2つの統計を尊重するように、この分布からランダムにサンプリングします。σ 2μμ\muσ2σ2\sigma^2 サンプルを出力する前に各サンプルにを追加するだけで、0付近で単純に正規化することで平均を処理できることは明らかです。しかし、を尊重するようにプログラムでサンプルを生成する方法がわかりません。σ 2μμ\muσ2σ2\sigma^2 私のプログラムは、従来のプログラミング言語になります。統計パッケージにアクセスできません。

4
インストルメンタル変数とは何ですか?
インストルメンタル変数は、応用経済学と統計学でますます一般的になっています。未経験者のために、以下の質問に対する技術的ではない回答がありますか? インストルメンタル変数とは何ですか? いつインストルメンタル変数を使用したいですか? インストルメンタル変数をどのように見つけ、選択しますか?

6
文字列の2つのベクトルを(Rで)準一致させる方法は?
私はこれがどのように呼ばれるべきかわからないので、より良い用語を知っているなら私を修正してください。 2つのリストがあります。55個のアイテムの1つ(例:文字列のベクトル)、92個のアイテム。アイテム名は似ていますが、同一ではありません。 55リストの項目から92リストの最適な候補を見つけたい(それからそれを調べて正しいフィッティングを選択する)。 どうすればできますか? 私が持っていたアイデア: 一致するものをすべて表示します(何かのリスト?matchを使用) 文字列ベクトル間の距離行列を試してみてください。しかし、それをどのように定義するのが最適かわかりません(同一の文字の数、文字列の順序はどうですか?) では、そのようなタスクを処理するパッケージ/機能/研究分野は何ですか? 更新:一致させたいベクターの例を次に示します vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", "Hyperthermus_butylicus", "Ignicoccus_hospitalis_KIN4", "Metallosphaera_sedula_DSM_5348", "Methanobacterium thermautotrophicus", "Methanobrevibacter_smithii_ATCC_35061", "Methanococcoides_burtonii_DSM_6242" ) vec91 <- c("Acidilobus saccharovorans 345-15", "Aciduliprofundum boonei T469", "Aeropyrum pernix K1", "Archaeoglobus fulgidus DSM …
36 r  text-mining 



3
機械学習:バイナリ予測にカテゴリクロスエントロピーまたはバイナリクロスエントロピー損失を使用する必要がありますか?
まず、バイナリ予測を実行する必要がある場合、ワンホットエンコーディングを実行して少なくとも2つのクラスを作成する必要があることに気付きました。これは正しいです?ただし、バイナリクロスエントロピーは、クラスが1つだけの予測に対してのみですか?ほとんどのライブラリ(TensorFlowなど)で通常見られるカテゴリクロスエントロピー損失を使用する場合、大きな違いはありますか? 実際、カテゴリクロスエントロピーとバイナリクロスエントロピーの正確な違いは何ですか?TensorFlowでバイナリクロスエントロピーの実装を見たことがないので、おそらくカテゴリー的なものも同じように機能すると思いました。

5
ニューラルネットワークのコスト関数は非凸ですか?
ニューラルネットワークのコスト関数はJ(W,b)J(W,b)J(W,b)であり、非凸であると主張されています。私はそれがロジスティック回帰のコスト関数に非常に似ているとわかるので、なぜそうなのか理解していませんか? それは非凸である場合は、2次微分よう∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0、右? 更新 以下の回答と@gungのコメントのおかげで、隠されたレイヤーがまったくない場合、ロジスティック回帰のように凸面になっています。しかし、隠れ層がある場合、隠れ層のノードと後続の接続の重みを並べ替えることにより、同じ損失につながる重みの複数のソリューションを得ることができます。 さらに質問があります 1)複数の極小値があり、それらのいくつかは同じ値である必要があります。それらはいくつかのノードと重みの順列に対応しているからですよね? 2)ノードとウェイトがまったく並べ替えられない場合、凸型ですよね?そして、最小値はグローバル最小値になります。もしそうなら、1)への答えは、それらの局所的最小値はすべて同じ値になるでしょう、正しいですか?



1
変分推論とMCMC:どちらを選択するか
Gibbsサンプリング、Metropolis HastingsなどのMCMCのさまざまなフレーバーを含め、VIとMCMCの両方の一般的なアイデアが得られたと思います。このペーパーでは、両方の方法のすばらしい説明を提供します。 次の質問があります。 ベイジアン推論を行いたい場合、なぜ一方の方法をもう一方より選択するのですか? 各方法の長所と短所は何ですか? これはかなり広範な質問であることを理解していますが、洞察をいただければ幸いです。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.