統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

6
Softmax /クロスエントロピーによる逆伝播
私は、ソフトマックス/クロスエントロピー出力層での逆伝播の仕組みを理解しようとしています。 クロスエントロピー誤差関数は E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j とニューロンにおける目標出力としてそれぞれ。合計は、出力層の各ニューロンに対するものです。自体は、関数の結果です。tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} この場合も、合計は出力層の各ニューロンあり、はニューロンへの入力です。zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b これは、対応する出力とニューロンに対する重みにバイアス加えた、前の層のすべてのニューロンの合計です。oioio_iwijwijw_{ij}jjjbbb ここで、出力層のニューロンを前の層のニューロンに接続する重みを更新するには、チェーンルールを使用して誤差関数の偏微分を計算する必要があります。wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} ニューロンへの入力として、。zjzjz_jjjj 最後の用語は非常に簡単です。と間に重みが1つしかないため、導関数は次のようになります。iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 最初の項は、出力に関するエラー関数の導出です。ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中間項は、その入力に対する関数のが難しいことです。zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j …


2
「ビッグデータ」から有効な結論を引き出すには?
「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか? 同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。(たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください)これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90%以上ある」と予測した(彼は28%、ギンリッチはこのプライマリーに40%いた)。 他のそのようなビッグデータが失敗することを知っていますか?ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした... twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。 データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。 最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。 それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか?

5
中央値の信頼区間
中央値およびその他のパーセンタイルで95%CIを見つける必要があります。私はこれにアプローチする方法がわかりません。私は主にRをプログラミングツールとして使用しています。


2
ランダムフォレストの変数重要度の測定
私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。 このimportance()関数は、変数ごとに2つの値を提供します:%IncMSEとIncNodePurity。これらの2つの値の簡単な解釈はありますか? 以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか?

3
ANOVAでF値とp値を解釈する方法
私は統計が初めてで、現在は分散分析を扱っています。RでANOVAテストを実行します aov(dependendVar ~ IndependendVar) 特にF値とp値が得られます。 私の帰無仮説()は、すべてのグループ平均が等しいというものです。H0H0H_0 Fの計算方法については多くの情報がありますが、F統計の読み方とFとpの接続方法はわかりません。 だから、私の質問は: を拒否するための重要なF値を決定するにはどうすればよいですか?H0H0H_0 各Fには対応するp値があるので、両者は基本的に同じ意味ですか?(たとえば、場合、H 0は拒否されます)p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

2
ロジスティック回帰モデルが収束しない
航空会社のフライトに関するデータがあります(というデータフレーム内flights)。フライト時間が到着の大幅な遅延(10分以上を意味する)の確率に影響するかどうかを確認したいと思います。予測としてフライト時間を使用し、応答として各フライトが大幅に遅延した(ベルヌーイの束)かどうかのロジスティック回帰を使用すると考えました。私は次のコードを使用しました... flights$BigDelay &lt;- flights$ArrDelay &gt;= 10 delay.model &lt;- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...しかし、次の出力が得られました。 &gt; flights$BigDelay &lt;- flights$ArrDelay &gt;= 10 &gt; delay.model &lt;- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …
40 r  logistic  separation 

4
Rのロジスティック回帰(オッズ比)
でロジスティック回帰分析を試みていRます。STATAを使用してこの資料をカバーするコースに参加しました。で機能を複製するのは非常に難しいと感じていますR。この分野で成熟していますか?ドキュメントやガイダンスはほとんど入手できないようです。オッズ比出力を生成すると、インストールを必要とするように思わepicalc及び/またはepitools私は仕事に行くことができますいずれも、および/または他の人を、古いまたはマニュアルに欠けています。glmロジスティック回帰を使用してきました。どんな提案も歓迎します。 これを本当の質問にした方がいいです。ロジスティック回帰を実行してオッズ比を生成するにはどうすればよいRですか? 単変量解析のために私がやったことは次のとおりです。 x = glm(Outcome ~ Age, family=binomial(link="logit")) 多変量の場合: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) 私は、見てきましたx、y、summary(x)とsummary(y)。 x$coefficients価値はありますか?
40 r  logistic  odds-ratio 

3
平均、中央値、モード間の経験的関係
適度に歪んだユニモーダル分布の場合、平均、中央値、モードの間に次の経験的関係があります。 この関係はどうでしたか派生?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} この結論を形成する前に、カールピアソンはこれらの関係を何千もプロットしましたか、それともこの関係の背後に論理的な推論の線がありますか?

7
ニューラルネットワークでのデータの正規化と標準化
ニューラルネットワーク(ANN)を使用して複雑なシステムの結果を予測しようとしています。結果(依存)値の範囲は0〜10,000です。異なる入力変数には異なる範囲があります。すべての変数には、ほぼ正規分布があります。 トレーニングの前にデータをスケーリングするさまざまなオプションを検討します。1つのオプションは、各変数の平均値と標準偏差値を個別に使用して累積分布関数を計算することにより、入力(独立)変数と出力(従属)変数を[0、1]にスケーリングすることです。この方法の問題は、出力でシグモイド活性化関数を使用すると、極端なデータ、特にトレーニングセットで見られないデータが失われる可能性が高いことです。 別のオプションは、zスコアを使用することです。その場合、極端なデータの問題はありません。ただし、出力では線形活性化関数に制限されています。 ANNで使用されている他の受け入れられている正規化手法は何ですか?このトピックのレビューを探しましたが、有用なものが見つかりませんでした。

3
ランダムフォレストと極端にランダム化されたツリーの違い
ランダムフォレストと極端にランダム化されたツリーは、ランダムフォレスト内のツリーの分割が決定論的であるという意味で異なりますが、極端にランダム化されたツリーの場合はランダムです(より正確には、次の分割が最適な分割です現在のツリーの選択された変数のランダムな均一な分割の間で)。しかし、私はさまざまな状況でのこの異なる分割の影響を完全には理解していません。 彼らはバイアス/分散の観点からどのように比較しますか? 無関係な変数が存在する場合、それらはどのように比較されますか? 相関変数の存在下でどのように比較しますか?

1
データのセンタリングは、回帰およびPCAでインターセプトをどのように取り除きますか?
インターセプトを削除するために、データを中央に配置するインスタンス(正則化またはPCAなど)について読み続けます(この質問で述べたように)。私はそれが簡単であることを知っていますが、私はこれを直感的に理解するのに苦労しています。誰かが私が読むことができる直観または参照を提供できますか?

3
PCAがt-SNEよりも適している場合はありますか?
テキスト修正動作の7つの測定(テキストの修正に費やした時間、キーストロークの回数など)が互いにどのように関連するかを確認したいと思います。メジャーは相関しています。PCAを実行して、メジャーがPC1とPC2にどのように投影されるかを確認しました。これにより、メジャー間で個別の双方向相関テストを実行する重複を回避できました。 いくつかのメジャー間の関係が非線形になる可能性があるため、t-SNEを使用しない理由を尋ねられました。 非線形性を許容することでこれがどのように改善されるかはわかりますが、t-SNEではなくこの場合にPCAを使用する正当な理由があるのでしょうか?メジャーとの関係に従ってテキストをクラスタリングするのではなく、メジャー自体の関係に興味があります。 (EFAはより良い/別のアプローチかもしれませんが、それは別の議論です。)他の方法と比較して、t-SNEに関する投稿はここにほとんどないので、質問する価値があるようです。
39 pca  tsne 

7
データを収集または解釈するときに人間が作る最も一般的なバイアスは何ですか?
私はecon / stat専攻です。経済学者は、人間が合理的に振る舞わない状況を特定することにより、人間の行動と合理性に関する仮定を修正しようとしたことを知っています。たとえば、1000 ドルの損失の100%のチャンスまたは2500 ドルの損失の50%のチャンスを提供すると、後者の期待値が保証された1000 ドルよりも大きい損失であっても、人々は2500 ドルのオプションを選択します損失。これは「損失回避」として知られています。行動経済学者は現在、これらのパターンを研究し、通常「合理的な」行動を構成すると想定される公理から人間が逸脱する方法を特定しようとしています。ここでは、予想される最小の損失を優先することが合理的であると想定しています。 統計学者が、人々がデータをどのように解釈するかに偏った結果をもたらすデータ収集の一般的なパターンを特定したかどうか疑問に思っていました。本質的にデータを収集する「合理的な」方法があった場合、人間がこれから逸脱して「バイアス」を示す例があると思います。そうだとすれば、データを収集または解釈するときに人間が作る最も一般的なバイアスは何ですか?
39 bias 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.