統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
ロジスティック回帰に適切な損失関数はどれですか?
ロジスティック回帰の損失関数の2つのバージョンについて読みましたが、どちらが正しいか、なぜですか? Machine Learningから、Zhou ZH(中国語)、:β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 私の大学のコースから、:zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 最初のサンプルはすべてのサンプルの累積であり、2番目のサンプルは単一のサンプルに関するものであることは知っていますが、2つの損失関数の形式の違いについてはもっと興味があります。どういうわけか、私はそれらが同等であると感じています。

1
出力層のクロスエントロピーまたは対数尤度
このページを読む:http : //neuralnetworksanddeeplearning.com/chap3.html また、クロスエントロピーを備えたシグモイド出力層は、対数尤度を備えたsoftmax出力層と非常に類似していると述べました。 出力層で対数尤度を持つシグモイドまたはクロスエントロピーを持つソフトマックスを使用するとどうなりますか?大丈夫ですか?なぜなら、クロスエントロピー(eq.57)の方程式にはほとんど違いがないからです: C= − 1n∑バツ(ylna + (1 − y)ln(1 − a )))C=−1n∑バツ(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) および対数尤度(eq.80): C= − 1n∑バツ(lnaLy)C=−1n∑バツ(ln⁡ayL)C =-\frac{1}{n} \sum\limits_x(\ln a^L_y)


3
事後予測分布と事後予測分布の違いは何ですか?
後部が何であるかは理解していますが、後部の意味がわかりませんか? 2はどう違いますか? Kevin P Murphyは、彼の教科書であるMachine Learning:a Probabilistic Perspectiveで、「内部の信念状態」であることを示しました。それはどういう意味ですか?プライアーはあなたの内なる信念や偏見を表しているという印象を受けましたが、どこが間違っているのでしょうか?

7
数百万のポイントが存在する場合にデータをより効率的にプロットする統計的方法?
Rは、数百万のポイントが存在する場合にプロットを生成するのに時間がかかることがあります-ポイントが個別にプロットされることを考えると、当然です。さらに、そのようなプロットは散らかりすぎて有用ではないことが多い。多くのポイントが重なり合って黒いマスを形成し、そのマスに多くのポイントをプロットするのに多くの時間が費やされます。 標準の散布図で大きなデータを表す統計的な代替手段はありますか?密度プロットを検討しましたが、他の選択肢はありますか?nnn


2
私のニューラルネットワークは何を学びましたか?どの機能が重要で、なぜですか?
ニューラルネットは、何らかの目標を達成する手段としてデータセットの特徴を学習します。完了したら、ニューラルネットが何を学習したかを知りたい場合があります。機能とは何で、なぜそれを気にかけたのですか。誰かがこの問題に関係する仕事の本文にいくつかの参照を与えることができますか?

3
機能エンジニアリングのユーティリティ:既存の機能に基づいて新しい機能を作成する理由
機械学習の問題に関する既存の機能に基づいて、人々が新しい機能を作成することがよくあります。たとえば、ここに:https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/人はベース、新機能として、人の家族の大きさを考慮しました既存の機能であった兄弟、姉妹、および親の数。 しかし、これのポイントは何ですか?相関関係のある新しい機能を作成することが有用な理由がわかりません。それを自分で行うのはアルゴリズムの仕事ではないでしょうか?

6
期待される値の名前はなぜですか?
公平な6面ダイスを振る期待値として3.5を得る方法を理解しています。しかし、直感的には、各面に1/6の平等なチャンスが期待できます。 だから、サイコロを振るときの期待値は、同じ確率で1から6までの数字のいずれかではないでしょうか? 言い換えれば、「公平な6面ダイスを投げることに期待される価値は何ですか?」代わりに3.5です。 現実の世界では、誰かがサイコロを投げるときに期待する価値が3.5であることを誰かが説明できますか? 繰り返しますが、式や期待値の導出は必要ありません。


2
50%信頼区間は95%信頼区間よりも堅牢に推定されていますか?
私の質問はAndrew Gelmanのブログ投稿のこのコメントから流れています。AndrewGelmanのブログ投稿では、95%の信頼区間の代わりに50%の信頼区間の使用を提唱しています。 次の3つの理由から、50%から95%の間隔が好ましいです。 計算の安定性、 より直感的な評価(50%間隔の半分に真の値を含める必要があります)、 用途では、パラメータと予測値がどこにあるのかを把握することが最善であり、非現実的なほぼ確実性を試みるのではないという意味。 コメント者の考えは、信頼区間の構築の基礎となる仮定に関する問題は、50%CIである場合よりも95%CIである場合により大きな影響を与えると思われる。しかし、彼はその理由を本当に説明していません。 [...]間隔を大きくすると、一般的にモデルの詳細や仮定に敏感になります。たとえば、99.9995%の間隔を正しく識別したとは思わないでしょう。または、少なくともそれが私の直感です。正しい場合、50パーセントが95パーセントよりも適切に推定されるべきであると主張します。それとも、おそらくノイズに関する仮定の影響を受けにくいため、「より堅牢に」推定されるのでしょうか? 本当ですか?なぜ/なぜないのか?

1
相互検証の誤用(最適なハイパーパラメーター値のパフォーマンスの報告)
最近、特定のデータセットでk-NN分類器を使用することを提案する論文に出会いました。著者は、利用可能なすべてのデータサンプルを使用して、さまざまなk値のk分割交差検証を実行し、最適なハイパーパラメーター構成の交差検証結果を報告しました。 私の知る限り、この結果には偏りがあり、ハイパーパラメーター最適化の実行に使用されないサンプルの精度推定値を取得するために、別のテストセットを保持する必要がありました。 私は正しいですか?この相互検証の誤用について説明した参考文献(できれば研究論文)を提供してください。

13
条件付き確率の式の背後にある直感は何ですか?
以下のための式の条件付き確率のことを考慮起こっが起こったである:B P (AAA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. 私の教科書は、ベン図の観点からこの背後にある直感を説明しています。 ことを考える発生したこと、のための唯一の方法イベントがの交差点に入ることで発生するためであると。A A BBB\text{B}AA\text{A}AA\text{A}BB\text{B} その場合には、確率ではないだろう単にの確率に等しくなる交差点ため、それがイベントが発生する唯一の方法ですか?私は何が欠けていますか? A BP(A|B)P(A|B)P\left(\text{A} \middle| \text{B}\right)AA\text{A}BB\text{B}

2
p値を最初に使用/発明したのは誰ですか?
私はp値に関する一連のブログ投稿を書きたいと思っており、それがすべて始まったところに戻るのは面白いと思いました-それはピアソンの1900年の論文のようです。その論文に精通しているなら、これは適合度テストをカバーしていることを覚えているでしょう。 ピアソンは、p値に関しては自分の言語について少し緩いです。彼は、p値の解釈方法を説明するときに、「オッズ」を繰り返し使用します。12個のサイコロの繰り返しロールの結果について話すときたとえば、p.168に、彼は「言うP = 0.0000016に私たちをリードしている...、またはオッズは 62499ランダム上の偏差のようなシステムに対して1にあります選択。そのようでオッズサイコロが高いポイントへの偏りを示すと結論するのが妥当だろう。」 この記事では、彼はメリマンによる最小二乗に関する1891年の本を含む、以前の研究に言及しています。 しかし、Pearsonはp値の計算を行っています(カイ二乗適合度検定は正しくありません)。 ピアソンはp値を考えた最初の人でしたか?p値を検索すると、Fisherが言及されます-彼の仕事は1920年代でした。 編集:そして、ラプラスについて言及してくれてありがとう-彼は帰無仮説に対処しなかったようです(ピアソンは暗黙のうちにそうしているように見えますが、彼は1900年の論文でその用語を使ったことはありません)。ピアソンは適合度テストを検討しました:カウントが不偏プロセスから派生したと仮定すると、観測されたカウント(およびより逸脱したカウント)が仮定された分布から生じる確率はどのくらいですか? 彼の確率/オッズの扱い(確率をオッズに変換する)は、彼が帰無仮説の暗黙の考えに取り組んでいることを示唆しています。重要なことに、彼はまた、x ^ 2値から生じる確率は、彼の計算されたp値に関して「これよりもありえない、またはよりありえない偏差のシステムに対して」オッズを示していると述べています。 Arbuthnotはそこまで行きましたか? コメントを回答としてお気軽にお寄せください。ディスカッションを見るといいでしょう。

3
クラスの不均衡の問題の根本的な原因は何ですか?
私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。 まず、用語を定義(または試行)します。 クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類(*)アルゴリズムはうまく機能しないという観察です。 したがって、たとえば、上記の例では、すべての1クラスごとに100個の000クラスがある場合、クラスの不均衡は1から100または1 %です。1111111001001001%1%1\% 私が見た問題の声明のほとんどは、十分な資格と考えるもの(どのモデルが苦労しているのか、不均衡が問題であるか)を欠いており、これが私の混乱の原因の1つです。 機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。 統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。 予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。 マーフィーの機械学習:確率的観点に は、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。 SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。 このコメントは私の直観と経験を思い起こさせます:私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを(二項対数尤度を最小化するために)不均衡なデータ(1%1%1\%クラスの不均衡の程度)に、パフォーマンスの明らかな問題。 私は(どこかで)分類木ベースのモデル(木自体とランダムフォレスト)もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。 まとめると、私が本当に望んでいるのは、クラスの不均衡問題(存在する場合)を引き起こす力の概念的な理解です。 不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか? 適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか?別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか? その場合、適切なスコアリングルールを最適化しないモデルは役に立たない(または少なくとも有用性が低い)か? (*)分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.