統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


7
leave-one-out対K-foldクロス検証のバイアスと分散
モデルの分散とバイアスの観点から、さまざまな交差検証方法をどのように比較しますか? 私の質問はこのスレッドによって部分的に動機づけられています:最適な折り畳み数-交差検証:leave-one-out CVは常に最良の選択ですか?KKK。そこでの答えは、leave-one-out交差検定で学習したモデルは、通常の倍交差検定で学習したモデルよりも高い分散を持ち、leave-one-out CVがより悪い選択になることを示唆しています。KKK しかし、私の直感では、Leave-one-out CVではフォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。KKK または、逆方向に進むと、がフォールドCVで低い場合、トレーニングセットはフォールド全体で大きく異なり、結果のモデルは異なる可能性が高くなります(したがって、分散が大きくなります)。KKKKKKK 上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか?


14
なぜロバスト(および耐性)統計が従来の手法に取って代わらないのですか?
データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。 たとえば、一般的なWebメトリックの多くが(正規分布と比較して)「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。(たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1%未満がほとんどを占めていますSOのアクティビティ (おそらく質問をして回答する)、残りの1〜2%が残り、圧倒的多数のメンバーが何もしません)。 この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。 このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく(少なくとも20年は信じられている)より頻繁に使用されていませんか?(なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。) はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、(いくつかの)Rパッケージがあることを知っています(robustbaseは私が使い慣れているものです)。 そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか?古典的な類似物と比較して、はるかに頻繁に(おそらく推定的に)使用される堅牢な(および耐性のある)統計情報を期待するべきではありませんか? 私が聞いた唯一の実質的な(すなわち技術的な)説明は、ロバストなテクニック(抵抗性メソッドの場合も同様)が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。 先取りの最後の言葉:はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。

8
最適なラインは、良いフィットのようには見えません。どうして?
このExcelグラフをご覧ください。 「常識的な」最適なラインは、ポイントの中心を真っ直ぐに通るほぼ垂直の線に見えます(手作業で赤で編集)。ただし、Excelによって決定された線形トレンドラインは、示されている黒い斜めのラインです。 Excelが(人間の目には)間違っているように見える何かを生成したのはなぜですか? もう少し直感的に見える最適な線(赤い線など)を作成するにはどうすればよいですか? 更新1.データとグラフを含むExcelスプレッドシートは、サンプルデータ、PastebinのCSVで入手できます 。type1およびtype2回帰手法はExcel関数として利用できますか? 更新2。このデータは、風と共に漂流している間にサーマルで登るパラグライダーを表します。最後の目的は、風の強さと方向が高さによってどのように変化するかを調べることです。私はエンジニアであり、数学者や統計学者ではないので、これらの回答の情報は、私が研究するためのより多くの分野を与えてくれました。

2
tanh活性化機能とシグモイド活性化機能
tanhアクティベーション機能は次のとおりです。 tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 ここで、シグモイド関数は、次のように定義される。。σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} 質問: これら2つのアクティベーション関数(tanhとsigma)を使用することは本当に重要ですか? どの場合にどの機能が優れていますか?

5
「クローズドフォームソリューション」とはどういう意味ですか?
「クローズドフォームソリューション」という用語に出くわすことがよくあります。閉じた形式のソリューションとはどういう意味ですか?特定の問題に対して厳密な形式の解決策が存在するかどうかをどのように判断しますか?オンラインで検索すると、いくつかの情報が見つかりましたが、統計的または確率的モデル/ソリューションを開発するという文脈では何も見つかりませんでした。 私は回帰を非常によく理解しているので、だれかが回帰またはモデルのあてはめを参照して概念を説明できるなら、それは使いやすいでしょう。:)




3
ロジスティック回帰を行う場合、不均衡なサンプルは重要ですか?
さて、20:1の経験則を考慮して、十分なサンプルがあると思います:合計7つの予測変数のかなり大きなサンプル(N = 374)。 私の問題は次のとおりです。使用する予測変数のセットが何であれ、100%の特異性と0%の感度よりも分類が良くなることはありません。満足のいくものではありませんが、候補予測変数のセット(これから逸脱することはできません)を考えると、これは実際には最良の結果になる可能性があります。 しかし、私はもっと良くできると思わずにはいられなかったので、従属変数のカテゴリはほぼ4:1の非常に不均一なバランスであることに気付きました。よりバランスのとれたサブサンプルで分類を改善できますか?

10
「分散」を直感的に理解する
分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか?それは直感的に何を意味しますか?子供にこれを説明する場合、どうすればいいでしょうか? 特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。 乱数を使用して株への投資をシミュレートしているとしましょう(サイコロを転がすか、Excelシートを使用するかは重要ではありません)。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。: 1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。 このシミュレーションを約50回(または20または100)実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか?「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか?この投資について何を観察しましたか?私はどんな結論を引き出すことができますか-素人の言葉で。 標準偏差の質問も自由に追加してください!私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です!

6
ベイズの信頼できる区間が明らかに頻度の高い信頼区間よりも低い例はありますか
信頼と信頼できる間隔の違いに関する最近の質問から、私はそのトピックに関するエドウィンジェーンズの記事を読み直すことになりました。 ジェインズ、ET、1976年。「信頼区間対ベイジアン区間」、確率理論、統計的推論、および科学の統計理論の基礎、WL HarperおよびCA Hooker(eds。)、D。Reidel、Dordrecht、p。175; (pdf) 要約では、Jaynesは次のように書いています。 ...信頼区間に関連する6つの一般的な統計問題(同じ推論に基づく有意性検定を含む)に対するベイジアンおよび正統解を示します。いずれの場合も、状況はまったく逆であることがわかります。つまり、ベイジアン法の方が適用が簡単で、同じまたはより良い結果が得られます。実際、オーソドックスな結果は、ベイジアンの結果と密接に(または正確に)一致する場合にのみ満足のいくものです。反対の例はまだ作成されていません。 (エンファシス鉱山) この論文は1976年に出版されたので、恐らく物事は進んでいるでしょう。私の質問は、頻繁な信頼区間がベイジアンの信頼区間より明らかに優れている例はありますか(Jaynesによって暗黙的に行われた挑戦による)。 誤った事前仮定に基づく例は、異なるアプローチの内部一貫性について何も述べていないため、受け入れられません。


9
p値に関して、なぜ1%と5%ですか?なぜ6%または10%ではないのですか?
p値については、なぜ%と%がのゴールドスタンダードであると思われるのでしょうか。%や%のような他の値はなぜですか?111555"statistical significance"666101010 これには根本的な数学的理由がありますか、それとも単に広く行われている慣習ですか

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.