統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

29
教育の例:相関は因果関係を意味しない
「相関は因果関係を意味するものではありません」という古いことわざがあります。私が教えるとき、この点を説明するために次の標準的な例を使用する傾向があります。 デンマークのコウノトリの数と出生率。 アメリカの司祭の数とアルコール依存症; 20世紀の初めには、「ラジオの数」と「非常識な亡命者の数」との間に強い相関関係があったことが注目されました。 そして私のお気に入り:海賊は地球温暖化を引き起こします。 しかし、私はこれらの例については何も言及していませんが、面白い一方で、明らかに間違っています。 誰か他の良い例はありますか?

6
閉形式の数学ソリューションが利用可能な場合、線形回帰に勾配降下法を使用する理由は何ですか?
私はオンラインで機械学習コースを受講しており、仮説の最適値を計算するための勾配降下について学びました。 h(x) = B0 + B1X 以下の式で値を簡単に見つけることができる場合、なぜ勾配降下を使用する必要があるのですか?これも簡単で簡単です。しかし、GDは値を取得するために複数の反復を必要とします。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注:https : //www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorialのように撮影 私は以下の質問をチェックしましたが、私にとっては理解するのが明確ではありませんでした。 なぜ勾配降下が必要なのですか? 最適化が分析ソリューションではなく勾配降下で解決されるのはなぜですか? 上記の回答では、GDと派生物の使用を比較しています。

2
リサンプリング/シミュレーション方法:モンテカルロ、ブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、および順列テスト
さまざまなリサンプリング方法(モンテカルロシミュレーション、パラメトリックブートストラップ、ノンパラメトリックブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、置換テスト)とRを使用した独自のコンテキストでの実装の違いを理解しようとしています。 次のような状況があるとしましょう。Y変数(Yvar)とX変数(Xvar)を使用してANOVAを実行します。Xvarカテゴリーです。次のことに興味があります。 (1)p値の重要性–偽発見率 (2)Xvarレベルの 効果サイズ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) これらのリサンプリング方法がどのように機能するかを明示した実例で、サンプリングの違いを説明してください。 編集: 私の試みは次のとおりです。 ブートストラップ 10ブートストラップサンプル、サンプルのサンプル番号、交換、サンプルを繰り返すことができることを意味します boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] b.df …

5
平易な英語の正則化とは何ですか?
他の記事とは異なり、このテーマのウィキペディアのエントリは、数学以外の人(私のような)には読めないことがわかりました。 ルールの少ないモデルを好むという基本的な考え方を理解しました。私が得られないのは、ルールのセットからどのようにして「正規化スコア」に到達し、それを使用してモデルを最小から最大のオーバーフィットにソートできるかということです。 簡単な正則化方法を説明できますか? 統計取引システムの分析のコンテキストに興味があります。正則化を適用して次の2つの予測モデルを分析できるかどうか、どのように説明できるかを説明していただければ幸いです。 モデル1-次の場合に価格が上がる: exp_moving_avg(price、period = 50)> exp_moving_avg(price、period = 200) モデル2-価格が上がる場合: 価格[n] <価格[n-1] 10回連続 exp_moving_avg(price、period = 200)上がる しかし、私はあなたがどのように正則化を行っているのかを知ることにもっと興味があります。それを説明するためのより良いモデルを知っているなら、そうしてください。


4
心理学誌は、p値と信頼区間を禁止しました。それらの使用をやめるのは本当に賢明ですか?
2015年2月25日に、ジャーナルBasic and Applied Social Psychology は、将来のすべての論文から値と信頼区間を禁止する社説を発行しました。ppp 具体的には、彼らは言う(フォーマットと強調は私のものです): [...]出版前に、著者はNHSTPのすべての痕跡を削除する必要があります[null仮説の有意性検定手順](値、値、値、「有意な」差異またはその欠如に関する記述、 等々)。ppptttFFF NHSTPが棄却の強力なケースを提供するために必要な帰無仮説の確率の提供に失敗する方法と同様に、信頼区間は対象の母集団パラメーターが指定された範囲内にあると結論付けるための強力なケースを提供しません間隔。したがって、信頼区間もBASPから禁止されています。 [...]ベイジアンの手順に関して、私たちはケースバイケースの判断を行う権利を留保します。したがって、ベイジアンの手順はBASPに必要でも禁止でもありません。 [...]推論統計手順は必要ですか?- いいえ [...]ただし、BASPでは、効果の大きさなどの強力な記述統計が必要です。 ここで、値の問題と誤用については説明しません。p-valueタグを参照すると、CVに関する優れた議論がたくさんあります。値の批判は、多くの場合、関心のあるパラメーターの信頼区間を報告するためのアドバイスと一緒になります。たとえば、この非常によく議論された回答では、 @ gungは、効果のサイズとその周囲の信頼区間を報告することを提案しています。しかし、このジャーナルは信頼区間も禁止しています。pppppp 値、信頼区間、および重要/重要でない二分法による「従来の」アプローチとは対照的に、データと実験結果を提示するこのようなアプローチの利点と欠点は何ですか?この禁止に対する反応はほとんど否定的なようです。それでは、欠点は何ですか?アメリカ統計協会は、この禁止について、「この政策はそれ自体の否定的な結果をもたらすかもしれない」と言って、簡単な落胆的なコメントを投稿しました。これらの負の結果は何でしょうか?ppp または、@ whuberが提案したように、このアプローチは一般的に定量的研究のパラダイムとして提唱されるべきですか?もしそうでなければ、なぜですか? PS。私の質問は禁止自体に関するものではないことに注意してください。それは提案されたアプローチについてです。私は、頻度論者対ベイジアン推論についても尋ねていません。エディトリアルは、ベイジアン手法についてもかなり否定的です。したがって、基本的には統計を使用することと、統計をまったく使用しないことです。 その他の議論:reddit、Gelman。

3
「制限付き最尤法」とは何ですか?いつ使用する必要がありますか?
この論文の要旨で次のことを読みました。 「Hartley aud Raoの最尤法(ML)手続きは、尤度を2つの部分に分割するパターソンとトンプソンからの変換を適用することによって修正されます。1つは固定効果がありません。 (REML)推定量。」 また、このペーパーの要約でREML を読みました。 「固定効果の推定から生じる自由度の損失を考慮します。」 悲しいことに、私はそれらの論文の全文にアクセスできません(そして、もし私がそうしたら理解できないでしょう)。 また、REMLとMLの利点は何ですか?混合効果モデルをフィッティングする場合、どのような状況下でMLよりもREMLが好まれるか(またはその逆)。数学の背景が高校(またはそれ以上)の人に適した説明をお願いします!

11
博士号なしでデータマイニングの仕事をする
私はしばらくの間、データマイニングと機械学習に非常に興味がありました。その理由の1つは、学校でその分野を専攻していましたが、プログラミングだけでなく、知識とそのソリューションが複数の形式を持つことができます。私には研究者/科学者のバックグラウンドはありません。データ分析に重点を置いたコンピューターサイエンスのバックグラウンドから来ました。博士号ではなく修士号を取得しています。私は現在、データ分析に関連する立場を持っています。たとえそれが私がしていることの主な焦点ではないとしても、少なくともある程度はそれをよく知っています。 数年前にいくつかの企業と仕事をするためにインタビューし、数人のリクルーターと話をするようになったとき、機械学習を行うには博士号が必要だと人々が考える一般的なパターンを見つけました。少し一般化しすぎています(一部の企業は、特に博士号を本当に探していませんでした)。 その分野で博士号を取得するのは良いことだと思いますが、これが絶対に必要だとは思いません。私はほとんどの現実世界の機械学習アルゴリズムについてかなり適切な知識を持ち、それらのほとんどを自分で(学校でも個人プロジェクトでも)実装しており、機械学習/データマイニングおよび統計一般に関する問題に取り組む際にかなり自信を持っています。また、似たようなプロフィールを持っている友人もいますが、これについても非常に精通しているようですが、博士号を取得していない場合、一般的に企業はデータマイニングの採用についてかなり恥ずかしがっていると感じています。 フィードバックをもらいたいのですが、その分野に非常に焦点を当てた仕事をするためには、博士号が絶対に必要だと思いますか? (ここでこの質問を投稿する前に少し迷いましたが、メタに関する許容可能なトピックであると思われるため、私はしばらくの間考えていたこの質問を投稿することにしました。)

6
江南スタイルのYoutubeビュー数を予測するモデル
PSYのミュージックビデオ「江南スタイル」は人気があり、2か月強で約5億4,000万人の視聴者がいます。私は先週の夕食でプレティーンの子供たちからこれを学び、すぐに議論は10-12日で何人の視聴者がいるのか、歌がいつ(/ if) 8億人の視聴者または10億人の視聴者を通過させます。 以下は、投稿されてからの多くの視聴者の写真です。 これは、No1「Justin Biever-Baby」とNo2「Eminem-Love the way you ly」のミュージックビデオの視聴者数からの写真です。 このモデルについて最初に考えたのは、Sカーブであるべきだということでしたが、これはNo1とNo2の曲には合わないようで、ミュージックビデオの再生回数に制限がないということにも合いません。成長は遅くなります。 私の質問は次のとおりです。ミュージックビデオの視聴者数を予測するには、どのようなモデルを使用すればよいですか。
73 modeling  web 



6
クラスタリング方法の選択
データセットでクラスター分析を使用して同様のケースをグループ化する場合、多数のクラスタリング手法と距離の測定値から選択する必要があります。場合によっては、1つの選択が他の選択に影響を与える可能性がありますが、多くの方法の組み合わせが可能です。 誰もがさまざまなクラスタリングアルゴリズム/方法と距離測定の選択方法に関する推奨事項を持っていますか?これは、変数の性質(カテゴリまたは数値など)およびクラスタリングの問題とどのように関連していますか?最適なテクニックはありますか?

9
線形回帰分析で外れ値をどのように扱う必要がありますか?
多くの場合、統計アナリストにセットのデータセットが渡され、線形回帰などの手法を使用してモデルに適合するように求められます。データセットには、「そうそう、これらのデータポイントのいくつかを収集するのがめちゃくちゃになった-できることをする」というような免責条項が付いていることが非常に多い。 この状況は、データの誤りである可能性のある外れ値の存在によって大きな影響を受ける回帰適合につながります。次の場合: 科学的にも道徳的にも、「フィット感が悪く見える」以外の理由でデータを捨てることは危険です。 実際には、データを収集した人は、「このデータセットを生成するとき、どの点を正確に台無しにしましたか」などの質問に答えることができません。 線形回帰分析で外れ値を除外するための基礎として使用できる統計的テストまたは経験則は何ですか? 多重線形回帰に関する特別な考慮事項はありますか?

6
EFAの代わりにPCAを使用する正当な理由はありますか?また、PCAは因子分析の代わりになりますか?
一部の分野では、PCA(主成分分析)が正当化されることなく体系的に使用され、PCAとEFA(探索的因子分析)は同義語と見なされます。 そのため、最近、PCAを使用してスケール検証研究の結果を分析しました(7ポイントのリッカートスケールで21項目、それぞれ7項目の3つの因子を構成すると仮定)。両方の手法の違いについて読みましたが、ここでの回答の大部分では、PCAに対してEFAが好まれているようです。 PCAの方が適している理由には、何か理由がありますか?私の場合、どのようなメリットがあり、なぜ賢明な選択になるのでしょうか?

4
なぜニューラルネットワークは深くなりつつあるが、広くはならないのか?
近年、畳み込みニューラルネットワーク(または一般的にはディープニューラルネットワーク)はますます深くなり、最先端のネットワークは4層で7層(AlexNet)から1000層(残余ネット)になります年。より深いネットワークからのパフォーマンスの向上の背後にある理由は、より複雑な非線形関数を学習できるからです。十分なトレーニングデータがある場合、これにより、ネットワークは異なるクラスをより簡単に区別できます。 ただし、この傾向は各レイヤーのパラメーターの数では続かないようです。たとえば、畳み込みレイヤーのフィーチャマップの数、または完全に接続されたレイヤーのノードの数は、レイヤー数が大幅に増加したにもかかわらず、ほぼ同じままで、規模は比較的小さいままです。しかし、私の直感からは、レイヤーごとのパラメーターの数を増やすと、各レイヤーに非線形関数を学習するための豊富なデータソースが与えられるように思えます。しかし、この考え方は、それぞれが少数のパラメーターを持つレイヤーを追加するだけで、見過ごされていたようです。 したがって、ネットワークは「より深く」なっていますが、「より広く」はなりません。どうしてこれなの?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.