統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
分類確率のしきい値
一般的な分類に関する質問があります。fを分類器とし、データDが与えられた場合に確率のセットを出力します。通常、P(c | D)> 0.5の場合、クラス1を割り当てます。分類)。 私の質問は、もし私が見つけたら、確率を1として分類する場合、つまり0.2よりも大きい場合、分類器のパフォーマンスは向上するということです。分類を行うときにこの新しいしきい値を使用するのは正当ですか? 私は、より小さな信号を発するデータのコンテキストで、より低い分類の必要性を解釈します。まだ分​​類問題にとって重要です。 私はこれがそれを行う1つの方法であると認識していますが、これが正しい思考ではない場合、個々の機能を同様に強調し、しきい値を0.5に保つことができるデータ変換は何ですか?

1
確率的勾配降下の場合、バッチサイズはどれくらいの大きさにすべきですか?
確率的勾配降下法を使用して、トレーニングデータセットの異なるサンプルで各反復を更新することにより、バックプロパゲーションを使用してニューラルネットワークを最適化できることを理解しています。 バッチサイズはどれくらいの大きさにすべきですか?

2
異なるサンプルサイズの平均の比較をどのように解釈する必要がありますか?
ウェブサイトでの書籍の評価の場合を考えてみましょう。本Aは、平均評価4.25、分散で、10,000人によって評価されています。同様に、Book Bの評価は100人で、評価は4.5でです。σ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 ブックAのサンプルサイズが大きいため、「平均安定化」は4.25になりました。現在、100人の場合、より多くの人がブックBを読んだ場合、平均評価は4または4.25に落ちる可能性があります。 異なるサンプルからの平均の比較をどのように解釈するべきか、また、できる/すべき最良の結論は何ですか? たとえば、書籍Bは書籍Aよりも優れていると言えるでしょうか。


4
XとXYのランダム変数間の相関係数が0.7になる傾向があるのはなぜですか
ダグラス・アルトマンが285ページで書いている医学研究のための実践統計から取られた: ... XとYの2つの数量について、XはXYと相関します。実際、XとYが乱数のサンプルであっても、XとXYの相関関係は0.7であると予想されます。 私はRでこれを試しましたが、そうであるようです: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 何故ですか?この背後にある理論は何ですか?

6
Amazonの「平均評価」は誤解を招くものですか?
私が正しく理解していれば、1-5のスケールでの本の評価はリッカートスコアです。つまり、私にとって3は、他の誰かにとって必ずしも3であるとは限りません。これは通常のスケールのIMOです。順序スケールを実際に平均するべきではありませんが、モード、中央値、パーセンタイルを確実に取ることができます。 人口の大部分が上記の統計よりも平均を理解しているので、ルールを曲げることは「大丈夫」ですか?研究コミュニティは、リッカートスケールベースのデータの平均を取ることを強く非難しますが、大衆でこれを行うことは問題ありません(実際に言えば)?この場合の平均を取ることは、そもそも誤解を招くかもしれませんか? Amazonのような会社が基本的な統計情報を手探りすることはまずないと思われますが、そうでない場合は、ここで何が欠けていますか?順序尺度は、平均を取ることを正当化するための順序の便利な近似であると主張できますか?どんな理由で?

1
ブートストラップとジャックナイフ
ブートストラップ法とジャックナイフ法の両方を使用して、推定値の偏りと標準誤差を推定することができ、両方のリサンプリング法のメカニズムは大きな違いはありません。ただし、ジャックナイフは、研究と実践においてブートストラップほど人気が​​ありません。 ジャックナイフを使用する代わりにブートストラップを使用することの明らかな利点はありますか?

3
ロジスティック回帰が線形分類器であるのはなぜですか?
ロジスティック関数を使用して入力の線形結合を非線形出力に変換しているので、ロジスティック回帰を線形分類器とみなすにはどうすればよいですか? 線形回帰は、隠れ層のないニューラルネットワークのようなものです。なぜニューラルネットワークは非線形分類器と見なされ、ロジスティック回帰は線形なのでしょうか。

4
t検定でt値からP値を手動で計算する
31個の値を持つサンプルデータセットがあります。Rを使用して両側t検定を実行し、真の平均が10に等しいかどうかをテストしました。 t.test(x=data, mu=10, conf.level=0.95) 出力: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 今、私は同じことを手動でしようとしています: t.value = (mean(data) - 10) / (sd(data) / sqrt(length(data))) p.value = dt(t.value, df=length(lengths-1)) この方法を使用して計算されたt値は、t検定R関数の出力と同じです。ただし、p値は3.025803e-12になります。 …

2
ランダム効果、固定効果、および限界モデルの違いは何ですか?
統計の知識を広げようとしています。私は物理学のバックグラウンドから来て、統計的テストへの「レシピベース」アプローチを採用しています。 私の読書では、ランダム効果モデル、固定効果モデル、限界モデルという用語に出くわしました。私の質問は: 非常に簡単に言えば、それらは何ですか? それらの違いは何ですか? それらのいずれかは同義語ですか? OLS回帰、ANOVA、ANCOVAなどの従来のテストは、この分類のどこに該当しますか? 自己学習で次に進むべき場所を決めようとしているだけです。

6
感度、特異性、精度、精度、再現率の違いを覚える最良の方法は何ですか?
これらの用語を502847894789回見たにもかかわらず、私は一生、感度、特異性、精度、正確性、想起の違いを思い出せません。それらは非常に単純な概念ですが、名前は私には非常に直感的ではないので、私はそれらをお互いに混乱させ続けています。これらの概念について考えて、名前が意味を持ち始めるための良い方法は何ですか? 別の言い方をすれば、他の名前とは対照的に、なぜこれらの概念のためにこれらの名前が選ばれたのですか?

4
Rでのランダムフォレストコンピューティング時間
R のパーティパッケージを10,000行と34の機能で使用していますが、一部の要因機能には300以上のレベルがあります。計算時間が長すぎます。(これまでに3時間かかりましたが、まだ終了していません。) ランダムフォレストの計算時間に大きな影響を与える要素を知りたいです。レベルが多すぎる要因がありますか?RF計算時間を改善するための最適化された方法はありますか?
49 r  random-forest 



4
相関= 0.2は、「5人に1人だけ」の関連があることを意味しますか?
In The Indiot Brain:A Neuroscientist Explains What Your Head are Real Up To、ディーン・バーネットは書いている 高さと知性の間の相関は通常約あるものとして引用さ高さと知性だけで関連しているように見えるという意味、で人。0.20.20.2111555 私には、これは間違っているように聞こえます:その人について知っている唯一のものが他の測定値(ここでは身長)である場合、一方の測定値(ここでは知性)を予測しようとするときに生じるエラー(より少ない)のような相関関係を理解し​​ています。相関がまたは場合、予測にエラーはありません。相関が場合、さらにエラーがあります。したがって、相関関係は、人に人だけでなく、誰にも適用されます。111−1−1-10.80.80.8111555 私はこの質問を見てきましたが、答えを理解するには数学の面で十分ではありません。線形関係の強さについて語るこの回答は、私の理解ではあるが確かではないように思われる。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.