統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


1
デボラメイヨーは、ビルンバウムの尤度原理の証明に反論しましたか?
これは、ここでの以前の質問と多少関連しています。尤度の原則が*本当に*重要な例ですか? どうやら、Deborah Mayoは、 Birnbaumの尤度原理の証明に反論する統計科学の論文を発表したようです。誰もがビルバウムの主な議論とメイヨーの反論を説明できますか?彼女は(論理的に)正しいですか?

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
glmnetがZou&Hastieのオリジナルペーパーの「素朴な」弾性ネットを使用するのはなぜですか?
β *=(1+λ2) β。L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. しかし、その後のglmnet論文Friedman、Hastie、&Tibshirani(2010)座標降下による一般化線形モデルの正則化パスは、この再スケーリングを使用せず、次のような簡単な脚注しかありませんでした。 Zou and Hastie(2005)は、このペナルティを単純なエラスティックネットと呼び、エラスティックネットと呼ばれる再スケーリングされたバージョンを好みました。ここでこの区別を削除します。 そこ(またはHastie et al。の教科書のいずれか)にはこれ以上の説明はありません。やや不可解です。著者は、それがあまりにもアドホックだと考えたため、再スケーリングを省いたのですか?さらなる実験でパフォーマンスが悪化したためですか?GLMケースに一般化する方法が明確ではなかったからですか?何も思いつきません。しかし、いずれにせよglmnetそれ以降、このパッケージは非常に人気を博したため、最近ではZou&Hastieからのリスケーリングを使用している人はいないようで、ほとんどの人はおそらくこの可能性に気付いていません。 質問:結局のところ、これは良いアイデアですか、悪いアイデアですか? でglmnetパラメータ化、再スケーリングゾウ&Hastieはする必要がありますβ^∗=(1+λ(1−α))β^.β^∗=(1+λ(1−α))β^.\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.

2
喫煙によって実際にどのくらいの肺がんが引き起こされますか?[閉まっている]
たばこ製品については、肺がんの10分の9は喫煙が原因であるという統計をよく見ることができますが、この数字は正確ですか? この統計については、2つの理由で懐疑的です。 まず、米国とノルウェーのタバコ消費率を経時的に比較し、男性の肺がん率と比較すると、次のチャートを作成できます。あなたは、米国のためのたばこ消費量のデータを得ることができ、ここで、ノルウェーのために、ここから、両方の国のがんデータをここに。 米国では、肺がんの10分の9が喫煙によって引き起こされる可能性が非常に高いように見えますが、ノルウェーでは、喫煙が比較的少ないために肺がんが非常に多いため、非常に疑わしいと思われます。米国では原因(タバコ)が影響(肺癌)の前に来ますが、ノルウェーでは原因(タバコ)が影響(肺癌)の後に来るようです。これは、ノルウェーの場合、喫煙が10個中9個の肺がんを引き起こすという仮説を裏付けていません。 ノルウェーの好奇心に加えて、別の問題があります。アメリカなどの国では、数十年にわたって何百万人もの人々が禁煙を奨励されており、肺がん率が低下しています。しかし、旧ソビエト連邦の国々では、何百万人もの人々が禁煙を奨励されておらず、その結果、これらの国々の一人当たりのタバコ消費量は今日まで安定しています。 ですから、偶然にも、数十年にわたって何百万人もの人々が禁煙を奨励することで肺がんの発生率に違いがあるかどうかを調べるための大規模な実験(数十億年)があります。おそらく、喫煙と肺癌に対する史上最大の実験だと思います。アメリカ(人口3億2570万人)、ロシア連邦(人口1億4400万人)、ウクライナ(人口4500万人)の3か国の男性肺がんがあります。 明らかに、これらの国々では男性の肺癌は米国と同じように減少していますが、喫煙の先行減少はありません。 第二に、米国では、以下の国民健康調査によると、肺がんの17.9%が非喫煙者に発生しています。 私の考えでは、喫煙していない人に発生する肺がんの17.9%という数字は、喫煙によって引き起こされる肺がんのうち9つを支持できないものにしている。 この数値を計算するためにあなたが本当に知る必要があるのは、成人人口の何パーセントが喫煙者ではないかであると思いますが、この数値は米国にとって驚くほどわかりにくいと思います。私が見つけることができる最も近いものは、米国では人口の22.2%、現在の喫煙者39.4%、元喫煙者38.5%は決して喫煙者ではない、と述べている研究です。 しかし、これは正しくない可能性があり、著者は現在の喫煙者を決して喫煙していない人と入れ替えたと思います。決して喫煙していない人の数は実際に39.4%であり、現在の喫煙者の数は実際に22.2%です。これは非常に不満足ですが、現在の喫煙者の数字を見つけることは簡単ですが、喫煙していない人の数字を見つけることは難しいことがわかりました。 したがって、喫煙によって引き起こされる肺がんの数が10分の9ほどにならない理由について、いくつかの関連する疫学統計(そして読者にとって興味深いこと)を示したので、私の質問は次のとおりです。 肺がんの17.9%が喫煙者でなく喫煙者でもないという統計を考えると、人口の39.4%が実際に喫煙によって引き起こされる肺がんの量はどれくらいですか?

3
「正規化」という用語の由来
生徒に概念を紹介するとき、用語の由来を教えてくれるのが楽しいことがよくあります(たとえば、「回帰」は興味深い起源を持つ用語です)。統計/機械学習で「正規化」という用語の歴史/背景を明らかにすることはできませんでした。 それでは、正則化という用語の起源は何ですか?

3
ディープラーニングモデルは現在、解釈可能であるとは言えませんか?ノードは機能していますか?
統計および機械学習モデルには、複数のレベルの解釈可能性があります:1)アルゴリズム全体、2)アルゴリズムの一般的な部分3)特定の入力のアルゴリズムの部分、およびこれらの3つのレベルはそれぞれ2つの部分に分かれています1つはトレーニング用、もう1つは機能評価用です。最後の2つの部分は、最初の部分よりもはるかに近いです。私は#2について尋ねていますが、これは通常#3のより良い理解につながります)。(それらが「解釈可能性」を意味するものでない場合、私は何を考えるべきですか?) 解釈可能性に関する限り、ロジスティック回帰は最も簡単に解釈できるものの1つです。このインスタンスがしきい値を超えたのはなぜですか?そのインスタンスにはこの特定のポジティブな特徴があり、モデル内の係数が大きいためです。それはとても明白です! ニューラルネットワークは、解釈が難しいモデルの典型的な例です。これらの係数はすべてどういう意味ですか?それらはすべて非常に複雑でクレイジーな方法で加算されるため、特定の係数が実際に何をしているのかを言うのは困難です。 しかし、すべてのディープニューラルネットが出てきているので、物事がより明確になっているように感じます。DLモデル(ビジョンなど)は、初期のレイヤーでエッジや向きなどをキャプチャしているように見え、後のレイヤーでは、いくつかのノードが実際にセマンティックであるようです(ことわざの「祖母セル」)。例えば: (「ディープラーニングについての学習」から) これは、プレゼンテーション用に手作業で作成されたグラフィックです(多くの場合)しかし、それが誰かがそれがどのように機能するかを考える証拠です。 過去には、認識可能な機能を見つけるのに十分なレイヤーがなかったかもしれません。モデルは成功しましたが、特定のモデルを事後的に分析するのは簡単ではありませんでした。 しかし、グラフィックは希望的観測に過ぎないかもしれません。おそらくNNは本当に不可解です。 しかし、ノードに画像のラベルが付いた多くのグラフィックスも非常に魅力的です。 DLノードは本当に機能に対応していますか?

3
0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか
一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります(0-1損失など)。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。 次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。 (ヒンジ損失とロジスティック損失の)そのような設計がある理由は、目的関数を凸にしたいからです。 ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。 私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか?

2
コサイン類似度はl2正規化ユークリッド距離と同一ですか?
同一の意味。ベクトルuとベクトルVのセット間の類似度ランキングで同一の結果を生成します。 パラメータとして距離測度(ユークリッド距離、コサイン類似度)および正規化手法(なし、l1、l2)を持つベクトル空間モデルがあります。私の理解では、設定[cosine、none]の結果は[euclidean、l2]と同じか、少なくとも実際には似ているはずですが、そうではありません。 実際には、システムにまだバグがある可能性が十分にあります。または、ベクターに関して重大な問題がありますか? 編集:ベクトルはコーパス内のドキュメントの単語数に基づいていることを忘れていました。クエリドキュメント(ワードカウントベクトルで変換する)が与えられた場合、コーパスから最も類似したドキュメントを見つけたいと思います。 それらのユークリッド距離を計算することは簡単な測定ですが、私が取り組んでいる種類のタスクでは、長さのみが異なるベクトルは依然として等しいと見なされるため、コサイン類似度が類似度インジケータとしてしばしば好まれます。距離/コサインの類似性が最小のドキュメントが最も類似していると見なされます。

9
因果関係なしで相関が役立つのはいつですか?
多くの統計学者の言うペットは「相関は因果関係を意味しない」です。これは確かに真実ですが、ここで暗示されていると思われることの1つは、相関にはほとんどまたはまったく価値がないことです。これは本当ですか?2つの変数が相関していることを知ることは無意味ですか? それが想像できない。私は予測分析に恐ろしくは慣れていませんXが、の予測子である場合、因果関係に関係なく、YにY基づいての将来の値を予測するのに役立つようですX。 相関の値を見るのは間違っていますか?そうでない場合、統計学者またはデータ科学者はどのような状況で因果関係なく相関を使用できますか?

2
ランダムウォークが相互相関しているのはなぜですか?
平均して、ピアソン相関係数の絶対値は、ウォークの長さに関係なく、任意のペアの独立したランダムウォークに近い定数であることがわかりました。0.560.42 誰かがこの現象を説明できますか? ランダムなシーケンスのように、歩行の長さが長くなるにつれて相関が小さくなると予想しました。 私の実験では、ステップ平均0とステップ標準偏差1のランダムガウスウォークを使用しました。 更新: データをセンタリングするのを忘れていたので、0.56代わりにでした0.42。 相関を計算するPythonスクリプトは次のとおりです。 import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) ))) if center: walk -= np.mean(walk) basis.append(walk / np.sqrt(np.dot(walk, walk))) …

3
線形回帰モデルと非線形回帰モデルの違いを見分ける方法は?
私は、非線形回帰SAS Non Linearに関する次のリンクを読んでいました。最初のセクション「非線形回帰と線形回帰」を読んで理解したことは、以下の式は実際には線形回帰であるということでした。それは正しいですか?もしそうなら、なぜですか? y= b1バツ3+ b2バツ2+ b3x + cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 非線形回帰では多重共線性は問題ではないことも理解できますか?私は、多重共線性が線形回帰の問題になる可能性があることを知っていますので、確かに上記のモデルが実際に線形回帰であれば、多重共線性があるでしょうか?


2
変動は分散と同じですか?
これは、ここでのクロス検証に関する最初の質問ですので、些細なことでも手伝ってください。それにもかかわらず、ここにあります: 人口統計では、変動と分散は同じ用語ですか?そうでない場合、2つの違いは何ですか? 分散は標準偏差の二乗であることを知っています。また、データがどの程度スパースであるかを示す尺度であり、その計算方法も知っています。 しかし、私は「モデル思考」と呼ばれるCoursera.orgのコースをフォローしており、講師は明らかに変化を説明しましたが、常にそれを変化と呼んでいました。それで少し混乱しました。 公平を期すために、彼は常に母集団内の特定のインスタンスのバリエーションの計算について話しました。 それらが交換可能である場合、またはおそらく私が何かを見逃している場合、誰かが私にそれを明確にすることができますか?

17
統計を1つの文で記述する方法は?
統計の学習を始めたとき、t検定、ANOVA、カイ2乗、線形回帰などの手順は、それぞれ非常に異なる生き物であるように見えました。しかし今では、これらの手順がそれぞれほぼ同じことをしていることに気付きました。同様に、分散、残差、標準誤差、平均などの値も、ほぼ同じことを測定します。 したがって、これらのすべての手順と値、そして実際にはすべての統計は、たった1つの簡単な文で説明できます。 期待される値は何ですか?また、この値の周りの変動は何ですか? 予想される単語は、これらの単語のいずれかに置き換えることができます:仮説、予測、中心 他の人は統計を1つの文でどのように説明しますか?
27 definition 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.