統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
順序データまたは間隔データの評価者間信頼性
順序データまたは間隔データに最適な評価者間信頼性方法はどれですか? 「一致の共同確率」または「カッパ」は、名目上のデータ用に設計されていると思います。「ピアソン」と「スピアマン」は使用できますが、主に2人の評価者に使用されます(ただし、3人以上の評価者に使用できます)。 順序データまたは間隔データに適した他の尺度、つまり3人以上の評価者はいますか?

2
Rの尤度比検定
次のように、いくつかの独立変数に対して単変量ロジスティック回帰を行うと仮定します。 mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) このコマンドにより、モデルがnullモデルよりも優れているかどうかを確認するために、モデルの比較(尤度比検定)を行いました。 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 次に、すべての変数を含む別のモデルを作成しました mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) 変数が多変量モデルで統計的に有意であるかどうかを確認するために、lrtest次のコマンドを使用しましたepicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically significant after …
25 r  logistic  diagnostic 

4
アメーバインタビュー質問
この質問は、独自の取引会社との取引ポジションのインタビューで尋ねられました。この質問に対する答えとその背後にある直感を知りたいです。 アメーバ質問:アメーバの人口は1から始まります。1期間後、アメーバは1、2、3、または0(死ぬ可能性がある)に等しい確率で分割できます。人口全体が最終的に死亡する確率はどのくらいですか?

4
統計コラボレーション
生物学者として、私が何らかの点で取り組んでいる研究プロジェクトの多くは、単純なアドバイスであれ、データのモデルの実装およびテストであれ、統計学者との協力を必要とします。私の統計の同僚は、テニュアレビュープロセスが彼らが最初または最後の著者である論文のみを考慮するので、彼らがかなりの量の共同作業をすることを認めます。 私(または他の科学者)がより良い共同研究者になる理由は何ですか?あなたが(統計学者として)私と一緒に仕事をするのを簡単にするものは何ですか?具体的には、科学者の協力者全員が既に理解していることを望む統計概念​​は何ですか?
25 academia 

3
ヒンジ損失の勾配
基本的な勾配降下を実装しようとしていますが、ヒンジ損失関数、つまり。ただし、ヒンジ損失の勾配については混乱しています。私はそれがあるという印象を受けていますlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w&lt;1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w&lt;10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} &\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} < 1 \\ 0&\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} \geq 1 \end{cases} しかし、これは\ boldsymbol {x}と同じサイズの行列を返しませんxx\boldsymbol{x}か?長さ\ boldsymbol {w}のベクトルを返そうとしていると思いましたww\boldsymbol{w}か?明らかに、どこかで混乱しているものがあります。ここで誰かが正しい方向を指すことができますか? タスクの説明が明確でない場合に備えて、いくつかの基本的なコードを含めました #Run standard gradient descent gradient_descent&lt;-function(fw, dfw, …

7
確率と割合の違いは何ですか?
何年も毎週火曜日にハンバーガーを食べたとしましょう。私がハンバーガーを食べるのは14%であるとか、特定の週にハンバーガーを食べる確率は14%と言うことができます。 確率とプロポーションの主な違いは何ですか? 確率は予想される割合ですか? 確率は不確実であり、比率は保証されていますか?

3
時系列ベースの異常検出アルゴリズムへのウェーブレットの適用
私はを通じて、私のように動作し始めてきたアンドリュー・ムーアによって統計的データマイニングチュートリアル(非常に誰が最初にこの分野に進出を推奨します)。「時系列ベースの異常検出アルゴリズムの概要」というタイトルの非常に興味深いPDFを読むことから始めました。ムーアは、病気の発生を検出するアルゴリズムの作成に使用される多くのテクニックを追跡します。スライドの途中の27ページで、彼は、アウトブレイクの検出に使用される他の多くの「最先端の方法」をリストしています。最初にリストされているのはウェーブレットです。ウィキペイダは、ウェーブレットを次のように説明しています ゼロから始まり、増加し、その後ゼロに戻る振幅を持つ波状の振動。通常、「簡単な振動」として視覚化できます。 統計への適用については説明していません。私のGoogle検索では、ウェーブレットが統計または主題に関する完全な書籍にどのように関連するかを知っている高度な学術論文が生成されます。 Mooreがチュートリアルで他のテクニックを説明するのと同じように、時系列の異常検出にウェーブレットがどのように適用されるかについての基本的な理解をお願いします。誰かが、ウェーブレットを使用した検出方法の仕組みの説明や、その問題に関する理解可能な記事へのリンクを提供できますか?

2
多問試験での不正行為のパターンの検出
質問: 試験問題のバイナリデータがあります(正しい/正しくない)。一部の個人は、質問とその正解のサブセットに事前にアクセスした可能性があります。私は誰、何人、または誰がわからない。不正行為がない場合、アイテム正しい応答の確率をとしてモデル化するとします。ここで、は質問の難易度を表し、は個人の潜在能力です。これは、Rのltmのrasch()のような関数で推定できる非常に単純な項目応答モデルです。潜在変数の推定(個人にインデックスを付ける)に加えて、個別の推定にアクセスできますL O G I T ((P iは = 1 | Z ))= β I + Z β I Z 、Z jは j個のq Jiiilogit((pi=1|z))=βi+zlogit((pi=1|z))=βi+zlogit((p_i = 1 | z)) = \beta_i + zβiβi\beta_izzzz^jz^j\hat{z}_jjjjq^jq^j\hat{q}_j 不正行為が不可能な別のデータセットから派生した同じ潜在変数の。 目標は、だまされた可能性が高い個人と、だまされたアイテムを識別することです。あなたが取るかもしれないいくつかのアプローチは何ですか?生データに加えて、、、およびがすべて利用可能ですが、最初の2つは不正のためにバイアスがあります。理想的には、ソリューションは確率的クラスタリング/分類の形で提供されますが、これは必須ではありません。正式なアプローチと同様に、実用的なアイデアは大歓迎です。 Z j個のq jをβ^iβ^i\hat{\beta}_iz^jz^j\hat{z}_jq^jq^j\hat{q}_j これまで、スコアの高い個人と低い個人のペアの質問スコアの相関を比較しました(は彼らがだました確率の大まかな指標)。たとえば、個人をでソートし、個人の質問スコアの連続するペアの相関をプロットしました。また、値がの分位よりも大きい個体のスコアの平均相関をプロットしてみました、関数として。どちらのアプローチにも明らかなパターンはありません。のq J - Z j個のq J - Z j個のq J - Z jをNTHの …

3
リッカートアイテムレスポンスデータの視覚化
リッカート応答のセットを視覚化する良い方法は何ですか? たとえば、A、B、C、D、E、F、Gについての決定に対するXの重要性を問い合わせる項目のセットは?積み上げ棒グラフよりも優れたものはありますか? N / Aの回答で何をすべきですか?それらはどのように表されますか? 棒グラフは割合または回答数を報告する必要がありますか?(つまり、バーは同じ長さになる必要がありますか?) パーセンテージの場合、分母に無効な応答やN / A応答を含める必要がありますか? 私は自分の意見を持っていますが、他の人のアイデアを探しています。

5
ある種のARIMAの説明を求める
これは見つけるのは難しいかもしれないが、私が読みたいARIMA例をよく説明していること 最小限の数学を使用します モデルを構築するだけでなく、そのモデルを使用して特定のケースを予測することまで議論を広げます グラフィックスと数値結果を使用して、予測値と実際の値の適合を特徴付けます。

3
Kolmogorov-Smirnovテストが機能するのはなぜですか?
2標本KS検定について読んで、私は正確に理解し、それが何をしているのかが、私は理解していないそれが動作する理由。 つまり、すべての手順に従って経験分布関数を計算し、2つの間の最大差を見つけてD統計値を見つけ、臨界値を計算し、D統計値をp値に変換することができます。 しかし、なぜこの2つが実際に2つのディストリビューションについて何かを教えてくれるのか、私にはわかりません。 誰かがロバを飛び越えてどれだけ速く逃げるかを数える必要があることを簡単に教えてくれるかもしれません。速度が2 km / hr未満の場合は、帰無仮説を拒否します。確かに私はあなたが私に言ったことをすることができますが、そのどれが帰無仮説と関係がありますか? 2サンプルKSテストが機能するのはなぜですか?ECDF間の最大差の計算は、2つの分布の違いと何の関係がありますか? どんな助けも大歓迎です。私は統計学者ではないので、可能であれば私は馬鹿だと仮定します。

3
相互作用用語を含むLASSO-主効果がゼロに縮小されても大丈夫ですか?
LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある(ゼロ以外)わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。 モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は 、この規則に従うモデル用語(例えば、後方または前方AICに基づいて)を慎重に選択します。バツバツXZZZバツ* Zバツ∗ZX*ZstepR LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の(たとえば、相互検証された)モデルの相互作用はゼロではないことは間違いありません。これは、特にRのglmnetパッケージを使用しているときにデータに見られます。 上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。 この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか?

10
なぜニューラルネットワークとディープラーニングをダンプしないのですか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 2年前に閉店。 一般的なディープラーニングとニューラルネットワークの基本的な問題。 トレーニングデータに適合するソリューションは無限です。単一の方程式だけで満たされ、最も一般化できると言える正確な数学方程式はありません。単純に言えば、どれが最も一般化するのかわかりません。 重みの最適化は凸面の問題ではないため、グローバルミニマムまたはローカルミニマムになることは決してありません。 それでは、なぜニューラルネットワークをダンプして、代わりにより良いMLモデルを検索しないのですか?私たちが理解していること、そして一連の数学的な方程式と一致する何か?線形およびSVMにはこの数学的な欠点はなく、一連の数学方程式と完全に一致しています。同じラインで考えて(線形である必要はありません)、線形およびSVMおよびニューラルネットワークとディープラーニングよりも優れた新しいMLモデルを考え出すのはなぜですか?

6
凸問題の場合、確率的勾配降下(SGD)の勾配は常にグローバルな極値を指しますか?
最適化にSGDを使用する凸型コスト関数を考えると、最適化プロセス中の特定のポイントに勾配(ベクトル)があります。 私の質問は、凸面上の点を考えると、勾配は関数が最も速く増加/減少する方向だけを指すのですか、それとも勾配は常にコスト関数の最適/極値を指すのですか? 前者はローカルコンセプトであり、後者はグローバルコンセプトです。 SGDは、最終的にコスト関数の極値に収束できます。凸面上の任意の点に与えられた勾配の方向と、グローバルな極値を指す方向との違いについて疑問に思っています。 グラデーションの方向は、関数がそのポイントで最も速く増加/減少する方向である必要がありますよね?

1
統計が滑らかな場合にのみ、ブートストラップが有効であるという結果がありますか?
全体を通して、統計量θ(⋅)θ(⋅)\theta(\cdot)は、分布関数Fから得られるデータ関数であると仮定します。サンプルの経験的分布関数はです。したがって、は確率変数として表示される統計であり、は統計のブートストラップバージョンです。KS距離としてを使用しますX1,…XnX1,…XnX_1, \ldots X_nFFF θ(F)θ( F)Dを∞F^F^\hat{F}θ(F)θ(F)\theta(F)θ(F^)θ(F^)\theta(\hat{F})d∞d∞d_\infty 統計が単純な線形統計である場合、ブートストラップの有効性に対して「if and only if」結果があります。たとえば、Mammenの定理1「ブートストラップはいつ機能しますか?」 もしいくつかの任意の機能のためのHNことその後ブートストラップは意味で動作するD∞[L(θ( F) - T N)、L(θ(F)-TN)]→P0が存在する場合にのみσNおよびTNとなるようにθ(F)=1n∑ni−1hn(Xi)θ(F)=1n∑i−1nhn(Xi)\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)hnhnh_nd∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0σnσn\sigma_ntntnt_n 我々は定義することができる ^ T N我々のサンプルの一部機能として、T N = E(T N)d∞[L(θ(F)−tn),N(0,σ2n)]→p0d∞[L(θ(F)−tn),N(0,σn2)]→p0d_\infty\big[\mathscr{L}(\theta(F)-t_n), N(0, \sigma_n^2)\big]\underset{p}{\rightarrow} 0tn^tn^\hat{t_n}tn=E(t^n)tn=E(t^n)t_n = \mathbb{E}(\hat{t}_n) また、Politis RomanoとWolfによるSubsamplingの定理1.6.3など、一般的な統計に対してブートストラップが機能するより一般的な結果もあります。 は、有限のサポートを持つすべての分布のクラスから引き出されると仮定します。統計量θ (⋅ )がFで極値ノルムに関して微分可能であり、微分g Fが0 &lt; Var F [ g F(x )] &lt; ∞を満たすと仮定します。次に、θ (F …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.