統計とビッグデータ modeling

9

結論として、統計について学べば学ぶほど、自分の分野で発表された論文を信用しなくなります。私は単に、研究者が統計を十分に行っていないと信じています。私はいわば素人です。私は生物学の訓練を受けていますが、統計や数学の正式な教育を受けていません。私はRを楽しんでおり、研究を行う際に適用する方法の理論的基礎のいくつかを読む（そして理解する）努力をすることがよくあります。今日分析を行っている大多数の人々が実際に正式に訓練されていなくても、私は驚かないでしょう。私は約20のオリジナルの論文を発表しましたが、その一部は有名なジャーナルに受け入れられ、統計学者は頻繁にレビュープロセスに関与しています。私の分析には、通常、生存分析、線形回帰、ロジスティック回帰、混合モデルが含まれます。レビューアーがモデルの仮定、適合、評価について尋ねたことはありません。したがって、モデルの仮定、適合、評価についてあまり気にしませんでした。仮説から始め、回帰を実行し、結果を提示します。場合によってはこれらのことを評価しようと努力しましたが、常に「すべての仮定を満たしていませんでしたが、結果（「主題の知識」）を信頼しているので、もっともらしいので大丈夫です」統計学者に相談するとき、彼らはいつも同意するように思われました。今、私は自分で分析を行う他の統計学者と非統計学者（化学者、医師、生物学者）と話をしました。人々はこれらすべての仮定と正式な評価についてあまり気にしません。しかし、CVには、残差、モデルの適合、評価方法、固有値、ベクトルなどについて尋ねる人がたくさんいます。このように言えば、lme4が大きな固有値について警告するとき、そのユーザーの多くがそれに対処することを気にかけていることを本当に疑います... それは余分な努力の価値がありますか？公開されているすべての結果の大部分がこれらの仮定を尊重しておらず、おそらくそれらを評価していない可能性はありませんか？データベースは毎日大きくなり、データが大きくなると仮定と評価はそれほど重要ではなくなるという考えがあるため、これはおそらく大きな問題です。私は絶対に間違っている可能性がありますが、これは私がこれを認識した方法です。更新： StasKからの引用（下）：http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

54 mathematical-statistics multiple-regression modeling

5

回帰を理解する-モデルの役割

パラメータを取得しようとしている関数がわからない場合、回帰モデルはどのように使用できますか？私は、子供を母乳で育てた母親は、後の人生で糖尿病を患う可能性が低いと言った研究を見ました。この研究は約1000人の母親の調査から得られたもので、さまざまな要因が管理されており、対数線形モデルが使用されました。これは、糖尿病の可能性を決定するすべての要因を考慮して、ログを持つ線形モデルにきちんと変換される素敵な機能（おそらく指数関数的）と、女性の母乳が統計的に有意であることが判明したことを意味しますか？私は確かに何かを見逃していますが、彼らはどのようにモデルを知っていますか？

46 regression modeling epidemiology log-linear

8

すべてのモデルは役に立ちませんか？正確なモデルは可能ですか？または有用ですか？

この質問は、1か月以上にわたって私の頭の中で悩まされてきました。Amstat Newsの 2015年2月号には、バークレー教授Mark van der Laanによる不正確なモデルの使用をforる記事が掲載されています。彼は、モデルを使用することで、統計は科学ではなく芸術になると述べています。彼によると、いつでも「正確なモデル」を使用でき、そうしないと「厳密性の欠如...データサイエンスにおける私たちの表現が取り残されてしまうのではないか」と心配しています。私たちは疎外される危険にさらされていることに同意しますが、脅威は通常、おおよその方法を使用していないが、実際にはその方法がはるかに少ないと主張する人（ファンデルラーン教授のように聞こえます）慎重に適用された統計モデルよりも厳密です。 Van der Laan教授は、Boxのよく使われる引用を繰り返している人々に対して「すべてのモデルは間違っているが、一部は有用である」と軽ratherしていると言ってもいいと思います。基本的に、私がそれを読んだとき、彼はすべてのモデルが間違っていて、すべてが役に立たないと言っています。今、私はバークレーの教授に反対するだろうか？一方、私たちの分野の本当の巨人の一人の意見をそれほど軽んじて却下するのは誰ですか？詳述すると、ファンデルラーン博士は、「すべてのモデルが間違っていると述べるのは完全にナンセンスです。たとえば、仮定を行わない統計モデルは常に正しい」と述べています。「しかし、多くの場合、私たちはそれよりもはるかに優れた結果を得ることができます。データは、独立した同一の実験の結果であることがわかります。非常に狭いランダムサンプリングまたは制御された実験設定を除いて、どのようにそれを知ることができるかわかりません。著者は、「機械学習/データ適応推定の最新技術、因果推論、打ち切りデータ、効率性、経験的経験のすべてを統合する、目標最尤学習と目標最小損失ベース学習の研究を指摘しています。正式な統計的推論を提供しながら、プロセス理論。」nnn 私が同意する声明もいくつかあります。彼は、私たちの仕事、統計学者としての役割、そして科学協力者を真剣に受け止める必要があると言います。聞いて聞いて！科学的な質問に答えることが適切かどうか、またはデータに適合するかどうかを慎重に検討せずに、人々が日常的にロジスティック回帰モデルなどを使用する場合、それは確かに悪いニュースです。そして、私はこのフォーラムに投稿された質問でそのような虐待の多くを見ています。しかし、パラメトリックなモデルであっても、不正確なモデルの効果的で価値のある使用法も見ています。そして、彼の言うこととは反対に、私はめったに「別のロジスティック回帰モデルによって死に退屈する」ことはありません。これが私の素朴さだと思います。だからここに私の質問があります：まったく仮定を行わないモデルを使用して、どのような有用な統計的推論を行うことができますか？対象の最尤法を使用した重要な実際のデータを使用したケーススタディはありますか？これらの方法は広く使用され、受け入れられていますか？すべての不正確なモデルは本当に役に立たないのですか？あなたが些細な場合以外の正確なモデルを持っていることを知ることは可能ですか？これがあまりにも意見に基づいているため、トピックから外れている場合、どこで議論できますか？ファン・デル・ラーン博士の記事は間違いなく議論が必要だからです。

45 machine-learning maximum-likelihood modeling nonparametric parametric

4

統計モデルのチートシート

私は、何らかの情報をリストする統計モデル「チートシート」があるかどうか疑問に思っていました。モデルを使用する場合モデルを使用しない場合必須およびオプションの入力期待される出力モデルはさまざまな分野（ポリシー、バイオ、エンジニアリング、製造など）でテストされていますか？実践や研究で受け入れられていますか？予想される変動/精度/精度注意事項拡張性廃止されたモデル、使用しない、または使用しないなど。以前、さまざまなWebサイトで階層を見てきました。また、さまざまな教科書の単純なモデルのチートシートもいくつか見ました。ただし、さまざまなタイプの分析と理論に基づいたさまざまなタイプのモデルを含む、より大きなモデルがあれば便利です。

44 references modeling

2

負の二項分布内のパラメーターを理解する

私は自分のデータをさまざまなモデルに当てはめようとしており、fitdistrライブラリMASSの関数Rが私Negative Binomialに最適だと判断しました。今からのwikiページ、定義は、以下のように与えられます。 NegBin（r、p）分布は、最後の試行で成功したk + r Bernoulli（p）試行でのk失敗およびr成功の確率を記述します。を使用Rしてモデルの近似を実行するmeanと、2つのパラメーターとが得られますdispersion parameter。これらのパラメーターをWikiページに表示できないため、これらの解釈方法が理解できません。私が見ることができるのは次の式だけです：ここkで、観測数とr=0...nです。では、これらのパラメータをどのように関連付けるのRですか？ヘルプファイルも多くの情報を提供しません。また、私の実験について一言言っておくと、私が行っていた社会実験では、各ユーザーが10日間に連絡した人数を数えようとしていました。実験の母集団サイズは100でした。さて、もしモデルが負の二項に適合するなら、その分布に従うと盲目的に言うことができますが、この背後にある直感的な意味を本当に理解したいと思います。被験者が接触した人数は負の二項分布に従うとはどういう意味ですか？誰かがこれを明確にするのを手伝ってもらえますか？

37 r distributions modeling negative-binomial

5

相互作用の影響を識別するベストプラクティスは何ですか？

モデル内の変数の可能な組み合わせを文字通りテストする（x1:x2またはx1*x2 ... xn-1 * xn）以外。独立変数（できれば）の間に相互作用が存在するべきか、そうでないのかをどのように識別しますか？相互作用を特定しようとする際のベストプラクティスは何ですか？使用できる、または使用できるグラフィカルな手法はありますか？

35 regression modeling interaction

7

重回帰モデルに含める変数の選択

現在、多重線形回帰を使用してモデルを構築しています。私のモデルをいじくり回した後、どの変数を保持し、どの変数を削除するかをどのように決定するのが最善かわからない。私のモデルは、DVの10個の予測子から始まりました。10個すべての予測変数を使用した場合、4つが有意と見なされました。明らかに正しくない予測子の一部のみを削除すると、最初は重要ではなかった予測子の一部が重要になります。私の質問に私を導きます：どの予測子をモデルに含めるかをどのように決定するのですか？すべての予測変数を使用してモデルを一度実行し、重要でない予測変数を削除してから再実行する必要があるように思えました。しかし、それらの予測子の一部のみを削除すると他の予測子が重要になる場合、このすべてに対して間違ったアプローチを取っているのではないかと疑問に思われます。私はと信じて、このスレッドは私の質問に似ていますが、私は私が正しく議論を解釈していますが不明です。おそらくこれはより実験的なデザインのトピックですが、誰かが共有できる経験があるかもしれません。

35 regression multiple-regression feature-selection modeling model-selection

3

RでARIMAXモデルを適合させる方法は？

毎時測定の4つの異なる時系列があります。家の中の熱消費家の外の温度日射風速家の中の熱消費量を予測できるようにしたい。年間および日単位の両方で、明確な季節的傾向があります。異なるシリーズの間には明確な相関関係があるため、ARIMAXモデルを使用してそれらを近似します。これは、パッケージTSAの関数arimaxを使用して、Rで実行できます。私はこの関数に関するドキュメントを読み、伝達関数を読み込もうとしましたが、これまでのところ、私のコードは： regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) 私に与えます：ここで、黒い線は実際の測定データであり、緑の線は私の比較モデルです。それは良いモデルではないだけでなく、明らかに何かが間違っています。 ARIMAXモデルと伝達関数に関する知識が限られていることを認めます。関数arimax（）では（理解している限り）、xtransfは（伝達関数を使用して）メインの時系列を予測するために使用する外因性の時系列です。しかし、実際にはxregとxtransfの違いは何ですか？より一般的には、私が間違ったことは何ですか？lm（heat〜temp radi wind * time）から得られるものよりも良いフィット感を得ることができるようにしたいと思います。編集：コメントのいくつかに基づいて、転送を削除し、代わりにxregを追加しました。 regParams = ts.union(ts(dayy), ts(temp), ts(time)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams) ここで、dayyは「年間通算日」であり、timeはその日の時間です。温度は再び外の温度です。これにより、次の結果が得られます。それは良いですが、私が期待していたものとはほぼ異なります。

33 time-series modeling arima

1

負の二項回帰の質問-それは貧弱なモデルですか？

カウントデータの回帰モデルに関する、SellersとShmueliの非常に興味深い記事を読んでいます。冒頭（p。944）では、McCullaugh and Nelder（1989 ）を引用して、負の二項回帰は人気がなく、問題のある標準的なリンクがあると述べています。紹介された箇所を見つけましたが、それは言っています（MとNの374ページ）「アプリケーションでは負の二項分布が少し使用されているようです。特に、標準リンクの使用は、線形予測子を分散関数のパラメーターの関数にするため、問題があります」。前のページで、彼らはそのリンク機能を η=log(α1+α)=log(μμ+k)η=log⁡(α1+α)=log⁡(μμ+k)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) および分散関数 V=μ+μ2k.V=μ+μ2k.V = \mu + \frac{\mu^2}{k}. 分布は次のように与えられます Pr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}} NB回帰は非常に広く使用されていることがわかりました（複数の本で推奨されています）。これらの使用法と推奨事項はすべて誤りですか？この問題のあるリンクの結果は何ですか？

31 regression modeling negative-binomial

3

なぜ変数の選択が必要なのですか？

一般的なデータベースの変数選択手順（たとえば、順方向、逆方向、ステップワイズ、すべてのサブセット）では、次のような望ましくないプロパティを持つモデルが生成される傾向があります。ゼロから偏る係数。標準誤差が小さすぎ、信頼区間が狭すぎます。公示された意味を持たない統計とp値をテストします。過度に楽観的なモデル適合の推定値。意味のない用語が含まれる（例えば、下位の用語の除外）。それでも、変数選択手順は持続します。変数選択の問題を考えると、なぜこれらの手順が必要なのですか？それらの使用の動機は何ですか？議論を始めるためのいくつかの提案.... 解釈可能な回帰係数が必要ですか？（多くのIVを持つモデルで誤解されていますか？）無関係な変数によって導入された分散を排除しますか？独立変数間の不要な共分散/冗長性を排除しますか？パラメーター推定の数を減らす（検出力、サンプルサイズの問題）他にありますか？変数選択手法によって対処される問題は、変数選択手順が導入する問題よりも多かれ少なかれ重要ですか？いつ使用する必要がありますか？いつ使用すべきではありませんか？

31 modeling feature-selection

2

SVMアルゴリズムの背後にある統計モデルとは何ですか？

モデルベースのアプローチを使用してデータを扱う場合、最初のステップはデータモデルを統計モデルとしてモデル化することであることを学びました。次のステップは、この統計モデルに基づいた効率的/高速な推論/学習アルゴリズムの開発です。それでは、どの統計モデルがサポートベクターマシン（SVM）アルゴリズムの背後にあるのかを聞きたいのですが。

28 machine-learning svm modeling

5

ベイジアンネットワークとマルコフ過程の違いは？

ベイジアンネットワークとマルコフプロセスの違いは何ですか？私は両方の原則を理解していると信じていましたが、今、2つを比較する必要があるとき、私は失われたと感じます。それらは私にとってほぼ同じ意味です。確かにそうではありません。他のリソースへのリンクも歓迎します。

28 bayesian references modeling markov-process bayesian-network

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

2つの連続変数間で相互作用は可能ですか？

私の変数はすべて連続的です。レベルはありません。それもすることが可能である必要があり、変数間の相互作用を？

27 regression modeling interaction

6

ROC AUCとF1スコアの選択方法は？

私は最近、Roc aucスコアが競合要件に従って使用されるKaggleコンテストを完了しました。このプロジェクトの前は、通常、モデルのパフォーマンスを測定するためのメトリックとしてf1スコアを使用していました。今後、これらの2つのメトリックをどのように選択したらよいでしょうか？いつ、それぞれの長所と短所を使用するのですか？ところで、私はここで記事を読みましたAUCとF1-scoreの違いは何ですか？、しかし、どちらを使用するかはわかりません。助けてくれてありがとう！

26 machine-learning modeling roc scoring-rules

タグ付けされた質問 「modeling」

タグ付けされた質問「modeling」