統計とビッグデータ

2

パーセンテージ/プロポーションデータのアークサイン平方根変換の（より強力な）代替手段はありますか？私が現在取り組んでいるデータセットでは、この変換を適用した後、顕著な不均一分散性が残っています。つまり、残差対適合値のプロットは依然としてひし形です。コメントに対応するために編集：データは、10％の倍数で寄付金の0-100％を投資する可能性のある実験参加者による投資決定です。また、順序ロジスティック回帰を使用してこれらのデータを調べましたが、有効なglmが生成するものを確認したいと思います。加えて、arcsin平方根は私の分野ですべてのサイズに対応するソリューションとして使用されているようで、採用されている代替手段に出会ったことがないため、答えは将来の作業に役立つことがわかりました。

20 data-transformation generalized-linear-model heteroscedasticity

2

StackExchangeの質問に対する「興味深い」機能

この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 8年前に移行されました。 StackExchangeサイトのデータマイニングパッケージを作成しようとしています。特に、「最も興味深い」質問を決定しようとしています。質問スコアを使用したいが、ビューの数に起因するバイアスを削除したいが、これに厳密にアプローチする方法がわからない。理想的な世界では、計算することで質問を並べ替えることができます。ここで、は総投票数、は視聴回数です。結局、質問に賛成票を投じた人の割合から、質問に反対票を投じた人の割合を引いたものを測定します。 vnvnvn\frac{v}{n}vvvnnn 残念ながら、投票パターンははるかに複雑です。投票は一定のレベルまで「停滞」する傾向があり、これは非常に人気のある質問を大幅に過小評価する効果があります。実際には、1回のビューと1回の賛成票を持つ質問は、確実にスコアが付けられ、10,000回のビューを持つが10,000票未満のその他の質問よりも高くソートされます。現在、を経験式として使用していますが、正確にしたいと思います。数学的な厳密さでこの問題にどのようにアプローチできますか？vログn +1vlog⁡n+1\frac{v}{\log{n}+1} コメントのいくつかに対処するために、より良い方法で問題を再度説明しようとします。合計票とビューの質問があるとします。ビューが達したときに、合計投票数が最も高いと推定できるものを作成したいと思います。n 0 v 1 n 1v0v0v_0n0n0n_0v1v1v_1n1n1n_1 このようにして、名目値を選択し、予想される合計に従ってすべての質問をことができます。v 1n1n1n_1v1v1v_1 SOデータダンプで2つのクエリを作成し、私が話している効果をより良く示します。スコア別平均視聴回数結果：ビュー別の平均スコア（100ビューバケット）結果：比較した2つの式結果ではなく、確か真っ直ぐが優れている場合：（青色で、赤） vvnvn\frac{v}{n}vL O Gn +1vlogn+1\frac{v}{log{n}+1}

20 data-mining predictive-models

2

季節ごとの分解方法の選択

季節調整は、さらなる研究のためにデータを前処理する重要なステップです。ただし、研究者には、トレンドサイクルと季節性の分解に関する多くのオプションがあります。最も一般的な（経験的文献の引用数から判断する）競合する季節分解法は、X-11（12）-ARIMA、Tramo / Seats（両方ともDemetra +で実装）およびのstlです。上記の分解手法（または季節ダミー変数のような他の単純な手法）間のランダムな選択を回避するために、季節分解手法を効果的に選択するための基本戦略を知りたいと思います。RRR いくつかの重要なサブ質問（ディスカッションへのリンクも歓迎）は次のとおりです。メソッドの類似点と相違点、長所と短所は何ですか？ある方法が他の方法よりも望ましい特別なケースはありますか？さまざまな分解方法のブラックボックスの中にあるものへの一般的なガイドを提供できますか？メソッドのパラメーターを選択するための特別なトリックはありstlますか？時系列が効率的に季節的に調整されるいくつかの（統計）基準（コレログラム分析、スペクトル密度、小さなサンプルサイズの基準、ロバストネス）を提案することは可能ですか？

20 time-series data-transformation methodology seasonality

3

Rで多項ロジットモデルを設定および推定する方法

JMPで多項ロジットモデルを実行し、各パラメーター推定値のAICとカイ2乗p値を含む結果を取得しました。このモデルには、1つのカテゴリー結果と7つのカテゴリー説明変数があります。次にmultinom、nnetパッケージの関数を使用して、Rで同じモデルを構築すると考えていたものに適合させました。コードは基本的に： fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); ただし、2つの結果は異なります。JMPでは、AICは2923.21、nnet::multinomAICでは3116.588です。私の最初の質問は、モデルの1つが間違っているということです。 2つ目は、JMPが各パラメーター推定値のカイ2乗p値を提供することです。マルチノムでサマリーを実行fit1しても、推定値、AIC、および逸脱は表示されません。私の2番目の質問はこうです：モデルのp値を取得し、使用するときに推定する方法はありnnet::multinomますか？私が知っているmlogitは、このための別のRパッケージであり、その出力はp値が含まれてように見えます。ただし、mlogitデータを使用して実行することはできません。データは正しくフォーマットされていたと思いますが、無効な数式があったと言われました。私が使用したものと同じ式を使用しましたmultinomが、パイプを使用した別の形式が必要なようで、その仕組みがわかりません。ありがとう。

20 r logistic multinomial logit jmp

10

帰無仮説はどれですか？科学理論、論理、統計の間の矛盾？

帰無仮説を設定する際の基礎となるロジックを理解するのが困難です。この回答では、明らかに一般に受け入れられている命題は、帰無仮説は効果がないという仮説であり、すべてが同じままである、つまり、太陽の下では何も新しいものではないというものです。対立仮説は、あなたが証明しようとするものです。例えば、新薬はその約束を果たします。今、科学理論と一般的な論理から、命題を偽造することしかできないことを知っています、私たちは何かを証明することはできません（すべての白鳥が白であることを証明できる白い白鳥はいませんが、黒い白鳥はそれを反証することができます）。これが、対立仮説を証明することと同等ではない帰無仮説を反証しようとする理由です-そして、これが私の懐疑論が始まるところです-私は簡単な例を挙げます：カーテンの後ろにどんな動物がいるかを知りたいとしましょう。残念ながら、私は動物を直接観察することはできませんが、この動物の足の数を調べるテストを行っています。今、私は次の論理的推論を持っています：動物が犬の場合、4本の脚があります。私がテストを実施し、4本の足があることがわかった場合、これが犬（馬、サイ、または他の4本足の動物である可能性がある）であるという証拠にはなりません。しかし、私はそれが持っていないことがわかった場合足が4本、これは犬になれないという明確な証拠です（健康な動物を想定）。薬剤の有効性に変換カーテンの後ろの薬剤が有効かどうかを調べたい。私が得る唯一のものは、私に効果を与える数字です。効果が正の場合、何も証明されていません（4脚）。効果がない場合、私は薬の有効性を反証します。これをすべて言って-私は思う-一般的な知恵に反して-唯一の有効な帰無仮説は薬は効果的です（例：薬が効果的であれば効果が見られます）。私が反証できるのはこれだけだからです。次のラウンドまで、より具体的になるように努めます。したがって、効果を述べるのは帰無仮説であり、対立仮説はデフォルトです（効果なし）。統計的検定で逆になっているように見えるのはなぜですか？ PS：上記の仮説を否定して有効な同等の仮説を得ることができないので、論理的に同等の形式は「効果が見られない場合、薬は有効ではない」ため、帰無仮説として「薬は有効ではありません」とは言えません結論はあなたが見つけたいものだからです。 PPS：これまでの答えを読んだ後の明確化のために：科学的理論を受け入れ、ステートメントを偽造することしかできず、それを証明できない場合、論理的に一貫している唯一のことは、新しい理論として帰無仮説を選択することです-偽造。現状を偽造した場合、手ぶらで放置されるためです（現状は反証されますが、新しい理論は証明されていません！）。そして、あなたがそれを偽造し損なうならば、あなたはどちらのより良い位置にでもありません。

20 hypothesis-testing philosophical

2

階層モデルのフィッシャー情報

次の階層モデル、および、ここで、は正規分布です。与えられたの周辺分布のフィッシャー情報の正確な式を取得する方法はあり。つまり、次のフィッシャー情報は何ですか：与えられたの周辺分布の式を取得できます。しかし、wrtを区別してから期待値を取ることは非常に難しいようです。明らかな何かが欠けていますか？任意の助けをいただければ幸いです。バツ〜N（μ 、1 ）、バツ〜N（μ、1）、 X \sim {\mathcal N}(\mu,1), μ 〜L P L A C E（0 、C）μ〜Laplace（0、c） \mu \sim {\rm Laplace}(0, c) N（⋅ 、⋅ ）N（⋅、⋅）\mathcal{N}(\cdot,\cdot)バツバツXcccp （x | c ）= ∫p（x | μ ）p （μ | c ）dμp（バツ|c）=∫p（バツ|μ）p（μ|c）dμ p(x | c) = \int p(x|\mu) p(\mu|c) d\mu バツバツXcccccc

20 multilevel-analysis information fisher-information

4

相関値の平均化

さまざまな実験条件下Yで変数が変数にどのように依存するかをテストしX、次のグラフを取得するとします。上記のグラフの破線は、各データ系列の線形回帰を示し（実験設定）、凡例の数字は各データ系列のピアソン相関を示します。私は間を「平均相関」（または「平均相関を」）を計算したいXとY。r値を単純に平均してもいいですか？「平均判定基準」どうですか？平均を計算し、その値の2乗を取るか、個々のR 2の平均を計算する必要がありますか？R2R2R^2rR2R2R^2

20 regression correlation mean average

2

二項回帰とロジスティック回帰の違いは何ですか？

私は常にロジスティック回帰を、リンク関数がロジビット関数（プロビット関数の代わりに）である単純な二項回帰の特殊なケースと考えてきました。しかし、私が持っていた別の質問の答えを読むと、混乱しているように思えます。ロジスティック回帰とロジスティックリンクを使用した二項回帰には違いがあります。違いは何ですか？

20 regression logistic binomial

2

スプライン、平滑化スプライン、およびガウスプロセスエミュレーターを使用する利点/欠点は何ですか？

多項式補間の代替方法を学習（および実装）することに興味があります。しかし、これらの方法のしくみ、関連性、比較方法についての適切な説明を見つけるのに苦労しています。これらの方法や代替案が役立つ長所/短所/条件についてのご意見をいただければ幸いですが、テキスト、スライド、ポッドキャストへの適切な参照があれば十分です。

20 interpolation splines

2

ペナルティ付き回帰モデルからのR 2乗と統計的有意性の推定

ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか？さらに、モデルの全体的な重要性をテストすることに興味があります（つまり、R²= 0を実行するか、すべてを= 0にします）。ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。

20 regression lasso stepwise-regression ridge-regression

1

NYTimesでの統計的手法の誤用に関する記事

この記事を参照しています：http : //www.nytimes.com/2011/01/11/science/11esp.html 次の実験を検討してください。コインが頭に向かってわずかに重くなっていると信じる理由があると仮定します。テストでは、コインは1,000回のうち527回出てきます。これは、コインが重み付けされているという重要な証拠ですか？古典的な分析はイエスと言います。公正なコインでは、1,000回のフリップで527以上のヘッドを獲得する可能性は、従来のカットオフの20分の1、つまり5パーセント未満です。別の言い方をすれば、この実験では、「95％の信頼度で」重み付きコインの証拠を見つけます。しかし、多くの統計学者はそれを購入しません。20分の1は、1,000スローで526を超える任意の数のヘッドを獲得する確率です。つまり、フリップする確率527、フリップする確率528、529などの合計です。しかし、実験ではその範囲内のすべての数値が見つかりませんでした。このように、これらの専門家によると、コインに重みが付けられている場合、その数字を取得する確率を計算し、コインが同じ場合に同じ数字を取得する確率と比較する方が正確です。公正。統計学者は、心理学者のジェフ・ルーダーとともに例を提供した統計学者のポール・スペックマンによると、この比率は約4対1より高くできないことを示すことができます。最初の質問：これは私にとって新しいことです。誰かが正確な計算を見つけることができるリファレンスを持っていますか、および/またはあなた自身に正確な計算を与えることで私を助けることができますか、および/または同様の例を見つけることができるいくつかの資料を教えてくれますか？ベイズは、新しい証拠が登場すると、仮説の確率を更新する方法を考案しました。そのため、特定の発見の強度を評価する際に、ベイジアン（BAYZ-ee-unと発音）分析では、既知の確率が組み込まれています（利用可能な場合）。「うん、正しい」効果と呼ばれることもあります。キンカンが心臓病のリスクを90％低減すること、治療により1週間でアルコール中毒が治まること、敏感な親が男の子よりも女の子を産む可能性が2倍高いことが研究でわかった場合、ベイジアンの反応はネイティブの懐疑論者：ええ、そうです。この調査結果は、世界で観察可能なものと比較検討されます。医学の少なくとも1つの分野-診断スクリーニングテスト-では、研究者は既知の確率を使用して新しい発見を評価しています。たとえば、新しい嘘発見テストの精度は90％で、10のうそつきのうち9のうそつきに正しくフラグを立てることができます。しかし、10人の嘘つきを含むことが既に知られている100人の人口に与えられた場合、テストはそれほど印象的ではありません。 10のうそつきのうち9を正しく識別し、1つを見逃します。しかし、他の90個のうち9個が嘘であると誤って識別されます。いわゆる真陽性（9）をテストでフラグが立てられた人の総数（18）で割ると、50％の正解率が得られます。「偽陽性」と「偽陰性」は、人口の既知の割合に依存します。 2番目の質問：新しい発見がこの方法で「本当」であるかどうかをどのように正確に判断しますか？そして：これは、事前に設定された事前確率を使用しているため、5％バリアのようにIs意的ではありませんか？

20 hypothesis-testing bayesian statistics-in-media

14

まだ簡単にデータを調査できるソフトウェア

スプレッドシートの騒乱と戦う私の試みでは、真の統計ソフトウェア（R、Stataなど）などのより堅牢なツールを推し進めることで、しばしば福音主義的です。最近、私はこの見方で、彼らは単にプログラムを学ぶことはないだろうと率直に言った人に挑戦されました。プログラミングを必要としないデータ分析ツールを提供したいと思います（ただし、理想的には、後でつま先を水に浸すことにした場合はプログラミングに拡張されます）。真っ直ぐな顔で推奨できるデータ探索用のパッケージは何ですか？

20 data-visualization software

3

t変量の二乗和とは何ですか？

みましょうでスチューデントのt分布からIID描かれる適度なサイズのため、自由度（100未満を言います）。定義である有するほぼカイ二乗として配布自由度？ランダム変数の平方和の中心極限定理のようなものはありますか？、N 、N T = Σ 1 ≤ I ≤ K T 2 I T Ktitit_innnnnnT=∑1≤i≤kt2iT=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2TTTkkk

20 chi-squared central-limit-theorem t-distribution

2

python matplotlib boxplotのティックに名前を付ける方法

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Python matplotlibにはboxplotコマンドがあります。通常、グラフのすべての部分は数字でチェックされます。目盛りを位置ではなく名前に変更するにはどうすればよいですか？説明のために、私はこの箱ひげ図のような月火水ラベルを意味します：

20 python matplotlib

2

双方向ANOVAの相互作用のNULL仮説とは何ですか？

2つの因子（AおよびB）があり、それぞれに2つのレベル（A1、A2およびB1、B2）と応答変数（y）があるとします。タイプの二元配置分散分析を実行する場合： y~A+B+A*B 3つの帰無仮説をテストしています。因子Aの平均に違いはありません因子Bの平均に違いはありません因子Aと因子Bの間に相互作用はありませんと、最初の2つの仮説は簡単に定式化できます（1の場合、）H0:μA1=μA2H0:μA1=μA2H_0:\; \mu_{A1}=\mu_{A2} しかし、仮説3はどのように定式化すべきでしょうか？編集：そしてそれは2つ以上のレベルの場合にどのように定式化されますか？ありがとう。

20 hypothesis-testing anova