統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
lmeとlmerの比較
これら2つの機能の現在の違いについて、誰かが私を啓発できるかどうか疑問に思っていました。私は次の質問を見つけました:混合効果モデルのためにnlmeまたはlme4 Rライブラリを選択する方法は?、しかしそれは数年前のものです。それはソフトウェア界での生涯です。 私の具体的な質問は次のとおりです。 内の任意の相関構造(まだ)が存在するlmeというlmer処理しませんか? lmerパネルデータに使用することは可能/推奨ですか? これらがやや基本的なものである場合はおApび申し上げます。 もう少し詳しく:パネルデータは、同じ個人について、異なる時点で複数の測定値がある場所です。私は通常、ビジネスコンテキストで働いています。ビジネスコンテキストでは、何年にもわたって繰り返し/長期の顧客のデータを持っているかもしれません。時間の経過に伴う変動を許容したいのですが、月または年ごとにダミー変数を明確に適合させるのは非効率的です。ただし、lmerこの種のデータに適したツールであるかどうか、またはlme持っている自己相関構造が必要かどうかはわかりません。

1
anova()コマンドはlmerモデルオブジェクトで何をしますか?
願わくば、これはlmer、lme4 Rパッケージに適合する混合効果モデルから平方和を分解する性質について、ここの誰かが答えてくれることを願っています。 まず、このアプローチの使用に関する論争を承知していると言う必要があります。実際には、ブートストラップされたLRTを使用してモデルを比較する可能性が高くなります(Faraway、2006によって示唆されています)。しかし、私は結果を再現する方法に戸惑っていますので、私自身の正気のために、私はここで尋ねると思いました。 基本的に、lme4パッケージに適合した混合効果モデルを使用することに慣れています。このanova()コマンドを使用して、モデル内の固定効果を順次テストすることの概要を説明できることを知っています。私の知る限り、これはFaraway(2006)が「期待平均二乗」アプローチと呼んでいるものです。私が知りたいのは、二乗和の計算方法です。 特定のモデルから(を使用してcoef())推定値を取得し、それらが固定されていると仮定して、モデルの残差の2乗和を使用して、関心のある要素の有無にかかわらずテストを実行できることを知っています。これは、単一の被験者内因子を含むモデルには適しています。ただし、分割プロット設計を実装する場合、私が取得する平方和の値はaov()、適切なError()指定を使用してRによって生成される値と同等です。ただし、これは、F比が同じであるという事実にもかかわらず、モデルオブジェクトのコマンドによって生成される平方和と同じではありませんanova()。 もちろんError()、混合モデルでは階層は必要ないため、これは完全に理にかなっています。ただし、これは、適切なF比を提供するために、混合モデルで平方和が何らかの形でペナルティを受けることを意味する必要があります。これはどのように達成されますか?また、モデルはプロット間二乗和をどうにかして修正しますが、プロット内二乗和は修正しません。明らかに、これは、異なる効果に対して異なるエラー値を指定することによって達成された古典的な分割プロットANOVAに必要なものです。それで、混合効果モデルはどのようにこれを可能にしますか? 基本的anova()に、lmerモデルオブジェクトに適用されたコマンドの結果を自分で複製して結果と理解を検証したいのですが、現在のところ、通常の被験者内設計でこれを達成できますが、分割-プロットのデザインと私はこれがそうである理由を見つけることができないようです。 例として: library(faraway) library(lme4) data(irrigation) anova(lmer(yield ~ irrigation + variety + (1|field), data = irrigation)) Analysis of Variance Table Df Sum Sq Mean Sq F value irrigation 3 1.6605 0.5535 0.3882 variety 1 2.2500 2.2500 1.5782 summary(aov(yield ~ irrigation + variety + Error(field/irrigation), data …


1
二項分布関数が制限ポアソン分布関数より上/下にあるのはいつですか?
ましょパラメータを持つ二項分布関数(DF)を示しとで評価: \ begin {equation} B(n、p、r)= \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i(1-p)^ {ni}、\ end {equation } およびF(\ nu、r)が、パラメーター\ a \ in \ mathbb R ^ +で評価されたポアソンDFを表し、r \ in \ {0,1,2、\ ldots \}で評価されます: \ begin {equation} F(a 、r)= e ^ {-a} \ sum_ {i …

2
負の二項回帰の仮定は何ですか?
私は大規模なデータセット(機密情報なので、あまり共有することはできません)を使用しており、負の二項回帰が必要であるという結論に達しました。私は以前にglm回帰を行ったことがなく、仮定が何であるかについて明確な情報を見つけることができません。MLRでも同じですか? 変数を同じ方法で変換できますか(自然変数である必要があるため、従属変数の変換は不適切な呼び出しであることが既にわかっています)。私はすでに、負の二項分布がデータの過剰分散に役立つと判断しました(分散は約2000、平均は48)。 助けてくれてありがとう!!

4
RでPCAを使用して次元削減を実行する方法
大きなデータセットがあり、次元削減を実行したい。 今ではどこでも、PCAをこれに使用できると読んでいます。ただし、PCAを計算/実行した後、何をすべきかまだわかりません。Rでは、これはコマンドで簡単に行えprincompます。 しかし、PCAを計算した後はどうすればよいでしょうか?最初の主成分を使用することにした場合、データセットを正確に削減するにはどうすればよいですか?100100100
30 r  pca 


5
データの「探査」とデータの「s索」/「拷問」
多くの場合、「データスヌーピング」に対する非公式の警告に遭遇しました(ここに1つの面白い例があります)。おおよそ、それが何を意味するのか、なぜそれが問題になるのかについて直感的な考えを持っていると思います。 一方、「探索的データ分析」は、少なくともそのタイトルの本が依然として古典として敬意を表して引用されているという事実から判断すると、統計学において完全に立派な手順であるように思われます。 私の仕事では、頻繁に「データスヌーピング」のように見えるものに出くわします。あるいは、「データの拷問」と表現する方が良いかもしれません。「。 典型的なシナリオは次のとおりです。コストのかかる実験が行われ(その後の分析についてあまり考慮されず)、元の研究者は収集されたデータの「ストーリー」を容易に識別できず、誰かが「統計的魔法」を適用するために連れてこられます。 、あらゆる方法でデータをスライスおよびダイシングした後、最終的にそこから発行可能な「ストーリー」を抽出します。 もちろん、統計分析が最新のものであることを示すために、通常、最終レポート/論文にいくつかの「検証」がスローされますが、その背後にある露骨な公開コストの態度はすべて私を疑わしいものにしています。 残念ながら、データ分析のすべき点と悪い点についての私の限られた理解は、私がそのような曖昧な疑いを超えないようにしているので、私の保守的な対応は基本的にそのような発見を無視することです。 私の希望は、探検とbetween索/拷問の区別をよりよく理解するだけでなく、さらに重要なことには、その線が交差したときを検出するための原理と技術をよりよく把握することで、そのような発見を評価できるようになることです最適とは言えない分析手順を合理的に説明できる方法であり、それにより、私の現在のかなり単純なブランケット不信の反応を超えることができます。 編集:非常に興味深いコメントと回答をありがとうございました。彼らの内容から判断すると、私の質問を十分に説明できなかったのではないかと思います。このアップデートで問題が明確になることを願っています。 ここでの私の質問は何そんなにない懸念私は拷問を避けるために行う必要があり、私の(これも私に興味という質問ですが)データを、ではなく、:どのように私は考えて(または評価)する必要があることの結果、私は事実を知っているが通過到着されましたそのような「データ拷問」。 状況は、それらの(よりまれな)ケースでさらに興味深いものになります。さらに、そのような「調査結果」について、出版に向けて提出される前に意見を述べる立場にあります。 この時点で、ほとんどの私にできることは、のようなものと言っている「私は私がそれらを得るに行きました仮定や手続きについて知っていることを考えると、これらの知見に与えることができますどのくらい信憑知りませんが。」 これはあいまいすぎて、言う価値さえありません。 このような曖昧さを超えたいと思ったことが、私の投稿の動機でした。 公平を期すために、ここでの私の疑問は、一見疑問のある統計的手法以上のものに基づいています。実際、後者は、より深い問題の結果であると考えています。実験設計に対する無頓着な態度と、結果をそのままの状態で(つまり、さらなる実験なしで)公開するというカテゴリー的なコミットメントの組み合わせです。もちろん、フォローアッププロジェクトは常に構想されていますが、たとえば「100,000個のサンプルで満たされた冷蔵庫」から1枚の紙が出てくるということは、まったく問題ではありません。 統計は、この最高の目標を達成するための手段としてのみ登場します。統計にラッチする唯一の正当化(シナリオ全体の二次的)は、「すべてのコストでの出版」の前提に対する正面からの挑戦は無意味であるということです。 実際、このような状況で効果的な応答は1つだけだと考えることができます。分析の品質を真にテストする統計テスト(追加の実験を必要としない)を提案することです。しかし、私はそれについて統計のチョップを持っていません。私の希望(振り返ってみると素朴)は、私がそのようなテストを思いつくことができるかもしれないことを研究することができるかを見つけることでした... 私がこれを書いているとき、もしそれがまだ存在していなければ、世界は「データ拷問」を検出して公開するためのテクニックに専念する統計の新しいサブブランチを使用できることを知っています。(もちろん、「拷問」のメタファーに夢中になることを意味するものではありません。問題は「データ拷問」そのものではなく、それがもたらす偽の「発見」です。)

3
マルチクラス分類器の品質を判断する方法
与えられた インスタンスを持つデータセットはと一緒にすべてのインスタンスクラス 1つのクラスに正確に属しバツ私バツ私x_iNNNバツ私バツ私x_iy私y私y_i マルチクラス分類器 トレーニングとテストの後、基本的に、テストセット内のすべてのインスタンスについて、真のクラスと予測クラスを含むテーブルを作成しました。したがって、すべてのインスタンスについて、一致()またはミス()があります。y私y私y_ia私a私a_iバツ私バツ私x_iy私= a私y私=a私y_i= a_iy私≠ a私y私≠a私y_i\neq a_i 試合の質をどのように評価できますか?問題は、いくつかのクラスが多くのメンバーを持つことができる、つまり多くのインスタンスがそれに属するということです。すべてのデータポイントの50%が1つのクラスに属し、最終的な分類子が全体で50%正しい場合、明らかに何も得られません。入力が何であれ、その最大クラスを出力する単純な分類器を作成することもできました。 各クラスの既知のテストセットの一致とヒットの結果に基づいて分類子の品質を推定する標準的な方法はありますか?特定のクラスごとに一致率を区別することも重要かもしれません。 私が考えることができる最も単純なアプローチは、最大クラスの正しい一致を除外することです。ほかに何か?

1
GAMのテンソル製品の相互作用の背後にある直観(RのMGCVパッケージ)
一般化された加法モデルは 、たとえばモデル です。関数は滑らかで、推定されます。通常、罰せられたスプラインによって。MGCVはRのパッケージであり、著者(Simon Wood)はRの例を含む彼のパッケージに関する本を書いています。ルパート等 (2003)同じもののより単純なバージョンについて、はるかにアクセスしやすい本を書いてください。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 私の質問は、これらの種類のモデル内の相互作用についてです。次のようなことをしたい場合: OLS土地にいた場合(は単なるベータです) 、解釈に問題はありません。ペナルティスプラインを介して推定する場合、加算コンテキストでの解釈にも問題はありません。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 ただし、GAMのMGCVパッケージには、「テンソル積平滑化」と呼ばれるものがあります。私は「テンソル製品」をグーグルで検索し、見つけた説明を読もうとするとすぐに目が輝いた。私は十分に頭が良くないか、数学があまりうまく説明されていないか、またはその両方です。 コーディングの代わりに normal = gam(y~s(x1)+s(x2)+s(x1*x2)) テンソル製品は同じ(?) what = gam(y~te(x1,x2)) 私がする時 plot(what) または vis.gam(what) 本当にクールな出力が得られます。しかし、私はブラックボックス内で何が起こっているのte()か、また前述のクールな出力をどのように解釈するのか分かりません。先日、セミナーを開催しているという悪夢に見舞われました。みんなにクールなグラフを見せて、それが何を意味するのかと尋ねましたが、知りませんでした。それから私は服を着ていないことを発見しました。 ここのボンネットの下で何が起こっているのかについて少しのメカニズムと直感を与えることで、誰も私と後世の両方を助けることができますか?理想的には、通常の加法相互作用の場合とテンソルの場合の違いについて少し言ってください。数学に進む前に、すべてを簡単な英語で言うことのボーナスポイント。

3
査読済みのオープンソースジャーナルに対する推奨事項
1つの平均の仮説をテストするためのブートストラップ法に関する原稿があり、それを出版のために送りたいのですが、道徳的なジレンマがあります。私はエルゼビアの非倫理的なビジネス慣行に対する抗議に署名しました。問題全体を読んで、他の営利の学術雑誌の倫理に疑問を投げかけました。そのため、名声に関する限り、そのようなジャーナルはまだ確立されているジャーナルと同等ではないと理解しているにもかかわらず、非営利、できればオープンソースのジャーナルに掲載したいと思います。幸いなことに、私はすでに終身在職権を持っているので、それは私にとって大きな考慮事項ではありません。 推奨事項をいただければ幸いです。

8
データマイニングと機械学習の準備として、どのような数学の科目を提案しますか?
私は、データマイニングと機械学習の学習に備えるために、自主的な数学のカリキュラムをまとめようとしています。これは、Andrew Ngの機械学習クラスをCourseraで開始し、先に進む前に数学のスキルを向上させる必要があると感じたことがきっかけです。私は少し前に大学を卒業したので、私の代数と統計(特に政治学/心理学のクラスから)はさびています。 スレッドの回答数学の強力なバックグラウンドはMLの必須条件ですか?機械学習に直接関連する書籍またはクラスのみを提案します。私はすでにそれらのクラスと本のいくつかを調べましたが、どの数学の研究対象かを正確に知りません(たとえば:数学のどの分野が「コスト関数を最小化する」方程式を導き出しますか?)。提案されているもう1つのスレッド(スキルとコースワークはデータアナリストである必要があります)は、データの分析に必要なスキルの幅広いカテゴリのみに言及しています。私はまだ数学の学位を持っていないので、スレッド「数学者のための統計入門」は当てはまりません。同様のスレッド数学者は、同等の知識を質の高い統計学の程度に望んでいます 統計書の信じられないほどのリストを持っていますが、再び、私は代数のさびた思い出から数学を始めて、そこから上に向かっているのを見ています。 それで、機械学習とデータマイニングで働く人にとって、仕事をするために数学のどの分野が不可欠だと思いますか?データマイニングと機械学習の準備として、どのような数学科目を、どのような順序で提案しますか?ここに私がこれまでに持っているリストと順序があります: 代数 事前計算 微積分 線形代数 確率 統計(ここには多くの異なるサブフィールドがありますが、それらをどのように分割するかわかりません) データマイニングと機械学習については、現在の仕事を通じて、ウェブサイト/アプリのアクティビティ、顧客/サブスクリプショントランザクション、および不動産データ(静的および時系列の両方)の記録にアクセスできます。これらのデータセットにデータマイニングと機械学習を適用したいと考えています。 ありがとうございました! 編集: 後世のために、Geoffrey Gordon / Alex Smolaの機械学習入門で役立つ数学の自己評価を共有したかった CMUのクラスでです。

3
時系列が定常か非定常かを知る方法は?
私はRを使用しています、私はGoogleで検索していることを学んだkpss.test()、PP.test()とadf.test()時系列の定常性について知るために使用されています。 しかし、私は彼らの結果を解釈できる統計学者ではありません > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning message: In kpss.test(b$V1) : p-value greater than …

4
文字列を解析するための機械学習技術?
私はたくさんのアドレス文字列を持っています: 1600 Pennsylvania Ave, Washington, DC 20500 USA それらをコンポーネントに解析したい: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA しかし、もちろんデータは汚れています。さまざまな方法で書かれたさまざまな言語の多くの国から来たもので、つづりの間違い、欠品、余分なジャンクなどが含まれています。 現時点では、ファジーガゼッターマッチングと組み合わせたルールを使用するのがアプローチですが、機械学習の手法を探求したいと考えています。教師あり学習用のトレーニングデータにラベルを付けました。問題は、これはどのような機械学習の問題ですか?クラスタリング、分類、回帰のようには見えません。 私が思いつく最も近い方法は、各トークンを分類することですが、実際には、それらをすべて同時に分類し、「最大で1つの国が存在する必要があります」などの制約を満たします。本当に文字列をトークン化する方法はたくさんあり、それぞれを試して最高のものを選択したいのですが...統計解析と呼ばれるものがあることは知っていますが、それについては何も知りません。 それで、アドレスを解析するためにどんな機械学習技術を探求できますか?

6
折れ線グラフの線が多すぎますが、より良い解決策はありますか?
ユーザーによるアクションの数(この場合は「いいね」)の経時的なグラフを作成しようとしています。 したがって、Y軸として「アクションの数」、X軸は時間(週)、各行は1人のユーザーを表します。 私の問題は、約100人のユーザーのセットについてこのデータを調べたいということです。折れ線グラフは、すぐに100本の線でごちゃごちゃになります。この情報を表示するために使用できるより良いタイプのグラフはありますか?または、個々の行のオン/オフを切り替えられるようにする必要がありますか? すべてのデータを一度に見たいのですが、アクションの数を高精度で識別できることはそれほど重要ではありません。 なぜ私はこれをしているのですか 私のユーザーのサブセット(トップユーザー)について、特定の日付にロールアウトされたアプリケーションの新しいバージョンが気に入らないユーザーを見つけたいと思います。個々のユーザーによるアクション数の大幅な減少を探しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.