統計とビッグデータ modeling

1

mathoverflowからの質問をクロスポストして、統計固有のヘルプを見つけます。私は、負でない値を持つ2次元にうまく投影するデータを生成する物理プロセスを研究しています。各プロセスには、 - yポイントの（投影された）トラックがあります-下の画像を参照してください。xxxyyy サンプルトラックは青で、面倒な種類のトラックは緑で手書きされ、関心領域は赤で描かれています。各トラックは、独立した実験の結果です。数年間で2千万回の実験が行われましたが、そのうち2千回だけがトラックとしてプロットした特徴を示しています。ここでは、トラックを生成する実験のみを考慮しているため、データセットは（約）2000トラックです。 11110410410^4 任意のトラックが問題の領域に入る可能性をどのように計算できますか？関心領域に入るトラックが生成される頻度を確認するのに十分な速さで実験を行うことはできないため、利用可能なデータから推定する必要があります。 xxxy≥200y≥200y\ge200 各トラックから問題の領域までの最小距離を調整しましたが、これが正当な結果を生んでいるとは思いません。 1）このタイプのデータに分布を当てはめるための既知の方法はありますか？ -または- 2）このデータを使用してトラックを生成するためのモデルを作成する明白な方法はありますか？たとえば、トラックの主成分分析を大きな空間のポイントとして使用し、それらのコンポーネントに投影されたトラックに分布（ピアソン？）を当てはめます。

10 distributions modeling predictive-models fitting curve-fitting

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

PyMCの2つの正規分布の近似モデル

私はソフトウェアエンジニアなので、始める前に私を許さなければならないより多くの統計を学ぼうとしているので、これは深刻な新しい領域です... 私はPyMCを学び、いくつかの本当に（本当に）単純な例に取り組んできました。私が作業を開始できない（そして関連する例を見つけることができない）1つの問題は、2つの正規分布から生成されたデータにモデルを適合させることです。 1000個の値があるとします。500から発生Normal(mean=100, stddev=20)し、別の500から生成されましたNormal(mean=200, stddev=20)。モデルをそれらに適合させたい場合、つまり、PyMCを使用して2つの平均と単一標準偏差を決定します。私はそれが... mean1 = Uniform('mean1', lower=0.0, upper=200.0) mean2 = Uniform('mean2', lower=0.0, upper=200.0) precision = Gamma('precision', alpha=0.1, beta=0.1) data = read_data_from_file_or_whatever() @deterministic(plot=False) def mean(m1=mean1, m2=mean2): # but what goes here? process = Normal('process', mu=mean, tau=precision, value=data, observed=True) つまり、生成プロセスは通常ですが、muは2つの値のいずれかです。私はちょうど値はから来ているかどうかの間で「決定」を表す方法を知らないm1かをm2。多分私はこれをモデリングするために間違ったアプローチを完全に取っていますか？誰かが私に例を指摘できますか？私はバグとジャグを読むことができるので、何でも本当に大丈夫です。

10 modeling python pymc

1

Student-Tエラーのある回帰は役に立ちませんか？

編集をご覧ください。裾が重いデータがある場合、student-tエラーで回帰を行うと、直感的に行えるように見えます。この可能性を調査しているときに、私はこの論文に出くわしました。 Breusch、TS、Robertson、JC、およびWelsh、AH（1997年11月1日）。皇帝の新しい服：多変量t回帰モデルの批評。Statistica Neerlandica、51、3.）（link、pdf）これは、スケールパラメータと自由度パラメータが何らかの意味で相互に識別可能ではなく、このため、tエラーのある回帰を行っても、標準の線形回帰の場合を超えることはできないと主張しています。 Zellner（1976）は、データベクトル（または誤差ベクトル）が多変量スチューデントt分布からの実現として表される回帰モデルを提案しました。このモデルは、通常のガウス仮定を拡張して、より裾の長い誤差分布を可能にするように見えるため、かなりの注目を集めています。文献の多くの結果は、ガウスモデルの標準推論手順がより広い分布の仮定の下で適切なままであり、標準メソッドの堅牢性の主張につながることを示しています。数学的には2つのモデルは異なりますが、統計的推論の目的では区別できないことを示しています。多変量tモデルの経験的意味は、ガウスモデルのそれとまったく同じです。したがって、データのより広範な分布表現の提案は偽であり、堅牢性の主張は誤解を招くものです。これらの結論は、頻度主義者とベイズの両方の観点から達しています。これには驚きました。私はそれらの引数を適切に評価するための数学的洗練度を持っていないので、いくつか質問があります。t-エラーを使用して回帰を行うことは一般的に役に立たないのは本当ですか？それらが時々役立つ場合、私はその論文を誤解しているのでしょうか、それとも誤解を招くものですか？それらが役に立たない場合、これはよく知られた事実ですか？重い尾を持つデータを説明する他の方法はありますか？編集：パラグラフ3とセクション4をよく読んでみると、以下の論文は私がスチューデントt回帰と考えていたものについて話していないようです（エラーは独立した一変量t分布です）。エラーは代わりに単一の分布から引き出され、独立したものではありません。私が正しく理解していれば、この独立性の欠如が、スケールと自由度を独立して推定できない理由を正確に説明しています。この論文は、読まないようにするための論文のリストを提供していると思います。

10 regression mathematical-statistics modeling robust

1

SEMモデリングのサポート（OpenMx、polycor）

SEMを適用しようとしている1つのデータセットに多くの問題があります。 5つの潜在因子A、B、C、D、Eが存在し、指標がそれぞれ存在するとします。A1からA5（順序付けられた因子）、B1からB3（定量的）、C1、D1、E1（最後の3つの順序付けされた因子すべて、E1のレベルは2つのみ。すべての因子間の共分散に関心があります。使用OpenMxしてみました。ここに私の試みのいくつかがあります：最初にすべての順序付けされた要素にしきい値行列を使用しようとしましたが、収束は失敗しました。 hetcorライブラリの関数を使用して、生データの代わりにポリコリック/ポリシリアル相関を使用することにしましたpolycor（信頼区間を得るためにサンプルをブートストラップすることを計画していました）。また、収束に失敗します！私は完全なデータを持つ個人に制限しようとしました、それも失敗します！私の最初の質問は次のとおりです。これらの失敗を解釈する自然な方法はありますか？私の2番目の質問は次のとおりです。どうすればよいですか??? 編集：同じ問題に遭遇する可能性のある将来の読者のために、関数のコードを調べた後polycor...解決策はhetcor()オプションを使用することstd.err=FALSEです。これは、StasKが与えたものと非常によく似た見積もりを与えます。ここで何が起こっているのかをよく理解する時間はありません！以下の質問は、StasKによってかなりよく回答されています。他にも質問がありますが、何よりもまずL1、完全なデータのみを含むデータフレームを含むRDataファイルのURLを次に示します。data_sem.RData ここに、の失敗を示す数行のコードがありhetcorます。 > require("OpenMx") > require("polycor") > load("data_sem.RData") > hetcor(L1) Erreur dans cut.default(scale(x), c(-Inf, row.cuts, Inf)) : 'breaks' are not unique De plus : Il y a eu 11 avis (utilisez warnings() pour les visionner) > head(L1) A1 A2 A3 A4 …

10 r modeling multiple-regression sem

1

統計モデルのトレーニングに「十分」なデータの概念はありますか？

私は、隠れマルコフモデルや混合ガウスモデルなど、非常に多くの統計モデリングに取り組んでいます。これらの各ケースで優れたモデルをトレーニングするには、最終的な使用と同様の環境から取得した大量のデータ（HMMの場合は20000文以上）が必要です。私の質問は：文献に「十分な」訓練データの概念はありますか？どのくらいのトレーニングデータで「十分」ですか？「良い」（良い認識精度（> 80％）を与える）モデルをトレーニングするために必要な文の数を計算するにはどうすればよいですか？モデルが適切にトレーニングされているかどうかを確認するにはどうすればよいですか？モデルの係数はランダムな変動を示し始めますか？もしそうなら、モデルの更新によるランダムな変動と実際の変化をどのように区別しますか？さらにタグが必要な場合は、この質問に自由にタグを付け直してください。

10 modeling hidden-markov-model gaussian-mixture

5

結果変数が5％から95％に分割されるときに、ロジスティック回帰にバイアスがかかりますか？

ユーティリティクライアントのロジスティック回帰を使用して傾向モデルを構築しています。私の懸念は、サンプル全体のうち、私の「悪い」アカウントはわずか5％であり、残りはすべて良好であるということです。「悪い」と予測しています。結果は偏っていますか？良いモデルを構築するのに最適な「悪い比率から良い比率」は何ですか？

10 logistic modeling

4

統計モデリングを始めるためのヒントとコツ？

私はデータマイニングの分野で働いており、統計に関する正式な教育はほとんど受けていません。最近、学習とマイニングのためのベイズのパラダイムに焦点を当てた多くの仕事を読んでいますが、それは非常に興味深いと思います。私の質問は（いくつかの部分で）、問題があり、統計モデルを構築することができる一般的なフレームワークがあるかどうかです。基礎となるプロセスをモデル化するデータセットが与えられたときに最初に行うことは何ですか？このプロセスを説明する良い本やチュートリアルはありますか、それとも経験の問題ですか？モデルを構築するとき、あなたの心の最前線で推論ですか、それとも計算にどのように使用するかについて心配する前に、最初にデータを記述することを目指していますか？どんな洞察もいただければ幸いです！ありがとう。

10 bayesian modeling references eda

7

モデル構築における社会的差別の回避

アマゾンの最近の求人スキャンダルからインスピレーションを得た質問があります。求人プロセスで女性に対する差別があったとして非難されました。詳細はこちら： Amazon.com Incの機械学習スペシャリストは大きな問題を発見しました。彼らの新しい採用エンジンは女性が好きではありませんでした。チームは2014年以来、優秀な人材の検索を機械化することを目的として求職者の履歴書をレビューするためにコンピュータープログラムを構築しています... ...同社の実験的採用ツールは、人工知能を使用して1〜5つ星の範囲の求職者のスコアを与えました... ...しかし、2015年までに、同社は新しいシステムがソフトウェア開発者の求人やその他の技術的な投稿の候補者を性別に中立的な方法で評価していないことに気付きました。これは、Amazonのコンピューターモデルが、10年間に渡って会社に提出された履歴書のパターンを観察することで、応募者を精査するように訓練されたためです。ほとんどが男性から来ており、テクノロジー業界全体で男性が優勢であることを反映しています。（技術における性別の内訳については、こちらを参照してください：こちらをご覧ください）実際、Amazonのシステムは、男性の候補者が望ましいことを教えてくれました。「女性のチェスクラブのキャプテン」のように「女性の」という言葉を含む履歴書にペナルティを課した。そして、問題に詳しい人々によると、それは2つのすべての女性の大学の卒業生を格下げした。彼らは学校の名前を明記しなかった。 Amazonは、これらの特定の条件に中立になるようにプログラムを編集しました。しかし、それは、マシンが差別的であると証明することができる候補を分類する他の方法を考案しないという保証ではなかった、と人々は言った。シアトルの会社は、幹部がプロジェクトへの希望を失ったため、最終的に昨年の初めまでにチームを解散しました... ...会社の実験は...機械学習の限界におけるケーススタディを提供します。 ...カーネギーメロン大学で機械学習を教えるニハール・シャーのようなコンピューター科学者は、まだやらなければならないことがたくさんあると言います。「アルゴリズムが公正であることを保証する方法、アルゴリズムが本当に解釈可能で説明可能であることを確認する方法-それはまだかなり遠い」と彼は言った。 MASCULINE LANGUAGE [Amazon]は、Amazonのエジンバラエンジニアリングハブにチームを編成し、約12人に成長しました。彼らの目標は、ウェブを迅速にクロールし、採用に値する候補者を見つけることができるAIを開発することでした、と問題に詳しい人々は言った。グループは、特定の職務と場所に焦点を当てた500台のコンピューターモデルを作成しました。彼らはそれぞれ、過去の候補者の履歴書に現れた約50,000の用語を認識するように教えました。アルゴリズムは、さまざまなコンピューターコードを書く能力など、IT応募者に共通のスキルにほとんど重要性を割り当てないことを学びました... 代わりに、テクノロジーは、男性エンジニアの履歴書でより一般的に見られる動詞を使用して自分自身を説明する候補者を支持しました。ある人は、「執行された」と「捕らえられた」と語った。新しい個人の募集に役立つ5つ星のランキングなど、個人データからの出力を予測する統計モデルを構築するとします。倫理的な制約として、性差別も避けたいとしましょう。性別を除いて2つの厳密に等しいプロファイルが与えられた場合、モデルの出力は同じになるはずです。性別（またはそれに関連するデータ）を入力として使用して、それらの影響を修正するか、これらのデータの使用を避けるべきですか？性別による差別がないことを確認するにはどうすればよいですか？統計的に判別可能であるが、倫理的な理由のためになりたくないデータのモデルをどのように修正しますか？

10 predictive-models modeling model

3

確率変数をその平均値で置き換えることができないのはいつですか？

モデリングとシミュレーションで頻繁に簡略化されるのは、確率変数をその平均値で置き換えることです。この単純化はいつ誤った結論につながるのでしょうか？

10 modeling mean random-variable

1

このプロセスの可能性はどれくらいですか？

患者は入院する。彼らの滞在期間は次の2つの要素に依存します。彼らの怪我の重症度、および彼らが病院に留まるために彼らの保険がいくら支払ってもよいかです。一部の患者は、保険が滞在費の支払いを停止することを決定した場合、時期尚早に退職します。以下を想定します。 1）滞在の長さは、パラメーターλλ\lambdaポアソン分布されます（現時点ではこれを想定していますが、現実的な想定である場合とそうでない場合があります）。 2）7、14、および21日間の滞在をカバーするさまざまな保険プラン。多くの患者は、7、14、または21日間の滞在後に退院します（保険が切れたため退院する必要があるため）。このプロセスからデータを取得すると、次のようになります。ご覧のとおり、7、14、および21日目でスパイクがあります。これらは、保険が終了したときに退院する患者です。明らかに、データは混合としてモデル化できます。この分布の可能性を書き留めるのに苦労しています。これはゼロ膨張ポアソンのようなものですが、膨張は7、14、21です。このデータの可能性はどれくらいですか？可能性の背後にある思考プロセスは何ですか？

10 maximum-likelihood modeling

9

財務時系列をモデル化するためのツール

財務時系列をモデル化するために、どのような最新のツール（Windowsベース）を提案しますか？

10 modeling time-series finance software

1

確率的プログラミングとは何ですか？

過去1年間、私はPyMC3やStanなどの確率的プログラミング（PP）フレームワーク、およびPPがいかに優れているかについて多くのことを聞いてきました。そして今日、誰かがこのリンクを私と共有しました： Pyro：深い確率的プログラミング言語ただし、PPで実行できることは他の汎用言語で実行できるように感じるため、特別なことには触れません。PPには魅力的な技術的側面（並列計算など）があると確信していますが、これはさておき、PPは他の言語と本当に違うのですか？質問：私は、PPとは何か、それがR、Matlab、Mathematicaなどの他の統計に焦点を当てたソフトウェアとどのように異なるのかについてコンセンサスがあるのかと思っていました。これは、ことに留意すべきであるPyMC3とStan多くのベイズ分析に焦点を当てています。 Googleで少し調べてみたところ、次の2つの定義に出くわしました。1つ目はより抽象的で、2つ目はPPの技術的特徴についてです。 1.2。確率的プログラミングは代わりに、確率的プログラミングは統計モデリングのためのツールです。アイデアは、プログラミング言語の世界からの教訓を借り、統計モデルの設計と使用の問題に適用することです。専門家は統計モデルをすでに手作業で紙の数学表記で構築していますが、機械的な推論ではサポートが難しい専門家のみのプロセスです。PPの重要な洞察は、統計モデリングが十分に行うと、プログラミングのように感じ始めることができるということです。飛躍を遂げ、実際にモデリングに実際の言語を使用すると、多くの新しいツールが実現可能になります。各インスタンスの論文を書くことを正当化するために使用されたタスクの自動化を開始できます。次に、2番目の定義を示します。確率的プログラミング言語はrand、プログラムの統計的動作を理解するのに役立つ関連ツールの非常に大きな山を備えた通常のプログラミング言語です。これらの定義はどちらも正確です。彼らは同じ核となる考えに異なる角度を強調するだけです。どちらが適切かは、PPを何に使用するかによって異なります。しかし、PPLプログラムが通常のソフトウェア実装によく似ているという事実に気を取られないでください。その目的は、プログラムを実行して何らかの出力を取得することです。PPの目標は、実行ではなく分析です（強調を追加）。 - 確率的プログラミング一般的な統計コミュニティがPPのこれら2つの定義に同意するかどうか、および他の特性がある場合、この定義が欠落している可能性があるかどうか知りたい。

10 bayesian modeling inference software

5

境界領域上の正規のような分布

ガウス（正規）分布に似ているが、定義されたセグメントでのみ確率密度が非ゼロになるような分布はありますか。サークル内の「弾丸の広がり」をモデル化しようとしたときに問題が浮上しました。ガウス分布は正常に機能しますが、弾丸が円の外側に当たる可能性は常にあります。ガウス分布に非常に似ている分布を見つけたいのですが、定義されたセグメント（または円）の外側の確率がゼロであるという特性があります。編集：はい、実際には円ではなくディスクを意味します。編集：そしてはい、私は（ディスクの半径に沿った）1次元の分布のみが必要です。これは円対称になります（角度に依存しません）。

10 distributions normal-distribution modeling

2

モデルの誤った仕様の下での統計的推論

一般的な方法論的な質問があります。以前に回答された可能性がありますが、関連するスレッドを見つけることができません。可能性のある重複へのポインタに感謝します。（ここではなく、無応答と、優れものです。これは、でも答えを、精神にも似ていますが、後者はあまりにも私の観点から、特定のです。これは、質問を投稿後に発見、近くにもあります。）テーマは、データを表示する前に作成されたモデルがデータ生成プロセスを適切に説明できない場合に、有効な統計的推論を行う方法です。質問は非常に一般的ですが、ポイントを説明するために特定の例を提供します。しかし、私は、特定の例の詳細に細心の注意を払うのではなく、一般的な方法論の質問に焦点を当てた回答を期待しています。具体的な例を考える：時系列設定で、Iは、データ生成処理を前提となるようにとU T〜iが。私。N （0 、σ 2 U）。私はd yという主題の仮説をテストすることを目指していますyt=β0+β1xt+ut(1)(1)yt=β0+β1xt+ut y_t=\beta_0 + \beta_1 x_t+u_t \tag{1} ut∼i.i.N(0,σ2u)ut∼i.i.N(0,σu2)u_t \sim i.i.N(0,\sigma_u^2)。私は、モデルの面でこれをキャスト（1）私の主題仮説の実行可能な統計的な対応を得るために、これはある H0：β1=1. これまでのところ、とても良いです。しかし、データを観察すると、モデルがデータを適切に記述していないことがわかりました。私たちは真のデータ生成処理がされ、その結果、線形傾向がある、としましょう Y 、T = γ 0 + γ 1 のx T + γ 2トン+ のV T とVのトン〜dydx=1dydx=1\frac{dy}{dx}=1(1)(1)(1)H0: β1=1.H0: β1=1. H_0\colon \ \beta_1=1. yt=γ0+γ1xt+γ2t+vt(2)(2)yt=γ0+γ1xt+γ2t+vt y_t=\gamma_0 + \gamma_1 x_t+\gamma_2 t + v_t …

9 modeling inference misspecification

タグ付けされた質問 「modeling」

タグ付けされた質問「modeling」