タグ付けされた質問 「references」

特定の主題に関する外部参照(本、論文など)を求める質問。さらに、常により具体的なタグを使用してください。

3
ロジスティック回帰(または他の形式の回帰)での非線形性のテスト
ロジスティック回帰の前提の1つは、ロジットの線形性です。したがって、モデルを立ち上げて実行したら、Box-Tidwellテストを使用して非線形性をテストします。私の連続予測変数(X)の1つは、非線形性が陽性であることをテストしました。次に何をするつもりですか? これは仮定の違反であるため、予測変数(X)を取り除くか、非線形変換(X * X)を含める必要があります。または、変数をカテゴリカルに変換しますか?あなたが参照を持っているなら、あなたも私にそれを指し示すことができますか?

3
確率分布について初心者向けの本の推奨事項
私は機械学習を勉強していて、開いた本はすべて、カイ2乗分布、ガンマ関数、t分布、ガウス分布などに出会います。 これまでに開いたすべての本は、分布が何であるかを定義しているだけです。それらは、関数の特定の式がどこから来ているのかを説明したり、直感を与えたりしません。 たとえば、なぜカイ二乗分布が現状のままであるのでしょうか。T分布とは何ですか?ディストリビューションの背後にある直感は何ですか?証拠?等 最も一般的に使用される分布について明確かつ基本的な理解を持ちたいので、後でそれらを見るたびに、t分布とは何か、ガウス分布とは何か、そして最も重要なのはなぜそれらがそのようになるのかを本当に理解するためです彼らです。 本/チュートリアルが素人に概念を説明できて、それらを理解するためにあなたがすでにそれらを理解する必要がないようになっているとよいでしょうx)多くの本はこのようなものであり、初心者には適していません:(

3
が連続変数の場合、
連続変数ことは知っています。P[ X= x ] = 0P[X=x]=0P[X=x]=0 しかし、場合、可能なxの数が無限にあることを視覚化することはできません。また、なぜそれらの確率が無限に小さくなるのですか?P[ X= x ] = 0P[X=x]=0P[X=x]=0バツxx

1
複数のメトリックを組み合わせて、k個のオブジェクトの比較/ランキングを提供する[質問と参照のリクエスト]
k個のオブジェクトに関するメトリックを収集するんnnkkk k個のオブジェクトについてメトリックを収集するとします。「ランク付け」できるようにk個のオブジェクトを比較する有効な方法を探しています。私はこれはよく踏みにじられた根拠かもしれないと思います(総クォーターバック評価などのスポーツ統計)が、私はこの分野に慣れていません。んnnkkkkkk どのオブジェクトが最適かという質問に答えたいですか? 収集されたメトリックに関する情報 各メトリックの、iは範囲である1 ≤ I ≤ N、メトリックのスコアM iは、の範囲[ 0 、rは私が ]。これらのメトリックのいくつかは100 %パーセントなどの理論上の最大値を持ち、他のr iはサンプル内の収集された最大スコア(たとえば、最高速度、高さなど)であることに注意してください。メートル私mim_i私ii1つの≤ I ≤ N1≤i≤n1 \leq i \leq nメートル私mim_i[ 0 、r私][0,ri][0, r_i]100 %100%100\%r私rir_i メトリックスコアの正規化/標準化 私の直感は、間の第1正規化するために、すべてのこれらのスコアである各スコアは、後に計算することが、全体的なスコアに等しく寄与するように、。[0,1][0,1][0,1] つまり、各メトリックについて、そのメトリックのスコアはm iになります。mimim_i。ここで、max(ri)は、サンプル内のそのメトリックの最大スコアです。私の直感では、これが有効であると確信することはできません。それが私の質問1です。この正規化手順は有効ですか?mimax(ri)mimax(ri)\frac{m_i}{\text{max}(r_i)}max(ri)max(ri)\text{max}(r_i) Also for each question the implicit question is I am probably completely wrong, what resources and topics should I be …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


2
Behrens–Fisher問題
Behrens–Fisher問題に対してとられてきたさまざまなアプローチについて、数学的な詳細を含む公開された説明的な説明はありますか?

5
ベイジアンは、彼らのアプローチが一般化/頻繁なアプローチと重複するケースがあると主張しますか?
ベイジアンは、彼らのアプローチが頻繁なアプローチを一般化すると主張することがあります。なぜなら、情報のない事前分布を使用できるため、典型的な頻繁なモデル構造を回復できるからです。 この議論が実際に使用されている場合、誰かが私にこの議論について読むことができる場所を紹介してもらえますか? 編集:この質問は、おそらく私がそれを言い表すつもりではなかった言い回しです。問題は、「ベイジアンアプローチと頻度主義的アプローチが重なり合う/交差する/特定の事前分布を使用して共通するものがある場合の議論への参照があるかどうか」です。1つの例は、不適切な事前を使用することですが、これは氷山の一角にすぎないと確信しています。p(θ)=1p(θ)=1p(\theta) = 1


4
コンサルティング統計学者がクライアントに提供する参考資料
この質問は、ウィキペディアなどのリソースが弱く開発されているにもかかわらず、統計と確率を自分で習得することの難しさを示しています。 コンサルティングの統計担当者、およびここに数人いる統計担当者が、特定の概念や方法をクライアントに説明するという課題に日常的に直面する可能性があることに気付きました。これは、教育コインの裏側です。概念を習得した場合、特定の分析方法を実施することは理にかなっているかもしれませんが、参照は不適切であるか、クライアントと共有するのが難しい場合があります。それでは、コンサルティング統計学者がクライアントに提案したい一般的なリソースはありますか?(より高度なまたは専門的なトピックについては、更新プログラム1を参照してください。) 役に立つかもしれないいくつかの本を考えることができますが、多くのクライアントが開発者が行ったようにウェブを検索しに行き、ウィキペディアでかなり無意味な資料に出くわすと思います。開発者への私の答えで、私はNISTハンドブックをそのようなリファレンスの1つとして使用できるように提案しました。ほかに何か? 更新1:Peter Flomが指摘したように、より高度な素材やより狭い追跡のために、単一の参照ポイントを提供することは容易ではないかもしれません。これは正しいことであり、これらのケースについては質問の表現を変えるべきでした。このような場合、コンサルタントはどのようにしてアクセス可能な参照を見つけて共有しますか?多くのコンサルタントは、クライアントに物事を説明するために何か新しいことを書くのに時間がかかると思いますが、それらは見つけられて共有される参照ではありません。 いくつかのアイデア: コンサルタントまたは他者が作成したチュートリアル 同じ概念を実証するプロジェクトのケーススタディまたは分析 概念を説明する本の抜粋(開発者への回答で提案したとおり) 他にどのような情報源がありますか、または実際にそのような参照を見つける方法は他にありますか?これは自由回答形式の質問であることに気づきましたが、開発者に対する私の答えは、この問題に取り組む方法のいくつかを示しています。これに対処できるすべての方法を尋ねるつもりはありませんが、自分の経験では、通常、このような説明リソースをどのように提供しましたか?

9
統計的手法の広く概念的な概要のための本
シミュレーション/予測/関数推定などの統計分析の可能性に非常に興味があります。 しかし、私はそれについてあまり知りませんし、私の数学的な知識はまだかなり限られています-私はソフトウェア工学の学部生です。 線形回帰とその他の回帰、ベイジアン法、モンテカルロ法、機械学習など、読み続けている特定のことから始められる本を探しています。両方を組み合わせた本がありました。 できれば、技術的な詳細ではなく概念的に物事を説明してください。統計には非常に多くの危険な落とし穴があることを理解しているため、統計を非常に直感的にしたいと思います。 価値があると思われるトピックの理解を深めるために、もっと本を読むつもりはありません。

3
統計ソフトウェアの使用から数式の理解への移行?
環境: 私は心理学博士課程の学生です。多くの心理学博士課程の学生と同様に、PCA、分類木、クラスター分析などの手法まで、統計ソフトウェアを使用してさまざまな統計分析を実行する方法を知っています。しかし、分析を行った理由と指標の意味を説明することはできますが、この手法がどのように機能するかを説明することはできないため、それは本当に満足のいくものではありません。 本当の問題は、統計ソフトウェアの習得は簡単ですが、制限されていることです。記事で新しいテクニックを学ぶには、数式の読み方を理解する必要があります。現在、固有値またはK平均を計算できませんでした。方程式は私にとって外国語のようなものです。 質問: 雑誌記事の方程式を理解するのに役立つ包括的なガイドはありますか? 編集: この質問はもっと自明なものだと思った。特定の複雑さを超えると、統計表記は意味が分からなくなる。テクニックを理解するためにRまたはC ++で独自の関数をコーディングしたいが、障壁があるとしましょう。方程式をプログラムに変換できません。そして本当に:私は米国の博士課程の状況を知りませんが、私の(フランス)で、私が従うことができる唯一のコースは16世紀のごく少数の運動です...

1
オンラインでスケーラブルな統計手法
これは、私が非常に興味深いと思う効率的なオンライン線形回帰に触発されました。大規模な統計計算に専念するテキストやリソースはありますか?それにより、メインメモリに収まらないほど大きく、効果的にサブサンプリングするには多すぎるデータセットを使用した計算が行われます。たとえば、混合効果モデルをオンラインで適合させることは可能ですか?MLEの標準的な2次の最適化手法を1次のSGDタイプの手法に置き換えた場合の効果を調べた人はいますか?



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.