統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
魔法の金のなる木問題
私はシャワーのこの問題を考えました、それは投資戦略に触発されました。 魔法の金のなる木があったとしましょう。毎日、お金の木に金額を提供することができ、それはそれを3倍にするか、50/50の確率で破壊します。あなたはすぐにこれを行うことで平均してお金を得ることに気づき、金のなる木を利用したいと思っています。ただし、一度にすべてのお金を提供した場合、すべてのお金を失うのは50%になります。受け入れられない!あなたはかなりリスクを嫌う人なので、戦略を考え出すことにします。あなたはすべてを失う可能性を最小限に抑えたいが、できるだけ多くのお金を稼ぐこともしたい!次のことを思いつきます。毎日、現在の資本の20%を金のなる木に提供します。あなたが提供できる最低価格が1セントであると仮定すると、10ドルで始めた場合、すべてのお金を失うには31の損失連続が必要です。そのうえ、獲得する現金が多ければ多いほど、すべてを失うのに必要な負け筋が長くなります。すぐに大量の現金を獲得し始めます。しかし、その後、アイデアが頭に浮かびます。毎日30%を提供するだけで、さらに多くのお金を稼ぐことができます。しかし、35%を提供してみませんか?50%?ある日、大きなドル記号を目にして、何百万ものお金の木に駆け寄り、現金の100%を提供します。翌日、マクドナルドで仕事を得ます。金のなる木はすぐに燃えます。翌日、マクドナルドで仕事を得ます。金のなる木はすぐに燃えます。翌日、マクドナルドで仕事を得ます。 すべてを失うことなく提供できる現金の最適な割合はありますか? (サブ)質問: 提供すべき最適な割合がある場合、これは静的(つまり毎日20%)ですか、それとも資本が増加するにつれて割合を増やす必要がありますか? 毎日20%を提供することで、すべてのお金を失う確率は時間の経過とともに減少または増加しますか?すべてのお金を失う確率が時間とともに増加する割合のお金はありますか?


6
データセットのサンプルのハイパーパラメーターチューニングは悪い考えですか?
140000の例と30の機能のデータセットがあり、それらに対してバイナリ分類(SVM、ロジスティック回帰、ランダムフォレストなど)のいくつかの分類器をトレーニングしています。 多くの場合、グリッド検索またはランダム検索を使用したデータセット全体のハイパーパラメーター調整は、時間的にコストがかかりすぎます。 私は次のテクニックを使い始めました データセットのサブサンプル 取得した分数を使用して、ハイパーパラメーターを調整します 取得したパラメーターを使用して、データセット全体を使用してモデルをトレーニングします 第2段階Iの使用に関するパラメータの各セットを評価することsklearnのGridSearchCVCV = 10で。私は第三ステップIの使用中に作成することを最終的なモデルを評価するためにsklearn「S cross_val_predict。その意味で、データの10%を残してモデルを評価し、残りのトレーニングを行い、10%で予測精度を10回繰り返し測定し、スコアの平均を取得します。 私が心配したのは、データセット全体のトレーニングから得られる予測精度が、最適なパラメーターセットのパラメーターを調整するときに得られる評価に非常に近いことです(テストされた各パラメーターセットは、平均10-フォールドクロス検証結果)。 ほとんどの場合、cross_val_predictすべてのトレーニング例(データセット全体)を使用して測定した精度は、最適なパラメーターの評価が返す値をわずかに上回っています。 これをここで説明するために、一連のパラメーターの評価を行います(上記で説明したものよりも小さいデータセット上ですが、効果は同じです) Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores for all sets of parameters 0.851 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.5} 0.852 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.1} …


2
VAR予測方法
資産の価格を予測するためにVARモデルを構築していますが、私の方法が統計的に適切かどうか、含めたテストが関連するかどうか、入力変数に基づいて信頼できる予測を確保するためにさらに必要な場合は知りたいと思います。 以下は、グレンジャーの因果関係を確認し、選択したVARモデルを予測する現在のプロセスです。 require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference to achieve stationarity d.x1 …
19 r  forecasting  modeling  var 

1
適合度と線形回帰またはポアソンを選択するモデル
私の研究では、3つの大きな医薬品とイノベーションのケーススタディである2つの主なジレンマに関するアドバイスが必要です。年間の特許数は従属変数です。 私の質問は 良いモデルの最も重要な基準は何ですか?重要なことは何ですか?ほとんどまたはすべての変数が重要になるのでしょうか?「F STATISTIC」の問題ですか?「調整済みRの2乗」の値ですか? 第二に、研究に最適なモデルをどのように決定できますか?カウント変数(多分ポアソンカウント)である特許のほかに、資産収益率、研究開発予算、繰り返されるパートナー(バイナリ変数ではない%)、企業規模(従業員)などの説明変数があります。線形回帰またはポアソンを実行する必要がありますか?


4
異分散性に対処する最良の方法は?
不均一分散性が非常に明確な、近似値の関数での線形モデルの残差値のプロットがあります。しかし、この不均一分散性が私の線形モデルを無効にすることを理解している限り、今どのように進めるべきかはわかりません。(そうですか?) パッケージのrlm()関数を使用した堅牢な線形フィッティングを使用するのは、MASS不均一分散性に対して明らかに堅牢であるためです。 係数の標準誤差は不均一分散のために間違っているので、標準誤差を不均一分散に対してロバストになるように調整できますか?ここでスタックオーバーフローに投稿された方法を使用:ヘテロスケダスティクスによる回帰標準エラーを修正 私の問題に対処するために使用する最良の方法はどれですか?ソリューション2を使用すると、モデルの予測機能はまったく役に立ちませんか? Breusch-Pagan検定では、分散が一定ではないことが確認されました。 近似値の関数における私の残差は次のようになります。 (拡大版)

11
ロジスティック回帰が機械学習アルゴリズムと呼ばれるのはなぜですか?
機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります。つまり、モデルが新しいケースに対して間違った予測を与える場合、モデルは新しい観測に適応する必要があり、やがてモデルはますます良くなります。ロジスティック回帰にはこの特性があるとは思えません。では、なぜ機械学習アルゴリズムと見なされているのでしょうか?「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか? ランダムフォレストについても同じ質問があります! そして、「機械学習」の定義は何ですか?

5
SVMまたはニューラルネットワークを使用しているときにカテゴリ変数を数値変数に再コーディングする方法
SVMまたはニューラルネットワークを使用するには、カテゴリ変数を数値変数に変換(エンコード)する必要があります。この場合の通常の方法は、0-1番目のバイナリ値を使用し、k番目のカテゴリ値を(0,0、.. 。、1,0、... 0)(1はk番目の位置にあります)。これを行う他の方法はありますか?特に、0-1表現がニューラルネットワークに多数の追加の次元(入力単位)を導入するようなカテゴリ値(eg10000など)が多数ある場合、これはまったく望ましくない、または予期されないようです? 私は一般的な戦略について尋ねています。

3
線形回帰を解くときに、複数の局所最適解が存在しますか?
私は1つの古いtrue / false試験でこの声明を読みました。 勾配降下を使用して二乗誤差の合計を最小化することにより線形回帰問題を解くと、複数の局所最適解を得ることができます。 解決策:False 私の質問は、この質問のどの部分が間違っているのですか?なぜこの声明は偽ですか?

3
サンプルサイズが大きくなると、t分布がより正規になるのはなぜですか?
ウィキペディアによると、サンプルが正規分布母集団からのiid観測である場合、t分布はt値のサンプリング分布であることを理解しています。ただし、t分布の形状がファットテールからほぼ完全に正常に変化する理由を直感的に理解できません。 正規分布からサンプリングしている場合、大きなサンプルを取得した場合、その分布に似ていますが、なぜそれが太い尾の形で始まるのかわかりません。

2
構造方程式モデル(SEM)対ベイジアンネットワーク(BN)
ここでの用語は混乱です。「構造方程式」は「建築の橋」と同じくらいあいまいで、「ベイジアンネットワーク」は本質的にベイジアンではありません。さらに良いことに、因果関係の神、Judea Pearlは、2つのモデルのモデルはほとんど同一であると述べています。 それで、重要な違いは何ですか? (私にとって驚くべきことに、SEMのWikipediaページには、この記事の執筆時点では「ネットワーク」という言葉すら含まれていません。)

3
非正規サンプルのサンプル分散の漸近分布
これはこの質問によって提起された問題のより一般的な取り扱いです 。サンプル分散の漸近分布を導出した後、デルタ法を適用して標準偏差の対応する分布に到達できます。 iidの非正規ランダム変数のサイズのサンプル、平均してと分散。サンプル平均とサンプル分散を { X i } 、nnn{Xi},i=1,...,n{Xi},i=1,...,n\{X_i\},\;\; i=1,...,nμμ\muσ2σ2\sigma^2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2\bar x = \frac 1n \sum_{i=1}^nX_i,\;\;\; s^2 = \frac 1{n-1} \sum_{i=1}^n(X_i-\bar x)^2 私たちは知っている E(s2)=σ2,Var(s2)=1n(μ4−n−3n−1σ4)E(s2)=σ2,Var⁡(s2)=1n(μ4−n−3n−1σ4)E(s^2) = \sigma^2, \;\;\; \operatorname {Var}(s^2) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right) ここで、であり、存在が有限である必要があるモーメントが存在し、有限である分布に注意を制限します。μ4=E(Xi−μ)4μ4=E(Xi−μ)4\mu_4 = E(X_i -\mu)^4 それを保持していますか n−−√(s2−σ2)→dN(0,μ4−σ4)?n(s2−σ2)→dN(0,μ4−σ4)?\sqrt n(s^2 - \sigma^2) \rightarrow_d N\left(0,\mu_4 - \sigma^4\right)\;\; ?

2
ブラックボックスとしてのニューラルネットワークの意味?
私はよく、人々がニューラルネットワークを、それが何をするのか、または何を意味するのか理解していないブラックボックスのようなものとして話しているのを聞きます。私は実際、それが何を意味するのか理解できません!バックプロパゲーションがどのように機能するかを理解している場合、それはどのようにブラックボックスですか? それらは、どのように重みが計算されたのか、何を理解していないのか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.