統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
の数字は統計的にランダムですか?
シーケンスを観察するとします: 7、9、0、5、5、5、4、8、0、6、9、5、3、8、7、8、5、4、0、0、6、6、4、5、3、 3、7、5、9、8、1、8、6、2、8、4、6、4、1、9、9、0、5、2、2、0、4、5、2、8。 .. これが本当にランダムかどうかを判断するために、どの統計的検定を適用しますか?参考までに、これらは番目の数字です。したがって、数字は統計的にランダムですか?これは定数について何か言っていますか?nnnππ\piππ\piππ\pi

1
Rでニューラルネットワークモデルをトレーニングおよび検証する方法
ニューラルネットワークを使用したモデリングは初めてですが、観測されたデータによく適合するすべての利用可能なデータポイントでニューラルネットワークを確立することができました。ニューラルネットワークは、nnetパッケージを使用してRで実行されました。 require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay = 0.1, maxit = 1000) mynnet.predict <- predict(mynnet.fit)*33.80 mean((mynnet.predict - MyData$DOC)^2) ## mean squared error was 16.5 分析中のデータは次のようになります。DOCはモデル化する必要のある変数です(約17,000の観測値があります)。 Q GW_level Temp t_sum DOC 1 0.045 0.070 12.50 0.2 11.17 2 0.046 …



3
オブジェクトの色を決定する最も正確な方法は何ですか?
コンピュータービジョンの標準的な手法(ガウスぼかし、しきい値処理、ハフ変換など)を使用して、静的画像(.jpeg、.pngなど)のコインを検出できるコンピュータープログラムを作成しました。特定の画像からピックアップされたコインの比率を使用して、どのコインがどれであるかを確実に確立できます。ただし、信頼レベルに追加し、(半径比から)タイプAであると推測するコインも正しい色であるかどうかを判断します。問題は、英国のコインなどについてです。(銅、銀、金)、それぞれの色(特に銅から金)は非常に似ています。 RedGreenBlue(RGB)の「色空間」に関して特定のコインの平均色を抽出するルーチンと、この色をHueSaturationBrightness(HSBまたはHSV)の「色空間」に変換するルーチンがあります。 RGBは、3つのコインの色を区別しようとするのにあまり適していません(例については、添付の[基本]画像を参照してください)。次の範囲と、さまざまなコインタイプの色の一般的な値があります。 注:ここでの典型的な値は、実際の画像の「ピクセル単位の」平均を使用して選択された値です。 **Copper RGB/HSB:** typicalRGB = (153, 117, 89)/(26, 0.42, 0.60). **Silver RGB/HSB:** typicalRGB = (174, 176, 180)/(220, 0.03, 0.71). **Gold RGB/HSB:** typicalRGB = (220, 205, 160)/(45, 0.27, 0.86) 最初に、特定の平均コインカラー(RGBを使用)と、RGB値をベクトルとして扱う上記の各コインタイプの典型的な値との間の「ユークリッド距離」を使用しようとしました。銅の場合: Dcopper=(√(Rtype−Rcopper)2+(Gtype−Gcopper)2+(Btype−Bcopper)2)Dcopper=((Rtype−Rcopper)2+(Gtype−Gcopper)2+(Btype−Bcopper)2)D_{copper} = \sqrt((R_{type} - R_{copper})^{2} + (G_{type} - G_{copper})^{2} + (B_{type} - B_{copper})^{2}) ここで、差の最小値()は、特定のコインがどのタイプである可能性が最も高いかを示します。この方法は、非常に不正確であることが示されています。DDD また、コインの色相を上記の典型的な値と比較することも試みました。理論的には、これにより、画像のさまざまな明るさと彩度レベルを処理するためのはるかに優れた「色空間」が提供されますが、これも十分に正確ではありませんでした。 質問:(静止画像から)色に基づいてコインの種類を判断する最良の方法は何ですか? ご清聴ありがとうございました。 編集1 …

3
RでARIMAXモデルを適合させる方法は?
毎時測定の4つの異なる時系列があります。 家の中の熱消費 家の外の温度 日射 風速 家の中の熱消費量を予測できるようにしたい。年間および日単位の両方で、明確な季節的傾向があります。異なるシリーズの間には明確な相関関係があるため、ARIMAXモデルを使用してそれらを近似します。これは、パッケージTSAの関数arimaxを使用して、Rで実行できます。 私はこの関数に関するドキュメントを読み、伝達関数を読み込もうとしましたが、これまでのところ、私のコードは: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) 私に与えます: ここで、黒い線は実際の測定データであり、緑の線は私の比較モデルです。それは良いモデルではないだけでなく、明らかに何かが間違っています。 ARIMAXモデルと伝達関数に関する知識が限られていることを認めます。関数arimax()では(理解している限り)、xtransfは(伝達関数を使用して)メインの時系列を予測するために使用する外因性の時系列です。しかし、実際にはxregとxtransfの違いは何ですか? より一般的には、私が間違ったことは何ですか?lm(heat〜temp radi wind * time)から得られるものよりも良いフィット感を得ることができるようにしたいと思います。 編集: コメントのいくつかに基づいて、転送を削除し、代わりにxregを追加しました。 regParams = ts.union(ts(dayy), ts(temp), ts(time)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams) ここで、dayyは「年間通算日」であり、timeはその日の時間です。温度は再び外の温度です。これにより、次の結果が得られます。 それは良いですが、私が期待していたものとはほぼ異なります。



2
ポアソン分散データのボックスプロットバリアントはありますか?
ポアソン分布データ(またはおそらく他の分布)に適応したボックスプロットバリアントがあるかどうかを知りたいですか? ガウス分布では、ウィスカはL = Q1-1.5 IQRおよびU = Q3 + 1.5 IQRに配置されているため、箱ひげ図には、高い外れ値(Uより上の点)とほぼ同じくらい多くの低い外れ値(Lより下の点)があります)。 ただし、データがポアソン分布の場合、正の歪度によりPr(X <L)<Pr(X> U)が得られるため、これはもはや成り立ちません。ポアソン分布に「適合する」ようにひげを配置する別の方法はありますか?

6
2つのヒストグラムの類似性を評価する方法は?
2つのヒストグラムがある場合、それらが類似しているかどうかをどのように評価しますか? 2つのヒストグラムを単に見るだけで十分ですか?単純な1対1のマッピングには、ヒストグラムがわずかに異なり、わずかにシフトする場合、目的の結果が得られないという問題があります。 助言がありますか?

4
Rの標準エラークラスタリング(手動またはplmのいずれか)
標準エラーの「クラスタリング」とRでの実行方法を理解しようとしています(Stataでは簡単です)。RIでは、どちらplmかを使用するか、独自の関数を作成することに失敗しました。パッケージのdiamondsデータを使用しggplot2ます。 いずれかのダミー変数で固定効果を実行できます > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

10
統計を恐れる学生に教える方法は?
今学期、医学生に統計を教える手助けをしようとしています。 これらの学生が統計を学習することへの恐怖について多くの恐怖物語を聞いたことがあります。 誰もがこの恐怖に対処する方法を提案できますか?(これについて議論している人々へのリンク、またはあなた自身の経験からの提案を提供してください)
33 teaching 

14
生存分析の参考文献
生存分析について学ぶための良い本/チュートリアルを探しています。Rで生存分析を行う際の参考資料にも興味があります。
33 r  survival  references 

2
1つの確率変数の関数の分散
既知の分散と平均を持つランダム変数があるとしましょう。問題は、与えられた関数f の分散は何ですか?私が知っている唯一の一般的な方法はデルタ法ですが、近似のみを提供します。今、私はに興味がありますが、いくつかの一般的な方法を知っておくといいでしょう。XXXf(X)f(X)f(X)f(x)=x−−√f(x)=xf(x)=\sqrt{x} 編集2010年12月29日 私はテイラー級数を使用していくつかの計算を行ってきたが、私は誰かができれば、私は喜んでいると思いますので、彼らは、正しいかどうかわからないんだけど、確認し、それらを。 まず、を近似する必要がありますE[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] これで、 E [(f(X)-E [f(X)])^ 2] \ approx E [(f(\ mu)+ f '(\ mu)( X- \ mu)+ \ frac {1} {2} \ cdot f ''(\ mu)(X- \ mu)^ 2 -E [f(X)])^ 2]E [ (F (X )- E [ F (X …

1
GBM、XGBoost、LightGBM、CatBoostの数学的な違いは?
以下のようなモデルのGBDTファミリの実装がいくつか存在します。 GBM XGBoost LightGBM キャットブースト。 これらの異なる実装の数学的違いは何ですか? Catboostは、このベンチマークに従ってデフォルトパラメータのみを使用しても、他の実装よりも優れているようですが、それでも非常に遅いです。 私の推測では、catboostはダミー変数を使用しないため、各(カテゴリ)変数に与えられた重みは他の実装と比較してよりバランスが取れているため、高カーディナリティー変数は他の変数よりも重みがありません。弱いカテゴリカル(低カーディナリティ)が一部のツリーに入ることができるため、パフォーマンスが向上します。それ以外は、これ以上の説明はありません。
33 boosting  xgboost 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.