タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。


3
ランダムフォレストの投票から「確実性スコア」を作成しますか?
私は、約10,000個のオブジェクトの適度に大きなトレーニングセットでオブジェクトType AとType Bオブジェクトを区別する分類子をトレーニングしようType AとしていますType B。データセットは、セルの物理的特性(サイズ、平均半径など)を詳述する100個の連続したフィーチャで構成されています。ペアワイズ散布図と密度プロットでデータを視覚化すると、多くの特徴で癌細胞と正常細胞の分布にかなりの重複があることがわかります。 現在、このデータセットの分類方法としてランダムフォレストを調査しており、いくつかの良い結果が得られています。Rを使用すると、ランダムフォレストはオブジェクトの約90%を正しく分類できます。 試してみたいことの1つは、オブジェクトの分類に対する自信の程度を定量化する一種の「確実性スコア」を作成することです。私たちは、分類器が100%正確になることはありませんことを知っている、との予測では、高い精度が達成された場合でも、私たちは訓練を受けた技術が真にであるオブジェクトを識別することになるでしょうType AとType B。そのため、Type Aまたはの妥協のない予測を提供する代わりにType B、各オブジェクトの方法AまたはBオブジェクトがどのようであるかを説明するスコアを提示したいと思います。たとえば、0〜10の範囲のスコアを考案した場合、スコア0はオブジェクトがオブジェクトに非常に似ていることを示し、スコア10はオブジェクトが非常に似ているType Aことを示しますType B。 ランダムフォレスト内の投票を使用して、このようなスコアを考案できると考えていました。ランダムフォレストの分類は、生成されたツリーのフォレスト内の多数決によって行われるため、ツリーの100%によって投票さType Aれたオブジェクトは、たとえばツリーの51%によって投票されたオブジェクトとは異なると想定しますであるType A。 現在、オブジェクトをType AまたはType Bに分類するために受け取る必要がある投票の割合に任意のしきい値を設定しようとしましたが、しきい値を超えていない場合はに分類されUncertainます。たとえば、80%以上のツリーが分類の合格に同意する必要があるという条件を強制すると、クラス予測の99%は正しいが、オブジェクトの約40%がとしてビン化されることがわかりますUncertain。 それでは、投票情報を利用して予測の確実性をスコアリングすることは理にかなっていますか?または、私は自分の考えで間違った方向に向かっていますか?

4
係数total = 1になるようにRの制約付き回帰をどのように適合させるのですか?
同様の制約付き回帰がここにあります: 指定された点を通る制約付き線形回帰 しかし、私の要件は少し異なります。合計1の係数が必要です。具体的には、1つの外国為替シリーズのリターンを他の3つの外国為替シリーズに対して回帰しています。現金支出は変化してはならず、できれば(ただしこれは必須ではありません)、係数は正でなければなりません。 RとGoogleで制約付き回帰を検索しようとしましたが、ほとんど運がありません。
36 r  regression 

5
Rのタイミング関数[終了]
関数の実行を繰り返すのにかかる時間を測定したいと思います。あるreplicate()と同等のループに使用して?例えば: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); どちらが好ましい方法です。 の出力でsystem.time()はsys+user、プログラムを実行するための実際のCPU時間ですか?あるelapsed番組の時間性能の良い測定?
36 r 

2
glmnetの解釈方法は?
約60の予測変数と30の観測値を持つ多変量線形回帰モデルを近似しようとしています。そのため、p> nであるため、正規化回帰にglmnetパッケージを使用しています。 私はドキュメントや他の質問を行ってきましたが、結果を解釈することはまだできません。サンプルコード(簡単にするために20の予測子と10の観測値を使用)を次に示します。 num rows = numの観測値とnum cols = numの予測子、および応答変数を表すベクトルyを含む行列xを作成します > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) アルファをデフォルトのままにしてglmnetモデルに適合します(投げ縄ペナルティの場合= 1) > fit1=glmnet(x,y) > print(fit1) ラムダの値が減少すると異なる予測が得られることを理解しています(つまり、ペナルティ) Call: glmnet(x = x, y = y) Df %Dev Lambda [1,] 0 0.00000 0.890700 [2,] 1 0.06159 0.850200 [3,] 1 0.11770 0.811500 [4,] 1 0.16880 0.774600 . . . …

6
文字列の2つのベクトルを(Rで)準一致させる方法は?
私はこれがどのように呼ばれるべきかわからないので、より良い用語を知っているなら私を修正してください。 2つのリストがあります。55個のアイテムの1つ(例:文字列のベクトル)、92個のアイテム。アイテム名は似ていますが、同一ではありません。 55リストの項目から92リストの最適な候補を見つけたい(それからそれを調べて正しいフィッティングを選択する)。 どうすればできますか? 私が持っていたアイデア: 一致するものをすべて表示します(何かのリスト?matchを使用) 文字列ベクトル間の距離行列を試してみてください。しかし、それをどのように定義するのが最適かわかりません(同一の文字の数、文字列の順序はどうですか?) では、そのようなタスクを処理するパッケージ/機能/研究分野は何ですか? 更新:一致させたいベクターの例を次に示します vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", "Hyperthermus_butylicus", "Ignicoccus_hospitalis_KIN4", "Metallosphaera_sedula_DSM_5348", "Methanobacterium thermautotrophicus", "Methanobrevibacter_smithii_ATCC_35061", "Methanococcoides_burtonii_DSM_6242" ) vec91 <- c("Acidilobus saccharovorans 345-15", "Aciduliprofundum boonei T469", "Aeropyrum pernix K1", "Archaeoglobus fulgidus DSM …
36 r  text-mining 

2
Rのlmで調整されたR-2乗式とは何ですか?
調整済みRの2乗のR で使用される正確な式は何lm() ですか?どうすれば解釈できますか? 調整されたr-2乗式 調整されたR-2乗を計算するためのいくつかの式が存在するようです。 ウェリーの式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} マクネマーの式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 主の公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} スタインの式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科書の説明 Fieldの教科書によると、Rを使用した統計の発見(2012、p。273)Rは、Wherryの方程式を使用します。彼は、Wherryの公式を示していません。彼は、Steinの式を(手で)使用して、モデルがどのように交差検証されるかを確認することを推奨します。 Kleiber / Zeileis、Applied Econometrics with R(2008、p。59)は、「Theilの調整済みR 2乗」であると主張し、その解釈が複数のR 2乗からどのように変化するかを正確に述べていません。 Dalgaard、Introductory Statistics with R(2008、p。113)は、「[調整されたRの2乗]を100%掛けると、「%分散の減少」と解釈できる」と書いています。彼は、これがどの式に対応するかについては述べていません。 私は以前、R乗がモデルに追加の変数を追加するとペナルティを与えると考え、広く読んでいました。現在、これらの異なる式の使用は、異なる解釈を必要とするようです。また、スタックオーバーフロー(単一変量最小二乗回帰における複数R 2乗と調整R 2乗の違いは何ですか?)、およびUPennにあるウォートンスクールの統計辞書に関する関連する質問も調べました。 ご質問 Rによって調整されたr平方に使用される式はどれ lm()ですか? どうすれば解釈できますか?

1
分位点回帰:どの標準エラーですか?
quantreg vignetteのsummary.rq関数は、分位点回帰係数の標準誤差推定のための多数の選択肢を提供します。これらのそれぞれが最適/望ましいものになる特別なシナリオは何ですか? Koenker(1994)で説明されているようにランクテストを反転することにより、推定パラメーターの信頼区間を生成する「ランク」。デフォルトのオプションは、エラーがiidであると想定していますが、オプションiid = FALSEはKoenker Machado(1999)の提案を実装しています。追加の引数については、rq.fit.brのドキュメントを参照してください。 エラーがiidであると想定し、KB(1978)のように漸近共分散行列の推定値を計算する「iid」。 条件付き分位関数のローカル(タウ)線形性(x)を推定し、スパース性のローカル推定を使用してフーバーサンドイッチ推定を計算する「nid」。 Poker(1990)によって提案されたサンドイッチのカーネル推定値を使用する「ker」。 標準エラーを推定するためのいくつかの可能なブートストラップの選択肢の1つを実装する「ブート」。 私はこれが時系列または断面の次元のいずれかに適用される少なくとも20の経験的論文を読みましたが、標準誤差の選択については言及していません。

3
ランダムフォレストのOOBと混同マトリックスを解釈する方法は?
誰かからランダムスクリプトモデルを実行するRスクリプトを受け取りました。いくつかの従業員データを使用して変更して実行しました。自発的な分離を予測しようとしています。 いくつかの追加情報があります。これは、0 =従業員が留まる、1 =従業員が解雇される分類モデルです。現在、12個の予測変数のみを調べています。レコードセット全体の%。 さまざまなmtryおよびntreeの選択を使用してモデルを実行しましたが、以下で解決しました。OOBは6.8%で良いと思いますが、エラーマトリックスは92.79%と非常に高いため、混同マトリックスは用語を予測するための別の話をしているようです。用語を予測するための高いエラー率?または、RFを使用して用語を予測するためのエラー率を小さくするためにできることはありますか? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

5
Rの「コメント」機能の良い使用法は何ですか?
commentRで関数を発見しました。例: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) この機能を使用したのはこれが初めてであり、この機能の一般的/有用な使用法について疑問に思っていました。グーグルで「Rコメント」を検索して関連する結果を見つけることは非常に難しいので、ここの誰かが彼の経験と共有することを望んでいました。
35 r 

1
ロジスティック回帰:anovaカイ2乗検定対係数の有意性(anova()vs summary()in R)
8つの変数を持つロジスティックGLMモデルがあります。Rでカイ2乗検定を実行しましたanova(glm.model,test='Chisq')が、変数の2つは、テストの一番上で注文したときに予測的であり、一番下で注文したときにはそれほど予測されませんでした。summary(glm.model)それらの係数は有意でない(高いp値)であることを示唆しています。この場合、変数は重要ではないようです。 変数の有意性のより良い検定-モデルの要約の係数の有意性またはからのカイ2乗検定のどちらがよいかを尋ねたかったのanova()です。また、どちらが一方よりも優れているのはいつですか? 私はそれは広範な質問だと思いますが、何を考慮すべきかについてのポインタは評価されるでしょう。


2
入れ子のある混合効果モデル
次のように編成された実験から収集されたデータがあります。 それぞれが30本のツリーを持つ2つのサイト。15が処理され、15が各サイトのコントロールです。各ツリーから、ステムの3つの部分とルートの3つの部分をサンプリングします。したがって、2つの因子レベル(ルート、ステム)のいずれかで表されるツリーごとに6つのレベル1のサンプルです。次に、それらのステム/ルートサンプルから、サンプル内の異なる組織を解剖することで2つのサンプルを取得します。これは、組織タイプ(組織タイプA、組織タイプB)の2つの因子レベルの1つで表されます。これらのサンプルは、連続変数として測定されます。観測の総数は720です。2つのサイト* 30本の木*(3つの幹サンプル+ 3つのルートサンプル)*(1つの組織Aサンプル+ 1つの組織Bサンプル)。データは次のようになります... ï..Site Tree Treatment Organ Sample Tissue Total_Length 1 L LT1 T R 1 Phloem 30 2 L LT1 T R 1 Xylem 28 3 L LT1 T R 2 Phloem 46 4 L LT1 T R 2 Xylem 38 5 L LT1 T R 3 …

3
R-残りの用語で混乱
二乗平均平方根誤差 残差平方和 残留標準誤差 平均二乗誤差 テストエラー 私はこれらの用語を理解していたと思っていましたが、統計的な問題を多くすればするほど、私が自分自身を再考する場所を混乱させました。安心と具体的な例をお願いします 方程式はオンラインで簡単に見つけることができますが、これらの用語の「5のような説明」を得るのに苦労しています。 誰もがこのコードを下に取り、これらの用語のそれぞれをどのように計算するかを指摘できるなら、感謝します。Rコードは素晴らしいでしょう。 以下の例を使用します。 summary(lm(mpg~hp, data=mtcars)) 見つける方法をRコードで教えてください: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ これらの違い/類似点を5のように説明するためのボーナスポイント。例: rmse = squareroot(mss)

3
ランダムフォレストモデルでの精度の平均低下とGINIの平均低下の解釈方法
ランダムフォレストパッケージからの変数の重要度の出力を解釈する方法を理解するのに少し苦労しています。通常、精度の平均低下は、「各フィーチャの値を並べ替えることによるモデルの精度の低下」として説明されます。 これは、機能全体または機能内の特定の値に関する記述ですか?どちらの場合でも、平均精度の低下は、問題のフィーチャ(またはフィーチャからの値)をモデルから削除することによって誤って分類された観測の数または割合ですか? 次のモデルがあるとします。 require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.