タグ付けされた質問 「r」

Rは無料のオープンソースのプログラミング言語であり、統計計算、バイオインフォマティクス、グラフィックスのためのソフトウェア環境です。


2
Rでの情報獲得
C4.5ディシジョンツリーで主要な属性を選択するための「情報ゲイン」の計算に使用されているパッケージを見つけて、「情報ゲイン」の計算にそれらを使用してみました。 ただし、以下のコードのように、各パッケージの計算結果は異なります。 > IG.CORElearn <- attrEval(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi, dataUSE1, estimator = "InfGain") > IG.RWeka <- InfoGainAttributeEval(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi, dataUSE1) > IG.FSelector <- information.gain(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi,dataUSE1) > IG.CORElearn In_Temp In_Humi In_CO2 In_Illu In_LP Out_Temp Out_Humi 0.04472928 0.02705100 0.09305418 0.35064927 0.44299167 0.01832216 0.05551973 > IG.RWeka In_Temp In_Humi In_CO2 In_Illu In_LP Out_Temp Out_Humi …

4
Rでのメールの分類
私はRでプロジェクトに取り組んでいます。会社からのメールが約1200通あり、そのほとんどがリクエストのタイプであるclassまたはclassというラベルが付いています。およそ1000通のメールにclassというラベルが付けられ、200通にはclassというラベルが付けられ。私の目標は、教師あり学習を使用して、新しいメールを分類するモデルを構築することです。11_{1}1 222_{2}11_{1}22_{2} しかし、多くの前処理(構文解析、ストップワードの削除など)を行い、ドキュメント用語行列で一般的なアルゴリズム(SVM、決定木など)を試した後、混乱行列には多くの偽陽性と偽陰性が含まれていましたが、 SVMのほんの少しの偽陰性。 どうすれば結果を改善できるでしょうか。オーバーサンプリング、つまりバイグラムの特徴表現を使用する必要がありますか?問題は、2つのカテゴリのトピックが本当に近いということです。


1
R-ニューラルネットワークプロットの解釈
stats.SEにも同様の質問があることは知っていますが、私の要求を満たす質問は見つかりませんでした。質問を重複としてマークする前に、コメントでpingしてください。 neuralnetSP500インデックスの時系列を予測するために基づいてニューラルネットワークを実行していて、以下に掲載されているプロットをどのように解釈できるかを理解したいと思います。 特に、隠れ層の重みと入力の重みの解釈が何であるかを理解することに興味があります。誰かがその数を解釈する方法を教えてもらえますか? 任意のヒントをいただければ幸いです。

2
TwitterのRを使用して大規模なデータセットを保存する最良の方法は?
RのtwitteRライブラリを使用してTwitterから大量のデータセット(つまり、数日前のツイートデータ)を取得することを目的とするプロジェクトに取り組んでいます。私のマシンには8 GBのメモリしかないため、ツイートを保存することが困難です。1日取得するように設定する前でも、メモリが不足しています。RAMに保存せずにツイートをディスクに直接保存できる方法はありますか?古いツイートを取得する必要があるため、ストリーミングAPIを使用していません。
8 r  dataset 

3
データセットの異なる要素間の類似性を見つける方法
前書き さまざまな人々のさまざまな観察のデータセットがあり、他の人に最も近い人を知るために人々をグループ化したいとします。また、それらが互いにどれだけ近いかを知り、統計的有意性を知るための測定も必要です。 データ eat_rate drink_rate sleep_rate play_rate name game 1 0.0542192259 0.13041721 5.013682e-03 1.023533e-06 Paul Rayman 4 0.0688171511 0.01050611 6.178833e-03 3.238838e-07 Paul Mario 6 0.0928997660 0.01828468 9.321211e-03 3.525951e-07 Jenn Mario 7 0.0001631273 0.02212345 7.061524e-05 1.531270e-07 Jean FIFA 8 0.0028735509 0.05414688 1.341689e-03 4.533366e-07 Mark FIFA 10 0.0034844717 0.09152440 4.589990e-04 5.802708e-07 Mark …

2
Rで水平ボックスプロットを視覚化する
このようなデータセットがあります。データはアンケートを通じて収集されたので、いくつかの予備的なデータ分析を行います。 windows <- c("yes", "no","yes","yes","no") sql <- c("no","yes","no","no","no") excel <- c("yes","yes","yes","no","yes") salary <- c(100,200,300,400,500 ) test<- as.data.frame (cbind(windows,sql,excel,salary),stringsAsFactors=TRUE) test[,"salary"] <- as.numeric(as.character(test[,"salary"] )) データセットに結果変数(給与)といくつかの入力変数(ツール)があります。次のように水平ボックスプロットを視覚化するにはどうすればよいですか。

1
パッケージtmを使用したRエラー(テキストマイニング)
tmパッケージを使用して、テキスト文字列のベクトルをコーパス要素に変換しようとしています。 私のコードはこのようなものです Corpus(d1$Yes) ここで、d1$Yes124のレベル、テキスト文字列を含むそれぞれ有する因子です。 例えば、 d1$Yes[246] = "So we can get the boat out!" 次のエラーが表示されます。 "Error: inherits(x, "Source") is not TRUE" これを解決する方法がわかりません。
8 r  text-mining 

2
マトリックス内の「クラスター」または「グループ」の識別
個別の要素が入力されたマトリックスがあり、それらを(Rを使用して)そのままのグループにクラスター化する必要があります。したがって、たとえば、次のマトリックスを見てください。 [A B B C A] [A A B A A] [A B B C C] [A A A A A] Aには2つの個別のクラスター、Cには2つの個別のクラスター、Bには1つのクラスターがあります。 私が探している出力は、理想的には次のような一意のIDを各クラスターに割り当てます。 [1 2 2 3 4] [1 1 2 4 4] [1 2 2 5 5] [1 1 1 1 1] 今、私は最近傍を繰り返しチェックするだけで再帰的にこれを行うコードを書きましたが、行列が大きくなると(つまり、100x100)すぐにオーバーフローします。 これを行うことができるRの組み込み関数はありますか?ラスターと画像処理を調べましたが、うまくいきませんでした。私はそれがそこにあるに違いないと確信しています。
7 r  clustering 

2
評価ではなく購入履歴に基づく推奨システム
保険業界向けに最適化されたレコメンダーシステムのオプションを検討しています。 i)製品保有 ii)ユーザーの特性(セグメント、年齢、裕福さなど)。 強調したい a)利用可能な製品評価がないため、協調フィルタリングはオプションではありません b)推奨製品は、すでに購入された製品と類似している必要はありません。したがって、アイテム間の推奨はおそらく関連性がありません。 自動車保険に加入している人は、自宅や旅行などではなく、別のモーター製品を購入する可能性が低いため、保険では、すでに購入したものと同様の製品を推奨することはめったにありません。 そのため、購入履歴や人口統計に基づいて、ユーザー間の類似性に関する推奨事項を作成します 理想的には、それをRで、できればPythonで実装できるようにしたいと考えています。ヘルプと提案をありがとう!

3
テキストフラグメントのパラメーターを使用したテンプレートの識別
パラメータを含むことができる固定構造のテキストフラグメントを含むデータセットがあります。次に例を示します。 Temperature today is 20 centigrades Temperature today is 28 centigrades または Her eyes are blue and hair black. Her eyes are green and hair brown. 最初の例は、1つの数値パラメーターを持つテンプレートを示しています。2つ目は、2つの因子パラメーターを持つテンプレートです。 テンプレートの数とパラメータの数は不明です。 問題は、テンプレートを識別し、各テキストフラグメントを対応するテンプレートに割り当てることです。 明白な最初のアイデアは、クラスタリングを使用することです。距離測定は、一致しない単語の数として定義されます。つまり、例1のレコードの距離は1で、例2の距離は2です。例1と2のレコード間の距離は7です。この方法は適切に機能し、クラスターの数がわかっている場合はそうではありません。役に立たない。 距離行列をスキャンして、距離1(または2、3、...)に多くの近傍を持つレコードを検索するプログラムによるアプローチを想像できますが、監視されていない機械学習アルゴリズムを適用して問題を解決できるかどうか知りたいです。Rが推奨されますが、必須ではありません。

1
SparkとRのロジスティック回帰が同じデータに対して異なるモデルを返すのはなぜですか?
R(glm)とSpark(LogisticRegressionWithLBFGS)のロジスティック回帰モデルを390 obsのデータセットで比較しました。14変数の。 結果は切片と重みで完全に異なります。これを説明するには? 以下はSpark(LogisticRegressionWithLBFGS)の結果です。 model.intercept : 1.119830027739959 model.weights : GEST 0.30798496002530473 DILATE 0.28121771009716895 EFFACE 0.01780105068588628 CONSIS -0.22782058111362183 CONTR -0.8094592237248102 MEMBRAN-1.788173534959893 AGE -0.05285751197750732 STRAT -1.6650305527536942 GRAVID 0.38324952943210994 PARIT -0.9463956993328745 DIAB 0.18151162744507293 TRANSF -0.7413500749909346 GEMEL 1.5953124037323745 Rの結果は次のとおりです。 Estimate Std. Error z value Pr(>|z|) (Intercept) 3.0682091 3.3944407 0.904 0.366052 GEST 0.0086545 0.1494487 0.058 …

1
SQL Server Analysis ServicesとRの違いは何ですか?
これは、意見が多すぎて幅広い質問かもしれませんが、SQL Server Analysis Serviceデータマイニングプロジェクトを使用したさまざまなアルゴリズムの実行とRの使用についての情報を探すのは本当に難しいと感じています。 SSASについては誰も使用していないようなので、SSASについては何も考えていません。:) データベースガイ 始める前に、はっきりさせておきます。私はデータベース担当者であり、データサイエンティストではありません。私は主にRを使用するデータサイエンティストである人々と協力しています。私は、これらの人たちがデータを分析および処理できる大きなデータセットを作成するのを支援します。 ここでの私の目的は、SQL Serverに付属しているツールを活用することです。R、SAS、SSPSなどの他のメソッドやツールと比較して、だれもそれがどのように機能するかについての手がかりがないためです。キャンプ。 SSAS OLAPキューブの作成以外にSQL Server Analysis Services(SSAS)を実際に使用したことはありません。SSASを知っている人は、キューブでデータマイニングタスクを実行したり、SQL Serverのデータで直接実行したりすることもできます。 SSASデータマイニングには、さまざまなアルゴリズムタイプが用意されています。 分類アルゴリズムは、データセット内の他の属性に基づいて、1つ以上の離散変数を予測します。 回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの1つ以上の連続変数を予測します。 セグメンテーションアルゴリズムは、類似したプロパティを持つアイテムのグループまたはクラスターにデータを分割します。 アソシエーションアルゴリズムは、データセット内の異なる属性間の相関関係を見つけます。この種のアルゴリズムの最も一般的なアプリケーションは、マーケットバスケット分析で使用できる相関ルールの作成です。 シーケンス分析アルゴリズムは、Webパスフローなど、データ内の頻繁なシーケンスまたはエピソードを要約します。 離散列の予測 これらのさまざまなアルゴリズムオプションを使用して、データから一般的な予測を始めることができます。たとえば、入力列Ageに対して、予測可能な列Bike Buyersに基づいて自転車を購入する人を簡単に見つけるなどです。ヒストグラムは、人の年齢がその人が自転車を購入するかどうかを区別するのに役立つことを示しています。 連続列の予測 Microsoftディシジョンツリーアルゴリズムが連続した予測可能な列に基づいてツリーを構築すると、各ノードには回帰式が含まれます。分割は、回帰式の非線形点で発生します。たとえば、次の図について考えます。 比較 その一部については、データに対してさまざまなアルゴリズムを実行でき、SSASでデータに対して実行するさまざまな機能を利用できるように思えます。また、Visual Studioで独自のアルゴリズムを開発し、SSASに展開できるようです(間違いではない場合)。 では、Rの言語とツールに関して、ここで何が欠けているのでしょうか。SSASなどよりも複雑なアルゴリズムを展開および編集する柔軟性が高いだけですか?

3
ニューラルネットワークによる外国為替の予測-予測の遅れ
ニューラルネットワークの使用について質問があります。私は現在R(neuralnetパッケージ)を使用しており、次の問題に直面しています。私のテストと検証セットは、履歴データに関して常に遅れています。結果を修正する方法はありますか?多分私の分析で何かが間違っている 毎日ログを返す シグモイド関数でデータを正規化します(セット全体で計算されたシグマとミュー) ニューラルネットワークを10の日付でトレーニングし、出力はこれらの10の日付に続く正規化された値です。 トレンドを追加しようとしましたが、改善はありません。1〜2日遅れて観察しました。私のプロセスは問題ないようですが、それについてどう思いますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.