タグ付けされた質問 「r」

Rは無料のオープンソースのプログラミング言語であり、統計計算、バイオインフォマティクス、グラフィックスのためのソフトウェア環境です。

2
ggvis vs. ggplot2 + Shiny; インタラクティブな視覚化のためにどちらを選択しますか?
こちらのCrossValidatedにも同様の質問があり、その回答を読みました。私の質問は少し異なります。データを視覚化するだけではなく、視覚化したいものをどちらのパッケージでも視覚化するのは簡単ではありません。 プロットに2セットのポイント(座標)があります。エッジを追加して、グラフのようにします。ポイントがある場合、問題の性質に基づいて、プロットに(n / 2)^ 2エッジを追加する必要があります。x,yx,yx,ynnn(n/2)2(n/2)2(n/2)^2 次に、いくつかのインタラクティブな機能をプロットに追加します。たとえば、1つの点(頂点)をクリックすると、このクリックされた頂点に接続されていない他のすべての頂点が非表示になり、より明確で焦点の合ったプロットが表示されます。 自分のプロジェクトに適したネットワーク視覚化パッケージを見つけようとしましたが、すべてがエッジまたはノードの接続に関するデータを使用し、特定のレイアウトアルゴリズムに基づくネットワークを提供しているようです。データが違います。ノードの座標があり、それらの間にいくつかのエッジを確立したいと思います。私のデータでは、ノードには独自の固定位置があり、移動することはできません。 最後に、パッケージをggvisおよびに絞り込みましたggplot2。ggvisインタラクティブなプロットを生成するための意図的な設計に加えて、新しくて新鮮です。しかし、それggplot2+Shinyがインタラクティブなプロットを生み出すこともできることを知りました。(それは正しいですか?)さらに、私ggplot2はの機能がより多様で成熟していると考えましたggvis。たとえばggplot2、ズーム機能はあるものの、ズーム機能はありggvisません。さらに重要なのは、ggvis成長して変化しているように、1年ほどで技術的に陳腐化したりバグが発生したりする作業に多くの時間を費やしたくないということです。私がに基づいてコーディングした場合、これが事実だと思いましたggvis。 では、私の選択(ggplot2+shiny)を評価して、私がやりたいことを実行する可能性について教えてください。 言及されたパッケージのどれも知らなかったので、私はggplot2ウィッカムの本から学び始めました、そしてそれは大好きです!しかし、私は数週間を費やして、この驚くべきパッケージがの助けを借りてもやりたいことを実行できないことを知って恐れていますShiny。 PS:可能性のあるユーザーがダウンロードして実行できるように、最終的なコードをgithubに配置したいと考えています。したがって、ウェブアプリケーションを作成する必要はありません。ウェブサイトやインタラクティブマップをオンラインにする必要はありません。Rstudioの内部から実行できるインタラクティブなプロットが必要です。

2
Rにおけるデータサイエンスのためのソフトウェアテスト
私はPythonコードをテストするとき、特に他のモジュールや他のコードと統合する必要があるときに、Nose、Tox、またはUnittestをよく使用します。ただし、MLのモデリングと開発にPythonよりもRを使用していることに気づきました。私は自分のRコードを実際にテストしていないことに気付きました(さらに重要なことに、私は本当にそれをうまく行う方法がわかりません)。だから私の質問は、PythonでNose、Tox、Unittestと同じようにRコードをテストできる優れたパッケージとは何ですか。チュートリアルなどの参考資料も大歓迎です。 同様のRのパッケージのボーナスポイント 仮説 または フィーチャーフォージ 関連トーク: Trey Causey:データサイエンティストのテスト

1
Hartigan-Wong k-means法と他のアルゴリズムでの収束
私は、主statsにR言語のパッケージに実装されているさまざまなk平均クラスタリングアルゴリズムを理解しようとしています。 私はロイドのアルゴリズムとマックイーンのオンラインアルゴリズムを理解しています。それらを理解する方法は次のとおりです。 ロイドのアルゴリズム: 最初に、「k」個のクラスターの重心として機能する「k」個のランダムな観測値が選択されます。次に、重心が収束するまで、次のステップが反復で発生します。 各観測値と選択された重心間のユークリッド距離が計算されます。 各重心に最も近い観測値は、「k」バケット内でタグ付けされます。 各バケットのすべての観測値の平均は、新しい重心として機能します。 新しい重心は古い重心を置き換え、古い重心と新しい重心が収束していない場合、反復はステップ1に戻ります。 収束する条件は次のとおりです。古い重心と新しい重心がまったく同じであるか、重心の差が小さい(10 ^ -3のオーダー)か、最大反復回数(10または100)に達しています。 MacQueenのアルゴリズム: これは、最初の「k」インスタンスが重心として選択されるオンラインバージョンです。 次に、各インスタンスは、そのインスタンスに最も近い重心に応じてバケットに配置されます。それぞれの重心が再計算されます。 各インスタンスが適切なバケットに配置されるまで、この手順を繰り返します。 このアルゴリズムには反復が1つしかなく、ループは 'x'インスタンスに対して続行されます Hartigan-Wongアルゴリズム: すべてのポイント/インスタンスをランダムなバケットに割り当て、それぞれの重心を計算します。 最初のインスタンスから始めて、最も近い重心を見つけ、そのバケットを割り当てます。バケットが変更された場合、新しい重心、つまり、新しく割り当てられたバケットの重心と古いバケット割り当ての重心が、変更の影響を受ける2つの重心であるため、それらを再計算します。 すべてのポイントをループして、新しい重心を取得します。 ポイント2と3の2回目の反復を実行します。これは、一種のクリーンアップ操作を実行し、漂遊ポイントを正しいバケットに再割り当てします。 したがって、このアルゴリズムは、収束結果を確認する前に2回の反復を実行します。 さて、Hartigan-Wongアルゴリズムのポイント4で私が考えることがアルゴリズムの正しい方法であるかどうかはわかりません。私の質問は、次のHartigan-Wongのメソッドがk-meansを実装する正しい方法であるかどうかです。この方法の反復は2つだけですか?そうでない場合、収束の条件は何ですか(いつ停止するか)? 私が理解しているもう1つの可能な実装の説明は次のとおりです。 すべてのポイント/インスタンスをランダムなバケットに割り当て、それぞれの重心を計算します。 最初のインスタンスから始めて、最も近い重心を見つけ、そのバケットを割り当てます。バケットが変更された場合は、新しい重心、つまり新しく割り当てられたバケットの重心と古いバケット割り当ての重心が変更の影響を受ける2つの重心であるため、それらを再計算します。 いずれかの時点でバケットに変更があったら、最初のインスタンスに戻って手順を繰り返します。 すべてのインスタンスが反復され、どのポイントもバケットを変更しない場合、反復は終了します。 このように、インスタンスがバケットを変更するたびに、データセットの最初から何度も繰り返される多くの反復があります。 説明があれば役に立ちます。これらの方法のいずれかについて私の理解が間違っている場合はお知らせください。
10 r  clustering  k-means 

5
LSTMまたはR用の他のRNNパッケージ
シェイクスピアのようなテキストを生成するLSTMモデルからの印象的な結果を見ました。LSTMパッケージがRに存在するかどうか疑問に思っていました。Googleでググってみましたが、PythonとJuliaのパッケージしか見つかりませんでした。(おそらく、これらのプログラムがRよりも優先される理由を説明するパフォーマンスの問題があるかもしれません)RのLSTM(または少なくともRNN)パッケージについて知っていますか?存在する場合、それらを使用するためのチュートリアルはありますか?
10 r  neural-network  rnn 

1
Rのグラフ用の(ラベル伝播アルゴリズム/頻繁なサブグラフマイニング)のライブラリ
問題の一般的な説明 いくつかの頂点が3つまたは4つの可能な値を持つタイプでラベル付けされているグラフがあります。他の頂点については、タイプは不明です。私の目標は、グラフを使用して、ラベル付けされていない頂点のタイプを予測することです。 可能なフレームワーク 私はこれを、私の文献を読んだことに基づいて、ラベル伝播問題の一般的なフレームワークに適合していると思います(たとえば、この論文とこの論文を参照してください)。 しばしば言及されているもう一つの方法は、あるFrequent Subgraph Miningアルゴリズムが好き含む、SUBDUE、SLEUTH、とgSpan。 Rで見つかりました 私は見つけることができた唯一のラベル伝播実装がRあるlabel.propagation.community()からigraphライブラリ。ただし、その名前が示すように、ほとんどの場合、ラベルなしの頂点を分類するためではなく、コミュニティを見つけるために使用されます。 subgraphMiningライブラリへの参照(ここでは例)もいくつかあるようですが、CRANにないようです。 質問 説明されているタスクのライブラリまたはフレームワークを知っていますか?

4
Rで順序回帰を学習しますか?
私はプロジェクトに取り組んでおり、スピードを上げるためのリソースが必要です。 データセットは、30程度の変数で約35000観測です。変数の約半分はカテゴリ型であり、いくつかはさまざまな可能な値を持っています。つまり、カテゴリ型変数をダミー変数に分割すると、30を超える変数になります。しかし、おそらく最大で数百程度です。(n> p)。 私たちが予測したい応答は、5つのレベル(1,2,3,4,5)の序数です。予測子は、連続型とカテゴリー型の混合であり、それぞれの約半分です。これらは、これまでの私の考え/計画です。1.応答を連続として扱い、バニラ線形回帰を実行します。2.ノミナルおよびオーディナルロジスティックおよびプロビット回帰を実行する3. MARSおよび/または別の種類の非線形回帰を使用する 私は線形回帰に精通しています。MARSはHastieとTibshiraniによって十分に説明されています。しかし、序数のロジット/プロビットに関しては、特に非常に多くの変数と大きなデータセットに関して、私は途方に暮れています。 これまでのところ、rパッケージglmnetcrが私の最善の策であるようですが、ドキュメントでは、必要な場所に移動するのに十分ではありません。 詳細はどこで確認できますか?

3
Rのメモリ制約とは何ですか?
「Applied Predictive Modeling」のレビューでは、レビュー担当者は次のように述べています。 統計学習(SL)の教育学について私が批判している点の1つは、さまざまなモデリング手法の評価において計算パフォーマンスを考慮していないことです。SLは、ブートストラップと、モデルの調整/テストのための相互検証に重点を置いているため、非常に計算集約的です。それに加えて、バギングやブースティングなどの手法に組み込まれているリサンプリングには、大規模なデータセットの教師あり学習のための計算の地獄があります。実際、Rのメモリの制約により、ランダムフォレストなどのパフォーマンスの高い方法で適合できるモデルのサイズにかなり厳しい制限が課されます。SLは小さなデータセットに対してモデルのパフォーマンスを調整するのに適していますが、より大きなデータのパフォーマンスと計算コストを理解することは確かです。 Rのメモリの制約とは何ですか。また、ランダムフォレストのようなトップパフォーマンスの方法で適合できるモデルのサイズに厳しい制限がありますか?
10 apache-hadoop  r 

1
Rを使用して意思決定ツリーを構築する場合、データを正規化する必要がありますか?
したがって、今週のデータセットには14の属性があり、各列には非常に異なる値があります。1つの列には1未満の値があり、別の列には3〜4桁の値があります。 先週、正規化について学習しましたが、値が大きく異なる場合は、データを正規化する必要があるようです。ディシジョンツリーの場合、ケースは同じですか? これについてはよくわかりませんが、正規化は同じデータセットから得られる決定木に影響しますか?どうやらそうじゃないけど...
10 r  beginner 

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
Rのキャレットパッケージの180のアルゴリズムのどれが実行可能ですか?
Rのキャレットパッケージは180モデルで動作します。著者は、パッケージの一部がトップチョイスモデルよりも処理が遅いか、精度が低い可能性があることを警告しています。 著者はこれについて間違っていません。私はBorutaモデルとevtreeモデルをトレーニングしようとしましたが、クラスターで5時間を超えて実行した後はあきらめなければなりませんでした。 著者は一連の機械学習ベンチマークにリンクしていますが、それらは少数のアルゴリズムのパフォーマンスをカバーし、さまざまな実装を比較しています。 180のモデルのうちどれを試してみる価値があるか、どれが非常に不正確か、不合理に遅いかについてのガイダンスとして、他に参考にできるリソースはありますか?

3
Amazon ec2エラーのRランダムフォレスト:サイズ5.4 Gbのベクターを割り当てることができません
私はRでランダムフォレストモデルをトレーニングrandomForest()し、約20の予測子と600K行の1000個の木とデータフレームを使用しています。私のラップトップではすべてが正常に動作しますが、amazon ec2に移動して同じことを実行すると、エラーが発生します。 Error: cannot allocate vector of size 5.4 Gb Execution halted 私はc3.4xlargeインスタンスタイプを使用しているので、かなり頑丈です。誰かがこれをこのインスタンスで実行するための回避策を知っていますか?この問題の原因となるメモリの微妙な違いについて、ラップトップではなくec2インスタンスでのみ知りたい(OS X 10.9.5プロセッサ2.7 GHz Intel Core i7、メモリ16 GB 1600 MHz DDR3) ありがとう。

3
プロット/画像上の点を特定するための機械学習技術はありますか?
次の画像とサンプルデータの3つのプロットに示すように、時間と車線番号に対する各車両の横位置のデータがあります。 > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 人間のドライバーは車両の位置を完全に制御できないため、横方向の位置は時間とともに変化します。車線変更操作は、横方向の位置が急激に変化したときに始まり、変化が再び「正常」になったときに終了します。これは、データから直接識別することはできません。車線変更の所要時間を推定するには、各車両のプロットを手動で見て、車線変更操作の開始点と終了点を決定する必要があります。しかし、私はデータセットに何千もの車両を持っています。これらのポイントを特定するためにトレーニングできる関連する画像分析/機械学習アルゴリズムを教えていただけませんか?私はRで働いています。よろしくお願いします。

1
Excelでどこまで行けるのですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。 私のビジネスでは、すべての分析をExcelで処理しています。これには、主にスケジューリング、生産計画、会計業務が含まれます。現在、予測モデルを少し追加することを検討しており、Excelで十分ですが、複雑なモデルはサポートされていません。 私が見ているように、Excelの主な利点は、Excelの使いやすさと、使い慣れるようにユーザーを見つけてトレーニングできることです。一方、より洗練された環境(R、pythonなど)では、さまざまな分析タスクを処理できますが、より高度なトレーニングを受けた個人が必要です。 Excelがデータサイエンスに十分であるかどうかについてもこの質問を読みました。それは私の目的には少し範囲外ですが、RやPythonなどのツールはExcelよりもはるかに優れているという結論に達しました。 私の質問は(データ分析の文脈で):「より高度なツールに変更する必要なしに、Excelでどれだけの距離をとることができるか」です。または「Excelから-Rにしましょう-どの時点で移行する必要がありますか?」 どうもありがとうございました!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.