タグ付けされた質問 「r」

Rは無料のオープンソースのプログラミング言語であり、統計計算、バイオインフォマティクス、グラフィックスのためのソフトウェア環境です。

1
特定のテキストの特定の文字の後の文字列を削除する
以下のようなデータセットがあります。文字©の後のすべての文字を削除したい。Rでそれを行うにはどうすればよいですか? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

4
パンダは現在data.tableよりも高速ですか?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.tableベンチマークは2014年以降更新されていません。それがどこPandasよりも速いと聞いたことがありdata.tableます。これは本当ですか?誰もベンチマークをしましたか?Pythonを使ったことがありませんpandasが、勝てるなら切り替えを検討しdata.tableますか?
15 python  r  pandas  data  data.table 

5
最新のRおよび/またはPythonライブラリはSQLを廃止しますか?
私は、SQL Serverがデータ処理からクリーニング、変更まで、私たちが行うすべてのバックボーンであるオフィスで働いています。私の同僚は、着信データを標準化してレポート、視覚化、および分析プロジェクトで使用できるように、複雑な関数とストアドプロシージャの作成を専門にしています。ここから始める前は、最も基本的なクエリを書くことは別として、SQLの経験はほとんどありませんでした。私の分析準備作業の大部分はすべてRで行われました。上司は、Rを使用してより効率的かつはるかに少ないコード行では実行できない割り当てが非常に少ないように思えても、SQLスキルを向上させると主張していますdplyr、data.table、tidyrなどのパッケージ(いくつか例を挙げると)。私の質問は、これは理にかなっていますか? 数週間前、特定の条件を満たすテーブル内の各行の列名のリストを取得し、それらを文字列のベクトルに連結するタスクに直面しました。厳しい締め切りがあり、その時、私はいくつかの閉塞を経験していたので、問題を完全に解決することができませんでした。上司に尋ねたところ、上司は同僚に問題を解決するためのスクリプトTSQLを書くように頼みました。彼がそれに取り組んでいる間に、私はRでそれを行う方法を見つけて、かなり単純な関数を作成し、それをデータフレームに適用しました。私の同僚は、約2時間後にスクリプトで戻ってきました。ネストされた2つのforループを含む少なくとも75行でした。私は彼に、実行が終了したときに通知するように頼み、数時間かかると言いました。一方、私のRスクリプトは、約30秒で〜45,000レコードをループできました。 データのクリーニングと変更には、Rのほうがはるかに良い選択だと思いますか?おそらく私のオフィスのSQL開発者は不適当でしょうか?RとSQLの両方(またはPythonとSQLの両方)を扱った人がこれについて何か考えを持っている場合、私は興味があります。
14 python  r  data-cleaning  data  sql 

3
請求データの過去の状態から次の病状を予測する
私は現在、いくつかの研究室や薬局の請求を含む健康保険請求データの大規模なセットで作業しています。ただし、データセットで最も一貫性のある情報は、診断(ICD-9CM)と手順コード(CPT、HCSPCS、ICD-9CM)で構成されています。 私の目標は次のとおりです。 慢性腎臓病などの医学的状態に最も影響を与える前駆症状(併存疾患)を特定します。 患者が過去に持っていた状態に基づいて病状を発症する可能性(または確率)を特定します。 1および2と同じですが、手順または診断、あるいはその両方を行います。 できれば、結果は医師によって解釈可能である Heritage Health Prize Milestoneの論文のようなものを見て、そこから多くのことを学びましたが、彼らは入院の予測に焦点を合わせています。 だからここに私の質問があります:このような問題に対してどの方法がうまく機能すると思いますか?また、ヘルスケアと臨床医学に関連するデータサイエンスアプリケーションと方法について学習するには、どのリソースが最も役立ちますか? EDIT#2でプレーンテキストテーブルを追加します。 CKDは標的疾患であり、「慢性腎臓病」、「。any」はいつでもその状態を獲得したことを示し、「。isbefore.ckd」はCKDの最初の診断前にその状態にあったことを示します。他の略語は、ICD-9CMコードグループによって識別される他の条件に対応しています。このグループ化は、インポートプロセス中にSQLで発生します。patient_ageを除く各変数はバイナリです。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
標本外データのモデルの精度は100%オーバーフィットですか?
私はcognitiveclass.aiのRコースの機械学習を完了し、ランダムフォレストの実験を開始しました。 Rの「randomForest」ライブラリを使用してモデルを作成しました。モデルは、goodとbadの2つのクラスに分類されます。 モデルがオーバーフィットである場合、モデル自体のトレーニングセットからのデータに対してはうまく機能しますが、サンプル外のデータに対してはうまく機能しないことを知っています。 モデルをトレーニングしてテストするために、データセット全体をシャッフルして、トレーニング用に70%とテスト用に30%に分割しました。 私の質問:テストセットで行われた予測から100%の精度を得ています。これは悪いですか?それは本当であるには余りにも良いようです。 目的は、4つの波形を相互に依存する波形認識です。データセットの機能は、ターゲット波形を含む波形のダイナミックタイムワーピング分析のコスト結果です。

1
WindowsでのRのGPU高速データ処理
現在、ビッグデータに関する論文を執筆しており、データ分析にRを多用しています。ゲームの理由で、PCにGTX1070を使用しています。ですから、講師がやっていることのいくつかの処理をスピードアップすることができれば本当にクールだと思いましたが、これを行うのは簡単ではないようです。gpuR、CUDA、Rtools、およびその他のいくつかのビットとボブをインストールしました。たとえば、ゲノム発現データからgpuMatrixオブジェクトを作成できますが、両方ともgpuMatrixオブジェクトで機能する関数をまだ見つけていませんまた、パフォーマンスに目立った違いがあります。おそらくこれは、gpuRパッケージに固有の制限に関連しているだけです-他のいくつかのパッケージは、私が探しているようなもののように聞こえる関数を持っていることについて話しているようです これらのパッケージのほとんどすべてがLinux専用ですが、WindowsでRのGPUサポートを実装することは特に難しいですか?または、Windowsでこれを行うために使用できるパッケージが非常に少ないという他の理由がありますか?ある意味で私は興味があるだけですが、実際に機能させることも非常にクールです。Windowsで利用できるものがほとんどないことに驚き、通常はその逆です。
11 r  gpu  parallel 

4
ランダムフォレストでの過剰適合を回避する方法は?
無作為の森での過剰適合を避けたいです。この点で、mtry、nodesize、maxnodesなどを使用するつもりです。これらのパラメーターの値を選択するのを手伝っていただけませんか?私はRを使用しています。 また、可能であれば、ランダムフォレスト(R)に対してk分割交差検証を使用する方法を教えてください。

1
RにおけるMLEのフィッシャースコアリング対座標降下
R基本関数glm()はMLEにフィッシャースコアリングglmnetを使用しますが、は同じ方程式を解くために座標降下法を使用しているようです。フィッシャースコアリングは、他のいくつかの行列演算に加えて2次微分行列を計算するため、座標降下はフィッシャースコアリングよりも時間効率が高くなります。これは実行に費用がかかりますが、座標降下はO(np)時間で同じタスクを実行できます。 R基底関数がフィッシャースコアリングを使用するのはなぜですか?この方法は他の最適化方法よりも優れていますか?座標降下とフィッシャースコアリングはどのように比較されますか?私はこのフィールドを実行するのが比較的新しいので、ヘルプやリソースは役に立ちます。

3
マルチパーティシステムでの選挙の結果を計算するために使用する回帰
議会選挙の結果を予測したい。私の出力は、各当事者が受け取る%になります。3つ以上の関係者がいるため、ロジスティック回帰は実行可能なオプションではありません。パーティごとに個別の回帰を行うこともできますが、その場合、結果は何らかの形で互いに独立しています。結果の合計が100%になるとは限りません。 どの回帰(または他の方法)を使用する必要がありますか?特定のライブラリを介してRまたはPythonでこのメソッドを使用することは可能ですか?

3
パターン分析のためのデータ可視化(言語非依存、ただしRを推奨)
それらのパターンを理解するために、ディスクイメージからバイトをプロットします。このパターンがディスクテストプログラムによって作成されたと確信しているため、これは主に学術的なタスクですが、とにかくリバースエンジニアリングを行いたいと思います。 私は、パターンが256文字の周期で整列していることをすでに知っています。 この情報を視覚化する2つの方法を想像できます。各ピクセルの色が文字のASCIIコードである時間(3次元)で表示される16x16プレーン、または各ピリオド(2次元)の256ピクセルラインです。 これは、xxd(32x16)を通して見たパターン(複数表示される場合があります)のスナップショットです。 いずれにせよ、私はこの情報を視覚化する方法を見つけようとしています。これはおそらく信号解析にとって難しいことではありませんが、オープンソースソフトウェアを使用する方法を見つけることができないようです。 私はMatlabやMathematicaを避けたいのですが、最近Rで学習しているので、Rでの回答を希望しますが、それでも、どのような言語でも大歓迎です。 更新、2014年7月25日:以下のEmreの回答が与えられた場合、これはパターンの最初の30MBが256ではなく512に配置された場合のパターンです(この配置はより良く見えます)。 これ以上のアイデアは大歓迎です!
11 r  visualization 

1
xgboost binary:logisticとreg:logisticの違いは何ですか
binary:logisticとreg:logisticのxgboostのRの違いは何ですか?評価指標のみですか? はいの場合、バイナリ分類のRMSEはエラー率とどのように比較されますか?メトリック間の関係は多かれ少なかれ単調であり、1つのメトリックのチューニングからの出力は、これらの2つのアプローチ間で大幅に異なるべきではありませんか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
一緒によく購入するアイテムを視覚化
次の構造のデータセットがCSVファイルに挿入されています。 Banana Water Rice Rice Water Bread Banana Juice 各行は、一緒に購入されたアイテムのコレクションを示しています。例えば、最初の行は、アイテムがことを示しBanana、Water、そしてRice一緒に購入しました。 次のような視覚化を作成したいと思います。 これは基本的にグリッドチャートですが、入力構造を読み取って上記のようなチャートを出力として生成できるツール(おそらくPythonまたはR)が必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.