データサイエンス machine-learning

3

私は現在、いくつかの研究室や薬局の請求を含む健康保険請求データの大規模なセットで作業しています。ただし、データセットで最も一貫性のある情報は、診断（ICD-9CM）と手順コード（CPT、HCSPCS、ICD-9CM）で構成されています。私の目標は次のとおりです。慢性腎臓病などの医学的状態に最も影響を与える前駆症状（併存疾患）を特定します。患者が過去に持っていた状態に基づいて病状を発症する可能性（または確率）を特定します。 1および2と同じですが、手順または診断、あるいはその両方を行います。できれば、結果は医師によって解釈可能である Heritage Health Prize Milestoneの論文のようなものを見て、そこから多くのことを学びましたが、彼らは入院の予測に焦点を合わせています。だからここに私の質問があります：このような問題に対してどの方法がうまく機能すると思いますか？また、ヘルスケアと臨床医学に関連するデータサイエンスアプリケーションと方法について学習するには、どのリソースが最も役立ちますか？ EDIT＃2でプレーンテキストテーブルを追加します。 CKDは標的疾患であり、「慢性腎臓病」、「。any」はいつでもその状態を獲得したことを示し、「。isbefore.ckd」はCKDの最初の診断前にその状態にあったことを示します。他の略語は、ICD-9CMコードグループによって識別される他の条件に対応しています。このグループ化は、インポートプロセス中にSQLで発生します。patient_ageを除く各変数はバイナリです。

12 machine-learning r

9

学習しやすい機械学習アプリケーションにはどのようなものがありますか？[閉まっている]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。機械学習全般に慣れていないので、遊んでみて、その可能性を確認したいと思います。インストールから意味のある結果を生成するまでの時間を最短にするアプリケーションをお勧めします。また、一般的な機械学習のテーマに関する適切な入門資料についての推奨事項を歓迎します。

12 machine-learning

2

ニューラルネットワークは

有名なTensorflow Fizz BuzzジョークとXOr問題の精神に基づいて、y= x2y=x2y = x^2関数を実装するニューラルネットワークを設計することが可能であれば、私は考え始めましたか？数値の表現（たとえば、バイナリ形式のベクトルとして、その数5はとして表される[1,0,1,0,0,0,0,...]）が与えられると、ニューラルネットワークはその二乗（この場合は25）を返すことを学習する必要があります。 y= x2y=x2y=x^2実装できれば、おそらくy= x3y=x3y=x^3と一般的にxの任意の多項式を実装できます。次に、テイラー級数を使用して、y= 罪（x ）y=sin⁡(x)y=\sin(x)近似できます。これにより、フィズバズ問題-ニューラルネットワークが解決されます分割の残りを見つけることができます。明らかに、NNの線形部分だけではこのタスクを実行できないため、乗算を実行できれば、アクティベーション関数のおかげでそれが発生します。テーマについてアイデアや読書を提案できますか？

12 machine-learning neural-network

2

検証の損失と精度は一定のまま

このペーパーを一連の医療画像に実装しようとしています。ケラスでやってます。ネットワークは基本的に4つのconvおよびmax-poolレイヤーで構成され、その後に完全に接続されたレイヤーとソフト最大分類子が続きます。私の知る限り、私はこの論文で言及されているアーキテクチャに従っています。ただし、検証の損失と正確さは、全体を通して一定のままです。精度は〜57.5％に固定されているようです。私がどこで間違っているのかについてのどんな助けも大歓迎です。私のコード： from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np from sklearn.utils import shuffle from sklearn.cross_validation import train_test_split import theano import os import glob …

12 machine-learning python deep-learning keras

3

NLTKのNERに関するヘルプ

Pythonを使用してしばらくの間NLTKで作業しています。私が直面している問題は、私のカスタムデータを使用してNLTKでNERをトレーニングするのに役立つものがないということです。彼らはMaxEntを使用し、ACEコーパスでトレーニングしました。私はウェブでたくさん検索しましたが、NLTKのNERのトレーニングに使用できる方法を見つけることができませんでした。誰かがリンク/記事/ブログなどを提供してくれれば、NLTKのNERのトレーニングで使用されるトレーニングデータセットフォーマットに誘導できるので、その特定のフォーマットでデータセットを準備できます。そして、私が自分のデータのためにNLTKのNERをトレーニングするのに役立つリンク/記事/ブログなどに誘導された場合。これは広く検索されており、回答が最も少ない質問です。NERと連携する将来の誰かにとって役立つかもしれません。

12 machine-learning python nlp

2

KerasのEarly Stoppingコールバックで使用されるメトリックを変更する方法はありますか？

KerasトレーニングでEarly Stoppingコールバックを使用すると、一部のメトリック（通常は検証の損失）が増加しないときに停止します。検証損失の代わりに別のメトリック（精度、再現率、fメジャーなど）を使用する方法はありますか？これまでに見たすべての例は、次の例に似ています：callbacks.EarlyStopping（monitor = 'val_loss'、patience = 5、verbose = 0、mode = 'auto'）

12 machine-learning neural-network deep-learning keras

3

ハイパーキューブのほとんどの点が境界にあると言うとどういう意味ですか？

50次元のハイパーキューブがある場合。そして、その境界をまたはで定義します。ここで、はハイパーキューブの次元です。次に、ハイパーキューブの境界上のポイントの比率を計算すると、ます。どういう意味ですか？それは残りのスペースが空であることを意味しますか？場合はポイントの境界にあるその後、キューブ内のポイントが均一に分布してはいけませんか？0 < xj< 0.050<xj<0.050<x_j<0.05x j 0.995 99 ％0.95 < xj< 10.95<xj<10.95<x_j<1バツjxjx_j0.9950.9950.99599 ％99％99\%

12 machine-learning math

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

VCディメンションの計算方法は？

機械学習を勉強しています。VCディメンションの計算方法を教えてください。例えば： h （x ）= { 10もし ≤X≤Bそうしないと h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} （、B ）∈ R 2、パラメータ。（、B ）∈ R2(a,b)∈R2(a,b) ∈ R^2 それのVC次元は何ですか？

12 machine-learning classification vc-theory

3

自然言語からSQLクエリ

私は「自然言語をSQLクエリに変換する」システムの開発に取り組んでいます。同様の質問の回答を読みましたが、探していた情報を入手できませんでした。以下は、Garima Singh、Arun SolankiによるリレーショナルデータベースのSQLクエリに自然言語を変換するアルゴリズムから取得したこのようなシステムのフローチャートです。私は品詞タグ付けステップまで理解しました。しかし、私は残りのステップにどのようにアプローチしますか。可能なすべてのSQLクエリをトレーニングする必要がありますか？または、品詞のタグ付けが完了したら、単語をいじってSQLクエリを作成する必要がありますか？編集：「ユーザークエリ」から「品詞タグ付け」までのステップを正常に実装しました。ありがとうございました。

12 machine-learning nlp sql natural-language-process

2

CNNのフィルターの重みの更新

私は現在、CNNのアーキテクチャーを理解しようとしています。畳み込み、ReLUレイヤー、プーリングレイヤー、完全接続レイヤーについて理解しています。しかし、私はまだ重みについて混乱しています。通常のニューラルネットワークでは、各ニューロンに独自の重みがあります。完全に接続された層では、各ニューロンにも独自の重みがあります。しかし、私が知らないのは、各フィルターに独自の重みがあるかどうかです。逆伝播中に、完全に接続されたレイヤーの重みを更新する必要があるだけですか？または、すべてのフィルターに個別の重みを付けて更新する必要がありますか？

12 machine-learning neural-network deep-learning image-classification cnn

2

cross_validateとcross_val_scoreの違いは何ですか？

cross_validateとその仕組みについては理解していますが、現在cross_val_scoreが実際に何をしているのか混乱しています。誰か私にいくつかの例を挙げられますか？

12 machine-learning scikit-learn

6

分類のために画像にラベルを付けるツール

分類のための入力として数百の画像にすばやくラベルを付けるツールを誰かが推奨できますか？細胞の顕微鏡画像を約500枚持っています。「健康」、「死者」、「病気」などのカテゴリを手動でトレーニングセットに割り当て、それらをcsvファイルに保存したい。基本的にこの質問で説明されているものと同じですが、独自の画像を持っていないので、追加の可能性が開かれますか？

12 machine-learning image-classification training

4

OccamのRazor原理は機械学習でどのように機能しますか

画像に表示されている次の質問は、最近の試験中に行われたものです。OccamのRazorの原理を正しく理解しているかどうかはわかりません。質問で与えられた分布と決定境界によれば、Occamのかみそりに従って、どちらの場合も決定境界Bが答えになるはずです。OccamのRazorによると、複雑な分類器ではなく、まともな仕事をする単純な分類器を選択するからです。誰かが私の理解が正しく、選択した答えが適切かどうかを証言できますか？私は機械学習の初心者なので、助けてください

11 machine-learning classification

3

Python用のすぐに使える優れた言語モデルはありますか？

私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。すぐに使用できるPythonのトレーニング済み言語モデルはありますか？のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン（ニュースだけでなく）の結果を実際に信頼できるもの

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」