タグ付けされた質問 「preprocessing」

2
ニューラルネットワークの画像を準備/拡張する方法は?
画像分類にニューラルネットワークを使用したいと思います。事前に訓練されたCaffeNetから始めて、アプリケーション用に訓練します。 入力画像をどのように準備すればよいですか? この場合、すべての画像は同じオブジェクトですが、バリエーションがあります(品質管理と考えてください)。それらは多少異なる縮尺/解像度/距離/照明条件にあります(多くの場合、縮尺がわかりません)。また、各画像には、ネットワークが無視する対象オブジェクトの周囲の領域(既知)があります。 (たとえば)各画像の中心を切り取ることができます。これには、関心のあるオブジェクトの一部が含まれ、無視される領域は含まれないことが保証されています。しかし、それは情報を捨ててしまうように思われ、また結果は実際には同じスケールではありません(おそらく1.5倍のバリエーション)。 データセットの増強 ランダムクロップ/ミラー/その他によってさらにトレーニングデータを作成することを聞いたことがありますが、これに標準的な方法はありますか?分類器の精度がどれだけ向上するかについての結果はありますか?

3
データを分割する前後のStandardScaler
を使用して読んでいたときStandardScaler、推奨事項のほとんどは、データを電車/テストStandardScaler に分割する前に使用する必要があると言っていましたが、オンラインで投稿されたコードの一部をチェックするときに(sklearnを使用して)2つの主要な用途がありました。 1- StandardScalerすべてのデータで使用。例えば from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) または from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) または単に from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- StandardScaler分割データで使用。 from sklearn.preprocessing import StandardScaler sc = …

3
OrdinalEncoderとLabelEncoderの違い
MLに関する本を読んだ後、scikit-learn learnの公式ドキュメントを調べていたところ、次のことに遭遇しました。 ドキュメンテーションではそれについて説明されていsklearn.preprocessing.OrdinalEncoder()ますが、本ではそれについて説明さsklearn.preprocessing.LabelEncoder()れていました。誰かが私に2つの違いを教えてくださいませんか?

3
CNNの画像のサイズ変更とパディング
画像認識のためにCNNをトレーニングしたい。トレーニング用の画像のサイズは固定されていません。たとえば、CNNの入力サイズを50x100(高さx幅)にします。いくつかの小さなサイズの画像(たとえば32x32)を入力サイズにサイズ変更すると、画像の内容が水平方向に過度に引き伸ばされますが、一部の中サイズの画像では問題ありません。 コンテンツの破壊を回避しながら画像のサイズを変更する適切な方法は何ですか? (幅と高さの比率をある程度維持してサイズを変更した後、サイズを完全にするために0で画像をパディングすることを考えています。この方法で大丈夫でしょうか?)


3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

1
匿名のスケーリングされた数値予測子を使用してnumer.ai競争にアプローチする方法は?
Numer.aiはここしばらくの間存在しており、それに関するWebでの投稿やその他の議論はほとんどないようです。 システムは随時変更され、今日のセットアップは次のとおりです。 トレーニング(N = 96K)およびテスト(N = 33K)で、[0,1]の連続値とバイナリターゲットを持つ21個のフィーチャ。 データはクリーンで(欠損値なし)、2週間ごとに更新されます。(テストセットの)予測をアップロードして、ログの損失を確認できます。テストデータの一部はライブデータでもあり、適切な予測に対して報酬が支払われます。 私が議論したいこと: 機能は完全に匿名であるため、私たちができる機能エンジニアリングはそれほど多くはないと思います。だから私のアプローチは非常に機械的です: これに触発されて、分類アルゴリズムを使用して、私のテストデータに最も適合するトレーニングデータを除外します。 いくつかの素晴らしい前処理を理解する 素晴らしい分類アルゴリズムを訓練する それらのアンサンブルを構築します(スタッキングなど)。 具体的な質問: ステップ1について:そのようなアプローチの経験はありますか?トレーニングサンプルがテストに属する確率(通常は0.5未満)を注文し、最大のK確率を取得するとします。どのようにKを選びますか?私は15Kで試しましたが、主にステップ3のトレーニングを高速化するために小さなトレーニングデータセットを用意しました。 ステップ2に関して:データはすでに0,1スケールです。(PCAのような)線形変換を適用すると、このスケールが壊れます。そのような数値データがあり、これが実際にそうであることがわからない場合、前処理で何を試みますか? PS:numer.aiが給料を支払っているので、これについて議論している人々が私にお金を稼ぐのを助けることができることを私は知っています。しかし、これは公開されているので、これは誰かを助けるでしょう... PPS:今日のリーダーボードには興味深いパターンがあります。ログ損失が0.64xxの上位2つ、次に0.66xxの3位、そしてほとんどの予測子は0.6888xに達しています。 したがって、非常に小さなトップフィールドと適度に成功した人(私を含む)がたくさんいるようです。

1
メールスレッドから個別のメールを抽出する
ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。 たとえば、次のメッセージについて考えてみます。 Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. ---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------ Hello Mr.X, Does the below work out. Do let us know your thoughts. Thanks, Mr.Y Sales Manager. メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。 私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。 たとえば、メールスレッドの2番目のメッセージが次のように中断した場合 ---------- Forwarded message ---------- 上記の代わりに …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.