データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

6
NLP:マルチワードトークン化によく使用されるパッケージは何ですか?
いくつかの職務説明テキストをトークン化するつもりです。空白を区切り文字として使用して、標準のトークン化を試しました。しかし、空白で分割された複数の単語の表現がいくつかあり、それが後の処理で精度の問題を引き起こす可能性があることに気付きました。だから私はこれらのテキストで最も興味深い/有益なコロケーションをすべて取得したいと思います。 特定のプログラミング言語に関係なく、複数単語のトークン化を行うための優れたパッケージはありますか?たとえば、「彼は情報技術を研究しています」===>「彼」「研究」「情報技術」。 NLTK(Python)にはいくつかの関連機能があることに気づきました。 collocationsモジュール:http : //www.nltk.org/api/nltk.html#module-nltk.collocations nltk.tokenize.mweモジュール:http ://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe これら2つの違いは何ですか? nltk.tokenize.mweモジュールのMWETokenizerクラスは、私の目的に向かって機能しているようです。ただし、MWETokenizerでは、複数の単語の式を追加するために、その構築メソッドと.add_mweメソッドを使用する必要があるようです。これを達成するために外部のマルチワード式レキシコンを使用する方法はありますか?もしそうなら、マルチワードの辞書はありますか? ありがとう!

1
ケラスの事前学習済みモデルの特徴抽出
Kerasには、事前トレーニングされたモデルの機能を抽出する方法があります。ここで説明しますhttps://keras.io/applications/ from keras.applications.vgg16 import VGG16 from keras.preprocessing import image from keras.applications.vgg16 import preprocess_input import numpy as np model = VGG16(weights='imagenet', include_top=False) img_path = 'elephant.jpg' img = image.load_img(img_path, target_size=(224, 224)) x = image.img_to_array(img) x = np.expand_dims(x, axis=0) x = preprocess_input(x) features = model.predict(x) いくつかのサンプル画像でこれを試しました。私のベクトルxは、100回の観測で形状(100、3、224、224)、RGBで3、ピクセルサイズが224x224です。はpreprocess_inputVGGモデルのこれを再形成します(別の順序を想定しています)。 ただし、の出力形状featuresは(100、512、7、7)です。この形は何ですか?これらの機能をロジスティック回帰の入力として使用したい。したがって、(100、n)のような形状が必要です。観測ごとに1行と列の特徴です。出力をこの次元に再形成するにはどうすればよいですか? 今、自分のシンプルなConvnetを構築したいとします。 from keras.models import Sequential from …

1
OCRのトレーニングデータを生成する方法
ライセンスプレート(インドネシアのライセンスプレート)を認識するための光学式文字認識システムを構築しようとしていますが、残念ながら利用可能なトレーニングセットはありませんが、フォントを見つけました。 (ガウスぼかし、ボックスぼかしなど)Pythonを使用しますが、実際のデータとは異なります。フォントは次のようになります。 そして、私はこのように見える個々の手紙を生成したいです: 上の画像のようなトレーニングデータを生成する方法はありますか?ありがとうございました

1
分類の課題に使用されるImageNet ILSVRC 2012データを取得するにはどうすればよいですか?
画像のネット結果の一部を再現できるかどうかを確認したいと思います。しかし、ILSVRC 2012(またはそれ以降)の分類の課題でトレーニング/テストに使用されたデータ(URLのリスト)が見つかりませんでした。http://www.image-net.org/download-imageurlsしか見つかりませんでした。 ImageNet ILSVRC 2012(またはそれ以降)の分類の課題に使用されるデータはどこにありますか?

1
トレーニングフェーズの後、GPUまたはCPUでニューラルネットワークを実行する方が良いですか?
私の理解では、GPUの方がニューラルネットを実行する方が効率的ですが、最近誰かがGPUはトレーニングフェーズでのみ必要であると提案しました。いったんトレーニングされると、CPUで実行する方が実際にはより効率的です。 これは本当ですか?

1
入力数が柔軟なニューラルネットワーク?
入力が異なる長さのベクトルである場合、一貫した出力を提供するニューラルネットワークを作成することは可能ですか? 私は現在、さまざまな長さのオーディオファイルを多数サンプリングし、ニューラルネットワークをトレーニングして、特定の入力で必要な出力が得られる状況にあります。異なる番号の入力を行う、長さが異なるオーディオファイルのサンプルを指定して、MFCC機能を生成できる回帰ネットワークを作成しようとしています。

1
素朴なベイズは欠けている機能を想定して予測を生成する必要があります(scikit学習)
Naive Bayesが確率を使用して予測を行い、特徴を互いに条件付きで独立しているものとして扱うことを考えると、テストデータにいくつかの特徴が欠落している場合、モデルは依然として予測を行うことができます。 欠落しているデータを補完することは一般的な慣行であることは知っていますが、いくつかの欠落している機能があると仮定して、ナイーブベイズが予測を行うことができるはずなのに、なぜこれを行うのですか? これはsci-kit学習に実装できますか?機能の少ないテストセットを試しましたが、形状が整列していないためValueErrorが発生しました。 理論的にはこれは可能ですが、scikit学習では可能ですか?

1
逆伝播:2次の方法では、ReLUの導関数は0になりますか?トレーニングへの影響は?
ReLUは、として定義されるアクティブ化関数です。ここで、a = Wx + bです。h=max(0,a)h=max(0,a)h = \max(0, a)a=Wx+ba=Wx+ba = Wx + b 通常、SGD、Adam、RMSprop、Adadelta、Adagradなどの1次の方法でニューラルネットワークをトレーニングします。1次メソッドの逆伝播には、1次導関数が必要です。したがって、xxxは1に導出され111ます。 しかし、2次法を使用する場合、ReLUの導関数は000ますか?なぜならxxxに誘導される111と再び導かれる000。エラーでしょうか?たとえば、ニュートンの方法では、0で除算します000。(まだヘッセなしの最適化を理解していません。IIRC、それは実際のヘッセの代わりに近似のヘッセを使用することの問題です)。 このh '' = 0の影響は何h′′=0h″=0h''=0ですか?二次法のReLUでニューラルネットワークをトレーニングできますか?それとも、トレーニング不可/エラー(nan / infinity)でしょうか? 明確にするために、これはf(x)としてのReLU f(x)f(x)f(x)です。 f(x)=f(x)=f(x) = 0xforforx&lt;0x≥00forx&lt;0xforx≥0\begin{array}{rcl} 0 & \mbox{for} & x < 0\\ x & \mbox{for} & x \ge 0\end{array} f′(x)=f′(x)=f'(x) = 01forforx&lt;0x≥00forx&lt;01forx≥0\begin{array}{rcl} 0 & \mbox{for} & x < 0\\ 1 …

2
マッチングに利用できる教師あり学習アルゴリズムはどれですか?
私は非営利団体に取り組んでいます。そこでは、経験/知恵を共有したい卒業生と彼らをマッチングすることによって、潜在的な大学の応募者を支援しようとしています。現時点では、それは手動で行われています。そのため、2つのテーブルを用意します。1つは学生用で、もう1つは卒業生用です(いくつかの機能は共通しているかもしれませんが、必ずしもすべてではない場合があります)。 NameKathyTommyRuth...GenderFMF...Height165182163...NameGenderHeightKathyF165TommyM182RuthF163.........\begin{array}{|l|c|c|} \text{Name} & \text{Gender} & \text{Height} \\ \hline \text{Kathy} & F & 165 \\ \hline \text{Tommy} & M & 182 \\ \hline \text{Ruth} & F & 163 \\ \hline ... & ... & ... \\ \end{array} NameMiss LucyMiss GeraldineMiss Emily...GenderFFF...Weight657060...NameGenderWeightMiss LucyF65Miss GeraldineF70Miss EmilyF60.........\begin{array}{|l|c|c|} \text{Name} & \text{Gender} & \text{Weight} \\ …

3
トレーニングデータ画像を手動で分類するためのツールを構築する
クラスタリングアルゴリズムをトレーニングするために分類する必要がある画像が多数あり、オフラインでデータを取得したいと考えています(データは独自のものです)。基本的に、各画像を1つまたは2つのカテゴリにすばやく配置できるデスクトップ調査ツールを構築したいと思います。理想的には、ツールは: 事前に指定されたデスクトップフォルダーで画像を検索します。 画像とカテゴリの静的リストを表示し、クリックできるようにします。 クリックすると、画像に関連付けられたカテゴリが記録されます。 画像のファイル名と関連カテゴリをデータセットのどこかに保存します。 フォルダ内の次のタグなし画像を表示し、プロセスを繰り返します。 この種のツールをPythonで簡単に構築する方法、または無料でオフラインで使用できる他のビルド済みユーティリティはありますか?

4
データサイエンスに新しい企業からのCEOの期待にどのように対処しますか?
私はここに新しいです。データサイエンスにとって新しい企業(eコマースの分野)のデータサイエンティストのポジションについて、最後のインタビューを行います。それは会社にとってはかなり新しいポジションであり、これまでに行ったインタビューから、彼らはデータサイエンティストに何を求めているのかを完全に理解していないことに気づきました。彼らはデータサイエンスとは何かをほとんど知らない。「標準」のデータサイエンスワークフローについて説明しました(質問、データの取得、データの調査、データのモデル化、データの伝達)。しかし、私は彼らがそれを得たとは思いません。私は適切な期待を設定して、会社と私が自分の仕事の説明と、1か月、3か月、6か月と12か月で期待できることについて同意したいと思います。では、データサイエンスに新しい企業からの期待(特にCEO)をどのように処理しますか?
7 data  beginner 


1
ケラスの畳み込み層のborder_mode
Kerasには、convolution2Dの2つのborder_modeがあり、同じで有効です。「同じ」とは何かを説明したり、ドキュメントを指摘したりできますか?私はネット上でドキュメントを見つけることができませんでした(theanoにも実装することを求める人々を除いて)。
7 convnet  keras 

3
ログブック:機械学習のアプローチ
以前は、問題を解決するためにさまざまな機械学習アルゴリズムを試すときに、機能、機能の前処理、正規化、アルゴリズム、アルゴリズムパラメーターなどの詳細を保持しながら、ノートブックに一連のアプローチを溺れさせていました...したがって、手書きのログブックを作成する。 しかし、私は現在、「より専門的な」ツールを使用することを懸念しています。そのため、詳細を保持し、他のチームメンバーと共有することもできます。 これは、機能、アルゴリズム、アルゴリズムパラメータ、データの前処理、データ、メトリックなど、Googleの共同ドライブスプレッドシートを超えた詳細を考慮して、完了した作業を追跡する自動化された協調的なツールです。 これをどのように解決していますか?作業の進捗状況をどのように管理していますか?あなたの何日誌ツールは? 事前にどうもありがとうございました。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.