データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

1
機械学習のLBスコアとは何ですか?
私はを経た記事 kaggleブログに。繰り返し、著者は「LBスコア」と「LBフィット」)を機械学習の有効性の指標として(クロス検証(CV)スコアとともに)言及しています。 「LB」の意味の研究でかなりの時間を費やしましたが、一般的に人々はそれを直接LBと呼ぶことに気付きました。 だから私の質問は-「LB」とは何ですか?

5
畳み込みニューラルネットワークのオーバーフィッティング。ドロップアウトが役に立たない
私はconvnetsで少し遊んでいます。具体的には、猫または犬(それぞれ12500)としてラベル付けされた25000個の画像で構成されるkaggle cats-vs-dogsデータセットを使用しています。 テストセットで約85%の分類精度を達成できましたが、90%の精度を達成するという目標を設定しました。 私の主な問題は過剰適合です。どういうわけか、それは常に起こることになります(通常、エポック8-10の後)。私のネットワークのアーキテクチャは、VGG-16に大まかに触発されています。具体的には、画像のサイズを128 x 128 x 3128x128x3128x128x3に変更し、次に実行します。 Convolution 1 128x128x32 (kernel size is 3, strides is 1) Convolution 2 128x128x32 (kernel size is 3, strides is 1) Max pool 1 64x64x32 (kernel size is 2, strides is 2) Convolution 3 64x64x64 (kernel size is 3, strides is 1) Convolution …

4
機能の数とインスタンスの数に関する「経験則」はありますか?(小さなデータセット)
特徴の数と観測の数の発見的方法があるかどうか疑問に思っています。明らかに、特徴の数が観測の数に等しい場合、モデルはオーバーフィットします。スパースメソッド(LASSO、エラスティックネット)を使用することで、いくつかの機能を削除してモデルを削減できます。 私の質問は(理論的に):メトリックを使用してモデル選択を評価する前に、最適な特徴数を観測数に関連付ける経験的観測はありますか? たとえば、各クラスに20個のインスタンスがあるバイナリ分類問題の場合、使用する機能の数に上限はありますか?

2
NLP-Gazetteerはチートですか?
NLPには、Gazetteer注釈の作成に非常に役立つ概念があります。私が理解する限りでは: 地名辞典は、都市、組織、曜日などのエンティティの名前を含むリストのセットで構成されます。これらのリストは、名前付きエンティティの認識タスクなど、テキストでこれらの名前の出現を見つけるために使用されます。 したがって、本質的にはルックアップです。この種のチートではありませんか?Gazetteer名前付きエンティティを検出するためにaを使用する場合、それほど多くは行われませんNatural Language Processing。理想的には、NLPテクニックを使用して名前付きエンティティを検出したいと思います。それ以外の場合、正規表現パターンマッチャーよりも優れていますか?

3
データサイエンスを自己学習する方法 [閉まっている]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 4年前に閉鎖されました。 私は独学のWeb開発者であり、自分でデータサイエンスを教えることに興味がありますが、どのように始めるべきかはわかりません。特に、私は疑問に思っています: データサイエンスにはどのような分野がありますか?(例:人工知能、機械学習、データ分析など) 推奨できるオンラインクラスはありますか? 私が実践できるプロジェクトがありますか(オープンデータセットなど)。 申請または完了できる認定資格はありますか?

2
サポートベクターマシンにはどのような学習問題が適していますか?
サポートベクターマシンを使用して特定の学習問題に取り組むことができることを示す特徴または特性は何ですか? 言い換えれば、学習の問題を見ると、ニューラルネットワークやデシジョンツリーなどではなく、「これには間違いなくSVMを使用する必要があります」ということになります。

2
文書からテキストの最も有益な部分を抽出する
現在のドキュメントに関するほとんどの情報を保持しているテキストの一部を抽出することに関する記事や議論はありますか。 たとえば、同じドメインからの大量のドキュメントがあります。単一のドキュメントが語っている重要な情報を保持するテキストの部分があります。それらの一部を抽出して、テキストの要約として使用したいと思います。このようなことを達成する方法に関する有用なドキュメントはありますか。 自然言語処理のこの分野で既に行われている可能性のある仕事の洞察を得るために、誰かが私が検索または読むべき正しい方向に私を向けることができれば、本当に役立ちます。
16 nlp  text-mining 

6
データサイエンスポッドキャスト?
データサイエンスに関連するポッドキャストとは何ですか? これは、CrossValidatedの参照リクエストの質問と同様の質問です。 詳細/ルール: ポッドキャスト(テーマとエピソード)はデータサイエンスに関連している必要があります。(例:他のドメインに関するポッドキャストと、そのドメインのデータサイエンスについて話すエピソードは、適切な参照/回答ではありません。) 個人的な意見/レビュー(ある場合)も非常に役立ちます。


2
共同フィルタリングを使用した追加機能を備えた映画の推奨
協調フィルタリングを使用して推奨システムを構築しようとしています。私はいつもの[user, movie, rating]情報を持っています。「言語」や「映画の長さ」などの追加機能を組み込みたいです。このような問題にどのようなテクニックを使用できるかはわかりません。 python / Rの参照またはパッケージを提案してください。


2
分類器の精度を上げる方法は?
OpenCV letter_recog.cppの例を使用して、ランダムツリーやその他の分類子を実験しています。この例には、ランダムツリー、ブースティング、MLP、kNN、単純ベイズ、SVMの6つの分類子が実装されています。20000のインスタンスと16の機能を備えたUCI文字認識データセットが使用されます。これをトレーニングとテストのために半分に分割しました。SVMの経験があるため、その認識エラーをすばやく3.3%に設定しました。いくつかの実験の後、私が得たのは: UCI文字認識: RTrees-5.3% ブースト-13% MLP-7.9% kNN(k = 3)-6.5% ベイズ-11.5% SVM-3.3% 使用されるパラメーター: RTrees-max_num_of_trees_in_the_forrest = 200、max_depth = 20、min_sample_count = 1 ブースト-boost_type = REAL、weak_count = 200、weight_trim_rate = 0.95、max_depth = 7 MLP-method = BACKPROP、param = 0.001、max_iter = 300(デフォルト値-実験するには遅すぎる) kNN(k = 3)-k = 3 ベイズ-なし SVM-RBFカーネル、C = 10、ガンマ= 0.01 その後、同じパラメーターを使用し、最初に勾配フィーチャ(ベクトルサイズ200要素)を抽出して、DigitsおよびMNISTデータセットでテストしました。 数字: RTrees-5.1% ブースト-23.4% MLP-4.3% …

2
ニューラルネットワークの機能を選択する方法は?
この質問に対する明確な答えはないことはわかっていますが、大量のデータを持つ巨大なニューラルネットワークがあり、入力に新しい機能を追加したいとします。「最良の」方法は、新しい機能を使用してネットワークをテストし、結果を確認することですが、機能が非常に役立つかどうかをテストする方法はありますか?相関測定(http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf)などが好きですか?

5
バイナリ分類アルゴリズムを選択
バイナリ分類の問題があります: トレーニングセットの約1000サンプル バイナリ、数値、カテゴリを含む10の属性 このタイプの問題に最適なアルゴリズムはどれですか? デフォルトでは、比較的クリーンでノイズのないデータに最適であると考えられているため、SVM(名目上の属性値がバイナリフィーチャに変換された予備)から開始します。

3
不均衡で不均一な負のバックグラウンドを持つ1クラスの差別的分類?
{protein}シーケンスを特定のクラス(ニューロペプチドホルモン前駆体)に属するかどうかに分類するために、既存の教師付き分類子の改善に取り組んでいます。 約1,300万のタンパク質配列のバックグラウンド(「不明/不十分な注釈付きのバックグラウンド」)に対して約1,150の既知の「陽性」、またはさまざまな特性で注釈付けされた約100,000のレビューされた関連タンパク質があります(ただし、 「ネガティブ」な方法)。 私の以前の実装では、これをバイナリ分類問題と見なしていました。ポジティブセット=ニューロペプチドとしてマークされたタンパク質。ネガティブセット:ほぼ同様の長さ方向の分布の残りのタンパク質の中から1,300サンプル(合計)のランダムサンプリング。 それはうまくいきましたが、マシンの識別能力を大幅に改善したいです(現在、ランダムにサンプリングされた複数のネガティブセットで、精度、AUC、F1、CVで測定すると約83〜86%です)。 私の考えは次のとおりでした:1)これをマルチクラスの問題にし、プロパティ/機能クラスによって、(おそらく)ランダムにサンプリングされた別のセットとともに、明確にネガティブになる2-3種類のタンパク質を選択します。(ここでの優先順位は、特性/特徴がポジティブセットに似ているネガティブセットですが、定義する特性があります)。2)1つのクラスの学習-素晴らしいと思いますが、私が理解するように、それは異常検出のためだけのものであり、差別的なアプローチよりもパフォーマンスが劣ります。 *)きれいに聞こえるPU学習について聞いたことがありますが、私はプログラミングN00bであり、そのための既存の実装については知りません。(Python / sci-kitで学習)。 それでは、アプローチ1は理論上のPOVで意味がありますか?複数のネガセットを作成する最良の方法はありますか?(「ネガティブ」タンパク質の大規模な[50K]ピックを使用することもできますが、それらはすべて非常に大きく異なるため、分類器がそれらを1つの大きなアンバランスミックスとしてどれだけうまく処理できるかわかりません。 )。ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.