データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ


1
Kerasを使用して多層パーセプトロンニューラルネットワークを構築するためのプロパティ?
私は、初めてどの郡でどの大統領が勝ったかを正確に予測する多層パーセプトロンニューラルネットワークを構築してトレーニングしようとしています。トレーニングデータに関する次の情報があります。 総人口年齢中央値%BachelorsDeg以上失業率1人あたりの所得総世帯平均世帯サイズ%所有者が占有する住宅%借家が占有する住宅%空いている住宅住宅価格の中央値人口増加率世帯数増加率1人当たり所得増加率勝者 これは14列のトレーニングデータで、15列目は出力です。 Kerasを使用して多層パーセプトロンニューラルネットワークを構築しようとしていますが、いくつかのプロパティと、これらのプロパティのさまざまなオプションを選択することの短所を理解するための助けが必要です。 アクティベーション機能 私の最初のステップはアクティベーション機能を考案することです。私は常に、シグモイド活性化関数を使用したニューラルネットワークを研究していました。シグモイド活性化関数は最高ですか?どれを使用するかをどうやって知っていますか?Kerasはさらに、softmax、softplus、relu、tanh、linear、またはhard_sigmoidアクティベーション関数を使用するオプションを提供します。何を使っても大丈夫ですが、理由と長所と短所を理解できるようにしたいだけです。 確率の初期化 初期化は、Kerasレイヤーの初期ランダムウェイトを設定するために使用される確率分布を定義することを知っています。Kerasが提供するオプションは、ユニフォームlecun_uniform、normal、identity、直交、ゼロ、glorot_normal、glorot_uniform、he_normal、およびhe_uniformです。ここでの選択は、最終結果またはモデルにどのように影響しますか?ランダムモデルを開始し、さらに最適なレイヤーの重み付けを考え出すため、どのようなモデルでも "トレーニング"しているので、問題になりませんか?

1
スペクトルクラスタリングのコンテキストで、アフィニティ行列の固有ベクトルとグラフラプラシアン固有ベクトルの違いは何ですか?
スペクトルクラスタリングでは、固有ベクトル問題を解くのが標準的な方法です LのV = λ VLv=λvL v = \lambda v ここで、はグラフラプラシアン、は固有値関連する固有ベクトルです。VのλLLLvvvλλ\lambda 私の質問:なぜわざわざグラフラプラシアンをとるのですか?このビデオでやったように、グラフ(アフィニティマトリックス)自体の固有ベクトル問題を解決することはできませんか? PS:CrossValidatedで同じ質問をしましたが、これはより適切なチャネルだと思います。私が間違っていたら私を許してください。

2
Pylearn2とTensorFlow
私は長いNN研究プロジェクトに飛び込もうとしていて、Pylearn2またはTensorFlowの方向への推進を望んでいましたか?2015年12月の時点で、コミュニティは何らかの方向に傾い始めていますか? このリンクは、TenserFlowに縛られることへの懸念を私に与えました。

2
機械学習:単一の入力から可変数の出力
単一の入力を可変長の出力リストにマッピングする機械学習アルゴリズムはありますか?もしそうなら、公共使用のためのアルゴリズムの実装はありますか?そうでない場合、回避策として何をお勧めしますか? 私の場合、入力は単一のスカラーで、出力は可変長のスカラーのリストです。たとえば、リストの長さを入力として、1のリストを出力したいとします。次に、<input、output>は<1、[1]>、<2、[1、1]>などになります。小さな調整を行うと、長さの平方根が得られます。この場合、<2、[1、1 、1、1]>が答えになります。注:入力を出力に直接接続する必要はありません。 より複雑な例として、見た目と順序のシーケンスを学びたいとしましょう。有効な<input、output>ペアは、<1、[1]>、<2、[1、1]>、<3、[2、1]>、<4、[1、2、1、1]です。 >、<5、[1、1、1、2、2、1]>など。私の問題も、より多くの例を生成できるという点で似ています。私は有限の例のセットに制限されていません。

1
HOG記述子とSVM分類器による画像内の人間の認識のパフォーマンスが低い
私は、HOG記述子とSVM分類器を組み合わせて、写真の中の人間を認識しています。OpenCV用のPythonラッパーを使用しています。私はpymagesearchで優れたチュートリアルを使用しました。これは、アルゴリズムが何をするかを説明し、detectMultiScaleメソッドのパラメーターを設定する方法についてのヒントを提供します。 具体的には # initialize the HOG descriptor hog = cv2.HOGDescriptor() # Set the support vector machine to be pre-trained for people detection hog.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector()) # Detect people in the image (rects, weights) = hog.detectMultiScale(image, winStride=(4, 4), padding=(8, 8), scale=1.05) パラメータは、チュートリアル自体の説明に従って、精度とパフォーマンスの両方の微調整に従って選択されます。 私の問題は、文献によると写真で人間を認識するための現在最良の方法のように思えるこの方法(元の論文は2005年の日付です)が私の画像でかなりうまく機能しないように見えることです。モデルのある服とない服の両方を含む画像があり、この方法でモデルのある服を認識しようとしています。モデルを含むかどうかをタグ付けするために手動でスキャンした300枚の画像のサブセットでは、メソッドは30%の確率で失敗します。 これらは例としていくつかの画像です。 ここでそれは行方不明の人間を検出しました: ここでそれは完全な人間を手に入れませんでした: ここではそれをまったく認識しませんでした: 検出器が直立した人間に有効であることを理解しています。彼らはまた、完全な数字である必要がありますか?私のイメージは、頭も足もない半身像を含みます。 これの前に、Haar機能ベースのカスケード分類器を使用して画像内の顔を認識しました。同じ画像セットの精度は90%でしたので、これを改善しようとしました。また、ここで機能しない理由を理解することにも興味があります。

3
このデータセットから外れ値を検出するために使用できるアルゴリズムまたは方法はどれですか?
データセットがあるとしましょう:Amount of money (100, 50, 150, 200, 35, 60 ,50, 20, 500)。私がしているGoogleでこのデータセット内の可能な外れ値を見つけるために使用することができる技術を探してウェブを、私は混乱してしまいました。 私の質問は次のとおりです。このデータセットで起こり得る異常値を検出するために使用できるアルゴリズム、手法、または方法はどれですか。 PS:データが正規分布に従っていないことを考慮してください。ありがとう。


1
「ビジネスインテリジェンス」における「インテリジェンス」の本来の意味
「インテリジェンス」という用語は、もともと「ビジネスインテリジェンス」で何を表していますか。「人工知能」や「諜報機関」で使われている意味ですか? 言い換えれば、「ビジネスインテリジェンス」とは、「ビジネスにおいて賢くインテリジェントに行動する」または「ビジネスに関するデータと情報を収集する」という意味ですか。 この質問は、データサイエンスチームの一部のフェローの間での議論のテーマだったので、他の専門家から質問したいと思いました。両方の意味が当てはまると言うかもしれませんが、1980年代に提案された単語の本来の意図された意味を求めています。 受け入れられる答えは間違いなく元の参照を引用するはずであり、個人的な意見は私が求めているものではありません。

1
レコメンダーシステムでトレーニング/テストを分割する方法
私はMovieLens10Mデータセットを使用して、ユーザーの評価を予測しています。アルゴリズムを公平に評価したい場合、トレーニングデータとテストデータをどのように分割すればよいですか? デフォルトでは、データはトレーニングとテストセットに分割されていると思います。「テスト」には、トレーニングセットでこれまで見られなかった映画が含まれています。モデルが各映画をトレーニングセットで少なくとも1回見たことが必要な場合、データをどのように分割すればよいですか?すべてのデータについて各ユーザーのN個を除くすべての評価を取得し、保留されているNxUser_num評価のパフォーマンスを評価する必要がありますか?

1
R-ニューラルネットワークプロットの解釈
stats.SEにも同様の質問があることは知っていますが、私の要求を満たす質問は見つかりませんでした。質問を重複としてマークする前に、コメントでpingしてください。 neuralnetSP500インデックスの時系列を予測するために基づいてニューラルネットワークを実行していて、以下に掲載されているプロットをどのように解釈できるかを理解したいと思います。 特に、隠れ層の重みと入力の重みの解釈が何であるかを理解することに興味があります。誰かがその数を解釈する方法を教えてもらえますか? 任意のヒントをいただければ幸いです。

1
sklearn-過剰適合問題
現在の機械学習の問題を解決する最善の方法に関する推奨事項を探しています 問題の概要と私が行ったことは次のとおりです: EEGデータの900回以上の試行があり、各試行は1秒の長さです。それぞれのグラウンドトゥルースは既知であり、状態0と状態1を分類します(40〜60%の分割) 各試行は、特定の周波数帯域のパワーをフィルタリングおよび抽出する前処理を通過し、これらは一連の機能を構成します(機能マトリックス:913x32) 次に、sklearnを使用してモデルをトレーニングします。cross_validationは、テストサイズ0.2を使用する場合に使用されます。分類子はrbfカーネルでSVCに設定されています、C = 1、ガンマ= 1(私はいくつかの異なる値を試しました) ここでコードの短縮版を見つけることができます:http : //pastebin.com/Xu13ciL4 私の問題: 分類子を使用してテストセットのラベルを予測すると、すべての予測が0になる トレイン精度は1ですが、テストセット精度は約0.56です。 私の学習曲線プロットは次のようになります: さて、これはここでオーバーフィットの古典的なケースのようです。ただし、ここでの過剰適合は、サンプルに対する特徴の数が極端に多い(32個の特徴、900個のサンプル)ために発生することはほとんどありません。私はこの問題を軽減するためにいくつかのことを試みました: サンプル数に対して機能が多すぎるために、次元削減(PCA)を使用してみましたが、精度スコアと学習曲線プロットは上記と同じに見えます。コンポーネントの数を10未満に設定しない限り、トレインの精度は低下し始めますが、情報を失い始めていることを考えると、これは多少予想されませんか? データの正規化と標準化を試みました。標準化(SD = 1)は、トレインまたは精度スコアを変更することはありません。(0-1)を正規化すると、トレーニングの精度が0.6に低下します。 SVCに対してさまざまなCおよびガンマ設定を試しましたが、どちらのスコアも変更されません GaussianNBなどの他の推定量を使用して、adaboostなどのアンサンブル法を使用してみました。変化なし linearSVCを使用して正則化メソッドを明示的に設定しようとしましたが、状況は改善されませんでした theanoを使用してニューラルネットで同じ機能を実行してみましたが、列車の精度は約0.6、テストは約0.5です 私は問題について考え続けることができてうれしいですが、この時点で私は正しい方向へのナッジを探しています。私の問題はどこにあり、それを解決するために私は何ができますか? 私の機能のセットが2つのカテゴリーを区別しないだけの可能性は十分にありますが、この結論にジャンプする前に他のいくつかのオプションを試してみたいと思います。さらに、私の機能が区別されない場合、それは低いテストセットスコアを説明しますが、その場合、どのようにして完璧なトレーニングセットスコアを取得できますか?それは可能ですか?

1
ディープラーニング研究におけるTheano
Theanoはディープラーニング研究でどのくらい広く使用されていますか? Theanoは機械学習アルゴリズムの実装を学ぶための良いスタートですか? フィードフォワードネットワークのようなものの実装を学ぶことは本当に役立ちますか?大学院生は、学生時代に少なくとも一度はニューラルネットワークやその他のアルゴリズムを実装していますか? バックグラウンド: フィードフォワードとリカレントネットワーク、バックプロパゲーション、機械学習問題の一般的なパイプライン、および必要な数学について、私は理にかなった考えを持っています。

2
TwitterのRを使用して大規模なデータセットを保存する最良の方法は?
RのtwitteRライブラリを使用してTwitterから大量のデータセット(つまり、数日前のツイートデータ)を取得することを目的とするプロジェクトに取り組んでいます。私のマシンには8 GBのメモリしかないため、ツイートを保存することが困難です。1日取得するように設定する前でも、メモリが不足しています。RAMに保存せずにツイートをディスクに直接保存できる方法はありますか?古いツイートを取得する必要があるため、ストリーミングAPIを使用していません。
8 r  dataset 

1
NLTKによる複雑なチャンク
私は、NLTKブックの第7章に従って、NLTKのカスケードチャンカーの使用方法を理解しようとしています。残念ながら、重要なチャンク対策を実行するときにいくつかの問題が発生します。 このフレーズから始めましょう: "adventure movies between 2000 and 2015 featuring performances by daniel craig" 次の文法を使用すると、関連するすべてのNPを見つけることができます。 grammar = "NP: {<DT>?<JJ>*<NN.*>+}" ただし、NLTKを使用してネストされた構造を構築する方法がわかりません。この本は次の形式を示していますが、明らかにいくつか欠けているものがあります(たとえば、実際に複数のルールをどのように指定するのですか?): grammar = r""" NP: {<DT|JJ|NN.*>+} # Chunk sequences of DT, JJ, NN PP: {<IN><NP>} # Chunk prepositions followed by NP VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments CLAUSE: {<NP><VP>} # …
8 python  nlp  nltk 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.