データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
パンダ:マルチレベルの列を作成する方法
私は次の列を持つパンダのデータフレームを持っています: n_0 n_1 p_0 p_1 e_0 e_1 列とサブ列を持つように変換したい: 0 n p e 1 n p e 私はドキュメントを検索しましたが、これを実装する方法が完全にわかりません。誰か提案はありますか?
8 pandas 

3
Hadoop、Spark、Spark Streamingの優れた書籍[終了]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 5年前休業。 誰でも、Hadoopを学習し、基本を減らすための良い本を提案できますか? また、SparkとSpark Streamingのための何か? ありがとう

3
データマイニングと機械学習プロセスを接続する方法
スクレイピングやAPIを介してデータを収集するデータマイニングサービスをGoogle Goで作成したいと考えています。 ただし、Goには優れたMLサポートがないため、PythonでMLを実行したいと考えています。 Webの背景があるので、両方のサービスをRPCのようなものに接続しますが、これはデータサイエンスの一般的な問題であると思うので、もっと良い解決策があると思います。 たとえば、ほとんどの(Web)プロトコルには以下がありません。 プロセス間のバッファリング 複数インスタンスでのクラスタリング では、データサイエンティストはさまざまな言語/プロセスを接続するために何(ライブラリの種類)を使用するのでしょうか。 ボードー

2
取得したデータからのスパムのフィルタリング
データセット内のエントリを検索する一部のユーザーがブロックされたソースから特定の情報を探している可能性があるため、ブラックリストを使用してスパムをフィルタリングすることは良いアプローチではないと聞いたことがあります。また、ブロックされた各スパマーの現在の状態を継続的に検証し、サイト/ドメインが依然としてスパムデータを広めているかどうかを確認することは負担になります。 非常に大規模なデータセットでのフィルタリングをサポートするために、あらゆるアプローチが効率的でスケーラブルでなければならないことを考えると、偏見のない方法でスパムを取り除くために利用できる戦略は何ですか? 編集:可能であれば、戦略の例は、その背後にある直感だけでも、答えとともに大歓迎です。

4
役職の類似性
IT分野の役職間のメトリックを定義しようとしています。このため、同じ役職で一緒に表示されない役職の単語間のいくつかのメトリックが必要です。たとえば、単語間のメトリック シニア、プライマリ、リード、ヘッド、VP、ディレクター、スタッフ、プリンシパル、チーフ、 または言葉 アナリスト、エキスパート、モデラー、研究者、科学者、開発者、エンジニア、建築家。 どのように私はそれらの距離でそのような可能な単語をすべて得ることができますか?

3
異なるインフラストラクチャで実行された実験を比較する方法
私は分散アルゴリズムを開発しています。効率を改善するには、ディスクの数(マシンごとに1つ)と効率的なロードバランス戦略の両方に依存しています。ディスク数が増えると、I / Oに費やす時間を削減できます。また、効率的なロードバランスポリシーにより、データレプリケーションのオーバーヘッドをあまりかけずにタスクを分散できます。 同じ問題を扱った文献に関する多くの研究があり、それらのそれぞれが彼らの提案を評価するために異なる実験を実行しています。いくつかの実験は提示された戦略に固有のものであり、弱いスケーリング(スケーラビリティ)や強いスケーリング(スピードアップ)などの他の実験はすべての作業に共通しています。 問題は、通常、実験が完全に異なるインフラストラクチャ(ディスク、プロセッサ、マシン、ネットワーク)で実行され、評価対象によっては、偽/不公平な比較が発生する可能性があることです。たとえば、Infiniband接続の10台のマシンで実行しているアプリケーションで速度が100%向上する可能性がありますが、接続がイーサネットの場合、同じまたはさらに悪い結果が得られる可能性があります。 では、さまざまな実験を正直に比較して、効率の向上を指摘するにはどうすればよいでしょうか。

2
CNNモデルでより多くの層を使用するとメモリエラーが発生する
デルのコアi7-16GB RAM-4GB 960m GPUラップトップで、3D CNNを使用して肺CT画像を分類するプロジェクトに取り組んでいます。CPUバージョンのtensorflowを使用しています。画像は、numpy配列サイズ(25、50、50)として準備されます。 私のCNNモデルには、2つの変換レイヤー、2つのmaxpoolレイヤー、1つのFCレイヤー、出力レイヤーがありました。このアーキテクチャでは、約(5000〜6000)サンプルでモデルをトレーニングできました。さらにレイヤーを追加した後、モデルには6つの変換レイヤー、3つの最大プールレイヤー、FCおよび出力レイヤーがあります。私の問題は、1000個を超えるサンプルでアーキテクチャを変更した後、メモリがいっぱいになり、メモリエラーが発生することです。小さいバッチを作成しようとしましたが、毎回同じエラーが発生しました。2つの質問があります。 レイヤーを追加することで、モデルに必要なメモリが増えるのはなぜですか? この種の問題に対処する方法はありますか?

2
ニューラルネットワークにはsklearnまたはtensorflowを使用する必要がありますか?
私はcs231からディープラーニング用のニューラルネットワークを学び始めました。Pythonでニューラルネットワークを実装しようとしています。Tensorflowまたはscikit-learnの使用を検討しています。このアプリケーションのこれらのライブラリの長所と短所は何ですか?

1
バイアス分散のトレードオフと最適化の手段に関する質問
したがって、たとえば、高いバイアスまたは高い分散によって提示される問題に直面したときに、構築しようとしているモデルをどのように最適化できるかを考えていました。もちろん、正規化パラメーターを使用して満足のいく結果を得ることができますが、正規化に依存せずにこれを実行できるかどうか疑問に思っていました。 bがモデルのバイアス推定量であり、その分散のvである場合、b * vを最小化することは理にかなっていますか?

1
エンコーダー/デコーダーネットワークはどのように機能しますか?
損失関数として再構成エラーを使用して、猫のデータセットでエンコーダー/デコーダーネットワークをトレーニングしたとします。ネットワークは完全に訓練されており、デコーダーは適切な猫の画像を再構築できます。 次に、同じネットワークを使用して犬の画像を入力するとどうなるでしょうか。ネットワークは犬の画像を再構成できますか?


1
CNNでflow_from_directoryを使用する場合のデータ拡張
小さなデータセットを使用してCNNモデルを作成したい。それで、私は訓練データセットを増やすためにデータ増強を使用しています。ここにリストされているすべての拡張手法(引数)を使用する必要がありますか? 多くの引数を追加すると、モデルの精度が低下し、トレーニングセットがテストセットよりも難しくなることに気づきました。 使用時にデータ拡張を使用するためのベストプラクティスは何flow_from_directoryですか?

1
テキストデータを操作する場合、どのような状況で見出し語化が賢明な手順ではないのですか?
考えられる計算上の制約を無視して、テキストデータを分析するときに見出し語化が逆効果的なステップとなる一般的なアプリケーションはありますか? たとえば、文脈認識モデルを構築するときに、見出し語化は行われないことでしょうか? 参考までに、dictinory.comごとの見出し語化は、分析のために活用された(単語)の形を1つの項目としてグループ化する行為です。 たとえば、「cook」という単語は「cooking」という単語の補題です。見出し語化の動作は、たとえば、テキストデータをトークン化した後で、cookingという単語をcookに置き換えることです。さらに、「悪い」という単語の補題として「悪い」があり、前の例のように「悪い」という単語を「悪い」で置き換えることは、見出し語化のアクションです。

3
これらの異常値を検出できる異常値検出はどれですか。
ベクトルがあり、その中の異常値を検出したい。 次の図は、ベクトルの分布を示しています。赤い点は異常値です。青い点は通常の点です。イエローポイントも正常です。 赤い点を異常値として検出できる異常値検出方法(ノンパラメトリック手法)が必要です。IQR、標準偏差などの方法をテストしましたが、黄色の点も異常値として検出されました。 赤い点だけを検出するのは難しいことはわかっていますが、この問題を解決する方法(方法の組み合わせも含む)があるはずだと思います。 ポイントは、1日のセンサーの読み取り値です。ただし、システムの再構成により、センサーの値は変化します(環境は静的ではありません)。再構成の時期は不明です。青い点は再構成前の期間です。黄色の点は、再構成後の値で、読み取り値の分布に偏差を引き起こします(正常です)。赤い点は、黄色い点を違法に変更した結果です。つまり、検出すべき異常です。 カーネル平滑化関数の推定( 'pdf'、 'survivor'、 'cdf'など)が役立つかどうか疑問に思っています。問題を解決するためのコンテキストで使用する主な機能(または他のスムージング方法)と正当化について誰かが助けになりますか?

2
マトリックス内の「クラスター」または「グループ」の識別
個別の要素が入力されたマトリックスがあり、それらを(Rを使用して)そのままのグループにクラスター化する必要があります。したがって、たとえば、次のマトリックスを見てください。 [A B B C A] [A A B A A] [A B B C C] [A A A A A] Aには2つの個別のクラスター、Cには2つの個別のクラスター、Bには1つのクラスターがあります。 私が探している出力は、理想的には次のような一意のIDを各クラスターに割り当てます。 [1 2 2 3 4] [1 1 2 4 4] [1 2 2 5 5] [1 1 1 1 1] 今、私は最近傍を繰り返しチェックするだけで再帰的にこれを行うコードを書きましたが、行列が大きくなると(つまり、100x100)すぐにオーバーフローします。 これを行うことができるRの組み込み関数はありますか?ラスターと画像処理を調べましたが、うまくいきませんでした。私はそれがそこにあるに違いないと確信しています。
7 r  clustering 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.