データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
画像のコピーを識別するためのニューラルネットワークアーキテクチャ
大規模な画像コレクションがあり、コレクションから他の画像をコピーしているように見える、そのコレクション内の画像を特定したいと考えています。 一致として分類したい画像ペアの種類を理解するために、次の例を検討してください。 私はおよそ.25Mの一致する画像のペアを手で分類しました。次に、それらの手でラベル付けされた一致を使用してニューラルネットワークモデルをトレーニングします。どのアーキテクチャがこのタスクに理想的に適しているかはわかりません。 元々は同様のタスクに使用されているので、シャムネットワークが適切かもしれないと思っていましたが、これらの分類子からの出力は、同じオブジェクトの異なる形を見つけるのに理想的です(これは私が望むものではありません)。同じ形の(それが私が欲しいものです)。 私が準備したトレーニングデータを前提として、画像の特定に理想的な論文やアーキテクチャを推奨できる人がいれば、私はあなたが提供できるあらゆる洞察に非常に感謝します。

6
2つのデータセットを結合することをお勧めしますか?
2つの異なる場所(正確には2つの異なる大陸)で記録された被験者の心拍数に関する2つのデータセットがあります。2つの研究実験は、時間の経過に伴う心拍数の変化に基づいて被験者の感情を見つけることを目的としています。被験者の感情を予測するために機械学習を使用していて、各データセットで個別にテストすると、許容できる結果が得られます。ただし、2つのデータセットをマージすると、さらに良い結果が得られます。 ただし、2つのデータセットの組み合わせが許容できるかどうかはわかりません。どういうわけか2つの異なるデータセットを組み合わせているので、統計的バイアスが発生しますか?調査結果をジャーナルペーパーでどのように報告すればよいですか?

1
各データファイルの長さが異なる場合、入力フィーチャの形状をどのように決定しますか?
助けるために私はの利点と欠点を理解しdecision trees、KNN、Neural Networks、私は2クラス(中分類という単純な分類器構築したいBird SoundとはNon-Bird Sound)上記の3つの方法のすべてを使用します。そのため、kaggleからサウンドデータセットをダウンロードし、pysoundfileをサウンドファイルを読み取るためのモジュールとして探索していました。したがって、次のスタブ: data, samplerate = sf.read('xc94652.flac') numpy ndarrayを返します。shapeデータの各ファイル、いくつかのビーイングに応じて変化(8637686,)し、いくつかのビーイング(3227894,)。各ファイルは長さが異なるため、ファイルの形状はdataファイルごとに異なります。いくつかの方法があります、私は形をdata等しくすることができますか?すべてのファイルからデータセットの形状を最小の長さにすることを計画していました。しかし、それは間違いなくサウンドファイルデータセットを正当化しません。多くの機能が失われる可能性があり、最終的にモデルの精度が失われる可能性があります。

4
散布図からの特徴抽出
次のような散布図があるとします。 私はこのような散布図をたくさん持っているので(x,y)、NNに入力するために特徴変換、つまり単一の用語でスカッシュを実行したいと思います。どのタイプの変換x/y、(x/y)^2または他の変換がこのタイプのグラフで最も効果的に機能するか、つまり、単一の項に押しつぶしながら分離をさらに増やします。


2
実際の機械学習プロダクションシステムはどのように実行されますか?
親愛なる機械学習/ AIコミュニティ、 私は、オープンなオンラインデータセットと、プロジェクト用にローカルで構築されたいくつかのPOCに取り組んできた、新進気鋭の機械学習者です。再トレーニングを回避するために、いくつかのモデルを構築し、ピクルスオブジェクトに変換しました。 そして、この質問はいつも私を困惑させます。実際の本番システムはMLアルゴリズムでどのように機能しますか? たとえば、MLアルゴリズムを数百万のデータでトレーニングし、それを本番システムに移動するか、サーバーでホストしたいとします。現実の世界では、それらは漬物オブジェクトに変換されますか?もしそうなら、それは巨大な漬物ファイルになるでしょう、そうではありません。ローカルでトレーニングし、50000行のデータ自体に変換したものは、そのピクルされたオブジェクトのためにディスク上で300 Mbのスペースを使用しました。私はそうは思わないので、これは正しいアプローチです。 では、MLアルゴリズムが受信データを再トレーニングして予測を開始しないようにするには、どうすればよいでしょうか。また、継続的なオンライン学習者として実際にMLアルゴリズムを作成する方法を教えてください。たとえば、画像分類子を作成し、入力画像の予測を開始しました。しかし、以前にトレーニングしたデータセットに着信オンライン画像を追加して、アルゴリズムを再度トレーニングしたいと思います。すべてのデータについてではなく、毎日、その日に受信したすべてのデータを組み合わせて、以前にトレーニングした分類子が実際の値で予測した新しく100枚の画像で再トレーニングしたい場合があります。そして、この再トレーニングは計算リソースとデータに基づいて時間がかかる可能性があるため、このアプローチは、以前にトレーニングされたアルゴリズムに影響を与えて、着信データの予測を停止するべきではありません。 私は多くの記事をGoogleで読みましたが、上記の質問を見つけたり理解したりできませんでした。そして、これは私を毎日困惑させています。本番システムでも手動による介入が必要ですか?それとも自動化されたアプローチがありますか? 上記の質問へのリードまたは回答は非常に役立ち、高く評価されます。私の質問が意味をなさない、または理解できない場合はお知らせください。 これは私が探しているプロジェクト中心ではありません。実際のプロダクションMLシステムの例の単なる一般的なケース。 前もって感謝します!

1
マルチラベル分類の目的関数
マルチラベル(例:Mラベル)分類の通常の目的関数は、バイナリクロスエントロピーです。問題は、バイナリクロスエントロピーを使用する場合、出力ラベルが互いに独立していると想定し、問題をM個の独立したバイナリ分類問題に変換することです。出力ラベルを互いに依存させる適切な目的関数はありますか?

1
線形回帰の仮定
簡単に言えば、線形回帰の仮定は何ですか? 線形回帰モデルをデータセットに適用できることを知りたいだけです。

1
データセット全体で構築できない場合、データセットの「チャンク」で線形モデルを構築できますか?
データセット全体でモデルを構築できない場合、データセットの「チャンク」で線形モデルを構築できますか? 特に、私はまだ88kを超える変数(機能)を残しており、大量のメモリがなければ、それらを使って多くを行うことはできません。しかし、「ブロック」でモデルを実行すると、ブロック間で発生する相互作用が失われますか、またはこれらを「集約」するためのテクニックはありますか?

1
畳み込みニューラルネットワーク図の描き方
これに似たCNNダイアグラムを描く必要があります。 https://datascience.stackexchange.com/a/14900に記載されているすべてのツールを試しましたが、簡単な方法はありません。自動化する方法はありますか?または手動で行う必要がありますか? さらに、これを描くことは可能ですか?: http://alexlenail.me/NN-SVG/LeNet.htmlを見つけましたが、この場合、各レイヤーへの入力は完全な正方形であると想定されています。したがって、上の図を描くことはできません。

4
さまざまな機能を持つデータシリーズからの予測
データポイントの機能が等しくない問題を調べています。 各インスタンスは、システム全体でのアイテムの進行を表します。それらの多くはエンドポイントまで進んでおり、他のものはまだ中間段階にあります。ステージ数は既知です(合計10)。各ステージに入る時間があります。重要なのは、彼らが最終段階に到達する時期を予測することです。 これを処理する方法はいくつかあります。決定木はこれを適切に処理できるかもしれません。ステージのエントリ時間が不明な場合でも、ステージのデータから妥当な予測を行うことができます。 誰かが私を正しい方向に向けることができますか?

1
視覚的な言葉のバッグ
私がやろうとしていること: 一部の画像をローカルおよびグローバル機能を使用して分類しようとしています。 これまでに行ったこと: 各画像のシフト記述子を抽出しました。これをk平均の入力として使用して、すべての画像のすべての機能から語彙を作成しています。ここから、画像のふるい分け機能をk平均法の予測メソッドに渡してクラスターのラベルを取得することで、各画像のクラスターからヒストグラムを作成します。ここから、各ビンのラベルの数をカウントしてヒストグラムを作成します。これでnxm行列ができました。nは画像の数、mは各画像のクラスター(特徴/単語)の数です。 このマトリックスを分類器に送り、画像の分類を取得します。 一言で言えば、ステップ: 各画像にnx128行列を与えるシフト機能記述子を抽出します すべての機能記述子を1つの大きなリストにスタックします これらの機能すべてをkmeansアルゴリズム設定k = 100に適合させます。 すべての画像について、そのシフト機能を使用して、同じトレーニング済みkmeansモデルを使用してクラスターのラベルを予測します ビンの数としてkを使用してクラスターからヒストグラムを作成し、モデルの各ラベルのビンに1を追加します。(画像にシフトからの10個の特徴がある場合、10個のラベルが与えられ、これらの10個のラベルはkの範囲にあるため、各ラベルについて、ヒストグラムの対応するビンに追加します)。 これでnxk行列ができました。nは画像の数、kはクラスターの数です。 次に、ヒストグラムを分類子にフィードし、テストデータを予測するように依頼します。 問題: Bag of Visual Wordsを正しく実行していますか? これが私のコードです: def extract_features(df): IF = imageFeatures() global_features = [] sift_features = [] labels = [] for i, (index, sample) in enumerate(df.iterrows()): image = cv2.imread(sample["location"]) image = cv2.resize(image, shape) hist = …


2
RからPythonへの移行:特定の質問
私はプロトタイピングとモデル構築にRとRStudioを使用しており、永続的な問題(これは私が使用している環境にのみ該当します)のため、Pythonを使用することにしました。私は知りたいと思っています: 「RStudio Server」のようなpython開発環境はありますか? ディシジョンツリー/勾配ブースティングのためにPythonでマルチスレッド/マルチコア処理を有効にするのはどれほど簡単/難しいですか? Python dev環境サーバーにデータを保持できますか?意味:コードとデータフレームを使用して開発環境を保存し、翌日に戻ってアクセスした場所にアクセスしたり、そこからピックアップしたりできますか? PythonからOracleデータベースに接続できますか? .RDataをPython開発環境にインポートする方法はありますか? なぜこれらの質問をここで行うのですか? 検索エンジンを調べている間、私は主に信頼できない結果、トレーニング機関のプロモーション、時代遅れのブログ、業界大手からのホワイトペーパーを取得しています。信頼できる答えが必要です。

1
ディープラーニングモデルは、データセットの推定エントロピーに必要な容量をはるかに超えていますか?
この質問は少し奇妙に見えるかもしれません。私は情報理論についていくつかの自習をしていて、ディープラーニングについてさらに正式な調査を行うことにしました。私が説明しようとするので、我慢してください。私はMNISTの大きな「トレーニング」サブセットをモルモットとして使用しました。 1)MNISTのすべての画像を「白黒」に変換(ピクセル値は0または1のみ) 2)すべてのデータ画像を合計してピクセルのヒストグラムを作成しました-データセットで各ピクセルが1の値を取得する回数をカウントしました 3)「真の」確率分布の推定値を取得するための正規化されたヒストグラム 4)これから、私は次の確率分布を得ました(matplotlibでヒートマップとして示されています): [ 5)今私はエントロピーを計算して得た:ビット191191191 6)デービッドマッケイの情報理論の本によると、ニューラルネットワークをノイズの多いチャネルとして解釈し、各ニューロンが2ビットの容量を持つと見なすことができます。彼はこの考えを注意して使うように述べていますが。彼の本の第40章http://www.inference.org.uk/itila/book.html) 7)したがって、大まかな見積もりとして(そして注意して)、このMNISTトレーニングセット(190/2)のラベルをエンコードできるようにするには、95ニューロンのニューラルネットワークが必要になると言えます。8)これで、私の質問に: これが非常に「エンベロープの逆」計算である場合でも、ラベリングを学習できるニューラルネットワークは、少なくとも95ニューロンの球場にあるべきではないでしょうか。たとえば、99%の精度を得るために21840パラメータを持つニューラルネットワークが必要なのはなぜですか?(MNISTのPyTorchの例の1つを考慮:https : //github.com/pytorch/examples/blob/master/mnist/main.py)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.