タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
ディスクからバッチでデータをトレーニングする方法は?
画像分類のための畳み込みニューラルネットワークに取り組んでいます。トレーニングデータセットが大きすぎて自分のコンピューターのメモリ(4GB)にロードできないため、クラスのバランスをとるためにいくつかの拡張を試す必要もあります。 使用していkerasます。私は多くの例を調べましたが、私の問題の解決策は見つかりませんでした。model.fit「バッチ処理」を行う関数またはジェネレーターを渡すことで、呼び出しのパラメーターを置き換えることを考えています。この関数は、ディスクからインポートして拡張を適用するように設計します。 それを実装する方法がわかりません。助言がありますか?

2
SKLearnの他の機能でのTF-IDFの使用
テキスト分析を他の機能と組み合わせる最良/正しい方法は何ですか?たとえば、一部のテキストだけでなく他の機能/カテゴリも含まれるデータセットがあります。SKlearnのTF-IDFベクトライザーは、テキストデータをスパース行列に変換します。たとえば、これらのスパース行列をNaive Bayes分類器で直接使用できます。しかし、他の機能も考慮に入れる方法は何ですか?テキストのtf-idf表現を分解し、機能とテキストを1つのDataFrameに結合する必要がありますか?または、たとえば、疎行列を別の列として保持できますか?これを行う正しい方法は何ですか?

1
データのログ変換を正しく行っていますか?
一部のデータに対して探索的データ分析を行っており、次のヒストグラムが得られます。 これはデータのログ変換の候補のように見えるため、次のPythonコードを実行してデータを変換します。 df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() そして、変換されたヒストグラムのこの新しいプロットを取得します。 この場合、ログ変換で問題がなかったと思いますか。その場合、結果を解釈するための最良の方法は何ですか。

3
mnistの例でのReLUとシグモイド
注意してください:私は次の例を改善しようとはしていません。99%以上の精度が得られることは知っています。コード全体が問題です。この単純なコードを試したところ、約95%の精度が得られました。アクティベーション関数をシグモイドからreluに変更すると、50%未満に低下します。これが起こる理論的な理由はありますか? 次の例をオンラインで見つけました。 from keras.datasets import mnist from keras.models import Sequential from keras.layers.core import Dense, Activation from keras.utils import np_utils (X_train, Y_train), (X_test, Y_test) = mnist.load_data() X_train = X_train.reshape(60000, 784) X_test = X_test.reshape(10000, 784) Y_train = np_utils.to_categorical(Y_train, classes) Y_test = np_utils.to_categorical(Y_test, classes) batch_size = 100 epochs = 15 model = Sequential() …

3
k-meansのクラスターに属する確率を取得する方法は?
データセットの各ポイントの確率を取得する必要があります。考え方は、距離行列を計算することです(最初の列は最初のクラスターまでの距離、2番目の列は2番目のクラスターまでの距離など)。最も近いポイントの確率は1、最も遠い確率は0です。問題は線形関数(MinMaxScallerなど)で、ほとんどすべてのポイントがほぼ同じ確率で出力されます。 このタスクの非線形性を選択する方法は?Pythonでこのプロセスを自動化する方法は?たとえば、最も近いポイントのp=1場合、cluster p=0.5に属する最も遠いポイントの場合、最も遠いポイントのpはalmols 0です。 または、この確率を計算する別の方法を提案できます。

2
CNNモデルでより多くの層を使用するとメモリエラーが発生する
デルのコアi7-16GB RAM-4GB 960m GPUラップトップで、3D CNNを使用して肺CT画像を分類するプロジェクトに取り組んでいます。CPUバージョンのtensorflowを使用しています。画像は、numpy配列サイズ(25、50、50)として準備されます。 私のCNNモデルには、2つの変換レイヤー、2つのmaxpoolレイヤー、1つのFCレイヤー、出力レイヤーがありました。このアーキテクチャでは、約(5000〜6000)サンプルでモデルをトレーニングできました。さらにレイヤーを追加した後、モデルには6つの変換レイヤー、3つの最大プールレイヤー、FCおよび出力レイヤーがあります。私の問題は、1000個を超えるサンプルでアーキテクチャを変更した後、メモリがいっぱいになり、メモリエラーが発生することです。小さいバッチを作成しようとしましたが、毎回同じエラーが発生しました。2つの質問があります。 レイヤーを追加することで、モデルに必要なメモリが増えるのはなぜですか? この種の問題に対処する方法はありますか?

3
2つのデータセットが互いに近いかどうかを確認する
次の3つのデータセットがあります。 data_a=[0.21,0.24,0.36,0.56,0.67,0.72,0.74,0.83,0.84,0.87,0.91,0.94,0.97] data_b=[0.13,0.21,0.27,0.34,0.36,0.45,0.49,0.65,0.66,0.90] data_c=[0.14,0.18,0.19,0.33,0.45,0.47,0.55,0.75,0.78,0.82] data_aは実際のデータで、他の2つはシミュレーションされたデータです。ここでは、data_bまたはdata_cのいずれがdata_aに最も近いか、または似ているかを確認しようとしています。現在、私は視覚的にks_2sampテスト(python)でそれを行っています。 視覚的に 実際のデータの累積分布関数とシミュレーションデータの累積分布関数をグラフにして、どれが最も近いかを視覚的に確認しようとしました。 上記はdata_aのcdfとdata_bのcdfです。 上記はdata_aのcdfとdata_cのcdfです。 したがって、それを視覚的に見ると、data_cはdata_aよりdata_aに近いと言えますが、それでも正確ではありません。 KSテスト 2番目の方法はKSテストで、data_aをdata_bで、data_aをdata_cでテストしました。 >>> stats.ks_2samp(data_a,data_b) Ks_2sampResult(statistic=0.5923076923076923, pvalue=0.02134674813035231) >>> stats.ks_2samp(data_a,data_c) Ks_2sampResult(statistic=0.4692307692307692, pvalue=0.11575018162481227) 上記から、data_aをdata_cでテストした場合、統計値が低いことがわかります。したがって、data_cはdata_bよりもdata_aに近いはずです。仮説検定として考えるのは適切でなく、得られたp値を使用するのは適切ではないので、p値を考慮しませんでした。この検定は、帰無仮説が事前に決定されて設計されているためです。 だから私のここでの質問は、私がこれを正しくやっているのなら、それを行う他のより良い方法があるのか​​ということです??? ありがとうございました

2
左に歪んだ分布を持つことの欠点は何ですか?
現在、分類の問題に取り組んでおり、数値列が歪んでいます。左歪度を修正するためにログ変換またはボックスコックス変換を行うことを人々が推奨している多くの投稿を読んだことがあります。 それで、歪度をそのままにしてモデルの構築を続行するとどうなるのだろうと思いましたか。分類問題(knn、ロジスティック回帰)の歪度を修正する利点はありますか?

1
多言語感情コーパスについて
各記事にポジティブ、ニュートラル、ネガティブのラベルが付けられた複数の言語のニュース記事(機械学習実験では1言語あたり100k以下)の感情コーパスをコンパイルしたいと考えています。私は高低を検索しましたが、このようなものはありませんでした。私はすでに各言語のニュース記事を持っています。 コミュニティへの私の質問は、これを可能な限り正確に達成するにはどうすればよいですか? 私は最初にMechanical Turkを見ていた。そこでは、各記事に手動でラベルを付けるために人々を雇うことができる。そして、これは前進する最善の方法かもしれませんが、高価です。 次に、感情分析を行う既存の人気のあるすべてのライブラリ(既にMechanical Turkを使用しているものもある)(AFINN、Bing Liu、MPQA、VADER、TextBlobなど)について考えました。 センチメントのアイデア 私の現在のアイデアは、これらのライブラリのいくつか(たとえば、AFINN、次にTextBlob、次にVADER)で各ニュース記事を実行し、3つのライブラリすべてがコーパスに受け入れられているにもかかわらず、満場一致でポジティブ、ネガティブ、ニュートラルを示す記事についてです。それはかなり強力で合理的な検証プロセスのように見えますか? 言語のアイデア 次の問題は言語自体に関係しています。上記の3 libパイプラインは英語で問題なく実行できます。ただし、これらのライブラリは他の多くの言語(スペイン語、ドイツ語、中国語、アラビア語、フランス語、ポルトガル語など)を均一にサポートしていません。それらを英語に変換し、上記の既存の3 libパイプラインを介して送信するためのAPI。多くの記事のセマンティクスが失われることは確かです。しかし、私の期待は、十分な記事が十分に翻訳され、一部が3 libパイプラインを通過することです。 このトリプルブラインド感情パイプを使用してニュース記事を翻訳および送信すると、10万のコーパスが必要になり、1万の結果が得られる可能性があることを知っています。私はそれで大丈夫です。精度と価格が私の懸念事項です。より多くのデータを簡単に取得できます。 ニュース記事の感情コーパスを達成するためのより正確な方法は何ですか。このようなコーパスを組み立てるための既存のベストプラクティスはありますか?

3
入れ子のリストをPythonで単一のリストに変換する方法は?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 2年前休業。 ID番号を含むリストがあります。リストの一部の要素は別のリストです。ネストされたリストを単一のリストに変換するために、collectionsモジュールを使用して再帰関数を記述します。 私のコードは以下の通りです。 from collections import Iterable def single_list(list): for item in list: if isinstance(item, Iterable): yield from single_list(item) else: yield item Item_list = [10,20,[30,40],[50,'Null',70],100] items_single=single_list(Item_list) for item in items_single: print(item) プログラムを実行すると、次のエラーメッセージが表示されます。 Traceback (most recent call last): File "/Research/SoftDev/SEPJ/StackOverflow_qs.py", line 42, in <module> …
7 python 

1
各データファイルの長さが異なる場合、入力フィーチャの形状をどのように決定しますか?
助けるために私はの利点と欠点を理解しdecision trees、KNN、Neural Networks、私は2クラス(中分類という単純な分類器構築したいBird SoundとはNon-Bird Sound)上記の3つの方法のすべてを使用します。そのため、kaggleからサウンドデータセットをダウンロードし、pysoundfileをサウンドファイルを読み取るためのモジュールとして探索していました。したがって、次のスタブ: data, samplerate = sf.read('xc94652.flac') numpy ndarrayを返します。shapeデータの各ファイル、いくつかのビーイングに応じて変化(8637686,)し、いくつかのビーイング(3227894,)。各ファイルは長さが異なるため、ファイルの形状はdataファイルごとに異なります。いくつかの方法があります、私は形をdata等しくすることができますか?すべてのファイルからデータセットの形状を最小の長さにすることを計画していました。しかし、それは間違いなくサウンドファイルデータセットを正当化しません。多くの機能が失われる可能性があり、最終的にモデルの精度が失われる可能性があります。

2
実際の機械学習プロダクションシステムはどのように実行されますか?
親愛なる機械学習/ AIコミュニティ、 私は、オープンなオンラインデータセットと、プロジェクト用にローカルで構築されたいくつかのPOCに取り組んできた、新進気鋭の機械学習者です。再トレーニングを回避するために、いくつかのモデルを構築し、ピクルスオブジェクトに変換しました。 そして、この質問はいつも私を困惑させます。実際の本番システムはMLアルゴリズムでどのように機能しますか? たとえば、MLアルゴリズムを数百万のデータでトレーニングし、それを本番システムに移動するか、サーバーでホストしたいとします。現実の世界では、それらは漬物オブジェクトに変換されますか?もしそうなら、それは巨大な漬物ファイルになるでしょう、そうではありません。ローカルでトレーニングし、50000行のデータ自体に変換したものは、そのピクルされたオブジェクトのためにディスク上で300 Mbのスペースを使用しました。私はそうは思わないので、これは正しいアプローチです。 では、MLアルゴリズムが受信データを再トレーニングして予測を開始しないようにするには、どうすればよいでしょうか。また、継続的なオンライン学習者として実際にMLアルゴリズムを作成する方法を教えてください。たとえば、画像分類子を作成し、入力画像の予測を開始しました。しかし、以前にトレーニングしたデータセットに着信オンライン画像を追加して、アルゴリズムを再度トレーニングしたいと思います。すべてのデータについてではなく、毎日、その日に受信したすべてのデータを組み合わせて、以前にトレーニングした分類子が実際の値で予測した新しく100枚の画像で再トレーニングしたい場合があります。そして、この再トレーニングは計算リソースとデータに基づいて時間がかかる可能性があるため、このアプローチは、以前にトレーニングされたアルゴリズムに影響を与えて、着信データの予測を停止するべきではありません。 私は多くの記事をGoogleで読みましたが、上記の質問を見つけたり理解したりできませんでした。そして、これは私を毎日困惑させています。本番システムでも手動による介入が必要ですか?それとも自動化されたアプローチがありますか? 上記の質問へのリードまたは回答は非常に役立ち、高く評価されます。私の質問が意味をなさない、または理解できない場合はお知らせください。 これは私が探しているプロジェクト中心ではありません。実際のプロダクションMLシステムの例の単なる一般的なケース。 前もって感謝します!

1
視覚的な言葉のバッグ
私がやろうとしていること: 一部の画像をローカルおよびグローバル機能を使用して分類しようとしています。 これまでに行ったこと: 各画像のシフト記述子を抽出しました。これをk平均の入力として使用して、すべての画像のすべての機能から語彙を作成しています。ここから、画像のふるい分け機能をk平均法の予測メソッドに渡してクラスターのラベルを取得することで、各画像のクラスターからヒストグラムを作成します。ここから、各ビンのラベルの数をカウントしてヒストグラムを作成します。これでnxm行列ができました。nは画像の数、mは各画像のクラスター(特徴/単語)の数です。 このマトリックスを分類器に送り、画像の分類を取得します。 一言で言えば、ステップ: 各画像にnx128行列を与えるシフト機能記述子を抽出します すべての機能記述子を1つの大きなリストにスタックします これらの機能すべてをkmeansアルゴリズム設定k = 100に適合させます。 すべての画像について、そのシフト機能を使用して、同じトレーニング済みkmeansモデルを使用してクラスターのラベルを予測します ビンの数としてkを使用してクラスターからヒストグラムを作成し、モデルの各ラベルのビンに1を追加します。(画像にシフトからの10個の特徴がある場合、10個のラベルが与えられ、これらの10個のラベルはkの範囲にあるため、各ラベルについて、ヒストグラムの対応するビンに追加します)。 これでnxk行列ができました。nは画像の数、kはクラスターの数です。 次に、ヒストグラムを分類子にフィードし、テストデータを予測するように依頼します。 問題: Bag of Visual Wordsを正しく実行していますか? これが私のコードです: def extract_features(df): IF = imageFeatures() global_features = [] sift_features = [] labels = [] for i, (index, sample) in enumerate(df.iterrows()): image = cv2.imread(sample["location"]) image = cv2.resize(image, shape) hist = …

2
RからPythonへの移行:特定の質問
私はプロトタイピングとモデル構築にRとRStudioを使用しており、永続的な問題(これは私が使用している環境にのみ該当します)のため、Pythonを使用することにしました。私は知りたいと思っています: 「RStudio Server」のようなpython開発環境はありますか? ディシジョンツリー/勾配ブースティングのためにPythonでマルチスレッド/マルチコア処理を有効にするのはどれほど簡単/難しいですか? Python dev環境サーバーにデータを保持できますか?意味:コードとデータフレームを使用して開発環境を保存し、翌日に戻ってアクセスした場所にアクセスしたり、そこからピックアップしたりできますか? PythonからOracleデータベースに接続できますか? .RDataをPython開発環境にインポートする方法はありますか? なぜこれらの質問をここで行うのですか? 検索エンジンを調べている間、私は主に信頼できない結果、トレーニング機関のプロモーション、時代遅れのブログ、業界大手からのホワイトペーパーを取得しています。信頼できる答えが必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.