データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

3
なぜロジスティック関数は2ではなくeを使用するのですか?
シグモイド関数は、機械学習のアクティベーション関数として使用できます。 S(x )=11 +e− x=eバツeバツ+ 1。S(x)=11+e−x=exex+1.{\displaystyle S(x)={\frac {1}{1+e^{-x}}}={\frac {e^{x}}{e^{x}+1}}.} eを2に置き換えると def sigmoid2(z): return 1/(1+2**(-z)) x = np.arange(-9,9,dtype=float) y = sigmoid2(x) plt.scatter(x,y) プロットは似ています。 なぜロジスティック関数は2ではなく使用するのですか?eee


3
ニューラルネットワークを使用して段ボール箱を検出する方法
複数のクラスの人(人)とともに段ボール箱を検出する方法をニューラルネットワークにトレーニングしようとしています。 人を検出し、正しく分類するのは簡単ですが、段ボール箱を検出するのは非常に困難です。 ボックスは次のようになります。 私の疑いは、ボックスがオブジェクトに対して単純すぎることです。オブジェクトから抽出する機能が少なすぎるため、ニューラルネットワークはそれを検出することが困難です。 データセットの分割は次のようになります。 personA: 1160 personB: 1651 personC: 2136 person: 1959 box: 2798 人は、分類されているアイテムに基づいてさまざまな安全アイテムを着用していますが、アイテムだけでなく、人全体として検出されています。 私が使用しようとしました: ssd300_incetpionv2 ssd512_inceptionv2 faster_rcnn_inceptionv2 これらはすべて、箱よりもはるかに優れた人物の検出と分類です。正確には提供できませんmAP(それがありません)。 何か案は? ありがとう。

3
2つのデータセットが互いに近いかどうかを確認する
次の3つのデータセットがあります。 data_a=[0.21,0.24,0.36,0.56,0.67,0.72,0.74,0.83,0.84,0.87,0.91,0.94,0.97] data_b=[0.13,0.21,0.27,0.34,0.36,0.45,0.49,0.65,0.66,0.90] data_c=[0.14,0.18,0.19,0.33,0.45,0.47,0.55,0.75,0.78,0.82] data_aは実際のデータで、他の2つはシミュレーションされたデータです。ここでは、data_bまたはdata_cのいずれがdata_aに最も近いか、または似ているかを確認しようとしています。現在、私は視覚的にks_2sampテスト(python)でそれを行っています。 視覚的に 実際のデータの累積分布関数とシミュレーションデータの累積分布関数をグラフにして、どれが最も近いかを視覚的に確認しようとしました。 上記はdata_aのcdfとdata_bのcdfです。 上記はdata_aのcdfとdata_cのcdfです。 したがって、それを視覚的に見ると、data_cはdata_aよりdata_aに近いと言えますが、それでも正確ではありません。 KSテスト 2番目の方法はKSテストで、data_aをdata_bで、data_aをdata_cでテストしました。 >>> stats.ks_2samp(data_a,data_b) Ks_2sampResult(statistic=0.5923076923076923, pvalue=0.02134674813035231) >>> stats.ks_2samp(data_a,data_c) Ks_2sampResult(statistic=0.4692307692307692, pvalue=0.11575018162481227) 上記から、data_aをdata_cでテストした場合、統計値が低いことがわかります。したがって、data_cはdata_bよりもdata_aに近いはずです。仮説検定として考えるのは適切でなく、得られたp値を使用するのは適切ではないので、p値を考慮しませんでした。この検定は、帰無仮説が事前に決定されて設計されているためです。 だから私のここでの質問は、私がこれを正しくやっているのなら、それを行う他のより良い方法があるのか​​ということです??? ありがとうございました

3
データサイエンス向けDocker
最近、Dockerに関する記事を読み始めました。 私にとって、データサイエンスでは、Dockerは次の理由で役立ちます。 1)まったく異なる環境があり、ライブラリーと依存関係の問題から保護されている。 2)たとえば、アプリケーションが会社のデータベースを変更する場合、まずコードが正常に機能し、データベースに悪影響を及ぼさないことを確認する必要があります。したがって、最初にDockerを使用してコードをテストします。 私の質問: 2つ目の理由はサンドボクシングについてだけだと言ってもよろしいですか。最初の理由は、サンドボクシングとは関係ありませんよね? Dockerがデータサイエンスで役立つ他の理由はありますか? データサイエンスのためのDockerに関する興味深い研究論文はあまり見つかりません。有名なものを知っていますか?
7 data 

2
左に歪んだ分布を持つことの欠点は何ですか?
現在、分類の問題に取り組んでおり、数値列が歪んでいます。左歪度を修正するためにログ変換またはボックスコックス変換を行うことを人々が推奨している多くの投稿を読んだことがあります。 それで、歪度をそのままにしてモデルの構築を続行するとどうなるのだろうと思いましたか。分類問題(knn、ロジスティック回帰)の歪度を修正する利点はありますか?

1
他のハイパーパラメーターと同じように、最適なPCA kパラメーターを見つけようとしても大丈夫ですか?
主成分分析(PCA)は、n次元データをk次元データに変換して、機械学習の速度を上げるために使用されます。PCAが適用された後、元のデータセットの分散が結果のデータセットにどれだけ残っているかを確認できます。一般的な目標は、90%と99%の間の差異を維持することです。 私の質問は、kパラメータの異なる値(結果のデータセットの次元のサイズ)を試してから、選択したのと同じ方法で、いくつかの相互検証データセットに対して結果のモデルの結果を確認することをお勧めします。正則化ラムダやしきい値のような他のハイパーパラメーターの良い値は?

4
tanhの入力に係数を乗算することにより、消失勾配問題を解決できますか?
私の理解では、各活性化関数の勾配が1未満のときにニューラルネットワークをトレーニングすると消失勾配問題が発生し、補正が多くの層で逆伝播すると、これらの勾配の積は非常に小さくなります。 整流器活性化関数のような他の解決策があることを知っていますが、私の質問は、よく使用されるtanh関数のバリエーションを単純に使用できない理由です。 アクティベーション機能が次の形式の場合 tanh(nx)tanh⁡(nx)\tanh(n x) 次に、可能な最大勾配は nnn。したがって、n>1n>1n > 1勾配の積が必ず 0になるケースはなくなりました。 このようなアクティベーション機能が失敗する理由は何かありますか?

2
検証とテストとトレーニングの精度。オーバーフィットを主張するために私はどちらを比較すべきですか?
こことインターネットでいくつかの回答を読みましたが、クロス検証は、モデルが一般化するかどうか、およびオーバーフィットについて一般化するかどうかを示すのに役立ちます。 しかし、私は、モデルが過適合であるかどうかを確認するために、テスト/トレーニング/検証の間でどの2つの精度/エラーを比較すべきか混乱していますか? 例えば: データを70%のトレーニングと30%のテストに分割します。 10倍の相互検証を実行すると、平均/平均をとることができる10の精度が得られます。これはどういう意味validation accuracyですか? その後、30%のテストデータでモデルをテストし、を取得しTest Accuracyます。 この場合、何になりますtraining accuracyか?また、モデルが過適合であるかどうかを確認するには、どの2つの精度を比較する必要がありますか?

1
GANの実際の商用利用はすでにありますか?
インターネットで研究をしていると、GANに関する多くの科学論文、アイデア、実験を見つけました。しかし、すでに商業的に使用されている例を1つも見つけることができませんでした。 Q1製品ですでにGANを使用している企業の例を教えてください。 Q2例を挙げられない場合、その理由は何ですか?GANはすでに商業化するには若すぎるのですか?あるいは、企業がこのフレームワークを使用してAIシステムをトレーニングしていることを明らかにする理由がないのでしょうか。 PS:私はいくつかの「現実世界」の使用法を知っています: 一部の人々は、偽のニュースやその他の厄介なものを作成するためにそれを使用し、おそらくそれから利益を得ます。 Githubで利用可能なニューラルフォトエディター しかし、それを「商業的」用途と呼ぶのは難しい。
7 gan 

1
多言語感情コーパスについて
各記事にポジティブ、ニュートラル、ネガティブのラベルが付けられた複数の言語のニュース記事(機械学習実験では1言語あたり100k以下)の感情コーパスをコンパイルしたいと考えています。私は高低を検索しましたが、このようなものはありませんでした。私はすでに各言語のニュース記事を持っています。 コミュニティへの私の質問は、これを可能な限り正確に達成するにはどうすればよいですか? 私は最初にMechanical Turkを見ていた。そこでは、各記事に手動でラベルを付けるために人々を雇うことができる。そして、これは前進する最善の方法かもしれませんが、高価です。 次に、感情分析を行う既存の人気のあるすべてのライブラリ(既にMechanical Turkを使用しているものもある)(AFINN、Bing Liu、MPQA、VADER、TextBlobなど)について考えました。 センチメントのアイデア 私の現在のアイデアは、これらのライブラリのいくつか(たとえば、AFINN、次にTextBlob、次にVADER)で各ニュース記事を実行し、3つのライブラリすべてがコーパスに受け入れられているにもかかわらず、満場一致でポジティブ、ネガティブ、ニュートラルを示す記事についてです。それはかなり強力で合理的な検証プロセスのように見えますか? 言語のアイデア 次の問題は言語自体に関係しています。上記の3 libパイプラインは英語で問題なく実行できます。ただし、これらのライブラリは他の多くの言語(スペイン語、ドイツ語、中国語、アラビア語、フランス語、ポルトガル語など)を均一にサポートしていません。それらを英語に変換し、上記の既存の3 libパイプラインを介して送信するためのAPI。多くの記事のセマンティクスが失われることは確かです。しかし、私の期待は、十分な記事が十分に翻訳され、一部が3 libパイプラインを通過することです。 このトリプルブラインド感情パイプを使用してニュース記事を翻訳および送信すると、10万のコーパスが必要になり、1万の結果が得られる可能性があることを知っています。私はそれで大丈夫です。精度と価格が私の懸念事項です。より多くのデータを簡単に取得できます。 ニュース記事の感情コーパスを達成するためのより正確な方法は何ですか。このようなコーパスを組み立てるための既存のベストプラクティスはありますか?

5
平均値と中央値を使用する場合
私はデータサイエンスと統計に不慣れなので、これは初心者の質問のように思えるかもしれません。 私は、ユーザーのTwitterフォロワーが1日に獲得できるデータセットに取り組んでいます。一定期間の平均的な成長を測定したいのですが、成長の平均を求めることで測定しました。しかし、誰かが私にこれに中央値を使うように勧めています。 誰もが説明できますか、どのユースケースで平均を使用する必要があり、いつ中央値を使用するのですか?

3
入れ子のリストをPythonで単一のリストに変換する方法は?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 2年前休業。 ID番号を含むリストがあります。リストの一部の要素は別のリストです。ネストされたリストを単一のリストに変換するために、collectionsモジュールを使用して再帰関数を記述します。 私のコードは以下の通りです。 from collections import Iterable def single_list(list): for item in list: if isinstance(item, Iterable): yield from single_list(item) else: yield item Item_list = [10,20,[30,40],[50,'Null',70],100] items_single=single_list(Item_list) for item in items_single: print(item) プログラムを実行すると、次のエラーメッセージが表示されます。 Traceback (most recent call last): File "/Research/SoftDev/SEPJ/StackOverflow_qs.py", line 42, in <module> …
7 python 

1
CNNオートエンコーダーのボトルネックレイヤーに有用な情報が含まれていることをどのように証明できますか?
CNNオートエンコーダーを使用して状態表現レイヤーを作成しています。これを後で補強エージェントにフィードします。だから私は私のCNNオートエンコーダーを訓練しました、そしてそれは素晴らしい状態表現を与えています。しかし、私は次の質問があります、 オートエンコーダレイヤーを過剰に適合させることはできますか オーバーフィットがあると、ボトルネックレイヤーに情報が粗末になりますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.