私は、複数選択式の質問を通じて19717人のプログラミング言語の選択の応答を記録するデータフレームを持っています。もちろん、最初の列は回答者の性別ですが、残りは選択した選択肢です。したがって、Pythonを選択した場合、私の応答はPython列に記録され、bashでは記録されず、その逆も同様です。
ID Gender Python Bash R JavaScript C++
0 Male Python nan nan JavaScript nan
1 Female nan nan R JavaScript C++
2 Prefer not to say Python Bash nan nan nan
3 Male nan nan nan nan nan
私が欲しいのは、Gender
レコードの下の各カテゴリーのインスタンスの数を返すテーブルです。したがって、5000人の男性がPythonで、3000人の女性がJSでコーディングされている場合、私はこれを取得する必要があります。
Gender Python Bash R JavaScript C++
Male 5000 1000 800 1500 1000
Female 4000 500 1500 3000 800
Prefer Not To Say 2000 ... ... ... 860
私はいくつかのオプションを試しました:
df.iloc[:, [*range(0, 13)]].stack().value_counts()
Male 16138
Python 12841
SQL 6532
R 4588
Female 3212
Java 2267
C++ 2256
Javascript 2174
Bash 2037
C 1672
MATLAB 1516
Other 1148
TypeScript 389
Prefer not to say 318
None 83
Prefer to self-describe 49
dtype: int64
そして、それは上記のように必要なものではありません。これはパンダでできますか?
Gender
インデックスに対してすべて0を返します。