パンダデータフレームでNaNを含む行の整数インデックスを見つける

94

私はこのようなパンダDataFrameを持っています：

                    a         b
2011-01-01 00:00:00 1.883381  -0.416629
2011-01-01 01:00:00 0.149948  -1.782170
2011-01-01 02:00:00 -0.407604 0.314168
2011-01-01 03:00:00 1.452354  NaN
2011-01-01 04:00:00 -1.224869 -0.947457
2011-01-01 05:00:00 0.498326  0.070416
2011-01-01 06:00:00 0.401665  NaN
2011-01-01 07:00:00 -0.019766 0.533641
2011-01-01 08:00:00 -1.101303 -1.408561
2011-01-01 09:00:00 1.671795  -0.764629

NaNを持つ行の「整数」インデックスを見つける効率的な方法はありますか？この場合、必要な出力はになります[3, 6]。

python pandas

— ジャン＝フランソワ・コルベット
ソース

12

nanで行を選択したいだけなら、次のようにできますdf[np.isnan(df['b'])]

— lazy1

4

@ lazy1からフォローアップすること-の代わりに使用してのnumpy「S isnanあなたにも使用することができますdf['b'].isnull()

— jmetz

46

DataFrameの場合df：

import numpy as np
index = df['b'].index[df['b'].apply(np.isnan)]

は、MultiIndexにインデックスを戻すために使用できるを返しますdf。例：

df['a'].ix[index[0]]
>>> 1.452354

整数インデックスの場合：

df_index = df.index.values.tolist()
[df_index.index(i) for i in index]
>>> [3, 6]

— ディリオップ
ソース

1

ix音と同じくらい直観的ですが、いくつかの理由により、推奨されなくなったようですiloc

— カルダモン2018

145

これはより簡単な解決策です：

inds = pd.isnull(df).any(1).nonzero()[0]

In [9]: df
Out[9]: 
          0         1
0  0.450319  0.062595
1 -0.673058  0.156073
2 -0.871179 -0.118575
3  0.594188       NaN
4 -1.017903 -0.484744
5  0.860375  0.239265
6 -0.640070       NaN
7 -0.535802  1.632932
8  0.876523 -0.153634
9 -0.686914  0.131185

In [10]: pd.isnull(df).any(1).nonzero()[0]
Out[10]: array([3, 6])

— ウェス・マッキーニー
ソース

29

私はこれを使用してしまいました：np.where(df['b'].notnull())[0]

おかげで、.nonzero()[0]より優れてい[i for i, k in enumerate(mask) if k]ます。）

— Winand

2

：あなたはおそらくこれをさらに簡素化することができr, _ = np.where(df.isna())

— cs95

2

.to_numpy()最初にnumpy配列に変換するために追加pd.isnull(df).any(1).to_numpy().nonzero()

— 7bStan

13

1行のソリューション。ただし、1列のみで機能します。

df.loc[pandas.isna(df["b"]), :].index

— ヴァシル・ヴァスキフスキー
ソース

これは私が探していたものです。私はそれをラップすることにより、リストにそれを作ったlist(...)：ちょうどこのようなlist(df.loc[pandas.isna(df["b"]), :].index)

— ダニエル・バトラー

10

そして、念のために、代わりにすべての列の 'nan'の座標を検索したい場合は（それらがすべて数値であると仮定して）、ここに移動します。

df = pd.DataFrame([[0,1,3,4,np.nan,2],[3,5,6,np.nan,3,3]])

df
   0  1  2    3    4  5
0  0  1  3  4.0  NaN  2
1  3  5  6  NaN  3.0  3

np.where(np.asanyarray(np.isnan(df)))
(array([0, 1]), array([4, 3]))

— フィリッポマッツァ
ソース

9

これが遅すぎるかどうかはわかりませんが、np.whereを使用して、非値のインデックスを見つけることができます。

indices = list(np.where(df['b'].isna()[0]))

— Naturesenshi
ソース

4

いくつかのメソッドのテストは次のとおりです。

%timeit np.where(np.isnan(df['b']))[0]
%timeit pd.isnull(df['b']).nonzero()[0]
%timeit np.where(df['b'].isna())[0]
%timeit df.loc[pd.isna(df['b']), :].index

そしてそれらに対応するタイミング：

333 µs ± 9.95 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
280 µs ± 220 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
313 µs ± 128 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
6.84 ms ± 1.59 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

pd.isnull(df['DRGWeight']).nonzero()[0]タイミングの点では勝つように見えますが、上位3つの方法はどれも同等のパフォーマンスを持っています。

— アダム・エリクソン
ソース

3

日時インデックスがあり、次の値が必要な場合：

df.loc[pd.isnull(df).any(1), :].index.values

— アミールフム
ソース

2

別の簡単な解決策は list(np.where(df['b'].isnull())[0])

— カーティケヤン
ソース

1

次に、もう1つの簡単なテイクを示します。

df = pd.DataFrame([[0,1,3,4,np.nan,2],[3,5,6,np.nan,3,3]])

inds = np.asarray(df.isnull()).nonzero()

(array([0, 1], dtype=int64), array([4, 3], dtype=int64))

— ノンヤ蜜蝋
ソース

1

NaN値を持つ行のすべてのインデックスを探していました。
私の作業ソリューション：

def get_nan_indexes(data_frame):
    indexes = []
    print(data_frame)
    for column in data_frame:
        index = data_frame[column].index[data_frame[column].apply(np.isnan)]
        if len(index):
            indexes.append(index[0])
    df_index = data_frame.index.values.tolist()
    return [df_index.index(i) for i in set(indexes)]

— 殺人者10
ソース

0

データフレームにdfという名前を付け、対象の列（つまり、nullを検索しようとしている列）を'b'とします。次に、次のスニペットは、データフレーム内のnullの目的のインデックスを提供します。

   for i in range(df.shape[0]):
       if df['b'].isnull().iloc[i]:
           print(i)

— ストーンオースティン
ソース