回答:
ブールシリーズを反転するには、次を使用します~s
。
In [7]: s = pd.Series([True, True, False, True])
In [8]: ~s
Out[8]:
0 False
1 False
2 True
3 False
dtype: bool
Python2.7、NumPy 1.8.0、Pandas 0.13.1を使用:
In [119]: s = pd.Series([True, True, False, True]*10000)
In [10]: %timeit np.invert(s)
10000 loops, best of 3: 91.8 µs per loop
In [11]: %timeit ~s
10000 loops, best of 3: 73.5 µs per loop
In [12]: %timeit (-s)
10000 loops, best of 3: 73.5 µs per loop
Pandas 0.13.0以降、Seriesはのサブクラスではなくなりましたnumpy.ndarray
。それらはのサブクラスになりましたpd.NDFrame
。これはnp.invert(s)
、~s
やほど速くない理由と関係があるかもしれません-s
。
警告:timeit
結果は、ハードウェア、コンパイラ、OS、Python、NumPy、Pandasのバージョンなど、多くの要因によって異なる場合があります。
-
ですか?
tilde
、それがドキュメントに記載されたように、それは同じように実行されませんでしたnp.invert
:S
np.invert(s)
、~s
と-s
すべて同じです。
np.bitwise_not(s)
でも同じですが、NumPy 1.7.0 ...(を使用するとnp.inverse
)と同じように動作します。
@unutbuの答えはその場にあり、マスクを「オブジェクト」ではなくdtype boolにする必要があるという警告を追加したかっただけです。つまり、あなたのマスクはしていないことができ、これまで任意のナンの持っていました。ここを参照してください -マスクがナンフリーになっても、「オブジェクト」タイプのままになります。
「オブジェクト」シリーズの逆はエラーをスローしませんが、期待どおりに機能しない整数のガベージマスクを取得します。
In[1]: df = pd.DataFrame({'A':[True, False, np.nan], 'B':[True, False, True]})
In[2]: df.dropna(inplace=True)
In[3]: df['A']
Out[3]:
0 True
1 False
Name: A, dtype object
In[4]: ~df['A']
Out[4]:
0 -2
0 -1
Name: A, dtype object
これについて同僚と話した後、私は説明をします:パンダがビット演算子に戻っているようです:
In [1]: ~True
Out[1]: -2
@geherが言うように、〜で反転する前に、それをastypeでブールに変換できます
~df['A'].astype(bool)
0 False
1 True
Name: A, dtype: bool
(~df['A']).astype(bool)
0 True
1 True
Name: A, dtype: bool
.astype(bool)
例えば~df['A'].astype(bool)
astype(bool)
前に起こっているため、これは機能しています~
~df['A'].astype(bool)
(~df['A']).astype(bool)
あなたも使うことができますnumpy.invert
:
In [1]: import numpy as np
In [2]: import pandas as pd
In [3]: s = pd.Series([True, True, False, True])
In [4]: np.invert(s)
Out[4]:
0 False
1 False
2 True
3 False
編集:パフォーマンスの違いはUbuntu 12.04、Python 2.7、NumPy 1.7.0で表示されますが、NumPy 1.6.2を使用しても存在しないようです。
In [5]: %timeit (-s)
10000 loops, best of 3: 26.8 us per loop
In [6]: %timeit np.invert(s)
100000 loops, best of 3: 7.85 us per loop
In [7]: %timeit ~s
10000 loops, best of 3: 27.3 us per loop
object
、仕事に以下の回答の型を使用ので:~ df.astype('bool')