PandasDataFrameで無効な値をNoneに置き換えます

Question 1

NonePythonのPandasで値を置き換える方法はありますか？

df.replace('pre', 'post')値を使用して別の値に置き換えることはできますが、値に置き換えたい場合はこれを行うことができずNone、試してみると奇妙な結果が得られます。

だからここに例があります：

df = DataFrame(['-',3,2,5,1,-5,-1,'-',9])
df.replace('-', 0)

これは成功した結果を返します。

だが、

df.replace('-', None)

これは次の結果を返します：

0
0   - // this isn't replaced
1   3
2   2
3   5
4   1
5  -5
6  -1
7  -1 // this is changed to `-1`...
8   9

なぜそのような奇妙な結果が返されるのですか？

このデータフレームをMySQLデータベースに注ぎたいのでNaN、データフレームのどの要素にも値を入れることができず、代わりに入れたいと思いNoneます。確かに、あなたは最初に変更することができます'-'しNaN、その後の変換NaNにNone、私はデータフレームは、このようなひどいやり方で動作する理由を知りたいです。

Python2.7およびOSX10.8のパンダ0.12.0devでテスト済み。PythonはOSXにプリインストールされているバージョンであり、参考までに、SciPySuperpackスクリプトを使用してパンダをインストールしました。

Question 2

実際、パンダの新しいバージョンでは、これによりTypeErrorが発生します。

df.replace('-', None)
TypeError: If "to_replace" and "value" are both None then regex must be a mapping

あなたはリストか辞書のどちらかを渡すことによってそれをすることができます：

In [11]: df.replace('-', df.replace(['-'], [None]) # or .replace('-', {0: None})
Out[11]:
      0
0  None
1     3
2     2
3     5
4     1
5    -5
6    -1
7  None
8     9

ただし、NoneではなくNaNを使用することをお勧めします。

In [12]: df.replace('-', np.nan)
Out[12]:
     0
0  NaN
1    3
2    2
3    5
4    1
5   -5
6   -1
7  NaN
8    9

Question 3

私が使用したソリューションを好むreplaceとdictそのシンプルさと優雅さのために：

df.replace({'-': None})

さらに多くの代替品を用意することもできます。

df.replace({'-': None, 'None': None})

そして、より大きな置換の場合でも、何が何に置き換えられるかは常に明白で明確です-これは、私の意見では、長いリストでははるかに困難です。

Question 4

whereおそらくあなたが探しているものです。そう

data=data.where(data=='-', None)

パンダのドキュメントから：

where [戻り値] selfと同じ形状のオブジェクトで、対応するエントリはselfからのものであり、condはTrueであり、それ以外の場合はotherからのものです。

Question 5

この投稿に進む前に、NaNとNoneの違いを理解することが重要です。1つはフロート型で、もう1つはオブジェクト型です。Pandasは、スカラータイプの多くのメソッドをベクトル化できるため、スカラータイプの操作に適しています。PandasはNoneとNaNを一貫して処理しようとしますが、NumPyはできません。

私の提案（およびAndyの提案）は、NaNに固執することです。

しかし、あなたの質問に答えるために...

pandas> = 0.18：`na_values=['-']`引数を使用する`read_csv`

このデータをCSV / Excelから読み込んだ場合は、朗報です。後続のステップとしてコードを使用して修正を記述する代わりに、データのロード中にルートでこれを破棄できます。

ほとんどpd.read_*の機能（などread_csvとread_excel）受け入れna_values属性を。

file.csv

A,B
-,1
3,-
2,-
5,3
1,-2
-5,4
-1,-1
-,0
9,0

ここで、-文字をNaNに変換するには、次のようにします。

import pandas as pd
df = pd.read_csv('file.csv', na_values=['-'])
df

     A    B
0  NaN  1.0
1  3.0  NaN
2  2.0  NaN
3  5.0  3.0
4  1.0 -2.0
5 -5.0  4.0
6 -1.0 -1.0
7  NaN  0.0
8  9.0  0.0

そして、他の関数/ファイル形式についても同様です。

PS：v0.24 +では、列にNaNが含まれている場合でも、整数型を保持できます（はい、ケーキを持って食べることについても話します）。指定できますdtype='Int32'

df = pd.read_csv('file.csv', na_values=['-'], dtype='Int32')
df

     A    B
0  NaN    1
1    3  NaN
2    2  NaN
3    5    3
4    1   -2
5   -5    4
6   -1   -1
7  NaN    0
8    9    0

df.dtypes

A    Int32
B    Int32
dtype: object

dtypeは従来のint型ではなく、Nullable整数型です。他のオプションがあります。

数値データの処理：`pd.to_numeric`with`errors='coerce`

数値データを扱っている場合、より高速な解決策はpd.to_numeric、errors='coerce'引数を使用することです。これにより、無効な値（数値にキャストできない値）がNaNに強制変換されます。

pd.to_numeric(df['A'], errors='coerce')

0    NaN
1    3.0
2    2.0
3    5.0
4    1.0
5   -5.0
6   -1.0
7    NaN
8    9.0
Name: A, dtype: float64

（null許容）整数dtypeを保持するには、

pd.to_numeric(df['A'], errors='coerce').astype('Int32')

0    NaN
1      3
2      2
3      5
4      1
5     -5
6     -1
7    NaN
8      9
Name: A, dtype: Int32

複数の列を強制変換するには、次を使用しますapply。

df[['A', 'B']].apply(pd.to_numeric, errors='coerce').astype('Int32')

     A    B
0  NaN    1
1    3  NaN
2    2  NaN
3    5    3
4    1   -2
5   -5    4
6   -1   -1
7  NaN    0
8    9    0

...そして結果を後で割り当てます。

詳細については、この回答をご覧ください。

Question 6

df = pd.DataFrame(['-',3,2,5,1,-5,-1,'-',9])
df = df.where(df!='-', None)

Question 7

null値の設定は、次の方法で実行できますnp.nan。

import numpy as np
df.replace('-', np.nan)

利点は、df.last_valid_index()これらが無効として認識されることです。

Question 8

replaceを使用して、新しいdfを割り当てます。

import pandas as pd
df = pd.DataFrame(['-',3,2,5,1,-5,-1,'-',9])
dfnew = df.replace('-', 0)
print(dfnew)


(venv) D:\assets>py teste2.py
   0
0  0
1  3
2  2
3  5
4  1
5 -5

Question 9

df.replace('-', np.nan).astype("object")

これisnull()により、後でデータフレームで使用できるようになります

Question 10

Pandasバージョン≥1.0.0では、DataFrame.replaceまたはSeries.replace：を使用します。

df.replace(old_val, pd.NA, inplace=True)

これは2つの理由でより良いです：

またはのpd.NA代わりに使用します。Nonenp.nan
これは、メモリ効率を高める可能性のあるインプレースの値を置き換えます。

PandasDataFrameで無効な値をNoneに置き換えます

pandas> = 0.18：na_values=['-']引数を使用するread_csv

数値データの処理：pd.to_numericwitherrors='coerce

pandas> = 0.18：`na_values=['-']`引数を使用する`read_csv`

数値データの処理：`pd.to_numeric`with`errors='coerce`