pandasデータフレームをプリティプリントする

113

次のように、パンダのデータフレームをテキストベースのテーブルとして印刷するにはどうすればよいですか？

+------------+---------+-------------+
| column_one | col_two |   column_3  |
+------------+---------+-------------+
|          0 |  0.0001 | ABCD        |
|          1 |  1e-005 | ABCD        |
|          2 |  1e-006 | long string |
|          3 |  1e-007 | ABCD        |
+------------+---------+-------------+

— Ofer
ソース

180

そのニーズに最適なツールを見つけました。これはtabulateと呼ばれています。

表形式のデータを出力し、で動作しDataFrameます。

from tabulate import tabulate
import pandas as pd

df = pd.DataFrame({'col_two' : [0.0001, 1e-005 , 1e-006, 1e-007],
                   'column_3' : ['ABCD', 'ABCD', 'long string', 'ABCD']})
print(tabulate(df, headers='keys', tablefmt='psql'))

+----+-----------+-------------+
|    |   col_two | column_3    |
|----+-----------+-------------|
|  0 |    0.0001 | ABCD        |
|  1 |    1e-05  | ABCD        |
|  2 |    1e-06  | long string |
|  3 |    1e-07  | ABCD        |
+----+-----------+-------------+

注意：

すべてのタイプのデータの行インデックスを抑制するには、showindex="never"またはを渡しshowindex=Falseます。

— ロマン
ソース

5

最先端にアクセスできない場合tabulate([list(row) for row in df.values], headers=list(df.columns))は、インデックス

— Pedro M Duarte '25

1

行インデックスと列に階層がある場合、うまく機能しません。

— Siddharth 2017年

print(tabulate(df, **kwargs))単純にではなくtabulate(df, **kwargs)、必ず実行してください。後者はすべての新しい行を表示し\nます....

— Dror

6

左のインデックス列を非表示にするには、追加することもできますshowindex=False

— Arthur

23

簡単な方法は、パンダがそのまま使用するhtmlとして出力することです。

df.to_html('temp.html')

— エリヒシュチュルツ
ソース

17

パンダ> = 1.0

組み込み関数がデータをgithubマークダウンにダンプするようにしたい場合は、これを使用します。見てto_markdownください：

df = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]}, index=['a', 'a', 'b'])  
print(df.to_markdown()) 

|    |   A |   B |
|:---|----:|----:|
| a  |   1 |   1 |
| a  |   2 |   2 |
| b  |   3 |   3 |

githubでの表示は次のとおりです。

tabulateパッケージをインストールする必要があることに注意してください。

— cs95
ソース

16

Jupyter Notebookを使用している場合は、次のコードを実行して、データフレームを適切にフォーマットされたテーブルにインタラクティブに表示できます。

この回答は上記のto_html（ 'temp.html'）回答に基づいていますが、ファイルを作成する代わりに、適切にフォーマットされたテーブルをノートブックに直接表示します。

from IPython.display import display, HTML

display(HTML(df.to_html()))

例でのこのコードのクレジット：iPython NotebookのテーブルとしてDataFrameを表示

— マーク・アンデルセン
ソース

15

prettytableを使用して、テーブルをテキストとしてレンダリングできます。コツは、data_frameをメモリ内のcsvファイルに変換し、prettytableに読み取らせることです。これがコードです：

from StringIO import StringIO
import prettytable    

output = StringIO()
data_frame.to_csv(output)
output.seek(0)
pt = prettytable.from_csv(output)
print pt

— Ofer
ソース

これはどのバージョンのパンダですか？

— WAF、2015年

4

私の知る限り、prettytable主に放棄されたと考えられています。パッケージも良かったので残念。:(

— dmn

@dmnなので、もうメンテナンスされませんか？

— ミュオン2017

prettytable4月6日、2013年以来のリリースを受けていないtabulateその精神的な前身で、定期的なリリースを持って、1月24日、2019年の最新ビーイング

— noddyで

7

私はしばらくの間Oferの回答を使用しましたが、ほとんどの場合それが素晴らしいとわかりました。残念ながら、pandasのto_csvとprettytable のfrom_csvの間に矛盾があるため、別の方法でprettytableを使用する必要がありました。

1つの失敗例は、コンマを含むデータフレームです。

pd.DataFrame({'A': [1, 2], 'B': ['a,', 'b']})

Prettytableは次の形式のエラーを発生させます。

Error: Could not determine delimiter

次の関数がこのケースを処理します。

def format_for_print(df):    
    table = PrettyTable([''] + list(df.columns))
    for row in df.itertuples():
        table.add_row(row)
    return str(table)

インデックスを気にしない場合は、次を使用します。

def format_for_print2(df):    
    table = PrettyTable(list(df.columns))
    for row in df.itertuples():
        table.add_row(row[1:])
    return str(table)

— ejrb
ソース

こんにちは、format_for_print()関数はPandas DataFrameのインデックスを印刷していないようです。を使用してインデックスを設定しましたdf.index.name = 'index'が、これはインデックス列に名前を付けて印刷しません。

— edesz 2015年

2

Markの回答に続き、なんらかの理由でJupyterを使用していない場合（たとえば、コンソールで簡単なテストを行いたい場合）、DataFrame.to_string少なくともPandas 0.12（2014）以降で機能する方法を使用できます。。

import pandas as pd

matrix = [(1, 23, 45), (789, 1, 23), (45, 678, 90)]
df = pd.DataFrame(matrix, columns=list('abc'))
print(df.to_string())

#  outputs:
#       a    b   c
#  0    1   23  45
#  1  789    1  23
#  2   45  678  90

— シギント
ソース

0

多分あなたはこのようなものを探しています：

def tableize(df):
    if not isinstance(df, pd.DataFrame):
        return
    df_columns = df.columns.tolist() 
    max_len_in_lst = lambda lst: len(sorted(lst, reverse=True, key=len)[0])
    align_center = lambda st, sz: "{0}{1}{0}".format(" "*(1+(sz-len(st))//2), st)[:sz] if len(st) < sz else st
    align_right = lambda st, sz: "{0}{1} ".format(" "*(sz-len(st)-1), st) if len(st) < sz else st
    max_col_len = max_len_in_lst(df_columns)
    max_val_len_for_col = dict([(col, max_len_in_lst(df.iloc[:,idx].astype('str'))) for idx, col in enumerate(df_columns)])
    col_sizes = dict([(col, 2 + max(max_val_len_for_col.get(col, 0), max_col_len)) for col in df_columns])
    build_hline = lambda row: '+'.join(['-' * col_sizes[col] for col in row]).join(['+', '+'])
    build_data = lambda row, align: "|".join([align(str(val), col_sizes[df_columns[idx]]) for idx, val in enumerate(row)]).join(['|', '|'])
    hline = build_hline(df_columns)
    out = [hline, build_data(df_columns, align_center), hline]
    for _, row in df.iterrows():
        out.append(build_data(row.tolist(), align_right))
    out.append(hline)
    return "\n".join(out)


df = pd.DataFrame([[1, 2, 3], [11111, 22, 333]], columns=['a', 'b', 'c'])
print tableize(df)

出力：
+ ------- + ---- + ----- +
| a | b | c |
+ ------- + ---- + ----- +
| 1 | 2 | 3 |
| 11111 | 22 | 333 |
+ ------- + ---- + ----- +

— パフコーン
ソース

-5

データフレームを紙に印刷したかったのですが、同じページに結果やコメントも追加したかったのです。私は上記を試してみましたが、望んだものが手に入りませんでした。私は結局、file.write（df1.to_csv（））およびfile.write（ ",,, blah ,,,,,, blah"）ステートメントを使用して、ページに追加情報を取得しました。私がcsvファイルを開いたとき、それは正しいスプレッドシートとフォーマットですべてを印刷したスプレッドシートに直接行きました。

— ジョン
ソース