リストのリストをPandas Dataframeに変換します

30

私は次のようなリストのリストをPandas Dataframeに変換しようとしています

[['New York Yankees ', '"Acevedo Juan"  ', 900000, ' Pitcher\n'], 
['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], 
['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], 
['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']]

基本的に、配列内の各アイテムを4列のパンダデータフレームに変換しようとしています。pd.Dataframeは私が探しているものをまったく提供していないので、これに対する最善のアプローチは何でしょうか。

pandas

— アラビンド・ヴェルチャミー
ソース

スタックオーバーフローでこの質問を参照してください：stackoverflow.com/questions

— /.../…

36

import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'], 
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

df = pd.DataFrame.from_records(data)

— エムレ
ソース

4

DataFrame.from_records（data、columns = ['Team'、 'Player'、 'whatever-stat-is-that'、 'position']）

— Juan Ignacio Gil

1

インポートをより具体的に指定する方法はありますか？たとえばDataFrame["Team"]、各サブリストの最初の項目を参照する必要がある（つまりdata[i][0]）、およびDataFrame["Position"]各サブリストの最後の項目を参照する（つまりdata[i][-1]）ことを指定しますか？

— Ivo

@Ivo：使用columnsのパラメータDataFrame.from_records。

— エムレ

14

データを取得したら：

import pandas as pd

data = [['New York Yankees ', '"Acevedo Juan"  ', 900000, ' Pitcher\n'], 
        ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], 
        ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], 
        ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']]

データの転置からデータフレームを作成できます。

data_transposed = zip(data)
df = pd.DataFrame(data_transposed, columns=["Team", "Player", "Salary", "Role"])

別の方法：

df = pd.DataFrame(data)
df = df.transpose()
df.columns = ["Team", "Player", "Salary", "Role"]

— パロママンザノ
ソース

5

次のように、データフレームとして直接定義できます。

import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'], 
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

data = pd.DataFrame(data)

— LUSAQX
ソース

1

import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'],
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

df = pd.DataFrame(data)

— tharun___データ愛好家
ソース

0

これは断然最もシンプルなものでした：

import pandas as pd

data = [['New York Yankees', 'Acevedo Juan', 900000, 'Pitcher'], 
        ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
        ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
        ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

data = pd.DataFrame(data)

現在、キーがリストのリストの最初のリスト（data [0]）である場合、次のようにキーをデータフレームの列ヘッダーに割り当てることができます。

import pandas as pd

data = [['key1', 'key2', key3, 'key4'], 
    ['New York Yankees', 'Anderson Jason', 300000, 'Pitcher'], 
    ['New York Yankees', 'Clemens Roger', 10100000, 'Pitcher'], 
    ['New York Yankees', 'Contreras Jose', 5500000, 'Pitcher']]

data = pd.DataFrame(data[1:], columns=data[0])

— GManAsg
ソース