次のように、リストのリストまたはタプルのリストにデータがあります。
data = [[1,2,3], [4,5,6], [7,8,9]]
data = [(1,2,3), (4,5,6), (7,8,9)]
そして、サブセットの2番目の要素でソートしたいと思います。つまり、2
がfrom (1,2,3)
である2,5,8でソートすると、5
はfrom (4,5,6)
です。これを行う一般的な方法は何ですか?リストにタプルまたはリストを保存する必要がありますか?
次のように、リストのリストまたはタプルのリストにデータがあります。
data = [[1,2,3], [4,5,6], [7,8,9]]
data = [(1,2,3), (4,5,6), (7,8,9)]
そして、サブセットの2番目の要素でソートしたいと思います。つまり、2
がfrom (1,2,3)
である2,5,8でソートすると、5
はfrom (4,5,6)
です。これを行う一般的な方法は何ですか?リストにタプルまたはリストを保存する必要がありますか?
回答:
sorted_by_second = sorted(data, key=lambda tup: tup[1])
または:
data.sort(key=lambda tup: tup[1]) # sorts in place
key=itemgetter(1)
と、ファイルの先頭に:from operator import itemgetter
sort
のList
オブジェクトのメソッドを次に示しkey
ます。君はそれに名前を付けることtup
、またはt
、など何でも、それは仕事、まだよ。tup
ここではリストのタプルのインデックスを指定しているため1
、元のリストのタプルの2番目の値(2, 5, 8
)によって並べ替えが実行されます。
lambda
直感的よりも単純なことなアプローチをitemgetter
クラス、itemgetter
ん確かに速いように見えます。これがなぜなのか、私は興味があります。私の粗雑な疑いはlambda
、itemgetter
インスタンスがすべてのローカル変数をクロージャーコンテキストにキャプチャするという隠れたコストが発生するのに対し、インスタンスは発生しないということです。tl; dr:itemgetter
速度が優先されるため、常にを使用します。
from operator import itemgetter
data.sort(key=itemgetter(1))
itemgetter
ソートするクラスを示しています。lambda
data.sort(key=itemgetter(3,1))
スティーブンの答えは私が使うものです。完全を期すために、リスト内包表記を含むDSU(デコレートソートアンデコレート)パターンを以下に示します。
decorated = [(tup[1], tup) for tup in data]
decorated.sort()
undecorated = [tup for second, tup in decorated]
または、もっと簡潔に:
[b for a,b in sorted((tup[1], tup) for tup in data)]
Python Sorting HowToで述べたように、これはPython 2.4以降、主要な機能が利用可能になったときから不要です。
タプルのリストをソートするために(<word>, <count>)
のために、count
降順にしてword
アルファベット順に:
data = [
('betty', 1),
('bought', 1),
('a', 1),
('bit', 1),
('of', 1),
('butter', 2),
('but', 1),
('the', 1),
('was', 1),
('bitter', 1)]
私はこの方法を使用します:
sorted(data, key=lambda tup:(-tup[1], tup[0]))
そしてそれは私に結果を与えます:
[('butter', 2),
('a', 1),
('betty', 1),
('bit', 1),
('bitter', 1),
('bought', 1),
('but', 1),
('of', 1),
('the', 1),
('was', 1)]
itemgetter()
はやや高速ですlambda tup: tup[1]
が、増加は比較的控えめです(約10〜25%)。
(IPythonセッション)
>>> from operator import itemgetter
>>> from numpy.random import randint
>>> values = randint(0, 9, 30000).reshape((10000,3))
>>> tpls = [tuple(values[i,:]) for i in range(len(values))]
>>> tpls[:5] # display sample from list
[(1, 0, 0),
(8, 5, 5),
(5, 4, 0),
(5, 7, 7),
(4, 2, 1)]
>>> sorted(tpls[:5], key=itemgetter(1)) # example sort
[(1, 0, 0),
(4, 2, 1),
(5, 4, 0),
(8, 5, 5),
(5, 7, 7)]
>>> %timeit sorted(tpls, key=itemgetter(1))
100 loops, best of 3: 4.89 ms per loop
>>> %timeit sorted(tpls, key=lambda tup: tup[1])
100 loops, best of 3: 6.39 ms per loop
>>> %timeit sorted(tpls, key=(itemgetter(1,0)))
100 loops, best of 3: 16.1 ms per loop
>>> %timeit sorted(tpls, key=lambda tup: (tup[1], tup[0]))
100 loops, best of 3: 17.1 ms per loop
@Stephenの答えは要点です!これはより良い視覚化の例です、
Ready Player Oneファンに向けて大声で叫びましょう!=)
>>> gunters = [('2044-04-05', 'parzival'), ('2044-04-07', 'aech'), ('2044-04-06', 'art3mis')]
>>> gunters.sort(key=lambda tup: tup[0])
>>> print gunters
[('2044-04-05', 'parzival'), ('2044-04-06', 'art3mis'), ('2044-04-07', 'aech')]
key
比較のためにコレクションの項目を変換するために呼び出される関数ですcompareTo
。Javaのようなメソッドです。
keyに渡されるパラメーターは、呼び出し可能なものでなければなりません。ここでは、を使用するとlambda
、匿名関数(呼び出し可能)が作成されます。
ラムダの構文は、ラムダという単語の後に反復可能な名前が続き、その後にコードの単一のブロックが続きます。
以下の例では、特定のイベントの情報と俳優名を保持するタプルのリストをソートしています。
このリストは、イベントの発生時間(タプルの0番目の要素)でソートしています。
注- s.sort([cmp[, key[, reverse]]])
のアイテムを並べ替えます