NumPy配列に列を追加する方法


292

NumPy配列があるとしましょうa

a = np.array([
    [1, 2, 3],
    [2, 3, 4]
    ])

そして、配列を取得するためにゼロの列を追加したいと思いますb

b = np.array([
    [1, 2, 3, 0],
    [2, 3, 4, 0]
    ])

NumPyでこれを簡単に行うにはどうすればよいですか?

回答:


181

より簡単で、起動が速いソリューションは、次のようにすることです。

import numpy as np
N = 10
a = np.random.rand(N,N)
b = np.zeros((N,N+1))
b[:,:-1] = a

そしてタイミング:

In [23]: N = 10

In [24]: a = np.random.rand(N,N)

In [25]: %timeit b = np.hstack((a,np.zeros((a.shape[0],1))))
10000 loops, best of 3: 19.6 us per loop

In [27]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 5.62 us per loop

16
(985,1)shape np araayを(985,2)np配列に追加して(985,3)np配列にしたいのですが、機能しません。「入力配列を形状(985)から形状(985,1)にブロードキャストできませんでした」というエラーが発生します。私のコードの何が問題になっていますか?コード:np.hstack(data、data1)
Outlier

5
@外れ値は、この質問のコメントで質問するのではなく、新しい質問を投稿する必要があります。
JoshAdel 2014

4
@JoshAdel:ipythonでコードを試しましたが、構文エラーがあると思います。次のように変更a = np.random.rand((N,N))してみてくださいa = np.random.rand(N,N)
hlin117 2015

これは、OPが要求したものに対してはやり過ぎだと思います。Opの答えは適切です!
lft93ryt 2017

これは、追加、挿入、またはスタックを実行する際のトリックです。答えとして受け入れるべきではありません。エンジニアは以下の回答の使用を検討する必要があります。
cinqS 2018

326

np.r_[ ... ]そしてnp.c_[ ... ] 有用に代替されているvstackhstack、角括弧と、[]の代わりにラウンド()。
いくつかの例:

: import numpy as np
: N = 3
: A = np.eye(N)

: np.c_[ A, np.ones(N) ]              # add a column
array([[ 1.,  0.,  0.,  1.],
       [ 0.,  1.,  0.,  1.],
       [ 0.,  0.,  1.,  1.]])

: np.c_[ np.ones(N), A, np.ones(N) ]  # or two
array([[ 1.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  1.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  1.]])

: np.r_[ A, [A[1]] ]              # add a row
array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 0.,  1.,  0.]])
: # not np.r_[ A, A[1] ]

: np.r_[ A[0], 1, 2, 3, A[1] ]    # mix vecs and scalars
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], [1, 2, 3], A[1] ]  # lists
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], (1, 2, 3), A[1] ]  # tuples
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

: np.r_[ A[0], 1:4, A[1] ]        # same, 1:4 == arange(1,4) == 1,2,3
  array([ 1.,  0.,  0.,  1.,  2.,  3.,  0.,  1.,  0.])

(ラウンド()の代わりに角括弧[]を使用する理由は、Pythonが例えば1:4の四角形に展開されるためです-オーバーロードの驚異です。)


7
これだけの情報を探していた、そしてそれだけではなく他の回答のように最後に、最初と最後に余分な列を追加するカバーしているため決定的に、これは、受け入れられたものよりも良い答えです
AY0

2
@ Ay0正確に、バイアスユニットを人工ニューロンネットワークに一度にすべてのレイヤーで一括して追加する方法を探していましたが、これは完璧な答えです。
16

そして、一度にn列を追加したい場合はどうでしょうか?
ライリー

1
@ライリー、例を挙げていただけますか?Python 3には「反復可能な解凍」がありnp.c_[ * iterable ]ます。expression-listsを参照してください。
denis

@denis、それはまさに私が探していたものです!
ライリー

148

使用numpy.append

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])

>>> z = np.zeros((2,1), dtype=int64)
>>> z
array([[0],
       [0]])

>>> np.append(a, z, axis=1)
array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

3
これは、より複雑な列を挿入するときに便利です。
トーマスアーレ2014年

6
これは@JoshAdelの答えよりも簡単ですが、大きなデータセットを扱う場合は遅くなります。読みやすさの重要性に応じて、どちらかを選びます。
dvj 2015

3
append実際に電話するだけconcatenate
rll

53

hstackを使用する1つの方法は次のとおりです。

b = np.hstack((a, np.zeros((a.shape[0], 1), dtype=a.dtype)))

2
これが最もエレガントなソリューションだと思います。
silvado

2
+1-これが私のやり方です-あなたは私を倒して答えとして投稿します:)
ブレア首相、

3
dtypeパラメータを削除します。これは不要であり、許可されていません。ソリューションは十分に洗練されていますが、配列に頻繁に「追加」する必要がある場合は、使用しないように注意してください。配列全体を一度に作成して後で埋めることができない場合は、配列のリストhstackとすべてを一度に作成します。
eumiro 2011

1
@eumiroどうやってdtypeを間違った場所に取得できたのかわかりませんが、np.zerosはすべてがフロートにならないようにするためにdtypeが必要です(aがintのとき)
Peter Smit

42

以下が最もエレガントだと思います:

b = np.insert(a, 3, values=0, axis=1) # Insert values before column 3

利点はinsert、配列内の他の場所に列(または行)を挿入できることです。また、単一の値を挿入する代わりに、ベクトル全体を簡単に挿入できます。たとえば、最後の列を複製します。

b = np.insert(a, insert_index, values=a[:,2], axis=1)

につながる:

array([[1, 2, 3, 3],
       [2, 3, 4, 4]])

タイミングについてはinsert、JoshAdelのソリューションよりも遅くなる可能性があります。

In [1]: N = 10

In [2]: a = np.random.rand(N,N)

In [3]: %timeit b = np.hstack((a, np.zeros((a.shape[0], 1))))
100000 loops, best of 3: 7.5 µs per loop

In [4]: %timeit b = np.zeros((a.shape[0], a.shape[1]+1)); b[:,:-1] = a
100000 loops, best of 3: 2.17 µs per loop

In [5]: %timeit b = np.insert(a, 3, values=0, axis=1)
100000 loops, best of 3: 10.2 µs per loop

1
これはかなりきれいです。残念insert(a, -1, ...)ながら、列を追加することはできません。代わりに前に追加します。
トーマスアーレ2014年

2
@ThomasAhleを使用してその軸のサイズを取得することにより、行または列を追加できますa.shape[axis]。I. e。行を追加する場合は、列を追加しnp.insert(a, a.shape[0], 999, axis=0)ますnp.insert(a, a.shape[1], 999, axis=1)
blubberdiblub 2017

35

私もこの質問に興味があり、速度を比較しました

numpy.c_[a, a]
numpy.stack([a, a]).T
numpy.vstack([a, a]).T
numpy.ascontiguousarray(numpy.stack([a, a]).T)               
numpy.ascontiguousarray(numpy.vstack([a, a]).T)
numpy.column_stack([a, a])
numpy.concatenate([a[:,None], a[:,None]], axis=1)
numpy.concatenate([a[None], a[None]], axis=0).T

これらはすべて、任意の入力ベクトルに対して同じことを行いますa。成長のタイミングa

ここに画像の説明を入力してください

すべての非連続バリアント(特にstack/ vstack)は、すべての連続バリアントよりも最終的に高速であることに注意してください 。column_stack(明快さとスピードのために)隣接性が必要な場合は、良いオプションのようです。


プロットを再現するコード:

import numpy
import perfplot

perfplot.save(
    "out.png",
    setup=lambda n: numpy.random.rand(n),
    kernels=[
        lambda a: numpy.c_[a, a],
        lambda a: numpy.ascontiguousarray(numpy.stack([a, a]).T),
        lambda a: numpy.ascontiguousarray(numpy.vstack([a, a]).T),
        lambda a: numpy.column_stack([a, a]),
        lambda a: numpy.concatenate([a[:, None], a[:, None]], axis=1),
        lambda a: numpy.ascontiguousarray(
            numpy.concatenate([a[None], a[None]], axis=0).T
        ),
        lambda a: numpy.stack([a, a]).T,
        lambda a: numpy.vstack([a, a]).T,
        lambda a: numpy.concatenate([a[None], a[None]], axis=0).T,
    ],
    labels=[
        "c_",
        "ascont(stack)",
        "ascont(vstack)",
        "column_stack",
        "concat",
        "ascont(concat)",
        "stack (non-cont)",
        "vstack (non-cont)",
        "concat (non-cont)",
    ],
    n_range=[2 ** k for k in range(20)],
    xlabel="len(a)",
    logx=True,
    logy=True,
)

1
いいグラフ!ただ、あなたはボンネットの下にそれを知りたいと思った、stackhstackvstackcolumn_stackdstackの上に構築されたすべてのヘルパー関数ですnp.concatenateスタック定義をたどると、それnp.stack([a,a])がを呼び出してnp.concatenate([a[None], a[None]], axis=0)いることがわかりました。np.concatenate([a[None], a[None]], axis=0).Tperfplot に追加して、np.concatenate常に少なくともヘルパー関数と同じ速さで実行できることを示すとよいでしょう。
unutbu 2017

@unutbu追加しました。
NicoSchlömer2017

素敵なライブラリ、聞いたことがない!興味深いことに、スタックと連結が(ascontとnon-contバリアントの両方で)配置が変更されていることを除いて、同じプロットを取得しました。さらに、concat-columnとcolumn_stackも交換されました。
アントニーハッチキンス2017

1
うわー、これらのプロットが大好きです!
jhegedus

配列に列を追加する再帰的な操作(b = [b、a]など)では、一部のコマンドが機能しないようです(次元が異なるというエラーが発生します)。不均等なサイズの配列で動作するように見える2つだけ(すなわち、1つの行列であり、もう一つは1Dベクトルである場合)でありc_そしてcolumn_stack
交絡


12

np.concatenateも機能します

>>> a = np.array([[1,2,3],[2,3,4]])
>>> a
array([[1, 2, 3],
       [2, 3, 4]])
>>> z = np.zeros((2,1))
>>> z
array([[ 0.],
       [ 0.]])
>>> np.concatenate((a, z), axis=1)
array([[ 1.,  2.,  3.,  0.],
       [ 2.,  3.,  4.,  0.]])

np.concatenatenp.hstack2x1、2x2、2x3マトリックスの3倍高速であるようです。np.concatenate私の実験では、マトリックスを空のマトリックスに手動でコピーするよりもわずかに高速でした。これは、以下のニコ・シュロマーの答えと一致しています。
Lenar Hoyt

11

Mが(100,3)ndarrayでyあり、(100、)ndarrayであると仮定すると、append次のように使用できます。

M=numpy.append(M,y[:,None],1)

トリックは使用することです

y[:, None]

これyは(100、1)2D配列に変換されます。

M.shape

今与える

(100, 4)

あなたはそれを知っているヒーローですか?それがまさに私が過去1時間髪を引っ張っているものです!タイ!
John Doe

8

パフォーマンスに重点を置いているので、ジョシュアデルの答えが好きです。パフォーマンスのマイナーな改善は、ゼロで初期化するオーバーヘッドを回避することで、上書きされるだけです。これは、Nが大きく、ゼロの代わりに空が使用され、ゼロの列が別のステップとして書き込まれる場合、測定可能な違いがあります。

In [1]: import numpy as np

In [2]: N = 10000

In [3]: a = np.ones((N,N))

In [4]: %timeit b = np.zeros((a.shape[0],a.shape[1]+1)); b[:,:-1] = a
1 loops, best of 3: 492 ms per loop

In [5]: %timeit b = np.empty((a.shape[0],a.shape[1]+1)); b[:,:-1] = a; b[:,-1] = np.zeros((a.shape[0],))
1 loops, best of 3: 407 ms per loop

ブロードキャストを使用して、最後の列をゼロ(またはその他の値)で埋めることができますb[:,-1] = 0。また、非常に大規模な配列では、パフォーマンスの違いnp.insert()は無視できるほどnp.insert()小さくなります。これは、その簡潔さのために、より望ましいものになる可能性があります。
blubberdiblub

7

np.insert 目的も果たします。

matA = np.array([[1,2,3], 
                 [2,3,4]])
idx = 3
new_col = np.array([0, 0])
np.insert(matA, idx, new_col, axis=1)

array([[1, 2, 3, 0],
       [2, 3, 4, 0]])

ここnew_colでは、特定のインデックスの前に、ここでidxは1つの軸に沿って値を挿入します。つまり、新しく挿入された値はidx列を占有し、元々そこにあったものをidx後方に移動します。


1
insert関数の名前が与えられたと想定できるため、これは適切ではありません(回答にリンクされているドキュメントを参照してください)。
jneuendorf

5

numpy配列に列を追加します。

Numpyのnp.appendメソッドは3つのパラメーターを受け取ります。最初の2つは2Dのnumpy配列で、3つ目は追加する軸を指示する軸パラメーターです。

import numpy as np  
x = np.array([[1,2,3], [4,5,6]]) 
print("Original x:") 
print(x) 

y = np.array([[1], [1]]) 
print("Original y:") 
print(y) 

print("x appended to y on axis of 1:") 
print(np.append(x, y, axis=1)) 

プリント:

Original x:
[[1 2 3]
 [4 5 6]]
Original y:
[[1]
 [1]]
x appended to y on axis of 1:
[[1 2 3 1]
 [4 5 6 1]]

ここでは、xをyに追加するのではなく、yをxに追加していることに注意してください。これが、結果のyの列ベクトルがxの列の右側にある理由です。
ブライアンポペック

4

パーティーには少し遅れますが、まだ誰もこの回答を投稿していないため、完全を期すために、単純なPython配列でリスト内包表記を使用してこれを行うことができます。

source = a.tolist()
result = [row + [0] for row in source]
b = np.array(result)

4

私にとって、次の方法はかなり直感的でシンプルに見えます。

zeros = np.zeros((2,1)) #2 is a number of rows in your array.   
b = np.hstack((a, zeros))

3

私の場合、1の列をNumPy配列に追加する必要がありました

X = array([ 6.1101, 5.5277, ... ])
X.shape => (97,)
X = np.concatenate((np.ones((m,1), dtype=np.int), X.reshape(m,1)), axis=1)

X.shapeの後=>(97、2)

array([[ 1. , 6.1101],
       [ 1. , 5.5277],
...

1

これ専用の機能があります。numpy.padと呼ばれます

a = np.array([[1,2,3], [2,3,4]])
b = np.pad(a, ((0, 0), (0, 1)), mode='constant', constant_values=0)
print b
>>> array([[1, 2, 3, 0],
           [2, 3, 4, 0]])

これがdocstringで言うことです:

Pads an array.

Parameters
----------
array : array_like of rank N
    Input array
pad_width : {sequence, array_like, int}
    Number of values padded to the edges of each axis.
    ((before_1, after_1), ... (before_N, after_N)) unique pad widths
    for each axis.
    ((before, after),) yields same before and after pad for each axis.
    (pad,) or int is a shortcut for before = after = pad width for all
    axes.
mode : str or function
    One of the following string values or a user supplied function.

    'constant'
        Pads with a constant value.
    'edge'
        Pads with the edge values of array.
    'linear_ramp'
        Pads with the linear ramp between end_value and the
        array edge value.
    'maximum'
        Pads with the maximum value of all or part of the
        vector along each axis.
    'mean'
        Pads with the mean value of all or part of the
        vector along each axis.
    'median'
        Pads with the median value of all or part of the
        vector along each axis.
    'minimum'
        Pads with the minimum value of all or part of the
        vector along each axis.
    'reflect'
        Pads with the reflection of the vector mirrored on
        the first and last values of the vector along each
        axis.
    'symmetric'
        Pads with the reflection of the vector mirrored
        along the edge of the array.
    'wrap'
        Pads with the wrap of the vector along the axis.
        The first values are used to pad the end and the
        end values are used to pad the beginning.
    <function>
        Padding function, see Notes.
stat_length : sequence or int, optional
    Used in 'maximum', 'mean', 'median', and 'minimum'.  Number of
    values at edge of each axis used to calculate the statistic value.

    ((before_1, after_1), ... (before_N, after_N)) unique statistic
    lengths for each axis.

    ((before, after),) yields same before and after statistic lengths
    for each axis.

    (stat_length,) or int is a shortcut for before = after = statistic
    length for all axes.

    Default is ``None``, to use the entire axis.
constant_values : sequence or int, optional
    Used in 'constant'.  The values to set the padded values for each
    axis.

    ((before_1, after_1), ... (before_N, after_N)) unique pad constants
    for each axis.

    ((before, after),) yields same before and after constants for each
    axis.

    (constant,) or int is a shortcut for before = after = constant for
    all axes.

    Default is 0.
end_values : sequence or int, optional
    Used in 'linear_ramp'.  The values used for the ending value of the
    linear_ramp and that will form the edge of the padded array.

    ((before_1, after_1), ... (before_N, after_N)) unique end values
    for each axis.

    ((before, after),) yields same before and after end values for each
    axis.

    (constant,) or int is a shortcut for before = after = end value for
    all axes.

    Default is 0.
reflect_type : {'even', 'odd'}, optional
    Used in 'reflect', and 'symmetric'.  The 'even' style is the
    default with an unaltered reflection around the edge value.  For
    the 'odd' style, the extented part of the array is created by
    subtracting the reflected values from two times the edge value.

Returns
-------
pad : ndarray
    Padded array of rank equal to `array` with shape increased
    according to `pad_width`.

Notes
-----
.. versionadded:: 1.7.0

For an array with rank greater than 1, some of the padding of later
axes is calculated from padding of previous axes.  This is easiest to
think about with a rank 2 array where the corners of the padded array
are calculated by using padded values from the first axis.

The padding function, if used, should return a rank 1 array equal in
length to the vector argument with padded values replaced. It has the
following signature::

    padding_func(vector, iaxis_pad_width, iaxis, kwargs)

where

    vector : ndarray
        A rank 1 array already padded with zeros.  Padded values are
        vector[:pad_tuple[0]] and vector[-pad_tuple[1]:].
    iaxis_pad_width : tuple
        A 2-tuple of ints, iaxis_pad_width[0] represents the number of
        values padded at the beginning of vector where
        iaxis_pad_width[1] represents the number of values padded at
        the end of vector.
    iaxis : int
        The axis currently being calculated.
    kwargs : dict
        Any keyword arguments the function requires.

Examples
--------
>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2,3), 'constant', constant_values=(4, 6))
array([4, 4, 1, 2, 3, 4, 5, 6, 6, 6])

>>> np.pad(a, (2, 3), 'edge')
array([1, 1, 1, 2, 3, 4, 5, 5, 5, 5])

>>> np.pad(a, (2, 3), 'linear_ramp', end_values=(5, -4))
array([ 5,  3,  1,  2,  3,  4,  5,  2, -1, -4])

>>> np.pad(a, (2,), 'maximum')
array([5, 5, 1, 2, 3, 4, 5, 5, 5])

>>> np.pad(a, (2,), 'mean')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> np.pad(a, (2,), 'median')
array([3, 3, 1, 2, 3, 4, 5, 3, 3])

>>> a = [[1, 2], [3, 4]]
>>> np.pad(a, ((3, 2), (2, 3)), 'minimum')
array([[1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1],
       [3, 3, 3, 4, 3, 3, 3],
       [1, 1, 1, 2, 1, 1, 1],
       [1, 1, 1, 2, 1, 1, 1]])

>>> a = [1, 2, 3, 4, 5]
>>> np.pad(a, (2, 3), 'reflect')
array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2])

>>> np.pad(a, (2, 3), 'reflect', reflect_type='odd')
array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8])

>>> np.pad(a, (2, 3), 'symmetric')
array([2, 1, 1, 2, 3, 4, 5, 5, 4, 3])

>>> np.pad(a, (2, 3), 'symmetric', reflect_type='odd')
array([0, 1, 1, 2, 3, 4, 5, 5, 6, 7])

>>> np.pad(a, (2, 3), 'wrap')
array([4, 5, 1, 2, 3, 4, 5, 1, 2, 3])

>>> def pad_with(vector, pad_width, iaxis, kwargs):
...     pad_value = kwargs.get('padder', 10)
...     vector[:pad_width[0]] = pad_value
...     vector[-pad_width[1]:] = pad_value
...     return vector
>>> a = np.arange(6)
>>> a = a.reshape((2, 3))
>>> np.pad(a, 2, pad_with)
array([[10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10,  0,  1,  2, 10, 10],
       [10, 10,  3,  4,  5, 10, 10],
       [10, 10, 10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10, 10, 10]])
>>> np.pad(a, 2, pad_with, padder=100)
array([[100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100,   0,   1,   2, 100, 100],
       [100, 100,   3,   4,   5, 100, 100],
       [100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100]])
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.