辞書の辞書をマージする方法は?


129

複数の辞書をマージする必要があります。たとえば、次のようなものがあります。

dict1 = {1:{"a":{A}}, 2:{"b":{B}}}

dict2 = {2:{"c":{C}}, 3:{"d":{D}}

A B CD同様、樹木の葉もの{"info1":"value", "info2":"value2"}

辞書のレベル(深さ)が不明です。 {2:{"c":{"z":{"y":{C}}}}}

私の場合、それはノードがドキュメントであり、葉がファイルであるディレクトリ/ファイル構造を表します。

それらをマージして取得したい:

 dict3 = {1:{"a":{A}}, 2:{"b":{B},"c":{C}}, 3:{"d":{D}}}

Pythonでそれを簡単に行う方法がわかりません。


辞書の任意の深さに何が欲しいですか?レベルyまで平坦化したいcですか、それとも何ですか?あなたの例は不完全です。
agf 2011

ここで私のNestedDictクラスを確認してください:stackoverflow.com/a/16296144/2334951マージなどのネストされた辞書構造の管理を行います。
SzieberthAdam 2013

3
解決策を探しているすべての人への警告:この質問は、ネストされた辞書についてのみです。ほとんどの回答は、構造内のディクテーションリストのより複雑なケースを適切に処理しません。これが必要な場合は、以下の@Osilokeの回答を試してください:stackoverflow.com/a/25270947/1431660
SHernandez


回答:


143

これは実際には非常にトリッキーです-特に、一貫性のない重複したエントリを正しく受け入れながら、何かが矛盾しているときに有用なエラーメッセージが必要な場合(ここでは他の答えはありません...)

膨大な数のエントリがない場合は、再帰関数が最も簡単です。

def merge(a, b, path=None):
    "merges b into a"
    if path is None: path = []
    for key in b:
        if key in a:
            if isinstance(a[key], dict) and isinstance(b[key], dict):
                merge(a[key], b[key], path + [str(key)])
            elif a[key] == b[key]:
                pass # same leaf value
            else:
                raise Exception('Conflict at %s' % '.'.join(path + [str(key)]))
        else:
            a[key] = b[key]
    return a

# works
print(merge({1:{"a":"A"},2:{"b":"B"}}, {2:{"c":"C"},3:{"d":"D"}}))
# has conflict
merge({1:{"a":"A"},2:{"b":"B"}}, {1:{"a":"A"},2:{"b":"C"}})

これが変化することに注意してくださいa-の内容bが追加されますa(これも返されます)。維持したい場合は、次のaように呼び出すことができますmerge(dict(a), b)

agfは(下で)3つ以上の辞書がある可能性があることを指摘しました。

reduce(merge, [dict1, dict2, dict3...])

ここですべてがdict1に追加されます。

[注-最初の引数を変更するために最初の回答を編集しました。「還元」を説明しやすくします]

python 3のps、あなたも必要になります from functools import reduce


1
次に、これをa reduceまたは同等のループ内に固定して、dict2つではなく任意の数のsを処理できます。しかし、これが彼が望んでいることかわかりません(彼は明確ではありませんでした)、あなた2: {'c': {'z': {'y': {'info1': 'value', 'info2': 'value2'}}}, 'b': {'info1': 'value', 'info2': 'value2'}}は彼の2番目の例に行き着きましたz、彼が望んでいてy平らにされているかどうかはわかりませんか?
agf 2011

1
それらはディレクトリ構造なので、フラット化したいものはないと思いますか?ああ、申し訳ありませんが、「複数の辞書」を逃しました。はい、減らすのが良いでしょう。それを追加します。
Andrew Cooke、2011

これはまさに私が欲しかったことです!私は十分に明確ではなかったので申し訳ありません...私はPythonで大丈夫だと思いました、そうではないようです:-/入れ子になったdictsのために再帰関数が必要でした、これは機能し、理解できます:)私はしませんただし、reduceで機能させることができるようです...
fdhex

2
dictsの下にネストされた最後のレベルとしてリストを持っている人は、エラーを発生させる代わりにこれを実行して、2つのリストを連結できますa[key] = a[key] + b[key]。役立つ回答をありがとう。
kevinmicke

1
>保持したい場合は、merge(dict(a)、b)のように呼び出すことができます。ネストされたdictは引き続き変更されることに注意してください。これを回避するには、を使用しますcopy.deepcopy
rcorre

30

ジェネレータを使用して簡単に行う方法は次のとおりです。

def mergedicts(dict1, dict2):
    for k in set(dict1.keys()).union(dict2.keys()):
        if k in dict1 and k in dict2:
            if isinstance(dict1[k], dict) and isinstance(dict2[k], dict):
                yield (k, dict(mergedicts(dict1[k], dict2[k])))
            else:
                # If one of the values is not a dict, you can't continue merging it.
                # Value from second dict overrides one in first and we move on.
                yield (k, dict2[k])
                # Alternatively, replace this with exception raiser to alert you of value conflicts
        elif k in dict1:
            yield (k, dict1[k])
        else:
            yield (k, dict2[k])

dict1 = {1:{"a":"A"},2:{"b":"B"}}
dict2 = {2:{"c":"C"},3:{"d":"D"}}

print dict(mergedicts(dict1,dict2))

これは印刷します:

{1: {'a': 'A'}, 2: {'c': 'C', 'b': 'B'}, 3: {'d': 'D'}}

ジェネレーターのテーマを保持したい場合は、chain(dict1.keys()、dict2.keys())
アンドリュークック'26

それは重複したキーを取得しませんか?
jterrace、2011

これは少なくとも私のデータセットでは機能しているようですが、yieldとgeneratorsをよく理解していないので、理由がかなりわかりませんが、もう少し頑張ってみると便利かもしれません。
fdhex 2011

ああ、はい、重複したキーを取得します。まだそれをセットでラップする必要があります。
Andrew Cooke、2011

2
これは特に役に立ちました。しかし、最も良いのは、関数に競合をパラメーターとして解決させることです。
mentatkgs

25

この質問の1つの問題は、dictの値が任意の複雑なデータになり得ることです。これらと他の答えに基づいて、私はこのコードを思いつきました:

class YamlReaderError(Exception):
    pass

def data_merge(a, b):
    """merges b into a and return merged result

    NOTE: tuples and arbitrary objects are not handled as it is totally ambiguous what should happen"""
    key = None
    # ## debug output
    # sys.stderr.write("DEBUG: %s to %s\n" %(b,a))
    try:
        if a is None or isinstance(a, str) or isinstance(a, unicode) or isinstance(a, int) or isinstance(a, long) or isinstance(a, float):
            # border case for first run or if a is a primitive
            a = b
        elif isinstance(a, list):
            # lists can be only appended
            if isinstance(b, list):
                # merge lists
                a.extend(b)
            else:
                # append to list
                a.append(b)
        elif isinstance(a, dict):
            # dicts must be merged
            if isinstance(b, dict):
                for key in b:
                    if key in a:
                        a[key] = data_merge(a[key], b[key])
                    else:
                        a[key] = b[key]
            else:
                raise YamlReaderError('Cannot merge non-dict "%s" into dict "%s"' % (b, a))
        else:
            raise YamlReaderError('NOT IMPLEMENTED "%s" into "%s"' % (b, a))
    except TypeError, e:
        raise YamlReaderError('TypeError "%s" in key "%s" when merging "%s" into "%s"' % (e, key, b, a))
    return a

私の使用例は、可能なデータ型のサブセットを処理するだけでよいYAMLファイルのマージです。したがって、タプルやその他のオブジェクトは無視できます。私にとって賢明なマージロジックとは

  • スカラーを置き換える
  • リストを追加
  • 不足しているキーを追加して既存のキーを更新することで辞書をマージする

それ以外のすべてと予期せぬ結果はエラーになります。


1
素晴らしい。jsonダンプでもうまく機能します。エラー処理を削除しました。(怠惰で、jsonに適切なものを実行できると確信しています)
dgBP '24

3
「インスタンス」シーケンスは、置き換えられisinstance(a, (str, unicode, int, long, float))ませんか?
シマホーク2017年

12

辞書の辞書がマージされます

これは(特定の非一般性にもかかわらず)標準的な質問であるため、この問題を解決するための標準的なPythonのアプローチを提供します。

最も単純なケース:「葉は空の辞書で終わるネストされた辞書です」:

d1 = {'a': {1: {'foo': {}}, 2: {}}}
d2 = {'a': {1: {}, 2: {'bar': {}}}}
d3 = {'b': {3: {'baz': {}}}}
d4 = {'a': {1: {'quux': {}}}}

これは再帰の最も単純なケースであり、2つの単純なアプローチをお勧めします。

def rec_merge1(d1, d2):
    '''return new merged dict of dicts'''
    for k, v in d1.items(): # in Python 2, use .iteritems()!
        if k in d2:
            d2[k] = rec_merge1(v, d2[k])
    d3 = d1.copy()
    d3.update(d2)
    return d3

def rec_merge2(d1, d2):
    '''update first dict with second recursively'''
    for k, v in d1.items(): # in Python 2, use .iteritems()!
        if k in d2:
            d2[k] = rec_merge2(v, d2[k])
    d1.update(d2)
    return d1

私は最初のものより2番目のものを好むと思いますが、最初のものの元の状態はその起源から再構築する必要があることを覚えておいてください。使い方は次のとおりです。

>>> from functools import reduce # only required for Python 3.
>>> reduce(rec_merge1, (d1, d2, d3, d4))
{'a': {1: {'quux': {}, 'foo': {}}, 2: {'bar': {}}}, 'b': {3: {'baz': {}}}}
>>> reduce(rec_merge2, (d1, d2, d3, d4))
{'a': {1: {'quux': {}, 'foo': {}}, 2: {'bar': {}}}, 'b': {3: {'baz': {}}}}

複雑なケース:「葉は他のタイプです:」

したがって、それらがディクテーションで終わる場合、それは最後の空のディクテーションをマージする単純なケースです。そうでなければ、それはそれほど簡単ではありません。文字列の場合、どのようにマージしますか?セットも同様に更新できるため、その扱いを与えることができますが、マージされた順序は失われます。では、注文は重要ですか?

したがって、より多くの情報の代わりに、最も単純なアプローチは、両方の値がdictでない場合に標準の更新処理を与えることです。つまり、2番目のdictの値がNoneで、最初の値がたくさんの情報を持つdict。

d1 = {'a': {1: 'foo', 2: None}}
d2 = {'a': {1: None, 2: 'bar'}}
d3 = {'b': {3: 'baz'}}
d4 = {'a': {1: 'quux'}}

from collections import MutableMapping

def rec_merge(d1, d2):
    '''
    Update two dicts of dicts recursively, 
    if either mapping has leaves that are non-dicts, 
    the second's leaf overwrites the first's.
    '''
    for k, v in d1.items(): # in Python 2, use .iteritems()!
        if k in d2:
            # this next check is the only difference!
            if all(isinstance(e, MutableMapping) for e in (v, d2[k])):
                d2[k] = rec_merge(v, d2[k])
            # we could further check types and merge as appropriate here.
    d3 = d1.copy()
    d3.update(d2)
    return d3

そして今

from functools import reduce
reduce(rec_merge, (d1, d2, d3, d4))

戻り値

{'a': {1: 'quux', 2: 'bar'}, 'b': {3: 'baz'}}

元の質問への適用:

これを合法的なPython(Python 2.7以降ではリテラルに設定される)にするために、文字の周りの中括弧を削除し、それらを一重引用符で囲む必要があります。

dict1 = {1:{"a":'A'}, 2:{"b":'B'}}
dict2 = {2:{"c":'C'}, 3:{"d":'D'}}

そしてrec_merge(dict1, dict2)今返す:

{1: {'a': 'A'}, 2: {'c': 'C', 'b': 'B'}, 3: {'d': 'D'}}

これは、元の質問の望ましい結果と一致します(たとえば、{A}をに変更した後など'A')。


10

@andrew cookeに基づいています。このバージョンは、dictsのネストされたリストを処理し、値を更新するオプションも許可します

def merge(a, b, path=None, update=True):
    "http://stackoverflow.com/questions/7204805/python-dictionaries-of-dictionaries-merge"
    "merges b into a"
    if path is None: path = []
    for key in b:
        if key in a:
            if isinstance(a[key], dict) and isinstance(b[key], dict):
                merge(a[key], b[key], path + [str(key)])
            elif a[key] == b[key]:
                pass # same leaf value
            elif isinstance(a[key], list) and isinstance(b[key], list):
                for idx, val in enumerate(b[key]):
                    a[key][idx] = merge(a[key][idx], b[key][idx], path + [str(key), str(idx)], update=update)
            elif update:
                a[key] = b[key]
            else:
                raise Exception('Conflict at %s' % '.'.join(path + [str(key)]))
        else:
            a[key] = b[key]
    return a

1
ありがとう、これはとても役に立ちます。私の構造には常に辞書のリストがありますが、他のソリューションではこれを適切にマージできません。
シェルナンデス2015

7

この単純な再帰的な手順は、競合するキーを上書きしながら、ある辞書を別の辞書にマージします。

#!/usr/bin/env python2.7

def merge_dicts(dict1, dict2):
    """ Recursively merges dict2 into dict1 """
    if not isinstance(dict1, dict) or not isinstance(dict2, dict):
        return dict2
    for k in dict2:
        if k in dict1:
            dict1[k] = merge_dicts(dict1[k], dict2[k])
        else:
            dict1[k] = dict2[k]
    return dict1

print (merge_dicts({1:{"a":"A"}, 2:{"b":"B"}}, {2:{"c":"C"}, 3:{"d":"D"}}))
print (merge_dicts({1:{"a":"A"}, 2:{"b":"B"}}, {1:{"a":"A"}, 2:{"b":"C"}}))

出力:

{1: {'a': 'A'}, 2: {'c': 'C', 'b': 'B'}, 3: {'d': 'D'}}
{1: {'a': 'A'}, 2: {'b': 'C'}}

7

@andrew cookeからの回答に基づく。ネストされたリストをより適切に処理します。

def deep_merge_lists(original, incoming):
    """
    Deep merge two lists. Modifies original.
    Recursively call deep merge on each correlated element of list. 
    If item type in both elements are
     a. dict: Call deep_merge_dicts on both values.
     b. list: Recursively call deep_merge_lists on both values.
     c. any other type: Value is overridden.
     d. conflicting types: Value is overridden.

    If length of incoming list is more that of original then extra values are appended.
    """
    common_length = min(len(original), len(incoming))
    for idx in range(common_length):
        if isinstance(original[idx], dict) and isinstance(incoming[idx], dict):
            deep_merge_dicts(original[idx], incoming[idx])

        elif isinstance(original[idx], list) and isinstance(incoming[idx], list):
            deep_merge_lists(original[idx], incoming[idx])

        else:
            original[idx] = incoming[idx]

    for idx in range(common_length, len(incoming)):
        original.append(incoming[idx])


def deep_merge_dicts(original, incoming):
    """
    Deep merge two dictionaries. Modifies original.
    For key conflicts if both values are:
     a. dict: Recursively call deep_merge_dicts on both values.
     b. list: Call deep_merge_lists on both values.
     c. any other type: Value is overridden.
     d. conflicting types: Value is overridden.

    """
    for key in incoming:
        if key in original:
            if isinstance(original[key], dict) and isinstance(incoming[key], dict):
                deep_merge_dicts(original[key], incoming[key])

            elif isinstance(original[key], list) and isinstance(incoming[key], list):
                deep_merge_lists(original[key], incoming[key])

            else:
                original[key] = incoming[key]
        else:
            original[key] = incoming[key]

直感的で対称的です。リスト処理のための+1 :)
vdwees '16

6

辞書のレベルが不明な場合は、再帰関数をお勧めします。

def combineDicts(dictionary1, dictionary2):
    output = {}
    for item, value in dictionary1.iteritems():
        if dictionary2.has_key(item):
            if isinstance(dictionary2[item], dict):
                output[item] = combineDicts(value, dictionary2.pop(item))
        else:
            output[item] = value
    for item, value in dictionary2.iteritems():
         output[item] = value
    return output

5

概観

次のアプローチは、dictsの深いマージの問題を次のように細分します。

  1. 関数merge(f)(a,b)を使用fして2つの辞書をマージするパラメーター化された浅いマージ関数ab

  2. fとともに使用する再帰的結合関数merge


実装

2つの(ネストされていない)辞書をマージする関数は、さまざまな方法で記述できます。私は個人的に好きです

def merge(f):
    def merge(a,b): 
        keys = a.keys() | b.keys()
        return {key:f(a.get(key), b.get(key)) for key in keys}
    return merge

適切な再帰的マージ関数を定義する良い方法fは、multipledispatchを使用することです。これにより、引数のタイプに応じて異なるパスに沿って評価する関数を定義できます。

from multipledispatch import dispatch

#for anything that is not a dict return
@dispatch(object, object)
def f(a, b):
    return b if b is not None else a

#for dicts recurse 
@dispatch(dict, dict)
def f(a,b):
    return merge(f)(a,b)

2つのネストされた辞書をマージするには、merge(f)たとえば次のように使用します。

dict1 = {1:{"a":"A"},2:{"b":"B"}}
dict2 = {2:{"c":"C"},3:{"d":"D"}}
merge(f)(dict1, dict2)
#returns {1: {'a': 'A'}, 2: {'b': 'B', 'c': 'C'}, 3: {'d': 'D'}} 

ノート:

このアプローチの利点は次のとおりです。

  • 関数は、それぞれが単一のことを行う小さな関数から構築されており、コードを推論してテストすることがより簡単になります

  • 動作はハードコードされていませんが、必要に応じて変更および拡張でき、コードの再利用が向上します(以下の例を参照)。


カスタマイズ

一部の回答では、他の(入れ子になっている可能性のある)辞書のリストを含む辞書も考慮されました。この場合、リストにマップし、位置に基づいてそれらをマージすることができます。これは、merger関数に別の定義を追加することで実行できますf

import itertools
@dispatch(list, list)
def f(a,b):
    return [merge(f)(*arg) for arg in itertools.zip_longest(a, b)]

4

誰かがこの問題へのさらに別のアプローチを望んでいる場合のために、これが私の解決策です。

美徳:スタイルが短く、宣言的で、機能的(再帰的で、変更はありません)。

潜在的な欠点:これは、探しているマージではない可能性があります。セマンティクスについては、docstringを参照してください。

def deep_merge(a, b):
    """
    Merge two values, with `b` taking precedence over `a`.

    Semantics:
    - If either `a` or `b` is not a dictionary, `a` will be returned only if
      `b` is `None`. Otherwise `b` will be returned.
    - If both values are dictionaries, they are merged as follows:
        * Each key that is found only in `a` or only in `b` will be included in
          the output collection with its value intact.
        * For any key in common between `a` and `b`, the corresponding values
          will be merged with the same semantics.
    """
    if not isinstance(a, dict) or not isinstance(b, dict):
        return a if b is None else b
    else:
        # If we're here, both a and b must be dictionaries or subtypes thereof.

        # Compute set of all keys in both dictionaries.
        keys = set(a.keys()) | set(b.keys())

        # Build output dictionary, merging recursively values with common keys,
        # where `None` is used to mean the absence of a value.
        return {
            key: deep_merge(a.get(key), b.get(key))
            for key in keys
        }

非常に興味深い回答です。共有していただきありがとうございます。returnステートメントの後にどの構文を使用しましたか?よくわかりません。
dev_does_software

4

あなたはmergedeepを試すことができます。


取り付け

$ pip3 install mergedeep

使用法

from mergedeep import merge

a = {"keyA": 1}
b = {"keyB": {"sub1": 10}}
c = {"keyB": {"sub2": 20}}

merge(a, b, c) 

print(a)
# {"keyA": 1, "keyB": {"sub1": 10, "sub2": 20}}

オプションの完全なリストについては、ドキュメントをチェックしてください!


3

アンドリュークックの回答にはわずかな問題があります。返された辞書を変更すると、2番目の引数bが変更される場合があります。具体的には、次の行が原因です。

if key in a:
    ...
else:
    a[key] = b[key]

場合b[key]dict、それは単にに割り当てられますaようにそれ以降の変更は意味dictの両方に影響を与えますab

a={}
b={'1':{'2':'b'}}
c={'1':{'3':'c'}}
merge(merge(a,b), c) # {'1': {'3': 'c', '2': 'b'}}
a # {'1': {'3': 'c', '2': 'b'}} (as expected)
b # {'1': {'3': 'c', '2': 'b'}} <----
c # {'1': {'3': 'c'}} (unmodified)

これを修正するには、この行を次のように置き換える必要があります。

if isinstance(b[key], dict):
    a[key] = clone_dict(b[key])
else:
    a[key] = b[key]

どこにclone_dictある:

def clone_dict(obj):
    clone = {}
    for key, value in obj.iteritems():
        if isinstance(value, dict):
            clone[key] = clone_dict(value)
        else:
            clone[key] = value
    return

まだ。これは明らかlistsetやその他のものを考慮に入れていませんが、マージしようとするときの落とし穴を示しているといいのですがdicts

そして、完全を期すために、ここに私のバージョンを示します。複数のバージョンを渡すことができますdicts

def merge_dicts(*args):
    def clone_dict(obj):
        clone = {}
        for key, value in obj.iteritems():
            if isinstance(value, dict):
                clone[key] = clone_dict(value)
            else:
                clone[key] = value
        return

    def merge(a, b, path=[]):
        for key in b:
            if key in a:
                if isinstance(a[key], dict) and isinstance(b[key], dict):
                    merge(a[key], b[key], path + [str(key)])
                elif a[key] == b[key]:
                    pass
                else:
                    raise Exception('Conflict at `{path}\''.format(path='.'.join(path + [str(key)])))
            else:
                if isinstance(b[key], dict):
                    a[key] = clone_dict(b[key])
                else:
                    a[key] = b[key]
        return a
    return reduce(merge, args, {})

なぜdeepcopy代わりにclone_dict
アルマンドペレスマルケス2015

1
python stdlibは巨大で壮大なためです。私はこれが存在する手がかりを持っていませんでした-それにコードを
書くの

2

このバージョンの関数は、N個のディクショナリを含み、ディクショナリのみを考慮します。不適切なパラメーターを渡せなかったり、TypeErrorが発生したりします。マージ自体はキーの競合を考慮しており、マージチェーンのさらに下のディクショナリからデータを上書きする代わりに、値のセットを作成してそれに追加します。データが失われることはありません。

それはページで最も効率的ではないかもしれませんが、それは最も徹底的であり、2からNの辞書をマージするときに情報を失うことはありません。

def merge_dicts(*dicts):
    if not reduce(lambda x, y: isinstance(y, dict) and x, dicts, True):
        raise TypeError, "Object in *dicts not of type dict"
    if len(dicts) < 2:
        raise ValueError, "Requires 2 or more dict objects"


    def merge(a, b):
        for d in set(a.keys()).union(b.keys()):
            if d in a and d in b:
                if type(a[d]) == type(b[d]):
                    if not isinstance(a[d], dict):
                        ret = list({a[d], b[d]})
                        if len(ret) == 1: ret = ret[0]
                        yield (d, sorted(ret))
                    else:
                        yield (d, dict(merge(a[d], b[d])))
                else:
                    raise TypeError, "Conflicting key:value type assignment"
            elif d in a:
                yield (d, a[d])
            elif d in b:
                yield (d, b[d])
            else:
                raise KeyError

    return reduce(lambda x, y: dict(merge(x, y)), dicts[1:], dicts[0])

print merge_dicts({1:1,2:{1:2}},{1:2,2:{3:1}},{4:4})

出力:{1:[1、2]、2:{1:2、3:1}、4:4}


2

dictviewsは集合演算をサポートしているので、jterraceの答えを大幅に簡略化することができました。

def merge(dict1, dict2):
    for k in dict1.keys() - dict2.keys():
        yield (k, dict1[k])

    for k in dict2.keys() - dict1.keys():
        yield (k, dict2[k])

    for k in dict1.keys() & dict2.keys():
        yield (k, dict(merge(dict1[k], dict2[k])))

dictとnon dict(技術的には、 'keys'メソッドを持つオブジェクトと 'keys'メソッドのないオブジェクト)を組み合わせようとすると、AttributeErrorが発生します。これには、関数の初期呼び出しと再帰呼び出しの両方が含まれます。これはまさに私が欲しかったものなので、私はそれを残しました。再帰呼び出しによってスローされたAttributeErrorsを簡単にキャッチして、希望する値を生成できます。


2

ショートアンドスウィート:

from collections.abc import MutableMapping as Map

def nested_update(d, v):
"""
Nested update of dict-like 'd' with dict-like 'v'.
"""

for key in v:
    if key in d and isinstance(d[key], Map) and isinstance(v[key], Map):
        nested_update(d[key], v[key])
    else:
        d[key] = v[key]

これはPythonのdict.updateメソッドと同じように機能します(また、その上に構築されています)。dict をインプレースで更新Noneするためreturn d、戻ります(必要に応じていつでも追加できます)d。キーv入力は既存のキーを上書きしますd(dictの内容を解釈しようとはしません)。

他の(「dictのような」)マッピングでも機能します。


1

もちろん、コードはマージの競合を解決するためのルールに依存します。これは、オブジェクトの変更を使用せずに、任意の数の引数を取り、それらを任意の深さに再帰的にマージできるバージョンです。次のルールを使用して、マージの競合を解決します。

  • 辞書はdict以外の値{"foo": {...}}よりも優先されます(より優先されます{"foo": "bar"}
  • (マージた場合、後の引数は、以前の引数よりも優先されます{"a": 1}{"a", 2}{"a": 3}順に、結果になります{"a": 3}
try:
    from collections import Mapping
except ImportError:
    Mapping = dict

def merge_dicts(*dicts):                                                            
    """                                                                             
    Return a new dictionary that is the result of merging the arguments together.   
    In case of conflicts, later arguments take precedence over earlier arguments.   
    """                                                                             
    updated = {}                                                                    
    # grab all keys                                                                 
    keys = set()                                                                    
    for d in dicts:                                                                 
        keys = keys.union(set(d))                                                   

    for key in keys:                                                                
        values = [d[key] for d in dicts if key in d]                                
        # which ones are mapping types? (aka dict)                                  
        maps = [value for value in values if isinstance(value, Mapping)]            
        if maps:                                                                    
            # if we have any mapping types, call recursively to merge them          
            updated[key] = merge_dicts(*maps)                                       
        else:                                                                       
            # otherwise, just grab the last value we have, since later arguments    
            # take precedence over earlier arguments                                
            updated[key] = values[-1]                                               
    return updated  

1

私は2つの辞書(aおよびb)を持っていて、それぞれに任意の数のネストされた辞書を含めることができました。私はそれらを再帰的にマージして、bを優先しましたa

ネストされた辞書をツリーと見なして、私が欲しかったのは:

  • aすべての葉へのすべてのパスbがで表されるように更新するにはa
  • aの対応するパスでリーフが見つかった場合のサブツリーを上書きするにはb
    • すべてのb葉ノードが葉のままであることを不変に維持します。

既存の答えは私の好みのために少し複雑であり、棚にいくつかの詳細を残しました。データセットの単体テストに合格した次のものをハッキングしました。

  def merge_map(a, b):
    if not isinstance(a, dict) or not isinstance(b, dict):
      return b

    for key in b.keys():
      a[key] = merge_map(a[key], b[key]) if key in a else b[key]
    return a

例(明確にするためにフォーマットされています):

 a = {
    1 : {'a': 'red', 
         'b': {'blue': 'fish', 'yellow': 'bear' },
         'c': { 'orange': 'dog'},
    },
    2 : {'d': 'green'},
    3: 'e'
  }

  b = {
    1 : {'b': 'white'},
    2 : {'d': 'black'},
    3: 'e'
  }


  >>> merge_map(a, b)
  {1: {'a': 'red', 
       'b': 'white',
       'c': {'orange': 'dog'},},
   2: {'d': 'black'},
   3: 'e'}

b維持する必要のあるパスは次のとおりです。

  • 1 -> 'b' -> 'white'
  • 2 -> 'd' -> 'black'
  • 3 -> 'e'

a ユニークで矛盾のないパスがありました:

  • 1 -> 'a' -> 'red'
  • 1 -> 'c' -> 'orange' -> 'dog'

そのため、それらはマージされたマップに引き続き表示されます。


1

私は反復的な解決策を持っています-大きなdictsとそれらの多く(例えばjsonなど)ではるかにうまく機能します:

import collections


def merge_dict_with_subdicts(dict1: dict, dict2: dict) -> dict:
    """
    similar behaviour to builtin dict.update - but knows how to handle nested dicts
    """
    q = collections.deque([(dict1, dict2)])
    while len(q) > 0:
        d1, d2 = q.pop()
        for k, v in d2.items():
            if k in d1 and isinstance(d1[k], dict) and isinstance(v, dict):
                q.append((d1[k], v))
            else:
                d1[k] = v

    return dict1

これらが両方の辞書ではない場合、これはd2の値を使用してd1をオーバーライドすることに注意してください。(pythonと同じdict.update()

いくつかのテスト:

def test_deep_update():
    d = dict()
    merge_dict_with_subdicts(d, {"a": 4})
    assert d == {"a": 4}

    new_dict = {
        "b": {
            "c": {
                "d": 6
            }
        }
    }
    merge_dict_with_subdicts(d, new_dict)
    assert d == {
        "a": 4,
        "b": {
            "c": {
                "d": 6
            }
        }
    }

    new_dict = {
        "a": 3,
        "b": {
            "f": 7
        }
    }
    merge_dict_with_subdicts(d, new_dict)
    assert d == {
        "a": 3,
        "b": {
            "c": {
                "d": 6
            },
            "f": 7
        }
    }

    # test a case where one of the dicts has dict as value and the other has something else
    new_dict = {
        'a': {
            'b': 4
        }
    }
    merge_dict_with_subdicts(d, new_dict)
    assert d['a']['b'] == 4

私はおよそ1200 dictでテストしました-この方法は0.4秒かかりましたが、再帰的ソリューションは〜2.5秒かかりました。


0

これは、からのすべてのアイテムをマージするのに役立ちます dict2dict1

for item in dict2:
    if item in dict1:
        for leaf in dict2[item]:
            dict1[item][leaf] = dict2[item][leaf]
    else:
        dict1[item] = dict2[item]

それをテストして、これがあなたが望んだものであるかどうか教えてください。

編集:

上記のソリューションは1レベルのみをマージしますが、OPによって与えられた例を正しく解決します。複数のレベルをマージするには、再帰を使用する必要があります。


1
彼は任意のネストの深さを持っています
agf '26 / 08/26

それは単にのように書き直すことができますfor k,v in dict2.iteritems(): dict1.setdefault(k,{}).update(v)。しかし、@ agfが指摘したように、これはネストされた辞書をマージしません。
ショーンチン

@agf:正解です。そのため、OPには繰り返しを使用するソリューションが必要なようです。辞書は変更可能であるという事実のおかげで、これは非常に簡単に実行できるはずです。しかし、私は質問は、我々は深さの異なるレベルの場所を考え出すときにどうするか伝えるために、特定の十分ではないと思います(例えばマージしようと{'a':'b'}して{'a':{'c':'d'})。
Tadeck、2011

0

私はあなたのソリューションをテストしており、これを私のプロジェクトで使用することにしました:

def mergedicts(dict1, dict2, conflict, no_conflict):
    for k in set(dict1.keys()).union(dict2.keys()):
        if k in dict1 and k in dict2:
            yield (k, conflict(dict1[k], dict2[k]))
        elif k in dict1:
            yield (k, no_conflict(dict1[k]))
        else:
            yield (k, no_conflict(dict2[k]))

dict1 = {1:{"a":"A"}, 2:{"b":"B"}}
dict2 = {2:{"c":"C"}, 3:{"d":"D"}}

#this helper function allows for recursion and the use of reduce
def f2(x, y):
    return dict(mergedicts(x, y, f2, lambda x: x))

print dict(mergedicts(dict1, dict2, f2, lambda x: x))
print dict(reduce(f2, [dict1, dict2]))

パラメータとして関数を渡すことは、jterraceソリューションを拡張して他のすべての再帰的ソリューションとして動作するための鍵です。


0

私が考えることができる最も簡単な方法は:

#!/usr/bin/python

from copy import deepcopy
def dict_merge(a, b):
    if not isinstance(b, dict):
        return b
    result = deepcopy(a)
    for k, v in b.iteritems():
        if k in result and isinstance(result[k], dict):
                result[k] = dict_merge(result[k], v)
        else:
            result[k] = deepcopy(v)
    return result

a = {1:{"a":'A'}, 2:{"b":'B'}}
b = {2:{"c":'C'}, 3:{"d":'D'}}

print dict_merge(a,b)

出力:

{1: {'a': 'A'}, 2: {'c': 'C', 'b': 'B'}, 3: {'d': 'D'}}

0

私はここに少し異なる別の解決策を持っています:

def deepMerge(d1, d2, inconflict = lambda v1,v2 : v2) :
''' merge d2 into d1. using inconflict function to resolve the leaf conflicts '''
    for k in d2:
        if k in d1 : 
            if isinstance(d1[k], dict) and isinstance(d2[k], dict) :
                deepMerge(d1[k], d2[k], inconflict)
            elif d1[k] != d2[k] :
                d1[k] = inconflict(d1[k], d2[k])
        else :
            d1[k] = d2[k]
    return d1

デフォルトでは、2番目のdictの値を優先して競合を解決しますが、これを簡単にオーバーライドできます。一部の魔女では、例外をスローすることもできます。:)。


0
class Utils(object):

    """

    >>> a = { 'first' : { 'all_rows' : { 'pass' : 'dog', 'number' : '1' } } }
    >>> b = { 'first' : { 'all_rows' : { 'fail' : 'cat', 'number' : '5' } } }
    >>> Utils.merge_dict(b, a) == { 'first' : { 'all_rows' : { 'pass' : 'dog', 'fail' : 'cat', 'number' : '5' } } }
    True

    >>> main = {'a': {'b': {'test': 'bug'}, 'c': 'C'}}
    >>> suply = {'a': {'b': 2, 'd': 'D', 'c': {'test': 'bug2'}}}
    >>> Utils.merge_dict(main, suply) == {'a': {'b': {'test': 'bug'}, 'c': 'C', 'd': 'D'}}
    True

    """

    @staticmethod
    def merge_dict(main, suply):
        """
        获取融合的字典,以main为主,suply补充,冲突时以main为准
        :return:
        """
        for key, value in suply.items():
            if key in main:
                if isinstance(main[key], dict):
                    if isinstance(value, dict):
                        Utils.merge_dict(main[key], value)
                    else:
                        pass
                else:
                    pass
            else:
                main[key] = value
        return main

if __name__ == '__main__':
    import doctest
    doctest.testmod()

0

ちょっとそこにも私は同じ問題がありましたが、解決策を考えてここに投稿します。それが他の人にも役立つ場合は、基本的にネストされた辞書をマージして値を追加するため、私はいくつかの確率を計算する必要があったので、これを1つはうまくいきました:

#used to copy a nested dict to a nested dict
def deepupdate(target, src):
    for k, v in src.items():
        if k in target:
            for k2, v2 in src[k].items():
                if k2 in target[k]:
                    target[k][k2]+=v2
                else:
                    target[k][k2] = v2
        else:
            target[k] = copy.deepcopy(v)

上記の方法を使用して、マージできます。

ターゲット= {'6,6':{'6,63':1}、 '63,4':{'4,4':1}、 '4,4':{'4,3':1} 、 '6,63':{'63、4 ':1}}

src = {'5,4':{'4,4':1}、 '5,5':{'5,4':1}、 '4,4':{'4,3':1} }

これは次のようになります:{'5,5':{'5,4':1}、 '5,4':{'4,4':1}、 '6,6':{'6,63' :1}、 '63,4':{'4,4':1}、 '4,4':{'4,3':2}、 '6,63':{'63、4 ':1 }}

ここでの変更にも注意してください:

ターゲット= {'6,6':{'6,63':1}、 '6,63':{'63、4 ':1}、' 4,4 ':{' 4,3 ':1}、'63、4 ':{' 4,4 ':1}}

src = {'5,4':{'4,4':1}、 '4,3':{'3,4':1}、'4,4':{'4,9':1}、 '3,4':{'4,4':1}、 '5,5':{'5,4':1}}

merge = {'5,4':{'4,4':1}、 '4,3':{'3,4':1}、 '6,63':{'63、4 ':1} 、 '5,5':{'5,4':1}、 '6,6':{'6,63':1}、 '3,4':{'4,4':1}、 ' 63,4 ':{' 4,4 ':1}、' 4,4 ':{' 4,3 ':1、' 4,9 ':1} }

コピーのインポートも追加することを忘れないでください:

import copy

0
from collections import defaultdict
from itertools import chain

class DictHelper:

@staticmethod
def merge_dictionaries(*dictionaries, override=True):
    merged_dict = defaultdict(set)
    all_unique_keys = set(chain(*[list(dictionary.keys()) for dictionary in dictionaries]))  # Build a set using all dict keys
    for key in all_unique_keys:
        keys_value_type = list(set(filter(lambda obj_type: obj_type != type(None), [type(dictionary.get(key, None)) for dictionary in dictionaries])))
        # Establish the object type for each key, return None if key is not present in dict and remove None from final result
        if len(keys_value_type) != 1:
            raise Exception("Different objects type for same key: {keys_value_type}".format(keys_value_type=keys_value_type))

        if keys_value_type[0] == list:
            values = list(chain(*[dictionary.get(key, []) for dictionary in dictionaries]))  # Extract the value for each key
            merged_dict[key].update(values)

        elif keys_value_type[0] == dict:
            # Extract all dictionaries by key and enter in recursion
            dicts_to_merge = list(filter(lambda obj: obj != None, [dictionary.get(key, None) for dictionary in dictionaries]))
            merged_dict[key] = DictHelper.merge_dictionaries(*dicts_to_merge)

        else:
            # if override => get value from last dictionary else make a list of all values
            values = list(filter(lambda obj: obj != None, [dictionary.get(key, None) for dictionary in dictionaries]))
            merged_dict[key] = values[-1] if override else values

    return dict(merged_dict)



if __name__ == '__main__':
  d1 = {'aaaaaaaaa': ['to short', 'to long'], 'bbbbb': ['to short', 'to long'], "cccccc": ["the is a test"]}
  d2 = {'aaaaaaaaa': ['field is not a bool'], 'bbbbb': ['field is not a bool']}
  d3 = {'aaaaaaaaa': ['filed is not a string', "to short"], 'bbbbb': ['field is not an integer']}
  print(DictHelper.merge_dictionaries(d1, d2, d3))

  d4 = {"a": {"x": 1, "y": 2, "z": 3, "d": {"x1": 10}}}
  d5 = {"a": {"x": 10, "y": 20, "d": {"x2": 20}}}
  print(DictHelper.merge_dictionaries(d4, d5))

出力:

{'bbbbb': {'to long', 'field is not an integer', 'to short', 'field is not a bool'}, 
'aaaaaaaaa': {'to long', 'to short', 'filed is not a string', 'field is not a bool'}, 
'cccccc': {'the is a test'}}

{'a': {'y': 20, 'd': {'x1': 10, 'x2': 20}, 'z': 3, 'x': 10}}

このコードは質問に答えることがありますが、このコードが質問に答える理由や方法に関する追加のコンテキストを提供すると、長期的な価値が向上します。
xiawi

これは、マージされるオブジェクトのタイプを考慮した1つ以上のネストされた辞書をマージする一般的な実装だと思います
Dorcioman

0

パッケージを見てくださいtoolz

import toolz
dict1={1:{"a":"A"},2:{"b":"B"}}
dict2={2:{"c":"C"},3:{"d":"D"}}
toolz.merge_with(toolz.merge,dict1,dict2)

与える

{1: {'a': 'A'}, 2: {'b': 'B', 'c': 'C'}, 3: {'d': 'D'}}

0

次の関数は、bをaにマージします。

def mergedicts(a, b):
    for key in b:
        if isinstance(a.get(key), dict) or isinstance(b.get(key), dict):
            mergedicts(a[key], b[key])
        else:
            a[key] = b[key]
    return a

0

そしてもう一つのわずかなバリエーション:

これは、純粋なpython3セットベースのディープアップデート関数です。ネストされた辞書を一度に1レベルずつループして更新し、それ自体を呼び出して次の各レベルの辞書値を更新します。

def deep_update(dict_original, dict_update):
    if isinstance(dict_original, dict) and isinstance(dict_update, dict):
        output=dict(dict_original)
        keys_original=set(dict_original.keys())
        keys_update=set(dict_update.keys())
        similar_keys=keys_original.intersection(keys_update)
        similar_dict={key:deep_update(dict_original[key], dict_update[key]) for key in similar_keys}
        new_keys=keys_update.difference(keys_original)
        new_dict={key:dict_update[key] for key in new_keys}
        output.update(similar_dict)
        output.update(new_dict)
        return output
    else:
        return dict_update

簡単な例:

x={'a':{'b':{'c':1, 'd':1}}}
y={'a':{'b':{'d':2, 'e':2}}, 'f':2}

print(deep_update(x, y))
>>> {'a': {'b': {'c': 1, 'd': 2, 'e': 2}}, 'f': 2}

0

別の答えはどうですか?!?これにより、変異/副作用も回避されます。

def merge(dict1, dict2):
    output = {}

    # adds keys from `dict1` if they do not exist in `dict2` and vice-versa
    intersection = {**dict2, **dict1}

    for k_intersect, v_intersect in intersection.items():
        if k_intersect not in dict1:
            v_dict2 = dict2[k_intersect]
            output[k_intersect] = v_dict2

        elif k_intersect not in dict2:
            output[k_intersect] = v_intersect

        elif isinstance(v_intersect, dict):
            v_dict2 = dict2[k_intersect]
            output[k_intersect] = merge(v_intersect, v_dict2)

        else:
            output[k_intersect] = v_intersect

    return output
dict1 = {1:{"a":{"A"}}, 2:{"b":{"B"}}}
dict2 = {2:{"c":{"C"}}, 3:{"d":{"D"}}}
dict3 = {1:{"a":{"A"}}, 2:{"b":{"B"},"c":{"C"}}, 3:{"d":{"D"}}}

assert dict3 == merge(dict1, dict2)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.