反復文字列追加の時間計算量は実際にはO（n ^ 2）ですか、それともO（n）ですか？

Question 1

私はCTCIの問題に取り組んでいます。

第1章の3番目の問題は、次のような文字列を取ることです。

'Mr John Smith '

中間スペースを%20次のように置き換えるように求められます：

'Mr%20John%20Smith'

著者はこのソリューションをPythonで提供し、O（n）と呼んでいます。

def urlify(string, length):
    '''function replaces single spaces with %20 and removes trailing spaces'''
    counter = 0
    output = ''
    for char in string:
        counter += 1
        if counter > length:
            return output
        elif char == ' ':
            output = output + '%20'
        elif char != ' ':
            output = output + char
    return output

私の質問：

実際の文字列を左から右にスキャンするという点では、これはO（n）であると理解しています。しかし、Pythonの文字列は不変ではありませんか？文字列があり、+演算子を使用して別の文字列を追加した場合、必要なスペースを割り当て、元の文字列をコピーしてから、追加の文字列をコピーしませんか？

nそれぞれ長さが1の文字列のコレクションがある場合、次のようになります。

1 + 2 + 3 + 4 + 5 + ... + n = n(n+1)/2

またはO（n ^ 2）時間、そうですか？それとも、Pythonが追加を処理する方法を間違えていますか？

あるいは、釣り方を教えてくれるなら、どうやってこれを自分で見つけようか？私は公式の情報源をグーグルで検索しようとして失敗しました。https://wiki.python.org/moin/TimeComplexityを見つけましたが、文字列には何もありません。

Question 2

Pythonの標準実装であるCPythonには、これを通常O（n）にする実装の詳細があり、バイトコード評価ループが呼び出すコード+または+=2つの文字列オペランドを使用して実装されます。Pythonは、左側の引数に他の参照がないことを検出するとrealloc、文字列のサイズを変更してコピーを回避しようとします。これは実装の詳細でありrealloc、文字列を頻繁に移動する必要がある場合は、とにかくパフォーマンスがO（n ^ 2）に低下するため、これは信頼できるものではありません。

奇妙な実装の詳細がなければ、2次のコピー量が関係するため、アルゴリズムはO（n ^ 2）になります。このようなコードは、C ++のような可変文字列を使用する言語でのみ意味があり、C ++でも使用する必要があります。+=。

Question 3

著者は、たまたまここにある最適化に依存していますが、明示的に信頼できるわけではありません。strA = strB + strC通常O(n)は、関数を作成しますO(n^2)。ただし、プロセス全体が正しいことを確認するのは非常に簡単ですO(n)。配列を使用してください。

output = []
    # ... loop thing
    output.append('%20')
    # ...
    output.append(char)
# ...
return ''.join(output)

一言で言えば、append操作は償却され O(1)（ただしO(1)、配列を適切なサイズに事前に割り当てることで強力にすることができます）、ループを作成しますO(n)。

そして、joinもO(n)ですが、ループの外側にあるので問題ありません。

Question 4

PythonSpeedでこのテキストスニペットを見つけました>最高のアルゴリズムと最速のツールを使用してください：

文字列の連結は''.join(seq)、O(n)プロセスである場合に最適です。対照的に、'+'or'+='演算子を使用すると、O(n^2)中間ステップごとに新しい文字列が作成される可能性があるため、プロセスが発生する可能性があります。CPython 2.4インタープリターは、この問題をいくらか軽減します。ただし、''.join(seq)ベストプラクティスのままです

Question 5

将来の訪問者向け：これはCTCIの質問であるため、urllibの学習への参照ため、ここではパッケージのは必要ありません。特に、OPと本の、この質問は配列と文字に関するものです。

@ njzk2の疑似から着想を得たより完全なソリューションは次のとおりです。

text = 'Mr John Smith'#13 
special_str = '%20'
def URLify(text, text_len, special_str):
    url = [] 
    for i in range(text_len): # O(n)
        if text[i] == ' ': # n-s
            url.append(special_str) # append() is O(1)
        else:
            url.append(text[i]) # O(1)

    print(url)
    return ''.join(url) #O(n)


print(URLify(text, 13, '%20'))