1つを除くすべての一致の検索

この課題は、次の問題を解決するコードを記述することです。

2つの文字列AとBを指定すると、コードはAの部分文字列の開始インデックスと終了インデックスを次のプロパティで出力する必要があります。

Aの部分文字列は、Bの部分文字列と、文字列内の単一文字の最大1つの置換と一致する必要があります。
最初のプロパティを満たすAの部分文字列はもうないはずです。

例えば：

A = xxxappleyyyyyyy

B = zapllezzz

appleインデックス付きの部分文字列4 8（1からインデックス付け）は有効な出力になります。

スコア

回答のスコアは、コードの長さ（バイト単位）と、長さ100万の文字列AおよびBで実行した場合にコンピューターでかかる時間（秒単位）の合計になります。

テストと入力

http://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/の文字列から取得した長さ100万の2つの文字列でコードを実行します

入力は標準入力になり、新しい行で区切られた2つの文字列になります。

言語とライブラリ

自由に利用できるコンパイラー/インタープリター/などを備えた任意の言語を使用できます。Linuxおよびオープンソースであり、Linuxで自由に利用できるライブラリの場合。

私のマシン タイミングは私のマシンで実行されます。これは、AMD FX-8350 8コアプロセッサへの標準のUbuntuインストールです。これは、コードを実行できる必要があることも意味します。結果として、簡単に入手できる無料のソフトウェアのみを使用し、コードをコンパイルして実行する方法の完全な指示を含めてください。

code-challenge fastest-code

— isaacg
ソース

より絶対的なスコアリング定義が必要です。コンピューターでの実行時間は、良いスコアリング方法のようには聞こえません。

— mbomb007

@ mbomb007これは、コード速度を測定する唯一の賢明な方法であり、PPCGでの最速のコード競技で常に使用されています！通常、ユーザーは自分のコンピューターに自分のスコアを回答として投稿し、OPが最終的なスコアを生成するのを待ちます。少なくとも100％明確です。

@ mbomb007は、最速のコードで非常に広く使用されているスコアリング方法です。

— オプティマイザー

if(hash(str1 == test1 && str2 == test2)) print("100,150") else ..-考え？

— ジョンドヴォルザーク

@FryAmTheEggman非常にまれなタイのイベントでは、最初の答えが勝ちです。 appley一致するには2つの置換が必要apllezです。たぶんあなたはそれがapllBではなくBにあることを逃しましたapplか？

回答:

C ++時間：O（n ^ 2）、余分なスペース：O（1）

私のマシンで15Kデータを完了するには0.2秒かかります。

コンパイルするには、次を使用します。

g++ -std=c++11 -O3 code.cpp -o code

実行するには、次を使用します。

./code < INPUT_FILE_THAT_CONTAINS_TWO_LINES_SPERATED_BY_A_LINE_BREAK

説明

考え方はシンプルです。文字列s1and s2については、次の方法で相殺しようとs2しiます。

s1: abcabcabc
s2: bcabcab

オフセットが3の場合：

s1: abcabcabc
s2:    bcabcab

次に、各offset iに対して、s1[i:]およびで動的プログラミングスキャンを実行しs2ます。それぞれについてj、聞かせてf[j, 0]最大の長さでd、その結果s1[j - d:j] == s2[j - i - d: j - i]。同様に、文字列とがf[j, 1]最大で1文字異なるdような最大長にしてください。s1[j - d:j]s2[j - i - d:j - i]

以下のためだからs1[j] == s2[j - i]、我々は持っています：

f[j, 0] = f[j - 1, 0] + 1  // concat solution in f[j - 1, 0] and s1[j]
f[j, 1] = f[j - 1, 1] + 1  // concat solution in f[j - 1, 1] and s1[j]

さもないと：

f[j, 0] = 0  // the only choice is empty string
f[j, 1] = f[j - 1, 0] + 1  // concat solution in f[j - 1, 0] and s1[j] (or s2[j - i])

そして：

f[-1, 0] = f[-1, 1] = 0

f [j、：]の計算にはf [j-1、：]のみが必要なので、O（1）の余分なスペースのみが使用されます。

最後に、最大長は次のとおりです。

max(f[j, 1] for all valid j and all i)

コード

#include <string>
#include <cassert>
#include <iostream>

using namespace std;

int main() {
    string s1, s2;
    getline(cin, s1);
    getline(cin, s2);
    int n1, n2;
    n1 = s1.size();
    n2 = s2.size();
    int max_len = 0;
    int max_end = -1;
    for(int i = 1 - n2; i < n1; i++) {
        int f0, f1;
        int max_len2 = 0;
        int max_end2 = -1;
        f0 = f1 = 0;
        for(int j = max(i, 0), j_end = min(n1, i + n2); j < j_end; j++) {
            if(s1[j] == s2[j - i]) {
                f0 += 1;
                f1 += 1;
            } else {
                f1 = f0 + 1;
                f0 = 0;
            }
            if(f1 > max_len2) {
                max_len2 = f1;
                max_end2 = j + 1;
            }
        }
        if(max_len2 > max_len) {
            max_len = max_len2;
            max_end = max_end2;
        }
    }
    assert(max_end != -1);
    // cout << max_len << endl;
    cout << max_end - max_len + 1 << " " << max_end << endl;
}

— レイ
ソース

申し訳ありませんが、コードを見ており、「apple」と「aplle」の例のように、1文字を除いて文字列が一致する可能性を考慮する方法が見つかりません。説明してもらえますか？

— ロルク

@rcrmnそれは、動的プログラミング部分が行っていることです。理解するために、いくつかの単純なケースでは、f [j、0]とf [j、1]を手動で計算してみると役立ちます。以前のコードにはいくつかのバグがあるため、投稿を更新しました。

— レイ

これありがとう。O（n log n）ソリューションもあると思いますか？

C ++

これを行うには良いアルゴリズムを考えてみましたが、今日は少し気が散っており、うまく機能するものは考えられませんでした。これはO（n ^ 3）時に実行されるため、非常に低速です。私が考えたもう1つのオプションは、理論的にはより高速だったかもしれませんが、O（n ^ 2）のスペースを取り、1Mの入力ではさらに悪化していました。

恥ずかしいことですが、15Kの入力には190秒かかります。私はそれを改善しようとします。 編集：マルチプロセッシングを追加しました。8スレッドで15Kの入力に対して37秒かかります。

#include <string>
#include <vector>
#include <sstream>
#include <chrono>
#include <thread>
#include <atomic>
#undef cin
#undef cout
#include <iostream>

using namespace std;

typedef pair<int, int> range;

int main(int argc, char ** argv)
{
    string a = "xxxappleyyyyyyy";
    string b = "zapllezzz";

    getline(cin, a);
    getline(cin, b);

    range longestA;
    range longestB;

    using namespace std::chrono;

    high_resolution_clock::time_point t1 = high_resolution_clock::now();

    unsigned cores = thread::hardware_concurrency(); cores = cores > 0 ? cores : 1;

    cout << "Processing on " << cores << " cores." << endl;

    atomic<int> processedCount(0);

    vector<thread> threads;

    range* longestAs = new range[cores];
    range* longestBs = new range[cores];
    for (int t = 0; t < cores; ++t)
    {
        threads.push_back(thread([&processedCount, cores, t, &a, &b, &longestBs, &longestAs]()
        {
            int la = a.length();
            int l = la / cores + (t==cores-1? la % cores : 0);
            int lb = b.length();
            int aS = t*(la/cores);

            for (int i = aS; i < aS + l; ++i)
            {
                int count = processedCount.fetch_add(1);
                if ((count+1) * 100 / la > count * 100 / la)
                {
                    cout << (count+1) * 100 / la << "%" << endl;
                }
                for (int j = 0; j < lb; ++j)
                {
                    range currentB = make_pair(j, j);
                    bool letterChanged = false;
                    for (int k = 0; k + j < lb && k + i < la; ++k)
                    {
                        if (a[i + k] == b[j + k])
                        {
                            currentB = make_pair(j, j + k);
                        }
                        else if (!letterChanged)
                        {
                            letterChanged = true;
                            currentB = make_pair(j, j + k);
                        }
                        else
                        {
                            break;
                        }
                    }
                    if (currentB.second - currentB.first > longestBs[t].second - longestBs[t].first)
                    {
                        longestBs[t] = currentB;
                        longestAs[t] = make_pair(i, i + currentB.second - currentB.first);
                    }
                }
            }
        }));
    }

    longestA = make_pair(0,0);
    for(int t = 0; t < cores; ++t)
    {
        threads[t].join();

        if (longestAs[t].second - longestAs[t].first > longestA.second - longestA.first)
        {
            longestA = longestAs[t];
            longestB = longestBs[t];
        }
    }

    high_resolution_clock::time_point t2 = high_resolution_clock::now();

    duration<double> time_span = duration_cast<duration<double>>(t2 - t1);

    cout << "First substring at range (" << longestA.first << ", " << longestA.second << "):" << endl;
    cout << a.substr(longestA.first, longestA.second - longestA.first + 1) << endl;
    cout << "Second substring at range (" << longestB.first << ", " << longestB.second << "):" << endl;
    cout << b.substr(longestB.first, longestB.second - longestB.first + 1) << endl;
    cout << "It took me " << time_span.count() << " seconds for input lengths " << a.length() << " and " << b.length() <<"." << endl;

    char c;
    cin >> c;
    return 0;
}

— ロルク
ソース

本当に悪い解決策だと本当にすみません。これをより良い時間で達成するためのアルゴリズムを探していましたが、今のところ何も見つかりませんでした

— ...-rorlork

さて、必要なタスクの複雑さはO（n ^ 4）からO（n ^ 5）程度でなければならないので、長い実行時間が与えられます

— hoffmale

少なくとも私のアルゴリズムでは、最悪の場合はO（n ^ 3）に近いはずです。とにかく、何らかのツリー検索のように、それを改善するために何かできると確信していますが、それがどのように実装されるかはわかりません。

— ロルク

そうそう、O（n ^ 3）それは... O（n ^ 4）をとるであろう別のアプローチを念頭に置いていたが、それは今ではxD

— hoffmale

2つの外側のforループのチェックをi < a.length()からi < a.length - (longestA.second - longestA.first)（jとb.length（）と同じ）に変更すると、現在の最長のマッチよりも小さいマッチを処理する必要がないため、少し時間を節約できます

— hoffmale

R

私は以前のソリューションで問題を複雑にしすぎたようです。これは、前のものよりも約50％高速（15,000文字列で23秒）で、非常に簡単です。

rm(list=ls(all=TRUE))
a="xxxappleyyyyyyy"
b="zapllezzz"
s=proc.time()
matchLen=1
matchIndex=1
indexA = 1
repeat {    
    i = 0
    repeat {
        srch = substring(a,indexA,indexA+matchLen+i)
        if (agrepl(srch,b,max.distance=list(insertions=0,deletions=0,substitutions=1)))
            i = i + 1
        else {
            if (i > 0) {
                matchLen = matchLen + i - 1
                matchIndex = indexA
            }
            break
        }
    }
    indexA=indexA+1
    if (indexA + matchLen > nchar(a)) break
}
c(matchIndex, matchLen + matchIndex)
print (substring(a,matchIndex, matchLen + matchIndex))
print(proc.time()-s)

これは、言語のせいで競合することはありませんが、私はそれをやるのに少し楽しかったです。
複雑さはわかりませんが、2〜15k文字列を超えると、1つのスレッドを使用するのに43秒かかります。その最大の部分は、配列のソートでした。他のライブラリをいくつか試しましたが、大幅な改善はありませんでした。

a="xxxappleyyyyyyy"
b="zapllezzz"
s=proc.time()
N=nchar
S=substring
U=unlist
V=strsplit
A=N(a)
B=N(b)
a=S(a,1:A)
b=S(b,1:B)
a=sort(a,method="quick")
b=sort(b,method="quick")
print(proc.time()-s)
C=D=1
E=X=Y=I=0
repeat{
    if(N(a[C])>E && N(b[D])>E){
        for(i in E:min(N(a[C]),N(b[D]))){
            if (sum(U(V(S(a[C],1,i),''))==U(V(S(b[D],1,i),'')))>i-2){
                F=i
            } else break
        }
        if (F>E) {
            X=A-N(a[C])+1
            Y=X+F-1
            E=F
        }
        if (a[C]<b[D])
            C=C+1
            else
            D=D+1
    } else
        if(S(a[C],1,1)<S(b[D],1,1))C=C+1 else D=D+1
    if(C>A||D>B)break
}
c(X,Y)
print(proc.time()-s)

方法：

各文字列の接尾辞配列を作成します
サフィックス配列を注文する
各配列の開始を比較するずらした方法で各配列をステップスルーします

— ミッキー
ソース

もちろん、Rで最も簡単な解決策は、Bioconductorを使用することです。

— -archaephyrryx

@archaephyrryx生体伝導体ソリューションは楽しいでしょう。

それはそうなるでしょう...しかし、ドキュメントの私の速い読書は私の頭の上の方法でした。たぶん用語を理解したら:

— MickyT

最初のコメントを削除しました。もちろん、このチャレンジには好きなオープンソースライブラリを使用できます。