JavaScriptで大きな文字列をnサイズのチャンクに分割する


208

非常に大きな文字列(たとえば、10,000文字)をNサイズのチャンクに分割したいと思います。

これを行うには、パフォーマンスの点で最良の方法は何でしょうか?

たとえば"1234567890"、2で割ると、次のようになります。 ["12", "34", "56", "78", "90"]ます。

これを使用するString.prototype.matchと、このようなことが可能になりますか?可能であれば、それがパフォーマンスの点でそれを行うための最良の方法でしょうか?

回答:


456

あなたはこのようなことをすることができます:

"1234567890".match(/.{1,2}/g);
// Results in:
["12", "34", "56", "78", "90"]

このメソッドは、サイズがチャンクサイズの正確な倍数ではない文字列でも機能します。

"123456789".match(/.{1,2}/g);
// Results in:
["12", "34", "56", "78", "9"]

一般に、最大n個のサイズの部分文字列を抽出する文字列については、次のようにします。

str.match(/.{1,n}/g); // Replace n with the size of the substring

文字列に改行または改行を含めることができる場合は、次のようにします。

str.match(/(.|[\r\n]){1,n}/g); // Replace n with the size of the substring

パフォーマンスに関しては、約1万文字で試してみましたが、Chromeでは1秒強かかりました。YMMV。

これは、再利用可能な関数でも使用できます。

function chunkString(str, length) {
  return str.match(new RegExp('.{1,' + length + '}', 'g'));
}

8
この回答は3年近く経過しているので、@ Vivinによるパフォーマンステストをもう一度試したいと思いました。したがって、参考までに、与えられた正規表現を使用して10万文字を2つずつ分割することは、Chrome v33では瞬時に行われます。
aymericbeaumet

1
@Fmstrat「文字列にスペースが含まれている場合、長さに数えられない」とはどういう意味ですか?はい、.改行はまったく一致しません。それが取るように私は答えを更新する\n\r、アカウントに。
Vivin Paliath、2015

2
のようなものvar chunks = str.split("").reverse().join().match(/.{1, 4}/).map(function(s) { return s.split("").reverse().join(); });。これは、4のチャンクで行われます。「以下」または「それ以上」の意味がわかりません。これは一般的には機能しないことに注意してください。特に、結合文字を含み、Unicode文字列を壊す可能性のある文字列の場合はそうです。
Vivin Paliath、2015年

2
developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/…によると、改行を含む任意の文字をと照合できます[^]。これであなたの例はstr.match(/[^]{1,n}/g)
Francesc Rosas

1
jsperfのパフォーマンスベンチマークで本当に高速な文字列チャンクを探している人は、私の答えを参照してください。正規表現の使用は、すべての中で最も遅いチャンク方式です。
ジャスティンウォーケンティン16

34

jsPerfで確認できる、より高速なバリアントをいくつか作成しました。私のお気に入りはこれです:

function chunkSubstr(str, size) {
  const numChunks = Math.ceil(str.length / size)
  const chunks = new Array(numChunks)

  for (let i = 0, o = 0; i < numChunks; ++i, o += size) {
    chunks[i] = str.substr(o, size)
  }

  return chunks
}

2
したがって、これは長い文字列(約800k〜9mの文字)でうまく機能しました。ただし、何らかの理由で最後のチャンクが返されなかったためにサイズを20に設定した場合は例外です。非常に奇妙な動作です。
デビッド

1
@DavidAnderton良いキャッチ。私はそれを修正しました、そして興味深いことに、それはさらに速く走るようです。Math.ceil()チャンクの正しい数を決定するために行われるべきだったとき、それは丸めでした。
Justin Warkentin、2016年

1
ありがとう!私はオプションのUnicodeサポートを備えたNPMモジュールとして彼をまとめました-github.com/vladgolubev/fast-chunk-string
Vlad Holubiev

33

結論:

  • match非常に非効率的でsliceあり、より優れています。Firefoxではsubstr/ substringより優れています。
  • match 短い文字列の場合はさらに非効率的です(正規表現がキャッシュされている場合でも、おそらく正規表現解析のセットアップ時間が原因です)。
  • match チャンクサイズが大きい場合はさらに非効率的です(おそらく「ジャンプ」できないため)
  • チャンクサイズが非常に小さい長い文字列の場合、古いIE でmatchパフォーマンスsliceは向上しますが、他のすべてのシステムでは依然として失われます
  • jsperf rocks

19

これは高速で簡単なソリューションです-

function chunkString (str, len) {
  const size = Math.ceil(str.length/len)
  const r = Array(size)
  let offset = 0
  
  for (let i = 0; i < size; i++) {
    r[i] = str.substr(offset, len)
    offset += len
  }
  
  return r
}

console.log(chunkString("helloworld", 3))
// => [ "hel", "low", "orl", "d" ]

// 10,000 char string
const bigString = "helloworld".repeat(1000)
console.time("perf")
const result = chunkString(bigString, 3)
console.timeEnd("perf")
console.log(result)
// => perf: 0.385 ms
// => [ "hel", "low", "orl", "dhe", "llo", "wor", ... ]


1
substr()代わりに使用する必要がありますsubstring()
Leif

2
気になるのは、なぜ変数名にアンダースコアが使用されているのですか?
フェリペヴァルデス

@FelipeValdes私はそれらをグローバル/パラメータ変数と混同しないか、またはそれらをプライベートスコープとして示すと想定しています。
ポリワール氏、19

15

驚き!splitを使用して分割できます。

var parts = "1234567890 ".split(/(.{2})/).filter(O=>O)

結果 [ '12', '34', '56', '78', '90', ' ' ]


これが最もすばらしい答えです。
galkin

2
何のfilter (o=>o)ため?
ベン・カープ

2
現在の正規表現は、チャンク間に空の配列要素を作成します。filter(x=>x)空の要素を除外するために使用されます
artemdev

短くて賢いですが、入力に対して複数回繰り返されます。この回答は、このスレッドの他のソリューションよりも4倍以上遅いです。
ありがとう

6
@BenCarpバイクのオペレーターです。それはそれをより速くします。;)
Fozi

7
var str = "123456789";
var chunks = [];
var chunkSize = 2;

while (str) {
    if (str.length < chunkSize) {
        chunks.push(str);
        break;
    }
    else {
        chunks.push(str.substr(0, chunkSize));
        str = str.substr(chunkSize);
    }
}

alert(chunks); // chunks == 12,34,56,78,9

5

拡張関数を作成したので、チャンクの長さは[1,3]のような数値の配列にすることもできます

String.prototype.chunkString = function(len) {
    var _ret;
    if (this.length < 1) {
        return [];
    }
    if (typeof len === 'number' && len > 0) {
        var _size = Math.ceil(this.length / len), _offset = 0;
        _ret = new Array(_size);
        for (var _i = 0; _i < _size; _i++) {
            _ret[_i] = this.substring(_offset, _offset = _offset + len);
        }
    }
    else if (typeof len === 'object' && len.length) {
        var n = 0, l = this.length, chunk, that = this;
        _ret = [];
        do {
            len.forEach(function(o) {
                chunk = that.substring(n, n + o);
                if (chunk !== '') {
                    _ret.push(chunk);
                    n += chunk.length;
                }
            });
            if (n === 0) {
                return undefined; // prevent an endless loop when len = [0]
            }
        } while (n < l);
    }
    return _ret;
};

コード

"1234567890123".chunkString([1,3])

戻ります:

[ '1', '234', '5', '678', '9', '012', '3' ]

4

分割された大きな文字列を、指定された単語の小さな文字列に分割します

function chunkSubstr(str, words) {
  var parts = str.split(" ") , values = [] , i = 0 , tmpVar = "";
  $.each(parts, function(index, value) {
      if(tmpVar.length < words){
          tmpVar += " " + value;
      }else{
          values[i] = tmpVar.replace(/\s+/g, " ");
          i++;
          tmpVar = value;
      }
  });
  if(values.length < 1 &&  parts.length > 0){
      values[0] = tmpVar;
  }
  return values;
}

3
var l = str.length, lc = 0, chunks = [], c = 0, chunkSize = 2;
for (; lc < l; c++) {
  chunks[c] = str.slice(lc, lc += chunkSize);
}

2

私は正規表現を使用します...

var chunkStr = function(str, chunkLength) {
    return str.match(new RegExp('[\\s\\S]{1,' + +chunkLength + '}', 'g'));
}

1
const getChunksFromString = (str, chunkSize) => {
    var regexChunk = new RegExp(`.{1,${chunkSize}}`, 'g')   // '.' represents any character
    return str.match(regexChunk)
}

必要に応じて呼び出す

console.log(getChunksFromString("Hello world", 3))   // ["Hel", "lo ", "wor", "ld"]

1

これは、少し実験を行った後、テンプレート文字列用に思いついたソリューションです。

使用法:

chunkString(5)`testing123`

function chunkString(nSize) {
    return (strToChunk) => {
        let result = [];
        let chars = String(strToChunk).split('');

        for(let i = 0; i < (String(strToChunk).length / nSize); i++) {
            result = result.concat(chars.slice(i*nSize,(i+1)*nSize).join(''));
        }
        return result
    }
}

document.write(chunkString(5)`testing123`);
// returns: testi,ng123

document.write(chunkString(3)`testing123`);
// returns: tes,tin,g12,3


1

reduce()正規表現なしで使用できます:

(str, n) => {
  return str.split('').reduce(
    (acc, rec, index) => {
      return ((index % n) || !(index)) ? acc.concat(rec) : acc.concat(',', rec)
    },
    ''
  ).split(',')
}

reduceメソッドの使い方の例を提供してくれると助かると思います。
kiatng

0

プロトタイプ関数の形で:

String.prototype.lsplit = function(){
    return this.match(new RegExp('.{1,'+ ((arguments.length==1)?(isFinite(String(arguments[0]).trim())?arguments[0]:false):1) +'}', 'g'));
}

0

これが私が使用しているコードで、String.prototype.sliceを使用しています

はい、回答が現在の標準にできるだけ近づくように試み、もちろん妥当な量のJSDOCコメントが含まれている限り、回答はかなり長くなります。ただし、いったん縮小すると、コードは828バイトになり、転送用にgzipすると、497バイトになります。

これが追加する1つのメソッドString.prototype(利用可能な場合はObject.definePropertyを使用)は次のとおりです。

  1. toChunks

機能をチェックするために、いくつかのテストが含まれています。

コードの長さがパフォーマンスに影響することを心配していますか?心配する必要はありません、http://jsperf.com/chunk-string/3

追加のコードの多くは、コードが複数のJavaScript環境で同じように応答するようにするためのものです。

/*jslint maxlen:80, browser:true, devel:true */

/*
 * Properties used by toChunks.
 */

/*property
    MAX_SAFE_INTEGER, abs, ceil, configurable, defineProperty, enumerable,
    floor, length, max, min, pow, prototype, slice, toChunks, value,
    writable
*/

/*
 * Properties used in the testing of toChunks implimentation.
 */

/*property
    appendChild, createTextNode, floor, fromCharCode, getElementById, length,
    log, pow, push, random, toChunks
*/

(function () {
    'use strict';

    var MAX_SAFE_INTEGER = Number.MAX_SAFE_INTEGER || Math.pow(2, 53) - 1;

    /**
     * Defines a new property directly on an object, or modifies an existing
     * property on an object, and returns the object.
     *
     * @private
     * @function
     * @param {Object} object
     * @param {string} property
     * @param {Object} descriptor
     * @return {Object}
     * @see https://goo.gl/CZnEqg
     */
    function $defineProperty(object, property, descriptor) {
        if (Object.defineProperty) {
            Object.defineProperty(object, property, descriptor);
        } else {
            object[property] = descriptor.value;
        }

        return object;
    }

    /**
     * Returns true if the operands are strictly equal with no type conversion.
     *
     * @private
     * @function
     * @param {*} a
     * @param {*} b
     * @return {boolean}
     * @see http://www.ecma-international.org/ecma-262/5.1/#sec-11.9.4
     */
    function $strictEqual(a, b) {
        return a === b;
    }

    /**
     * Returns true if the operand inputArg is undefined.
     *
     * @private
     * @function
     * @param {*} inputArg
     * @return {boolean}
     */
    function $isUndefined(inputArg) {
        return $strictEqual(typeof inputArg, 'undefined');
    }

    /**
     * The abstract operation throws an error if its argument is a value that
     * cannot be converted to an Object, otherwise returns the argument.
     *
     * @private
     * @function
     * @param {*} inputArg The object to be tested.
     * @throws {TypeError} If inputArg is null or undefined.
     * @return {*} The inputArg if coercible.
     * @see https://goo.gl/5GcmVq
     */
    function $requireObjectCoercible(inputArg) {
        var errStr;

        if (inputArg === null || $isUndefined(inputArg)) {
            errStr = 'Cannot convert argument to object: ' + inputArg;
            throw new TypeError(errStr);
        }

        return inputArg;
    }

    /**
     * The abstract operation converts its argument to a value of type string
     *
     * @private
     * @function
     * @param {*} inputArg
     * @return {string}
     * @see https://people.mozilla.org/~jorendorff/es6-draft.html#sec-tostring
     */
    function $toString(inputArg) {
        var type,
            val;

        if (inputArg === null) {
            val = 'null';
        } else {
            type = typeof inputArg;
            if (type === 'string') {
                val = inputArg;
            } else if (type === 'undefined') {
                val = type;
            } else {
                if (type === 'symbol') {
                    throw new TypeError('Cannot convert symbol to string');
                }

                val = String(inputArg);
            }
        }

        return val;
    }

    /**
     * Returns a string only if the arguments is coercible otherwise throws an
     * error.
     *
     * @private
     * @function
     * @param {*} inputArg
     * @throws {TypeError} If inputArg is null or undefined.
     * @return {string}
     */
    function $onlyCoercibleToString(inputArg) {
        return $toString($requireObjectCoercible(inputArg));
    }

    /**
     * The function evaluates the passed value and converts it to an integer.
     *
     * @private
     * @function
     * @param {*} inputArg The object to be converted to an integer.
     * @return {number} If the target value is NaN, null or undefined, 0 is
     *                   returned. If the target value is false, 0 is returned
     *                   and if true, 1 is returned.
     * @see http://www.ecma-international.org/ecma-262/5.1/#sec-9.4
     */
    function $toInteger(inputArg) {
        var number = +inputArg,
            val = 0;

        if ($strictEqual(number, number)) {
            if (!number || number === Infinity || number === -Infinity) {
                val = number;
            } else {
                val = (number > 0 || -1) * Math.floor(Math.abs(number));
            }
        }

        return val;
    }

    /**
     * The abstract operation ToLength converts its argument to an integer
     * suitable for use as the length of an array-like object.
     *
     * @private
     * @function
     * @param {*} inputArg The object to be converted to a length.
     * @return {number} If len <= +0 then +0 else if len is +INFINITY then
     *                   2^53-1 else min(len, 2^53-1).
     * @see https://people.mozilla.org/~jorendorff/es6-draft.html#sec-tolength
     */
    function $toLength(inputArg) {
        return Math.min(Math.max($toInteger(inputArg), 0), MAX_SAFE_INTEGER);
    }

    if (!String.prototype.toChunks) {
        /**
         * This method chunks a string into an array of strings of a specified
         * chunk size.
         *
         * @function
         * @this {string} The string to be chunked.
         * @param {Number} chunkSize The size of the chunks that the string will
         *                           be chunked into.
         * @returns {Array} Returns an array of the chunked string.
         */
        $defineProperty(String.prototype, 'toChunks', {
            enumerable: false,
            configurable: true,
            writable: true,
            value: function (chunkSize) {
                var str = $onlyCoercibleToString(this),
                    chunkLength = $toInteger(chunkSize),
                    chunked = [],
                    numChunks,
                    length,
                    index,
                    start,
                    end;

                if (chunkLength < 1) {
                    return chunked;
                }

                length = $toLength(str.length);
                numChunks = Math.ceil(length / chunkLength);
                index = 0;
                start = 0;
                end = chunkLength;
                chunked.length = numChunks;
                while (index < numChunks) {
                    chunked[index] = str.slice(start, end);
                    start = end;
                    end += chunkLength;
                    index += 1;
                }

                return chunked;
            }
        });
    }
}());

/*
 * Some tests
 */

(function () {
    'use strict';

    var pre = document.getElementById('out'),
        chunkSizes = [],
        maxChunkSize = 512,
        testString = '',
        maxTestString = 100000,
        chunkSize = 0,
        index = 1;

    while (chunkSize < maxChunkSize) {
        chunkSize = Math.pow(2, index);
        chunkSizes.push(chunkSize);
        index += 1;
    }

    index = 0;
    while (index < maxTestString) {
        testString += String.fromCharCode(Math.floor(Math.random() * 95) + 32);
        index += 1;
    }

    function log(result) {
        pre.appendChild(document.createTextNode(result + '\n'));
    }

    function test() {
        var strLength = testString.length,
            czLength = chunkSizes.length,
            czIndex = 0,
            czValue,
            result,
            numChunks,
            pass;

        while (czIndex < czLength) {
            czValue = chunkSizes[czIndex];
            numChunks = Math.ceil(strLength / czValue);
            result = testString.toChunks(czValue);
            czIndex += 1;
            log('chunksize: ' + czValue);
            log(' Number of chunks:');
            log('  Calculated: ' + numChunks);
            log('  Actual:' + result.length);
            pass = result.length === numChunks;
            log(' First chunk size: ' + result[0].length);
            pass = pass && result[0].length === czValue;
            log(' Passed: ' + pass);
            log('');
        }
    }

    test();
    log('');
    log('Simple test result');
    log('abcdefghijklmnopqrstuvwxyz'.toChunks(3));
}());
<pre id="out"></pre>


0

slice()メソッドの使用:

function returnChunksArray(str, chunkSize) {
  var arr = [];
  while(str !== '') {
    arr.push(str.slice(0, chunkSize));
    str = str.slice(chunkSize);
  }
  return arr;
}

substring()メソッドを使用しても同じことができます。

function returnChunksArray(str, chunkSize) {
  var arr = [];
  while(str !== '') {
    arr.push(str.substring(0, chunkSize));
    str = str.substring(chunkSize);
  }
  return arr;
}

0

上記の解決策の私の問題は、文中の位置に関係なく、文字列を正式なサイズのチャンクに分割することです。

次の方が良いアプローチだと思います。いくつかのパフォーマンスの調整が必要ですが:

 static chunkString(str, length, size,delimiter='\n' ) {
        const result = [];
        for (let i = 0; i < str.length; i++) {
            const lastIndex = _.lastIndexOf(str, delimiter,size + i);
            result.push(str.substr(i, lastIndex - i));
            i = lastIndex;
        }
        return result;
    }

0

あなたは間違いなく次のようなことをすることができます

let pieces = "1234567890 ".split(/(.{2})/).filter(x => x.length == 2);

これを取得するには:

[ '12', '34', '56', '78', '90' ]

チャンクのサイズを動的に入力/調整してチャンクのサイズをnにするには、次のようにします。

n = 2;
let pieces = "1234567890 ".split(new RegExp("(.{"+n.toString()+"})")).filter(x => x.length == n);

元の文字列ですべての可能なサイズnチャンクを見つけるには、次のことを試してください。

let subs = new Set();
let n = 2;
let str = "1234567890 ";
let regex = new RegExp("(.{"+n.toString()+"})");     //set up regex expression dynamically encoded with n

for (let i = 0; i < n; i++){               //starting from all possible offsets from position 0 in the string
    let pieces = str.split(regex).filter(x => x.length == n);    //divide the string into chunks of size n...
    for (let p of pieces)                 //...and add the chunks to the set
        subs.add(p);
    str = str.substr(1);    //shift the string reading frame
}

あなたは次のようになるはずです:

[ '12', '23', '34', '45', '56', '67', '78', '89', '90', '0 ' ]

-1
    window.format = function(b, a) {
        if (!b || isNaN(+a)) return a;
        var a = b.charAt(0) == "-" ? -a : +a,
            j = a < 0 ? a = -a : 0,
            e = b.match(/[^\d\-\+#]/g),
            h = e && e[e.length - 1] || ".",
            e = e && e[1] && e[0] || ",",
            b = b.split(h),
            a = a.toFixed(b[1] && b[1].length),
            a = +a + "",
            d = b[1] && b[1].lastIndexOf("0"),
            c = a.split(".");
        if (!c[1] || c[1] && c[1].length <= d) a = (+a).toFixed(d + 1);
        d = b[0].split(e);
        b[0] = d.join("");
        var f = b[0] && b[0].indexOf("0");
        if (f > -1)
            for (; c[0].length < b[0].length - f;) c[0] = "0" + c[0];
        else +c[0] == 0 && (c[0] = "");
        a = a.split(".");
        a[0] = c[0];
        if (c = d[1] && d[d.length -
                1].length) {
            for (var d = a[0], f = "", k = d.length % c, g = 0, i = d.length; g < i; g++) f += d.charAt(g), !((g - k + 1) % c) && g < i - c && (f += e);
            a[0] = f
        }
        a[1] = b[1] && a[1] ? h + a[1] : "";
        return (j ? "-" : "") + a[0] + a[1]
    };

var str="1234567890";
var formatstr=format( "##,###.", str);
alert(formatstr);


This will split the string in reverse order with comma separated after 3 char's. If you want you can change the position.

-1

この小さなコードはどうですか?

function splitME(str, size) {
    let subStr = new RegExp('.{1,' + size + '}', 'g');
    return str.match(subStr);
};

-2
function chunkString(str, length = 10) {
    let result = [],
        offset = 0;
    if (str.length <= length) return result.push(str) && result;
    while (offset < str.length) {
        result.push(str.substr(offset, length));
        offset += length;
    }
    return result;
}

4
あなたの回答には、他の回答と比較して新しいものは何も追加されておらず、他の回答のような説明はありません。
2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.