64

π（N）素数の数未満またはそれに等しいN。

入力：自然数、nは。

出力： π（n）。

スコアリング：これは最速のコードチャレンジです。スコアは、スコアケースの時間の合計になります。コンピューター上の各エントリーの時間を計ります。

ルールと詳細

あなたのコードは、のために働く必要がありますnは 20億（2,000,000,000）まで。
これを単純化するビルトインは許可されていません。これには、組み込みのπ関数またはπ（n）の値のリストが含まれます。
素数性をテストしたり、素数を生成したりするビルトインは許可されていません。これには素数のリストが含まれますが、次の箇条書きに関する場合を除き、外部から検索したり、ローカルでハードコーディングしたりすることはできません。
19以下の素数をハードコーディングできます。
πの実装は決定的でなければなりません。これは、特定のnを指定すると、コードが（ほぼ）同じ時間で実行されることを意味します。
使用する言語は、Linux（Centos 7）で自由に使用できる必要があります。コードの実行方法に関する指示を含める必要があります。必要に応じて、コンパイラ/インタープリターの詳細を含めます。
公式の時間は私のコンピューターからです。
投稿するときは、コードの実行速度の推定値を提供するために、テスト/スコアの一部またはすべてのケースで自己測定時間を含めてください。
提出物は、この質問に対する回答投稿に収まらなければなりません。
64bit centos7を実行しています。8GBのRAMと1GBのスワップしかありません。CPUモデルは次のとおりです。AMDFX（tm）-6300 6コアプロセッサ。

テストケース（ソース）：

Input        Output
90           24
3000         430
9000         1117
4000000      283146           <--- input = 4*10^6
800000000    41146179         <--- input = 9*10^8
1100000000   55662470         <--- input = 1.1*10^9

スコアケース（同じソース）

いつものように、これらのケースは変更される可能性があります。スコアリングケースの最適化は許可されていません。また、妥当な実行時間と正確な結果のバランスを取るために、ケースの数を変更する場合があります。

Input        Output
1907000000   93875448         <--- input = 1.907*10^9
1337000000   66990613         <--- input = 1.337*10^9
1240000000   62366021         <--- input = 1.24*10^9
660000000    34286170         <--- input = 6.6*10^8
99820000     5751639          <--- input = 9.982*10^7
40550000     2465109          <--- input = 4.055*10^7
24850000     1557132          <--- input = 2.485*10^7
41500        4339

期間

これは最速のコードチャレンジであり、エントリーはコンピューターで実行されるため、2週間後にエントリーのタイミングを停止する権利を留保します。この時点以降、エントリは引き続き受け入れられますが、正式に時間切れになる保証はありません。

これを言って、私はこの挑戦に対するあまり多くの答えを期待しません、そして、私は無期限に新しい答えを時間を計り続けるでしょう。

スコアリングの詳細

次のスクリプトを使用して、より高速なエントリの時間を計りました。

#!/bin/bash

a=(1907000000 1337000000 1240000000 660000000 99820000 40550000 24850000 41500)

echo DennisC
exec 2>> times/dennisc.txt
time for j in ${a[@]}; do ./dennisc $j; done >> /dev/null;

echo DennisPy
exec 2>> times/dennispy.txt
time for j in ${a[@]}; do pypy dennispy.py <<< $j; done >> /dev/null;

echo arjandelumens
exec 2>> times/arjandelumens.txt
time for j in ${a[@]}; do ./arjandelumens $j; done >> /dev/null;

echo orlp
exec 2>> times/orlp.txt
time for j in ${a[@]}; do ./orlp $j; done >> /dev/null;

# echo mwr247
# time node-v4.3.1-linux-x64/bin/node mwr247.js

# mwr247 using js seems a bit longer, so I am going to run the fastest
# and then come back to his. 

# mwr247 provided a function, so I appended
# console.log( F( <argument> ) )
# to his code, for each argument.

timeに書き込みますstderrので、私はstderrを使用してログファイルに送信しましたexec 2 >> <filename>。にstdout送信されることに気付くかもしれません/dev/null。プログラムが正しい出力を生成していることをすでに確認しているため、これは問題ではありません。

上記のtimeall.shスクリプトを10回実行しましたfor i in {1..10}; do ./timeall.sh; done;

次にreal time、各エントリのスコアを平均しました。

タイミングを計っている間、他のプログラムが私のコンピューターで実行されていなかったことに注意してください。

また、公式の時間が各エントリに追加されています。あなた自身の平均を再確認してください。

— リアム
ソース

pi（n）の最初の2e9値を持つルックアップテーブルを使用できないのはなぜですか？それは受け入れられますか？（しかし、それがどれくらいの速さになるかはわかりません。大きなテーブルになるからです）

— ルイスメンドー

@DonMuesliそれは受け入れられないだろう（挑戦の精神に反する）、私もそれを明示的に禁止するように編集した。

— リアム

8

チャレンジの「精神」に言及することは危険です。あなたの「精神に反する」は他の誰かの「偉大なトリック」かもしれません:-)それを明確にした方が良いです

— ルイスメンドー

1

ビルトインとは何ですか？ライブラリにプライムのリスト関数があります。使用してもいいですか？そうでない場合は、プログラムのライブラリのソースコードをコピーして使用できますか？

— nimi

1

@Liam：はい、知っていますが、何がビルトインとしてカウントされますか？ライブラリからソースコードをコピーするのは組み込みですか？

— -nimi

119

C、0.026119秒（2016年3月12日）

#include <math.h>
#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>

#define cache_size 16384
#define Phi_prec_max (47 * a)

#define bit(k) (1ULL << ((k) & 63))
#define word(k) sieve[(k) >> 6]
#define sbit(k) ((word(k >> 1) >> (k >> 1)) & 1)
#define ones(k) (~0ULL >> (64 - (k)))
#define m2(k) ((k + 1) / 2)
#define max(a, b) ((a) > (b) ? (a) : (b))
#define min(a, b) ((a) < (b) ? (a) : (b))
#define ns(t) (1000000000 * t.tv_sec + t.tv_nsec)
#define popcnt __builtin_popcountll

#define mask_build(i, p, o, m) mask |= m << i, i += o, i -= p * (i >= p)
#define Phi_prec_bytes ((m2(Phi_prec_max) + 1) * sizeof(int16_t))
#define Phi_prec(i, j) Phi_prec_pointer[(j) * (m2(Phi_prec_max) + 1) + (i)]
#define Phi_6_next ((i / 1155) * 480 + Phi_5[i % 1155] - Phi_5[(i + 6) / 13])
#define Phi_6_upd_1() t = Phi_6_next, i += 1, *(l++) = t
#define Phi_6_upd_2() t = Phi_6_next, i += 2, *(l++) = t, *(l++) = t
#define Phi_6_upd_3() t = Phi_6_next, i += 3, *(l++) = t, *(l++) = t, *(l++) = t

typedef unsigned __int128 uint128_t;
struct timespec then, now;
uint64_t a, primes[4648] = { 2, 3, 5, 7, 11, 13, 17, 19 }, *primes_fastdiv;
uint16_t *Phi_6, *Phi_prec_pointer;

inline uint64_t Phi_6_mod(uint64_t y)
{
    if (y < 30030)
        return Phi_6[m2(y)];
    else
        return (y / 30030) * 5760 + Phi_6[m2(y % 30030)];
}

inline uint64_t fastdiv(uint64_t dividend, uint64_t fast_divisor)
{
    return ((uint128_t) dividend * fast_divisor) >> 64;
}

uint64_t Phi(uint64_t y, uint64_t c)
{
    uint64_t *d = primes_fastdiv, i = 0, r = Phi_6_mod(y), t = y / 17;

    r -= Phi_6_mod(t), t = y / 19;

    while (i < c && t > Phi_prec_max) r -= Phi(t, i++), t = fastdiv(y, *(d++));

    while (i < c && t) r -= Phi_prec(m2(t), i++), t = fastdiv(y, *(d++));

    return r;
}

uint64_t Phi_small(uint64_t y, uint64_t c)
{
    if (!c--) return y;

    return Phi_small(y, c) - Phi_small(y / primes[c], c);
}

uint64_t pi_small(uint64_t y)
{
    uint64_t i, r = 0;

    for (i = 0; i < 8; i++) r += (primes[i] <= y);

    for (i = 21; i <= y; i += 2)
        r += i % 3 && i % 5 && i % 7 && i % 11 && i % 13 && i % 17 && i % 19;

    return r;
}

int output(int result)
{
    clock_gettime(CLOCK_REALTIME, &now);
    printf("pi(x) = %9d    real time:%9ld ns\n", result , ns(now) - ns(then));

    return 0;
}

int main(int argc, char *argv[])
{
    uint64_t b, i, j, k, limit, mask, P2, *p, start, t = 8, x = atoi(argv[1]);
    uint64_t root2 = sqrt(x), root3 = pow(x, 1./3), top = x / root3 + 1;
    uint64_t halftop = m2(top), *sieve, sieve_length = (halftop + 63) / 64;
    uint64_t i3 = 1, i5 = 2, i7 = 3, i11 = 5, i13 = 6, i17 = 8, i19 = 9;
    uint16_t Phi_3[] = { 0, 1, 1, 1, 2, 2, 3, 4, 4, 5, 6, 6, 7, 7, 7, 8 };
    uint16_t *l, *m, Phi_4[106], Phi_5[1156];

    clock_gettime(CLOCK_REALTIME, &then);

    sieve = malloc(sieve_length * sizeof(int64_t));

    if (x < 529) return output(pi_small(x));

    for (i = 0; i < sieve_length; i++)
    {
        mask  = 0;

        mask_build( i3,  3,  2, 0x9249249249249249ULL);
        mask_build( i5,  5,  1, 0x1084210842108421ULL);
        mask_build( i7,  7,  6, 0x8102040810204081ULL);
        mask_build(i11, 11,  2, 0x0080100200400801ULL);
        mask_build(i13, 13,  1, 0x0010008004002001ULL);
        mask_build(i17, 17,  4, 0x0008000400020001ULL);
        mask_build(i19, 19, 12, 0x0200004000080001ULL);

        sieve[i] = ~mask;
    }

    limit = min(halftop, 8 * cache_size);

    for (i = 21; i < root3; i += 2)
        if (sbit(i))
            for (primes[t++] = i, j = i * i / 2; j < limit; j += i)
                word(j) &= ~bit(j);

    a = t;

    for (i = root3 | 1; i < root2 + 1; i += 2)
        if (sbit(i)) primes[t++] = i;

    b = t;

    while (limit < halftop)
    {
        start = 2 * limit + 1, limit = min(halftop, limit + 8 * cache_size);

        for (p = &primes[8]; p < &primes[a]; p++)
            for (j = max(start / *p | 1, *p) * *p / 2; j < limit; j += *p)
                word(j) &= ~bit(j);
    }

    P2 = (a - b) * (a + b - 1) / 2;

    for (i = m2(root2); b --> a; P2 += t, i = limit)
    {
        limit = m2(x / primes[b]), j = limit & ~63;

        if (i < j)
        {
            t += popcnt((word(i)) >> (i & 63)), i = (i | 63) + 1;

            while (i < j) t += popcnt(word(i)), i += 64;

            if (i < limit) t += popcnt(word(i) & ones(limit - i));
        }
        else if (i < limit) t += popcnt((word(i) >> (i & 63)) & ones(limit - i));
    }

    if (a < 7) return output(Phi_small(x, a) + a - 1 - P2);

    a -= 7, Phi_6 = malloc(a * Phi_prec_bytes + 15016 * sizeof(int16_t));
    Phi_prec_pointer = &Phi_6[15016];

    for (i = 0; i <= 105; i++)
        Phi_4[i] = (i / 15) * 8 + Phi_3[i % 15] - Phi_3[(i + 3) / 7];

    for (i = 0; i <= 1155; i++)
        Phi_5[i] = (i / 105) * 48 + Phi_4[i % 105] - Phi_4[(i + 5) / 11];

    for (i = 1, l = Phi_6, *l++ = 0; i <= 15015; )
    {
        Phi_6_upd_3(); Phi_6_upd_2(); Phi_6_upd_1(); Phi_6_upd_2();
        Phi_6_upd_1(); Phi_6_upd_2(); Phi_6_upd_3(); Phi_6_upd_1();
    }

    for (i = 0; i <= m2(Phi_prec_max); i++)
        Phi_prec(i, 0) = Phi_6[i] - Phi_6[(i + 8) / 17];

    for (j = 1, p = &primes[7]; j < a; j++, p++)
    {
        i = 1, memcpy(&Phi_prec(0, j), &Phi_prec(0, j - 1), Phi_prec_bytes);
        l = &Phi_prec(*p / 2 + 1, j), m = &Phi_prec(m2(Phi_prec_max), j) - *p;

        while (l <= m)
            for (k = 0, t = Phi_prec(i++, j - 1); k < *p; k++) *(l++) -= t;

        t = Phi_prec(i++, j - 1);

        while (l <= m + *p) *(l++) -= t;
    }

    primes_fastdiv = malloc(a * sizeof(int64_t));

    for (i = 0, p = &primes[8]; i < a; i++, p++)
    {
        t = 96 - __builtin_clzll(*p);
        primes_fastdiv[i] = (bit(t) / *p + 1) << (64 - t);
    }

    return output(Phi(x, a) + a + 6 - P2);
}

これは、Meissel-Lehmerメソッドを使用します。

タイミング

私のマシンでは、組み合わせたテストケースで約5.7ミリ秒を取得しています。これは、1867 MHzのDDR3 RAMを搭載し、openSUSE 13.2を実行しているIntel Core i7-3770上にあります。

$ ./timepi '-march=native -O3' pi 1000
pi(x) =  93875448    real time:  2774958 ns
pi(x) =  66990613    real time:  2158491 ns
pi(x) =  62366021    real time:  2023441 ns
pi(x) =  34286170    real time:  1233158 ns
pi(x) =   5751639    real time:   384284 ns
pi(x) =   2465109    real time:   239783 ns
pi(x) =   1557132    real time:   196248 ns
pi(x) =      4339    real time:    60597 ns

0.00572879 s

分散が大きくなりすぎたため、プログラム内から非公式の実行時間のタイミングを使用しています。これは、組み合わされた実行時間の平均を計算したスクリプトです。

#!/bin/bash

all() { for j in ${a[@]}; do ./$1 $j; done; }

gcc -Wall $1 -lm -o $2 $2.c

a=(1907000000 1337000000 1240000000 660000000 99820000 40550000 24850000 41500)

all $2

r=$(seq 1 $3)

for i in $r; do all $2; done > times

awk -v it=$3 '{ sum += $6 } END { print "\n" sum / (1e9 * it) " s" }' times

rm times

公式回

今回は、スコアケースを1000回行うためのものです。

real    0m28.006s
user    0m15.703s
sys 0m14.319s

使い方

式

ましょう正の整数です。 $x$

各正の整数が下記の条件のうちの正確に1つ。 $n \le x$

$n = 1$
素数で割り切れるにおける $n$ $p$ 。 $[1, \sqrt[3]{x}]$
$n = pq$ $p$ $q$ $(\sqrt[3]{x}, \sqrt[3]{x^2})$
$n$ $n > \sqrt[3]{x}$

$\pi(y)$ $p$ $p \le y$ $\pi(x) - \pi(\sqrt[3]{x})$

$P_k(y, c)$ $m \le y$ $k$ $c$ $P_2(x, \pi(\sqrt[3]{x}))$

$\phi(y, c)$ $k \le y$ $c$ $x - \phi(x, \pi(\sqrt[3]{x}))$

$x$

1 + x - ϕ (x, π (\sqrt[3]{x})) + P_{2} (x, π (\sqrt[3]{x})) + π (x) - π (\sqrt[3]{x}) = x

$1 + x - \phi(x, \pi(\sqrt[3]{x})) + P_2(x, \pi(\sqrt[3]{x})) + \pi(x) - \pi(\sqrt[3]{x}) = x$

したがって、

π (x) = ϕ (x, π (\sqrt[3]{x})) + π (\sqrt[3]{x}) - 1 - P_{2} (x, π (\sqrt[3]{x}))

$\pi(x) = \phi(x, \pi(\sqrt[3]{x})) + \pi(\sqrt[3]{x}) - 1 - P_2(x, \pi(\sqrt[3]{x}))$

$p \le q$ $p \le \sqrt{x}$ $p$ $q$ $\sqrt[3]{x} < p \le q \le \frac{x}{p}$ $\pi(\frac{x}{p}) - \pi(p) + 1$ $q$ $p$ $P_2(x, \pi(\sqrt[3]{x})) = \sum_{\pi(\sqrt[3]{x}) < k \le \pi(\sqrt{x})} (\pi(\frac{x}{p_k}) - \pi(p_k) + 1)$ $p_k$ $k^{\text{th}}$

$n \le y$ $c$ $n = p_kf$ $p_k$ $n$ $k \le c$ $f$ $k - 1$

$\phi(y, c) = y - \sum_{1 \le k \le c} \phi(\frac{y}{p_k}, k - 1)$ $c = 0$ $\phi(y, 0) = y$

$\pi(x)$ $\pi(\sqrt[3]{x^2})$

アルゴリズム

を計算する必要があります $\pi(\frac{x}{p})$ $p$ $\sqrt[3]{x}$ $\sqrt[3]{x^2}$

$[1, \sqrt{x}]$ $\pi(\sqrt[3]{x})$ $\pi(\sqrt{x})$ $\frac{x}{p_k}$ $k$ $(\pi(\sqrt[3]{x}), \pi(\sqrt{x})]$

$\sum_{\pi(\sqrt[3]{x}) < k \le \pi(\sqrt{x})} (-\pi(p_k) + 1)$ $\frac{\pi(\sqrt[3]{x}) - \pi(\sqrt{x}))(\pi(\sqrt[3]x) + \pi(\sqrt{x}) - 1}{2}$ $P_2(x, \pi(\sqrt[3]{x}))$

$\phi$ $2^c$ $\phi(y, c)$

$\phi(0, c) = 0$ $c$ $\phi(y, c) = y - \sum_{1 \le k \le c, p_k \le y} \phi(\frac{y}{p_k}, k - 1)$ $2 \cdot 10^9$

$y$ $c'$ $\phi$ $\phi(y, c) = \phi(y, c') - \sum_{c' < k \le c, p_k \le y} \phi(\frac{y}{p_k}, k - 1)$ $\phi(y, c')$ $c'$ $y$

$m_c = \prod_{1 \le k \le c} p_k$ $\phi(m_c, c) = \varphi(m_c)$ $[1, m_c]$ $p_1, \cdots, p_c$ $m_c$ $\gcd(z + m_c, m_c) = \gcd(z, m_c)$ $\phi(y, c) = \phi(\lfloor \frac{y}{m_c} \rfloor m_c, c) + \phi(y % m_c, c) = \lfloor \frac{y}{m_c} \rfloor \varphi(m_c) + \phi(y % m_c, c)$

$\varphi(m_c) = \prod_{1 \le k \le c} \varphi(p_k) = \prod_{1 \le k \le c} (p_k - 1)$ $\phi(y, c)$ $y$ $y$ $[0, m_c)$

$c' = c - 1$ $\phi(y, c) = \phi(y, c - 1) - \phi(\frac{y}{p_c}, c - 1)$ $\phi(y, c)$ $c$

$\phi(y, c)$ $c$ $y$

実装

前のセクションでは、コードの大部分について説明しました。残っている重要な詳細の1つは、関数の除算のPhi実行方法です。

$\phi$ $\pi(\sqrt[3]{x})$ fastdiv $y$ $p$ $y$ $d_p \approx \frac{2^{64}}{p}$ $\frac{y}{p}$ $\frac{d_py}{2^{64}}$ $2^{64}$ $d_py$

$d_p$ $\frac{y}{p}$

— デニス
ソース

22

単にデニスを追い越していないのですか？

— アディソンクランプ

8

正直なところ、これがどれほど速いか信じられません。何が起こっているのかを理解する時間がありませんでしたが、本当に必要です。

— リアム

27

@Liamこれがどのように機能するかを完全に説明するつもりですが、私はまだそれをスピードアップしようとしています。今、PPCGにLaTeXがあればいいのに...-

— デニス

15

おもしろい注意：（私のマシンでは）これは現在githubのprimecount C ++ライブラリでMathematicaの組み込みとkimwalischの両方を破っていますが、現在そうしている唯一のエントリです。

— マイケルクライン

10

@TheNumberOneはそれについて彼に言わないでください...他の人々は彼を打ち負かすためにそれを必要とするかもしれません

— リアム

24

C99 / C ++、8.9208s（2016年2月28日）

#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <string.h>

uint64_t popcount( uint64_t v )
    {
    v = (v & 0x5555555555555555ULL) + ((v>>1) & 0x5555555555555555ULL);
    v = (v & 0x3333333333333333ULL) + ((v>>2) & 0x3333333333333333ULL);
    v = (v & 0x0F0F0F0F0F0F0F0FULL) + ((v>>4) & 0x0F0F0F0F0F0F0F0FULL);
    v *= 0x0101010101010101ULL;
    return v >> 56;
    }

#define PPROD  3*5*7

int primecount( int limit )
    {
    int i,j;
    int reps = (limit-1)/(64*PPROD) + 1;
    int mod_limit = reps * (64*PPROD);
    int seek_limit = (int)ceil( sqrt(limit) );
    int primecount = 0;
    int slice_count = limit/250000 + 1;

    uint8_t *buf = (uint8_t *)malloc( mod_limit/8 + seek_limit);
    int *primes = (int *)malloc(seek_limit*sizeof(int));

    // initialize a repeating bit-pattern to fill our sieve-memory with
    uint64_t v[PPROD];
    memset(v, 0, sizeof(v) );
    for(i=0;i<(64*PPROD);i++)
        for(j=2;j<=7;j++)
            if( i % j == 0 )
                v[ i >> 6 ] |= 1ULL << (i & 0x3F);

    for(i=0; i<reps; i++)
        memcpy( buf + 8*PPROD*i, v, 8*PPROD );

    // use naive E-sieve to get hold of all primes to test for
    for(i=11;i<seek_limit;i+=2)
        {
        if( (buf[i >> 3] & (1 << (i & 7)) ) == 0 )
            {
            primes[primecount++] = i;
            for(j=3*i;j<seek_limit;j += 2*i )
                buf[j >> 3] |= (1 << (j&7) );
            }
        }

    // fill up whole E-sieve. Use chunks of about 30 Kbytes
    // so that the chunk of E-sieve we're working on
    // can fit into the L1-cache.
    for(j=0;j<slice_count;j++)
        {
        int low_bound = ((uint64_t)limit * j) / slice_count;
        int high_bound = ((uint64_t)limit * (j+1)) / slice_count - 1;

        for(i=0;i<primecount;i++)
            {
            int pm = primes[i];
            // compute the first odd multiple of pm that is larger than or equal
            // to the lower bound.
            uint32_t lb2 = (low_bound + pm - 1) / pm;
            lb2 |= 1;
            if( lb2 < 3 ) lb2 = 3;
            lb2 *= pm;
            uint32_t hb2 = (high_bound / pm) * pm;

            uint32_t kt1 = ((lb2 + 2*pm) >> 3) - (lb2 >> 3);
            uint32_t kt2 = ((lb2 + 4*pm) >> 3) - (lb2 >> 3);
            uint32_t kt3 = ((lb2 + 6*pm) >> 3) - (lb2 >> 3);

            uint32_t kx0 = 1 << (lb2 & 7);
            uint32_t kx1 = 1 << ((lb2 + 2*pm) & 7);
            uint32_t kx2 = 1 << ((lb2 + 4*pm) & 7);
            uint32_t kx3 = 1 << ((lb2 + 6*pm) & 7);

            uint8_t *lb3 = buf + (lb2 >> 3);
            uint8_t *hb3 = buf + (hb2 >> 3);

            uint8_t *kp;
            for(kp=lb3; kp<=hb3; kp+=pm)
                {
                kp[0]   |= kx0;
                kp[kt1] |= kx1;
                kp[kt2] |= kx2;
                kp[kt3] |= kx3;
                }
            }
        }

    // flag tail elements to exclude them from prime-counting.
    for(i=limit;i<mod_limit;i++)
        buf[i >> 3] |= 1 << (i&7);

    int sum = 0;
    uint64_t *bufx = (uint64_t *)buf;

    for(i=0;i<mod_limit>>6;i++)
        sum += popcount( bufx[i] );

    free(buf);
    free(primes);

    return mod_limit - sum + 3;
    }


int main( int argc, char **argv)
    {
    if( argc != 2 )
        {
        printf("Please provide an argument\n");
        exit(1);
        }

    int limit = atoi( argv[1] );
    if( limit < 3 || limit > 2000000000 )
        {
        printf("Argument %d out of range\n", limit );
        exit(1);
        }

    printf("%d\n", primecount(limit) );
    }

ビットマップベースのエラストセンのふるいの実装。次の手順を実行します。

最初に、2、3、5、7の倍数をカバーするふるいを埋めるための繰り返しビットパターンを生成します
次に、sieveメソッドを使用して、sqrt（n）よりも小さいすべての素数の配列を生成します。
次に、前のステップの素数リストを使用して、ふるいに書き込みます。これは、およそL1キャッシュサイズのSieveのチャンクで行われるため、Sieve処理はL1キャッシュを絶えずスラッシングしません。これにより、チャンク化しない場合に比べて5倍の高速化がもたらされるようです。
最後に、ビットカウントを実行します。

gcc primecount.c -O3 -lm -Walli7-4970kでubuntu 15.10（64ビット）でコンパイルして実行すると、スコアケースの全セットで約2.2秒かかります。実行時間は、ステップ3が支配的です。チャンクは独立しているため、これは必要に応じてマルチスレッドにすることができます。これには、チャンク境界が適切に整列されるように注意する必要があります。

ふるいに厳密に必要なメモリよりもわずかに多くのメモリを割り当てます。これにより、ステップ3でのループの展開が適切に機能するために必要なバッファのオーバーランの余地ができます。

公式回

real    0m8.934s
user    0m8.795s
sys 0m0.150s

real    0m8.956s
user    0m8.818s
sys 0m0.150s

real    0m8.907s
user    0m8.775s
sys 0m0.145s

real    0m8.904s
user    0m8.775s
sys 0m0.141s

real    0m8.902s
user    0m8.783s
sys 0m0.132s

real    0m9.087s
user    0m8.923s
sys 0m0.176s

real    0m8.905s
user    0m8.778s
sys 0m0.140s

real    0m9.005s
user    0m8.859s
sys 0m0.158s

real    0m8.911s
user    0m8.789s
sys 0m0.135s

real    0m8.907s
user    0m8.781s
sys 0m0.138s

— アルジャンデルーメン
ソース

8

プログラミングパズルとコードゴルフへようこそ。素晴らしい最初の投稿をおめでとうございます。

— デニス

の使用を検討してください-O3 -march=native。CPUはpopcnt命令をサポートしており、コンパイラーはその純粋なC実装を認識して、単一の命令にコンパイルできる場合があります。（あるいは、__builtin_popcountllデニスの答えのように、GNU C で使用してください）。

— ピーター

-march=nativeHaswell CPUでBMI2を有効にすると、より効率的な可変カウントシフト命令が得られます。（カウントする必要があるレガシーSHLの代わりにSHLX。）OPのAMD Piledriver CPUにはBMI2はありませんが、popcntがあります。ただし、AMD CPUはIntel CPUよりも高速に可変カウントSHLを実行するため、チューニング中にBMI2でコンパイルするのが適切な場合があります。群衆追いはマイクロ最適化が行く限りハスウェルからかなり異なっている、しかしを尋ねることは良いですcl-march=native

— ピーター・コルド

12

Python 2（PyPy 4.0）、2.36961s（2016年2月29日）

def Phi(m, b):
    if not b:
        return m
    if not m:
        return 0
    if m >= 800:
        return Phi(m, b - 1) - Phi(m // primes[b - 1], b - 1)
    t = b * 800 + m
    if not Phi_memo[t]:
        Phi_memo[t] =  Phi(m, b - 1) - Phi(m // primes[b - 1], b - 1)
    return Phi_memo[t]

x = int(input())

if x < 6:
    print [0, 0, 1, 2, 2, 3][x]
    exit()

root2 = int(x ** (1./2))
root3 = int(x ** (1./3))
top = x // root3 + 1
sieve = [0, 0] + [1] * (top - 2)
pi = [0, 0]
primes = []
t = 0

for i in range(2, top):
    if sieve[i] == 1:
        t += 1
        primes.append(i)
        sieve[i::i] = [0] * len(sieve[i::i])
    pi.append(t)

a, b = pi[root3 + 1], pi[root2 + 1]
Phi_memo = [0] * ((a + 1) * 800)

print Phi(x, a) + a - 1 - sum(pi[x // p] - pi[p] + 1 for p in primes[a:b])

これは、Meissel-Lehmer法を使用します。

タイミング

$ time for i in 1.907e9 1.337e9 1.24e9 6.6e8 9.982e7 4.055e7 2.485e7 41500
> do pypy pi.py <<< $i; done
93875448
66990613
62366021
34286170
5751639
2465109
1557132
4339

real    0m1.696s
user    0m1.360s
sys     0m0.332s

公式回

同様の時間で別の答えがあったので、より正確な結果を得ることにしました。これを100回計りました。スコアは、次の時間を100で割ったものです。

real    3m56.961s
user    3m38.802s
sys 0m18.512s

— デニス
ソース

5

また、念のため、このコードは私のコードより15,102.4倍高速です。+1

— アディソンクランプ

12

Java、このマシンでは25,725.315秒

これは勝つつもりはない、私はふるいを使用しない答えを投稿したかった。

更新：これは現在、主要なスコアの約150,440.4386倍の速度でランク付けされています。彼らに賛成票を投じてください、彼らの答えは素晴らしいです。

バイトコード：

0000000: cafe babe 0000 0034 0030 0a00 0900 1709  .......4.0......
0000010: 0018 0019 0a00 1a00 1b0a 0008 001c 0a00  ................
0000020: 1d00 1e0a 0008 001f 0a00 2000 2107 0022  .......... .!.."
0000030: 0700 2301 0006 3c69 6e69 743e 0100 0328  ..#...<init>...(
0000040: 2956 0100 0443 6f64 6501 000f 4c69 6e65  )V...Code...Line
0000050: 4e75 6d62 6572 5461 626c 6501 0004 6d61  NumberTable...ma
0000060: 696e 0100 1628 5b4c 6a61 7661 2f6c 616e  in...([Ljava/lan
0000070: 672f 5374 7269 6e67 3b29 5601 0008 6e75  g/String;)V...nu
0000080: 6d50 7269 6d65 0100 0428 4929 4901 000d  mPrime...(I)I...
0000090: 5374 6163 6b4d 6170 5461 626c 6501 0007  StackMapTable...
00000a0: 6973 5072 696d 6501 0004 2849 295a 0100  isPrime...(I)Z..
00000b0: 0a53 6f75 7263 6546 696c 6501 0006 452e  .SourceFile...E.
00000c0: 6a61 7661 0c00 0a00 0b07 0024 0c00 2500  java.......$..%.
00000d0: 2607 0027 0c00 2800 290c 0010 0011 0700  &..'..(.).......
00000e0: 2a0c 002b 002c 0c00 1300 1407 002d 0c00  *..+.,.......-..
00000f0: 2e00 2f01 0001 4501 0010 6a61 7661 2f6c  ../...E...java/l
0000100: 616e 672f 4f62 6a65 6374 0100 106a 6176  ang/Object...jav
0000110: 612f 6c61 6e67 2f53 7973 7465 6d01 0003  a/lang/System...
0000120: 6f75 7401 0015 4c6a 6176 612f 696f 2f50  out...Ljava/io/P
0000130: 7269 6e74 5374 7265 616d 3b01 0011 6a61  rintStream;...ja
0000140: 7661 2f6c 616e 672f 496e 7465 6765 7201  va/lang/Integer.
0000150: 0008 7061 7273 6549 6e74 0100 1528 4c6a  ..parseInt...(Lj
0000160: 6176 612f 6c61 6e67 2f53 7472 696e 673b  ava/lang/String;
0000170: 2949 0100 136a 6176 612f 696f 2f50 7269  )I...java/io/Pri
0000180: 6e74 5374 7265 616d 0100 0770 7269 6e74  ntStream...print
0000190: 6c6e 0100 0428 4929 5601 000e 6a61 7661  ln...(I)V...java
00001a0: 2f6c 616e 672f 4d61 7468 0100 0473 7172  /lang/Math...sqr
00001b0: 7401 0004 2844 2944 0021 0008 0009 0000  t...(D)D.!......
00001c0: 0000 0004 0001 000a 000b 0001 000c 0000  ................
00001d0: 001d 0001 0001 0000 0005 2ab7 0001 b100  ..........*.....
00001e0: 0000 0100 0d00 0000 0600 0100 0000 0100  ................
00001f0: 0900 0e00 0f00 0100 0c00 0000 2c00 0300  ............,...
0000200: 0100 0000 10b2 0002 2a03 32b8 0003 b800  ........*.2.....
0000210: 04b6 0005 b100 0000 0100 0d00 0000 0a00  ................
0000220: 0200 0000 0300 0f00 0400 0a00 1000 1100  ................
0000230: 0100 0c00 0000 6600 0200 0300 0000 2003  ......f....... .
0000240: 3c03 3d1c 1aa2 0018 1b1c b800 0699 0007  <.=.............
0000250: 04a7 0004 0360 3c84 0201 a7ff e91b ac00  .....`<.........
0000260: 0000 0200 0d00 0000 1600 0500 0000 0600  ................
0000270: 0200 0700 0900 0800 1800 0700 1e00 0900  ................
0000280: 1200 0000 1800 04fd 0004 0101 5001 ff00  ............P...
0000290: 0000 0301 0101 0002 0101 fa00 0700 0a00  ................
00002a0: 1300 1400 0100 0c00 0000 9700 0300 0300  ................
00002b0: 0000 4c1a 05a2 0005 03ac 1a05 9f00 081a  ..L.............
00002c0: 06a0 0005 04ac 1a05 7099 0009 1a06 709a  ........p.....p.
00002d0: 0005 03ac 1a87 b800 078e 0460 3c10 063d  ...........`<..=
00002e0: 1c1b a300 1b1a 1c04 6470 9900 0b1a 1c04  ........dp......
00002f0: 6070 9a00 0503 ac84 0206 a7ff e604 ac00  `p..............
0000300: 0000 0200 0d00 0000 2200 0800 0000 0c00  ........".......
0000310: 0700 0d00 1300 0e00 2100 0f00 2a00 1000  ........!...*...
0000320: 3200 1100 4400 1000 4a00 1200 1200 0000  2...D...J.......
0000330: 1100 0907 0901 0b01 fd00 0b01 0114 01fa  ................
0000340: 0005 0001 0015 0000 0002 0016            ............

ソースコード：

public class E {
    public static void main(String[]args){
        System.out.println(numPrime(Integer.parseInt(args[0])));
    }
    private static int numPrime(int max) {
        int toReturn = 0;
        for (int i = 0; i < max; i++)
            toReturn += (isPrime(i))?1:0;
        return toReturn;
    }
    private static boolean isPrime(int n) {
            if(n < 2) return false;
            if(n == 2 || n == 3) return true;
            if(n%2 == 0 || n%3 == 0) return false;
            int sqrtN = (int)Math.sqrt(n)+1;
            for(int i = 6; i <= sqrtN; i += 6)
                if(n%(i-1) == 0 || n%(i+1) == 0) return false;
            return true;
    }
}

実際、オプティマイザーは時間がかかっていたことがわかりました。>。>くそ。

1000未満の入力では、コンピューターでの平均時間が.157秒かかるように見えます（クラスの読み込みloading_ಠが原因の可能性があります）が、1e7を過ぎると面倒になります。

タイミングリスト：

> time java E 41500;time java E 24850000;time java E 40550000;time java E 99820000;time java E 660000000;time java E 1240000000;time java E 1337000000;time java E 1907000000
4339

real    0m0.236s
user    0m0.112s
sys     0m0.024s
1557132

real    0m8.842s
user    0m8.784s
sys     0m0.060s
2465109

real    0m18.442s
user    0m18.348s
sys     0m0.116s
5751639

real    1m15.642s
user    1m8.772s
sys     0m0.252s
34286170

real    40m35.810s
user    16m5.240s
sys     0m5.820s
62366021

real    104m12.628s
user    39m32.348s
sys     0m13.584s
66990613

real    110m22.064s
user    42m28.092s
sys     0m11.320s
93875448

real    171m51.650s
user    68m39.968s
sys     0m14.916s

— アディソン・クランプ
ソース

11

Javaは現在、一貫した100％CPUで実行されています。これは完全に効率的です、あなたは何について話しているのですか？

— アディソンクランプ

java（C / C ++> java）の使用方法に関するチュートリアルを終了してもらえますか。私はjavac voteToClose.java（クラスの名前を変更した）でコンパイルし、その後何をしますか？

— リアム

@リアムjava voteToClose <input>

— アディソンクランプ

1

待って...なぜバイトコードは言うのcafe babeですか？

— チョイス

12

@CyoceすべてのJavaクラスファイルは、0xCAFEBABEで始まります。

— アディソンクランプ

8

さび、0.37001秒（2016年6月12日）

デニスのC答えよりも約10倍遅いが、彼のPythonエントリよりも10倍速い。この回答は、Code Reviewでの改善を支援した@Shepmasterと@Veedracによって可能になりました。@Veedracの投稿から逐語的に取られています。

use std::env;

const EMPTY: usize = std::usize::MAX;
const MAX_X: usize = 800;

fn main() {
    let args: Vec<_> = env::args().collect();
    let x: usize = args[1].trim().parse().expect("expected a number");

    let root = (x as f64).sqrt() as usize;
    let y = (x as f64).powf(0.3333333333333) as usize + 1;

    let sieve_size = x / y + 2;
    let mut sieve = vec![true; sieve_size];
    let mut primes = vec![0; sieve_size];
    sieve[0] = false;
    sieve[1] = false;

    let mut a = 0;
    let mut num_primes = 1;

    let mut num_primes_smaller_root = 0;

    // find all primes up to x/y ~ x^2/3 aka sieve_size
    for i in 2..sieve_size {
        if sieve[i] {
            if i <= root {
                if i <= y {
                    a += 1;
                }
                num_primes_smaller_root += 1;
            }

            primes[num_primes] = i;
            num_primes += 1;
            let mut multiples = i;
            while multiples < sieve_size {
                sieve[multiples] = false;
                multiples += i;
            }
        }
    }

    let interesting_primes = primes[a + 1..num_primes_smaller_root + 1].iter();

    let p_2 =
        interesting_primes
        .map(|ip| primes.iter().take_while(|&&p| p <= x / ip).count())
        .enumerate()
        .map(|(i, v)| v - 1 - i - a)
        .fold(0, |acc, v| acc + v);

    let mut phi_results = vec![EMPTY; (a + 1) * MAX_X];
    println!("pi({}) = {}", x, phi(x, a, &primes, &mut phi_results) + a - 1 - p_2);
}

fn phi(x: usize, b: usize, primes: &[usize], phi_results: &mut [usize]) -> usize {
    if b == 0 {
        return x;
    }

    if x < MAX_X && phi_results[x + b * MAX_X] != EMPTY {
        return phi_results[x + b * MAX_X];
    }

    let value = phi(x, b - 1, primes, phi_results) - phi(x / primes[b], b - 1, primes, phi_results);
    if x < MAX_X {
        phi_results[x + b * MAX_X] = value;
    }
    value
}

タイミング：time ./time.sh場所time.sh：

#!/bin/bash

a=(1907000000 1337000000 1240000000 660000000 99820000 40550000 24850000 41500)

for i in {0..100}; do
    for j in ${a[@]}; do
        ./target/release/pi_n $j  > /dev/null;
    done;
done;

出力は次のとおりです。

[me@localhost pi_n]$ time ./time.sh 

real    0m37.011s
user    0m34.752s
sys 0m2.410s

— 2回転
ソース

8

Node.js（JavaScript / ES6）、83.549s（2016年11月11日）

var n=process.argv[2]*1,r=new Uint8Array(n),p=0,i=1,j
while(++i<=n){
  if(r[i]===0){
    for(j=i*i;j<=n;j+=i){r[j]=1}
    p+=1
  }
}
console.log(p)

最後にこれを作り直しました。これは以前よりも小さく/シンプルで、はるかに高速です。低速のブルートフォース方式ではなく、より効率的なデータ構造とともにエラトステネスのふるいを利用するため、かなりの時間で実際に終了することができます（インターネット上で見つけることができる限り、最速のJSプライムカウントです）そこに機能する）。

いくつかのデモ時間（i7-3770k）：

10^4 (10,000) => 0.001 seconds
10^5 (100,000) => 0.003 seconds
10^6 (1,000,000) => 0.009 seconds
10^7 (10,000,000) => 0.074 seconds
10^8 (100,000,000) => 1.193 seconds
10^9 (1,000,000,000) => 14.415 seconds

— Mwr247
ソース

なぜ+=1ありませんか++？

— ETHproductions

@ETHproductionsプリインクリメントまたはポストインクリメントのどちらを意味するかに依存します。i++別のopの値の変更を保持する必要があります。このスケールでは、小さいながらも顕著なパフォーマンスヒットにつながります。事前インクリメントをテストしませんでしたが、ほぼ同じになると思われ+=1ます。

— Mwr247

しかし、メモリ+=1に割り当てる必要があり1ます。おもう。もし私があなただったら、を使用します++i。値をインクリメントする単一の命令があると思うので、わかりません。

— イスマエルミゲル

なぜそんなに凝縮されているのですか？これはcode-golfではありません。これは本当に読みにくいです。

— チョイス

また、次のように変更(...)|0;i=0すると役立つ場合があります(...)|(i=0)

— -Cyoce

6

C ++ 11、22.6503秒（2016年2月28日）

でコンパイルしg++ -O2 -m64 -march=native -ftree-vectorize -std=c++11 numprimes.cppます。これらのオプションは重要です。Boostもインストールする必要があります。Ubuntuでは、これをインストールすることで利用できますlibboost-all-dev。

Windowsを使用している場合は、MSYS2をg++介してインストールおよびブーストすることをお勧めします。私は書かれている素敵なチュートリアル MSYS2をインストールする方法についてを。チュートリアルに従うと、を使用してBoostをインストールできます。pacman -Sy `pacman -Ssq boost`

#include <cmath>
#include <cstdint>
#include <iostream>
#include <vector>
#include <boost/dynamic_bitset.hpp>

uint64_t num_primes(uint64_t n) {
    // http://stackoverflow.com/questions/4643647/fast-prime-factorization-module
    uint64_t pi = (n >= 2) + (n >= 3);
    if (n < 5) return pi;

    n += 1;
    uint64_t correction = n % 6 > 1;
    uint64_t wheels[6] = { n, n - 1, n + 4, n + 3, n + 2, n + 1 };
    uint64_t limit = wheels[n % 6];

    boost::dynamic_bitset<> sieve(limit / 3);
    sieve.set();
    sieve[0] = false;

    for (uint64_t i = 0, upper = uint64_t(std::sqrt(limit))/3; i <= upper; ++i) {
        if (sieve[i]) {
            uint64_t k = (3*i + 1) | 1;
            for (uint64_t j = (k*k) / 3;                   j < limit/3; j += 2*k) sieve[j] = false;
            for (uint64_t j = (k*k + 4*k - 2*k*(i & 1))/3; j < limit/3; j += 2*k) sieve[j] = false;
        }
    }

    pi += sieve.count();
    for (uint64_t i = limit / 3 - correction; i < limit / 3; ++i) pi -= sieve[i];

    return pi;
}


int main(int argc, char** argv) {
    if (argc <= 1) {
        std::cout << "Usage: " << argv[0] << " n\n";
        return 0;
    }

    std::cout << num_primes(std::stoi(argv[1])) << "\n";
    return 0;
}

私のマシンでは、これは1907000000（1.9e9）で4.8秒で実行されます。

^{上記のコードは、個人のC ++ライブラリから再利用されたため、順調にスタートしました。}

公式回

real    0m22.760s
user    0m22.704s
sys 0m0.080s

real    0m22.854s
user    0m22.800s
sys 0m0.077s

real    0m22.742s
user    0m22.700s
sys 0m0.066s

real    0m22.484s
user    0m22.450s
sys 0m0.059s

real    0m22.653s
user    0m22.597s
sys 0m0.080s

real    0m22.665s
user    0m22.602s
sys 0m0.088s

real    0m22.528s
user    0m22.489s
sys 0m0.062s

real    0m22.510s
user    0m22.474s
sys 0m0.060s

real    0m22.819s
user    0m22.759s
sys 0m0.084s

real    0m22.488s
user    0m22.459s
sys 0m0.053s

— orlp
ソース

：o Dayyyum。それは速いです。あなたのマシンは何ですか？

— アディソンクランプ

@VoteToClose 64ビットWindows 7を実行しているIntel i5-4670k

— orlp

説明を追加しますか？

— リアム

@Liamふるいに残っている2と3の倍数である任意の数のふるいです。

— orlp

3

C ++、2.47215（2016年2月29日）

これは、私のもう1つの答えの（ずさんな）マルチスレッドバージョンです。

#include <cstdint>
#include <vector>
#include <iostream>
#include <limits>
#include <cmath>
#include <array>
// uses posix ffsll
#include <string.h>
#include <algorithm>
#include <thread>

constexpr uint64_t wheel_width = 2;
constexpr uint64_t buf_size = 1<<(10+6);
constexpr uint64_t dtype_width = 6;
constexpr uint64_t dtype_mask = 63;
constexpr uint64_t buf_len = ((buf_size*wheel_width)>>dtype_width);
constexpr uint64_t seg_len = 6*buf_size;
constexpr uint64_t limit_i_max = 0xfffffffe00000001ULL;

typedef std::vector<uint64_t> buf_type;

void mark_composite(buf_type& buf, uint64_t prime,
                    std::array<uint64_t, 2>& poff,
                    uint64_t seg_start, uint64_t max_j)
{
  const auto p = 2*prime;
  for(uint64_t k = 0; k < wheel_width; ++k)
  {
    for(uint64_t j = 2*poff[k]+(k==0); j < max_j; j += p)
    {
      buf[(j-seg_start)>>dtype_width] |= 1ULL << (j & dtype_mask);
      poff[k] += prime;
    }
  }
}

struct prime_counter
{
  buf_type buf;
  uint64_t n;
  uint64_t seg_a, seg_b;
  uint64_t nj;
  uint64_t store_max;
  uint64_t& store_res;

  prime_counter(uint64_t n, uint64_t seg_a, uint64_t seg_b, uint64_t nj, uint64_t store_max,
                uint64_t& store_res) :
    buf(buf_len), n(n), nj(nj), seg_a(seg_a), seg_b(seg_b),
    store_max(store_max), store_res(store_res)
  {}

  prime_counter(const prime_counter&) = default;
  prime_counter(prime_counter&&) = default;

  prime_counter& operator =(const prime_counter&) = default;
  prime_counter& operator =(prime_counter&&) = default;

  void operator()(uint64_t nsmall_segs,
                  const std::vector<uint64_t>& primes,
                  std::vector<std::array<uint64_t, 2> > poffs)
  {
    uint64_t res = 0;
    // no new prime added portion
    uint64_t seg_start = buf_size*wheel_width*seg_a;
    uint64_t seg_min = seg_len*seg_a+5;

    if(seg_a > nsmall_segs)
    {
      uint64_t max_j = buf_size*wheel_width*nsmall_segs+(seg_a-nsmall_segs)*(buf_len<<dtype_width);
      for(size_t k = 0; k < wheel_width; ++k)
      {
        for(uint64_t i = 0; i < poffs.size() && max_j >= (2*poffs[i][k]+(k==0)); ++i)
        {
          // adjust poffs
          // TODO: might be a more efficient way
          auto w = (max_j-(2*poffs[i][k]+(k==0)));
          poffs[i][k] += primes[i]*(w/(2*primes[i]));
          if(w % (2*primes[i]) != 0)
          {
            poffs[i][k]+=primes[i];// += primes[i]*(w/(2*primes[i])+1);
          }
          /*else
          {

          }*/
        }
      }
    }

    for(uint64_t seg = seg_a; seg < seg_b; ++seg)
    {
      std::fill(buf.begin(), buf.end(), 0);
      const uint64_t limit_i = std::min<uint64_t>((((seg_len+seg_min) >= limit_i_max) ?
                                                   std::numeric_limits<uint32_t>::max() :
                                                   ceil(sqrt(seg_len+seg_min))),
                                                  store_max);
      uint64_t max_j = std::min(seg_start+(buf_len<<dtype_width), nj);
      for(uint64_t i = 0; i < primes.size() && primes[i] <= limit_i; ++i)
      {
        mark_composite(buf, primes[i], poffs[i], seg_start, max_j);
      }
      // sieve
      uint64_t val;
      const uint64_t stop = std::min(seg_min+seg_len, n);
      for(uint64_t i = ffsll(~(buf[0]))-((~buf[0]) != 0)+64*((~buf[0]) == 0);
          (val = 6ULL*(i>>1)+seg_min+2ULL*(i&1ULL)) < stop;)
      {
        if(!(buf[i>>dtype_width] & (1ULL << (i & dtype_mask))))
        {
          ++res;
          ++i;
        }
        else
        {
          uint64_t mask = buf[i>>dtype_width]>>(i&dtype_mask);
          const int64_t inc = ffsll(~mask)-((~mask) != 0)+64*((~mask) == 0);
          i += inc;
        }
      }
      seg_min += seg_len;
      seg_start += buf_size*wheel_width;
    }
    store_res = res;
  }
};

uint64_t num_primes(uint64_t n)
{
  uint64_t res = (n >= 2) + (n >= 3);
  if(n >= 5)
  {
    buf_type buf(buf_len);
    // compute and store primes < sqrt(n)
    const uint64_t store_max = ceil(sqrt(n));

    // only primes >= 5
    std::vector<uint64_t> primes;
    std::vector<std::array<uint64_t, 2> > poffs;
    primes.reserve(ceil(1.25506*store_max/log(store_max)));
    poffs.reserve(ceil(1.25506*store_max/log(store_max)));
    uint64_t seg_start = 0;
    uint64_t seg_min = 5;
    const uint64_t num_segs = 1+(n-seg_min)/seg_len;
    const uint64_t nj = (n-seg_min)/3+1;
    // compute how many small segments there are
    const uint64_t nsmall_segs = 1+(store_max-seg_min)/seg_len;
    for(uint64_t seg = 0; seg < nsmall_segs; ++seg)
    {
      std::fill(buf.begin(), buf.end(), 0);
      // mark off small primes
      const uint64_t limit_i = std::min<uint64_t>((((seg_len+seg_min) >= limit_i_max) ?
                                                   std::numeric_limits<uint32_t>::max() :
                                                   ceil(sqrt(seg_len+seg_min))),
                                                  store_max);
      uint64_t max_j = std::min(seg_start+(buf_len<<dtype_width), nj);
      for(uint64_t i = 0; i < primes.size() && primes[i] <= limit_i; ++i)
      {
        mark_composite(buf, primes[i], poffs[i], seg_start, max_j);
      }
      // sieve
      uint64_t val;
      const uint64_t stop = std::min(seg_min+seg_len, n);
      for(uint64_t i = ffsll(~(buf[0]))-((~buf[0]) != 0)+64*((~buf[0]) == 0);
            (val = 6ULL*(i>>1)+seg_min+2ULL*(i&1ULL)) < stop;)
      {
        if(!(buf[i>>dtype_width] & (1ULL << (i & dtype_mask))))
        {
          if(val <= store_max)
          {
            // add prime and poffs
            primes.push_back(val);
            poffs.emplace_back();
            poffs.back()[0] = (val*val-1)/6-1;
            if(i&1)
            {
              // 6n+1 prime
              poffs.back()[1] = (val*val+4*val-5)/6;
            }
            else
            {
              // 6n+5 prime
              poffs.back()[1] = (val*val+2*val-5)/6;
            }
            // mark-off multiples
            mark_composite(buf, val, poffs.back(), seg_start, max_j);
          }
          ++res;
          ++i;
        }
        else
        {
          uint64_t mask = buf[i>>dtype_width]>>(i&dtype_mask);
          const int64_t inc = ffsll(~mask)-((~mask) != 0)+64*((~mask) == 0);
          i += inc;
        }
      }
      seg_min += seg_len;
      seg_start += buf_size*wheel_width;
    }
    // multi-threaded sieving for remaining segments
    std::vector<std::thread> workers;
    auto num_workers = std::min<uint64_t>(num_segs-nsmall_segs, std::thread::hardware_concurrency());
    std::vector<uint64_t> store_reses(num_workers);

    workers.reserve(num_workers);
    auto num_segs_pw = ceil((num_segs-nsmall_segs)/static_cast<double>(num_workers));
    for(size_t i = 0; i < num_workers; ++i)
    {
      workers.emplace_back(prime_counter(n, nsmall_segs+i*num_segs_pw,
                                         std::min<uint64_t>(nsmall_segs+(i+1)*num_segs_pw,
                                                            num_segs),
                                         nj, store_max, store_reses[i]),
                           nsmall_segs, primes, poffs);
    }
    for(size_t i = 0; i < num_workers; ++i)
    {
      workers[i].join();
      res += store_reses[i];
    }
  }
  return res;
}

int main(int argc, char** argv)
{
  if(argc <= 1)
  {
    std::cout << "usage: " << argv[0] << " n\n";
    return -1;
  }
  std::cout << num_primes(std::stoll(argv[1])) << '\n';
}

6のホイール因数分解でエラトステネスのセグメント化されたふるいを使用して、2/3のすべての倍数をスキップします。POSIX ffsllを使用して、連続する複合値をスキップします。

コンパイルする：

g++ -std=c++11 -o sieve_mt -O3 -march=native -pthread sieve_mt.cpp

非公式のタイミング

Ubuntu 15.10でIntel i5-6600kを使用したタイミングで、1907000000のケースが発生しました0.817s。

公式回

より正確な時間を取得するために、これを100回計時し、時間を100で割った。

real    4m7.215s
user    23m54.086s
sys 0m1.239s

— helloworld922
ソース

これと@Dennisのpythonの回答は非常に近いため、より正確な結果を得るためにリタイミングするかもしれません。

— リアム

すごいすごい。これはCJamやPythよりも意味がありません。私はそれをビットシフトモンスターと呼びます！+1

— タモナチョードリー

余談ですが、GPUの高速化のためにCUDA / OpenCLを試すことはできますか？Cをもっと知っていれば、持っているかもしれません。

— タモニアチョードリー

ええ、私はビットシフト/マスキングで少し過剰だったと思います：PIはGPGPUがここで役立つかどうかわからない; 私がそれを助けることができる唯一の領域は、小さな素数を事前にふるいにかけることであり、それでもデータ転送速度はそれを殺すのに十分かもしれません。何まだ私を燃焼さと、私はから10かそこらの要因により、依然としてオフだということである私が今まで見た中で最速のふるいの実装

— helloworld922

2

C、2分42.7254秒（2016年2月28日）

別名で保存pi.c、別名でコンパイルgcc -o pi pi.c、実行./pi <arg>：

#include <stdlib.h>
#include <stdio.h>
#include <string.h>

unsigned char p[2000000001];

int main(int argc, char **argv)
{
        unsigned int n, c, i, j;

        n = atoi(argv[1]);
        memset(p, 1, n + 1);

        p[1] = p[0] = 0;

        for (i = 2, c = 0; i <= n; i++)
        {
                if (p[i])
                {
                        c++;
                        for (j = i + i; j <= n; j += i)
                                p[j] = 0;
                }
        }

        printf("%d: %d\n", n, c);

        return 0;
}

実行するには大量のメモリが必要です！ハードウェアが最大2ギガバイトの実メモリを確保できない場合、VMMとHDのスラッシングにより、プログラムがクラッシュするか、実行が非常に遅くなります。

私のハードウェア上のおおよその時期は1.239×10 ^-8・nは^1.065秒。たとえば、n = 2×10 ^9の入力の実行には約100秒かかります。

公式回

real    2m42.657s
user    2m42.065s
sys 0m0.757s

real    2m42.947s
user    2m42.400s
sys 0m0.708s

real    2m42.827s
user    2m42.282s
sys 0m0.703s

real    2m42.800s
user    2m42.300s
sys 0m0.665s

real    2m42.562s
user    2m42.050s
sys 0m0.675s

real    2m42.788s
user    2m42.192s
sys 0m0.756s

real    2m42.631s
user    2m42.074s
sys 0m0.720s

real    2m42.658s
user    2m42.115s
sys 0m0.707s

real    2m42.710s
user    2m42.219s
sys 0m0.657s

real    2m42.674s
user    2m42.110s
sys 0m0.730s

これはエラトステネスのふるいを使用して動作しますか？家に帰ってから時間を

— リアム

私は最初のケースでセグメンテーション違反を起こしています（他は正常に動作します）。実行から1分後に発生します。if (p==NULL) {exit(1);}コードに行を追加したので、mallocが失敗するとは思わない（1分ではなく最初に失敗する）。何が起きているのか？

— リアム

Linuxを含む多くのシステムは、楽観的な割り当てを行います。たとえば、1 Gbを要求すると、それが「与えられます」が、実際に使用すると、システムがそれを見つけられない場合、クラッシュします。この場合、memsetでクラッシュする可能性があります。かかっている分は、ヒープを隣接ブロックに結合しようとする時間です。また、システムでsizeof（bool）== 1であることを確認します。== 4の場合、charを使用するようにこれを書き換えることができます。

私はすでにチェックしました。Boolは1バイトです。スタック内の2 * 10 ^ 9バイトのメモリを要求することは可能ですか？すなわち、（gccで）0に初期化されると信じるグローバル変数を宣言しcharます。

— リアム

1

@Liam言いにくい。符号付き整数オーバーフローは未定義の動作であるため、生成されたアセンブリを確認しないと、コンパイラが何をしたかを予測することは困難です。

— デニス

2

ジュリア、1分21.1329秒

もう少し早く何かを考えたいと思いますが、今のところは、Sieve of Eratosthenesのかなり単純な実装です。

function eratos(n::Int64)
    sieve = trues(n)
    sieve[1] = false
    for p = 2:isqrt(n)
        @inbounds sieve[p] || continue
        for i = 2:n÷p
            @inbounds sieve[p*i] = false
        end
    end
    return sum(sieve)
end

const x = parse(Int64, ARGS[1])

println(eratos(x))

ご使用のシステムの最新バージョンのJuliaをここから入手してください。Julia実行可能ファイルがパスにあることを確認してください。コードをとして保存し、のsieve.jlようなコマンドラインから実行します。julia sieve.jl NここNで入力です。

公式回

real    1m21.227s
user    1m20.755s
sys 0m0.576s

real    1m20.944s
user    1m20.426s
sys 0m0.640s

real    1m21.052s
user    1m20.581s
sys 0m0.573s

real    1m21.328s
user    1m20.862s
sys 0m0.570s

real    1m21.253s
user    1m20.780s
sys 0m0.588s

real    1m20.925s
user    1m20.460s
sys 0m0.576s

real    1m21.011s
user    1m20.512s
sys 0m0.601s

real    1m21.011s
user    1m20.550s
sys 0m0.564s

real    1m20.875s
user    1m20.409s
sys 0m0.569s

real    1m21.703s
user    1m21.088s
sys 0m0.701s

— アレックス・A
ソース

1

Sieve of Atkinを実装しましたが、その実装は遅くなります。>：U

— アレックスA.

@Liamおっと。なぜ公式の時間は私の非公式の時間よりも長いのだろうか。公式の時間はかなりひどいです。

— アレックスA.

さて、公式の時間は、すべてのスコアのケースをまとめたものです。非公式のものは番号ごとに行きます。また、私のコンピューターはおそらくあなたのコンピューターほど高速ではありません。

— リアム

@リアムああ、それはもっと理にかなっています。ダン、これはまともだと思った。まあ、図面に戻ります。

— アレックスA.

私はデニスのアルゴリズムを盗もうとしています...その速さを理解できるようにするためです。

— リアム

2

Java、42.663122s *（2016年3月3日）

* これは、プログラムによって内部的に計測されました（ただし、OPのコンピューター上）

public class PrimeCounter
{
public static final String START_CODE="=",
TEST_FORMAT="Input = %d , Output = %d , calculated in %f seconds%n",
PROMPT="Enter numbers to compute pi(x) for (Type \""+START_CODE+"\" to start):%n",
WAIT="Calculating, please wait...%n",
WARNING="Probably won't work with values close to or more than 2^31%n",
TOTAL_OUTPUT_FORMAT="Total time for all inputs is %f seconds%n";
public static final int NUM_THREADS=16,LOW_LIM=1,HIGH_LIM=1<<28;
private static final Object LOCK=new Lock();
private static final class Lock{}
/**
 * Generates and counts primes using an optimized but naive iterative algorithm.
 * Uses MultiThreading for arguments above LOW_LIM
 * @param MAX : argument x for pi(x), the limit to which to generate numbers.
 */
public static long primeCount(long MAX){
    long ctr=1;
    if(MAX<1<<7){
        for(long i=3;i<=MAX;i+=2){
            if(isPrime(i))++ctr;
        }
    }else{
        long[] counts=new long[NUM_THREADS];
        for(int i=0;i<NUM_THREADS;++i){
            counts[i]=-1;
        }
        long range=Math.round((double)MAX/NUM_THREADS);
        for(int i=0;i<NUM_THREADS;++i){
            long start=(i==0)?3:i*range+1,end=(i==NUM_THREADS-1)?MAX:(i+1)*range;
            final int idx=i;
            new Thread(new Runnable(){
                    public void run(){
                        for(long j=start;j<=end;j+=2){
                            if(isPrime(j))++counts[idx];
                        }
                    }
                }).start();
        }
        synchronized(LOCK){
            while(!completed(counts)){
                try{
                    LOCK.wait(300);}catch(InterruptedException ie){}
            }
            LOCK.notifyAll();
        }
        for(long count:counts){
            ctr+=count;
        }
        ctr+=NUM_THREADS;
    }
    return ctr;
}

/**
 * Checks for completion of threads
 * @param array : The array containing the completion data
 */
private static boolean completed(long[] array){
    for(long i:array){
        if(i<0)return false;
    }return true;
}

/**
 * Checks if the parameter is prime or not.
 * 2,3,5,7 are hardcoded as factors.
 * @param n : the number to check for primality
 */
private static boolean isPrime(long n){
    if(n==2||n==3||n==5||n==7)return true;
    else if(n%2==0||n%3==0||n%5==0||n%7==0)return false;
    else{
        for(long i=11;i<n;i+=2){
            if(n%i==0)return false;
        }
        return true;
    }
}

/**
 * Calculates primes using the atandard Sieve of Eratosthenes.
 * Uses 2,3,5,7 wheel factorization for elimination (hardcoded for performance reasons)
 * @param MAX : argument x for pi(x)
 * Will delegate to <code>primeCount(long)</code> for MAX<LOW_LIM and to <code>bitPrimeSieve(long)</code>
 * for MAX>HIGH_LIM, for performance reasons.
 */
public static long primeSieve(long MAX){
    if(MAX<=1)return 0;
    else if(LOW_LIM>0&&MAX<LOW_LIM){return primeCount(MAX);}
    else if(HIGH_LIM>0&&MAX>HIGH_LIM){return bitPrimeSieve(MAX);}
    int n=(int)MAX;
    int sn=(int)Math.sqrt(n),ctr=2;
    if(sn%2==0)--sn;
    boolean[]ps=new boolean[n+1];
    for(int i=2;i<=n;++i){
        if(i==2||i==3||i==5||i==7)ps[i]=true;
        else if(i%2!=0&&i%3!=0&&i%5!=0&&i%7!=0)ps[i]=true;
        else ++ctr;
    }
    for(int i=(n>10)?11:3;i<=sn;i+=2){
        if(ps[i]){
            for(int j=i*i;j<=n;j+=i){
                if(ps[j]){ ps[j]=false;++ctr;}
            }
        }
    }
    return (n+1-ctr);
}
/**
 * Calculates primes using bitmasked Sieve of Eratosthenes.
 * @param MAX : argument x for pi(x)
 */
public static long bitPrimeSieve(long MAX) {
    long SQRT_MAX = (long) Math.sqrt(MAX);
    if(SQRT_MAX%2==0)--SQRT_MAX;
    int MEMORY_SIZE = (int) ((MAX+1) >> 4);
    byte[] array = new byte[MEMORY_SIZE];
    for (long i = 3; i <= SQRT_MAX; i += 2) {
        if ((array[(int) (i >> 4)] & (byte) (1 << ((i >> 1) & 7))) == 0) {
            for(long j=i*i;j<=MAX;j+=i<<1) {
                if((array[(int) (j >> 4)] & (byte) (1 << ((j >> 1) & 7))) == 0){
                    array[(int) (j >> 4)] |= (byte) (1 << ((j >> 1) & 7));
                }
            }
        }
    }
    long pi = 1;
    for (long i = 3; i <= MAX; i += 2) {
        if ((array[(int) (i >> 4)] & (byte) (1 << ((i >> 1) & 7))) == 0) {
            ++pi;
        }
    }
    return pi;
}
/**
 * Private testing and timer function
 * @param MAX : input to be passed on to <code>primeSieve(long)</code>
 */
private static long sieveTest(long MAX){
    long start=System.nanoTime();
    long ps=primeSieve(MAX);
    long end=System.nanoTime();
    System.out.format(TEST_FORMAT,MAX,ps,((end-start)/1E9));
    return end-start;
}
/**
 * Main method: accepts user input and shows total execution time taken
 * @param args : The command-line arguments
 */
public static void main(String[]args){
    double total_time=0;
    java.util.Scanner sc=new java.util.Scanner(System.in);
    java.util.ArrayList<Long> numbers=new java.util.ArrayList<>();
    System.out.format(PROMPT+WARNING);
    String line=sc.nextLine();
    while(!line.equals(START_CODE)/*sc.hasNextLine()&&Character.isDigit(line.charAt(0))*/){
        numbers.add(Long.valueOf(line));
        line=sc.nextLine();
    }
    System.out.format(WAIT);
    for(long num:numbers){
        total_time+=sieveTest(num);
    }
    System.out.format(TOTAL_OUTPUT_FORMAT,total_time/1e9);
}
}

自己文書化コードの偉大なPPCGの伝統に従います（ただし、文字通りの意味ではありません：p）。

これは、同様のアルゴリズムを使用した場合に、Javaが他のVM言語と競合するのに十分高速であるという点を証明するためです。

実行情報

@CoolestVetoの答えがあるように実行しますが、私はコマンドライン引数を必要としません。STDINから取得できます。

NUM_THREADS定数を微調整して、最大のパフォーマンスを得るためにネイティブコア数の2倍に設定します（私が観察したように-私の場合、8個の仮想コアがあり、16に設定されているため、OPはヘキサコアプロセッサに12を必要とします）。

これらのテストを実行したとき、ASUS K55VMラップトップ（Core i7 3610QM、8GB RAM）上のWindows 10 Enterpise x64上でJDK 1.7.0.45とBlueJ 3.1.6（IntelliJが更新されていました）を使用しました。Google Chrome 49.0 64ビット（1タブ（PPCG）を開いた状態）および1つのファイルをダウンロードするQBittorrentがバックグラウンドで実行されていました。実行開始時のRAM使用率は60％です。

基本的に、

javac PrimeCounter.java
java PrimeCounter

プログラムは残りの手順を説明します。

タイミングは、Javaに組み込まれていますSystem.nanoTime()。

アルゴリズムの詳細：

さまざまなユースケースに対応する3つのバリエーションがあります。2^ 15未満の入力には@CoolestVetoのような単純なバージョン（マルチスレッド）、2 ^ 28を超える入力には奇数消去のエラトステネスのビットマスクされたふるい、倍数の事前除去のための2/3/5/7ホイール分解。

最大のテストケースで特別なJVM引数を避けるために、ビットマスクシーブを使用します。それができれば、ビットマスクされたバージョンでカウントを計算するためのオーバーヘッドを排除できます。

出力は次のとおりです。

Enter numbers to compute pi(x) for (Type "=" to start):
Probably won't work with values close to or more than 2^31
41500
24850000
40550000
99820000
660000000
1240000000
1337000000
1907000000
=
Calculating, please wait...
Input = 41500 , Output = 4339 , calculated in 0.002712 seconds
Input = 24850000 , Output = 1557132 , calculated in 0.304792 seconds
Input = 40550000 , Output = 2465109 , calculated in 0.523999 seconds
Input = 99820000 , Output = 5751639 , calculated in 1.326542 seconds
Input = 660000000 , Output = 34286170 , calculated in 4.750049 seconds
Input = 1240000000 , Output = 62366021 , calculated in 9.160406 seconds
Input = 1337000000 , Output = 66990613 , calculated in 9.989093 seconds
Input = 1907000000 , Output = 93875448 , calculated in 14.832107 seconds
Total time for all inputs is 40.889700 seconds

— タモグナ・チョウドリー
ソース

pi（n）の結果のみ（プロンプトなし）を出力すると、STDOUTが...という理由で時間を節約できる場合があります。

— user48538

@ zyabin101、もし誰かがコードを通り抜ける忍耐を持っていたら、彼/彼女はSTDOUTレイテンシが考慮されていることを理解するでしょう。

— タモニアチョードリー

また、タイミングのために、/ dev / nullにstdoutを送信しました

— リアム

@Liamそれでは、私の場合は例外を設ける必要があると思います。コマンドライン引数のメインメソッドを調整できますが、プログラムはとにかく自己タイミングです。とにかくそれをチェックしてください。お願いします？

— タモニアチョードリー

もちろん。明日やるよ。問題が発生した場合、チャットでpingを送信します

— リアム

2

Python 3

import sys

sys.setrecursionlimit(sys.maxsize)

n = int(sys.argv[-1])

if n < 4:
    print(0 if n < 2 else n-1)
    exit()

p = [0, 0] + [True] * n

i = 0
while i < pow(n, 0.5):
    if p[i]:
        j = pow(i, 2)
        while j < n:
            p[j] = False
            j += i
    i += 1

print(sum(p) - 2)

エラトステネスのふるいを使用します。平均値で動作します。時間に合わせて、組み込みコマンドを使用しました。例えば：8.775sn = 10^7time

$ time python3 test.py 90
24

real    0m0.045s
user    0m0.031s
 sys    0m0.010s

— ザック・ゲイツ
ソース

ふるいです！ブール配列が使用するメモリ量が気に入らなかったため、Javaでこれを使用できませんでした。D：

— アディソンクランプ

大きい場合のメモリエラー。

— リアム

どのケースですか？私はそれを修正したと信じています。@Liam

— ザック・ゲイツ

2

@VoteToCloseこの場合、ブール配列を使用しないでください。整数配列とビットシフト/マスキングを使用します。各ビットはブール値を表します。

— mbomb007

AttributeError: 'module' object has no attribute 'maxint'

— デニス

1

C ++、9.3221s（2016年2月29日）

#include <cstdint>
#include <vector>
#include <iostream>
#include <limits>
#include <cmath>
#include <array>
// uses posix ffsll
#include <string.h>
#include <algorithm>

constexpr uint64_t wheel_width = 2;
constexpr uint64_t buf_size = 1<<(10+6);
constexpr uint64_t dtype_width = 6;
constexpr uint64_t dtype_mask = 63;
constexpr uint64_t buf_len = ((buf_size*wheel_width)>>dtype_width);

typedef std::vector<uint64_t> buf_type;

void mark_composite(buf_type& buf, uint64_t prime,
                    std::array<uint64_t, 2>& poff,
                    uint64_t seg_start, uint64_t max_j)
{
  const auto p = 2*prime;
  for(uint64_t k = 0; k < wheel_width; ++k)
  {
    for(uint64_t j = 2*poff[k]+(k==0); j < max_j; j += p)
    {
      buf[(j-seg_start)>>dtype_width] |= 1ULL << (j & dtype_mask);
      poff[k] += prime;
    }
  }
}

uint64_t num_primes(uint64_t n)
{
  uint64_t res = (n >= 2) + (n >= 3);
  if(n >= 5)
  {
    buf_type buf(buf_len);
    // compute and store primes < sqrt(n)
    const uint64_t store_max = ceil(sqrt(n));

    // only primes >= 5
    std::vector<uint64_t> primes; // 5,7,11
    std::vector<std::array<uint64_t, 2> > poffs;// {{3,0},{0,5},{8,1}};
    primes.reserve(ceil(1.25506*store_max/log(store_max)));
    poffs.reserve(ceil(1.25506*store_max/log(store_max)));
    uint64_t seg_start = 0;
    uint64_t seg_min = 5;
    constexpr uint64_t seg_len = 6*buf_size;///wheel_width;
    constexpr uint64_t limit_i_max = 0xfffffffe00000001ULL;
    const uint64_t num_segs = 1+(n-seg_min)/seg_len;
    const uint64_t nj = (n-seg_min)/3+1;
    for(uint64_t seg = 0; seg < num_segs; ++seg)
    {
      std::fill(buf.begin(), buf.end(), 0);
      // mark off small primes
      const uint64_t limit_i = std::min<uint64_t>((((seg_len+seg_min) >= limit_i_max) ?
                                                   std::numeric_limits<uint32_t>::max() :
                                                   ceil(sqrt(seg_len+seg_min))),
                                                  store_max);
      uint64_t max_j = std::min(seg_start+(buf_len<<dtype_width), nj);
      for(uint64_t i = 0; i < primes.size() && primes[i] <= limit_i; ++i)
      {
        mark_composite(buf, primes[i], poffs[i], seg_start, max_j);
      }
      // sieve
      uint64_t val;
      const uint64_t stop = std::min(seg_min+seg_len, n);
      for(uint64_t i = ffsll(~(buf[0]))-((~buf[0]) != 0)+64*((~buf[0]) == 0);
            (val = 6ULL*(i>>1)+seg_min+2ULL*(i&1ULL)) < stop;)
      {
        if(!(buf[i>>dtype_width] & (1ULL << (i & dtype_mask))))
        {
          if(val <= store_max)
          {
            // add prime and poffs
            primes.push_back(val);
            poffs.emplace_back();
            poffs.back()[0] = (val*val-1)/6-1;
            if(i&1)
            {
              // 6n+1 prime
              poffs.back()[1] = (val*val+4*val-5)/6;
            }
            else
            {
              // 6n+5 prime
              poffs.back()[1] = (val*val+2*val-5)/6;
            }
            // mark-off multiples
            mark_composite(buf, val, poffs.back(), seg_start, max_j);
          }
          ++res;
          ++i;
        }
        else
        {
          uint64_t mask = buf[i>>dtype_width]>>(i&dtype_mask);
          const int64_t inc = ffsll(~mask)-((~mask) != 0)+64*((~mask) == 0);
          i += inc;
        }
      }
      seg_min += seg_len;
      seg_start += buf_size*wheel_width;
    }
  }
  return res;
}

int main(int argc, char** argv)
{
  if(argc <= 1)
  {
    std::cout << "usage: " << argv[0] << " n\n";
    return -1;
  }
  std::cout << num_primes(std::stoll(argv[1])) << '\n';
}

6のホイール因数分解でエラトステネスのセグメント化されたふるいを使用して、2/3のすべての倍数をスキップします。POSIX ffsllを使用して、連続する複合値をスキップします。

セグメント化されたシーブを並行して動作させることにより、潜在的に高速化できます。

コンパイルする：

g++ -std=c++11 -o sieve -O3 -march=native sieve.cpp

非公式のタイミング

Ubuntu 15.10でIntel i5-6600kを使用したタイミングで、1907000000のケースが発生しました2.363s。

41500
4339

real    0m0.001s
user    0m0.000s
sys     0m0.000s

24850000
1557132

real    0m0.036s
user    0m0.032s
sys     0m0.000s

40550000
2465109

real    0m0.056s
user    0m0.052s
sys     0m0.000s

99820000
5751639

real    0m0.149s
user    0m0.144s
sys     0m0.000s

660000000
34286170

real    0m0.795s
user    0m0.788s
sys     0m0.000s

1240000000
62366021

real    0m1.468s
user    0m1.464s
sys     0m0.000s

1337000000
66990613

real    0m1.583s
user    0m1.576s
sys     0m0.004s

1907000000
93875448

real    0m2.363s
user    0m2.356s
sys     0m0.000s

オフィシャルタイム

real    0m9.415s
user    0m9.414s
sys 0m0.014s

real    0m9.315s
user    0m9.315s
sys 0m0.013s

real    0m9.307s
user    0m9.309s
sys 0m0.012s

real    0m9.333s
user    0m9.330s
sys 0m0.017s

real    0m9.288s
user    0m9.289s
sys 0m0.012s

real    0m9.319s
user    0m9.318s
sys 0m0.015s

real    0m9.285s
user    0m9.284s
sys 0m0.015s

real    0m9.342s
user    0m9.342s
sys 0m0.014s

real    0m9.305s
user    0m9.305s
sys 0m0.014s

real    0m9.312s
user    0m9.313s
sys 0m0.012s

— helloworld922
ソース

nまでの素数の計算

C、0.026119秒（2016年3月12日）

タイミング

公式回

使い方

式

アルゴリズム

実装

C99 / C ++、8.9208s（2016年2月28日）

Python 2（PyPy 4.0）、2.36961s（2016年2月29日）

タイミング

Java、このマシンでは25,725.315秒

さび、0.37001秒（2016年6月12日）

Node.js（JavaScript / ES6）、83.549s（2016年11月11日）

C ++ 11、22.6503秒（2016年2月28日）

C ++、2.47215（2016年2月29日）

非公式のタイミング

C、2分42.7254秒（2016年2月28日）

ジュリア、1分21.1329秒

Java、42.663122s *（2016年3月3日）

実行情報

アルゴリズムの詳細：

Python 3

C ++、9.3221s（2016年2月29日）

非公式のタイミング