Javaでは、intの代わりにbyteまたはshortを使用し、doubleの代わりにfloatを使用する方が効率的ですか？

Question 1

私は、intとdoubleを常に使用していることに気付きました。それでJavaでは、byteまたはshort代わりにint、float代わりに使用する方が効率的doubleですか？

したがって、intとdoubleがたくさんあるプログラムがあるとします。数値が収まるとわかっている場合、intをバイトまたはショートに変更してみる価値はありますか？

Javaに符号なしの型がないことはわかっていますが、数値が正の値のみになるとわかっている場合に何か他にできることはありますか？

効率的とは、主に処理を意味します。ガベージコレクターは、すべての変数のサイズが半分になるとはるかに速くなり、その計算もおそらく多少速くなると思います。（私はアンドロイドで作業しているので、ラムについても少し心配する必要があると思います）

（ガベージコレクターはオブジェクトのみを処理し、プリミティブは処理しないが、破棄されたオブジェクト内のすべてのプリミティブを削除すると思いますか？）

私が持っている小さなandroidアプリで試してみましたが、違いにまったく気づきませんでした。（私は「科学的に」何も測定しませんでしたが。）

それがより速く、より効率的であると仮定するのは間違っていますか？私は自分の時間を浪費していることを見つけるために大規模なプログラムですべてを変更して変更することを嫌います。

新しいプロジェクトを始めるとき、最初からやる価値はありますか？（私は少しでも役立つと思いますが、それでもそうなら、なぜ誰かがそうしているように思えないのですか？）

Question 2

それがより速く、より効率的であると仮定するのは間違っていますか？私は自分の時間を浪費していることを見つけるために大規模なプログラムですべてを変更して変更することを嫌います。

短い答え

はい、あなたは間違っています。ほとんどの場合、使用されるスペースの点でほとんど違いがありません。

最適化が必要であるという明確な証拠がない限り、これを最適化してみる価値はありません。あなたが行う場合と必要性を特にオブジェクトフィールドの最適化のメモリ使用量には、おそらく他の（より効果的な）対策を取る必要があります。

より長い答え

Java仮想マシンは、32ビットのプリミティブセルサイズの倍数であるオフセットを使用して、スタックとオブジェクトフィールドをモデル化します。したがって、ローカル変数またはオブジェクトフィールドを（たとえば）aとして宣言するbyteと、変数/フィールドはと同じように32ビットのセルに格納されintます。

これには2つの例外があります。

longそしてdouble値が2プリミティブ32ビット・セルを必要とします
プリミティブ型の配列はパックされた形式で表されるため、（たとえば）バイトの配列は32ビットワードあたり4バイトを保持します。

したがって、and ...およびプリミティブの大きな配列の使用を最適化する価値があるかもしれません。しかし、一般的には違います。longdouble

^{理論的には、JIT はこれを最適化できるかもしれませんが、実際には、最適化できるJITについて聞いたことがありません。障害の1つは、JITは通常、コンパイルされるクラスのインスタンスが作成されるまで実行できないことです。JITがメモリレイアウトを最適化した場合、同じクラスのオブジェクトの2つ（またはそれ以上）の「フレーバー」が存在する可能性があり、それは大きな困難をもたらします。}

再訪

ベンチマークの結果を見ると、@ meritonの答えがわかります。乗算を使用するshortと、byte代わりに、使用するとintパフォーマンスが低下するようです。実際、操作を分離して考えると、ペナルティは大きくなります。（それらを個別に検討するべきではありません...しかし、それは別のトピックです。）

その理由は、JITはおそらく32ビットの乗算命令を使用して乗算を行っているということだと思います。しかしbyteandのshort場合、追加の命令を実行して、中間32ビット値をに変換するbyteかshort、各ループの繰り返しで変換します。（理論的には、その変換はループの終わりに一度行うことができますが、オプティマイザがそれを理解できるとは思えません。）

とにかく、これは最適化への切り替えshortとbyte最適化としての別の問題を示しています。それはパフォーマンスを悪化させる可能性があります...算術および計算集約型のアルゴリズムでは。

Question 3

これは、JVMの実装と基盤となるハードウェアに依存します。最近のほとんどのハードウェアは、メモリから（または1次キャッシュからも）1バイトをフェッチしません。つまり、より小さいプリミティブタイプを使用しても、通常、メモリ帯域幅の消費量は減りません。同様に、最近のCPUのワードサイズは64ビットです。より少ないビットで操作を実行できますが、余分なビットを破棄することで機能します。

唯一の利点は、プリミティブ型が小さくなると、特に配列を使用する場合に、メモリレイアウトがよりコンパクトになることです。これによりメモリが節約され、参照の局所性が向上し（キャッシュミスの数が減る）、ガベージコレクションのオーバーヘッドが減少します。

ただし、一般的に言えば、小さいプリミティブタイプを使用する方が速くはありません。

これを実証するために、次のベンチマークを見てください。

package tools.bench;

import java.math.BigDecimal;

public abstract class Benchmark {

    final String name;

    public Benchmark(String name) {
        this.name = name;
    }

    abstract int run(int iterations) throws Throwable;

    private BigDecimal time() {
        try {
            int nextI = 1;
            int i;
            long duration;
            do {
                i = nextI;
                long start = System.nanoTime();
                run(i);
                duration = System.nanoTime() - start;
                nextI = (i << 1) | 1; 
            } while (duration < 100000000 && nextI > 0);
            return new BigDecimal((duration) * 1000 / i).movePointLeft(3);
        } catch (Throwable e) {
            throw new RuntimeException(e);
        }
    }   

    @Override
    public String toString() {
        return name + "\t" + time() + " ns";
    }

    public static void main(String[] args) throws Exception {
        Benchmark[] benchmarks = {
            new Benchmark("int multiplication") {
                @Override int run(int iterations) throws Throwable {
                    int x = 1;
                    for (int i = 0; i < iterations; i++) {
                        x *= 3;
                    }
                    return x;
                }
            },
            new Benchmark("short multiplication") {                   
                @Override int run(int iterations) throws Throwable {
                    short x = 0;
                    for (int i = 0; i < iterations; i++) {
                        x *= 3;
                    }
                    return x;
                }
            },
            new Benchmark("byte multiplication") {                   
                @Override int run(int iterations) throws Throwable {
                    byte x = 0;
                    for (int i = 0; i < iterations; i++) {
                        x *= 3;
                    }
                    return x;
                }
            },
            new Benchmark("int[] traversal") {                   
                @Override int run(int iterations) throws Throwable {
                    int[] x = new int[iterations];
                    for (int i = 0; i < iterations; i++) {
                        x[i] = i;
                    }
                    return x[x[0]];
                }
            },
            new Benchmark("short[] traversal") {                   
                @Override int run(int iterations) throws Throwable {
                    short[] x = new short[iterations];
                    for (int i = 0; i < iterations; i++) {
                        x[i] = (short) i;
                    }
                    return x[x[0]];
                }
            },
            new Benchmark("byte[] traversal") {                   
                @Override int run(int iterations) throws Throwable {
                    byte[] x = new byte[iterations];
                    for (int i = 0; i < iterations; i++) {
                        x[i] = (byte) i;
                    }
                    return x[x[0]];
                }
            },
        };
        for (Benchmark bm : benchmarks) {
            System.out.println(bm);
        }
    }
}

私のやや古いノートに印刷されます（列を調整するためにスペースを追加します）：

int       multiplication    1.530 ns
short     multiplication    2.105 ns
byte      multiplication    2.483 ns
int[]     traversal         5.347 ns
short[]   traversal         4.760 ns
byte[]    traversal         2.064 ns

ご覧のとおり、パフォーマンスの違いはごくわずかです。アルゴリズムの最適化は、プリミティブタイプの選択よりもはるかに重要です。

Question 4

使用するbyte代わりに、intあなたは膨大な量でそれらを使用している場合は、パフォーマンスを向上させることができます。ここに実験があります：

import java.lang.management.*;

public class SpeedTest {

/** Get CPU time in nanoseconds. */
public static long getCpuTime() {
    ThreadMXBean bean = ManagementFactory.getThreadMXBean();
    return bean.isCurrentThreadCpuTimeSupported() ? bean
            .getCurrentThreadCpuTime() : 0L;
}

public static void main(String[] args) {
    long durationTotal = 0;
    int numberOfTests=0;

    for (int j = 1; j < 51; j++) {
        long beforeTask = getCpuTime();
        // MEASURES THIS AREA------------------------------------------
        long x = 20000000;// 20 millions
        for (long i = 0; i < x; i++) {
                           TestClass s = new TestClass(); 

        }
        // MEASURES THIS AREA------------------------------------------
        long duration = getCpuTime() - beforeTask;
        System.out.println("TEST " + j + ": duration = " + duration + "ns = "
                + (int) duration / 1000000);
        durationTotal += duration;
        numberOfTests++;
    }
    double average = durationTotal/numberOfTests;
    System.out.println("-----------------------------------");
    System.out.println("Average Duration = " + average + " ns = "
            + (int)average / 1000000 +" ms (Approximately)");


}

}

このクラスは、新しいを作成する速度をテストしTestClassます。各テストは2000万回実行し、50のテストがあります。

これがTestClassです：

 public class TestClass {
     int a1= 5;
     int a2= 5; 
     int a3= 5;
     int a4= 5; 
     int a5= 5;
     int a6= 5; 
     int a7= 5;
     int a8= 5; 
     int a9= 5;
     int a10= 5; 
     int a11= 5;
     int a12=5; 
     int a13= 5;
     int a14= 5; 
 }

私はSpeedTestクラスを実行しました、そして結局これを得ました：

 Average Duration = 8.9625E8 ns = 896 ms (Approximately)

これで、TestClassでintをバイトに変更して、もう一度実行しています。結果は次のとおりです。

 Average Duration = 6.94375E8 ns = 694 ms (Approximately)

この実験は、大量の変数をインスタンス化する場合、intの代わりにbyteを使用すると効率が向上することを示していると思います

Question 5

バイトは通常8ビットと見なされます。shortは一般に16ビットと見なされます。

「純粋な」環境では、バイトやロング、ショートのすべての実装がJavaであるわけではなく、その他の楽しいことは一般にユーザーから隠されているため、バイトはスペースをより有効に利用します。

ただし、コンピューターはおそらく8ビットではなく、おそらく16ビットではありません。これは、特に16ビットまたは8ビットを取得するには、必要なときにこれらのタイプにアクセスする能力を持っているふりをするために、時間を浪費する「トリッキー」に頼る必要があることを意味します。

この時点では、ハードウェアの実装方法によって異なります。しかし、私が教えてきたので、最高の速度は、CPUが使用するのに快適なものをチャンクに格納することによって達成されます。64ビットプロセッサは64ビットエレメントの処理が好きで、それより少ないものは、それらを処理するのが好きなふりをする「エンジニアリングマジック」を必要とすることがよくあります。

Question 6

short / byte / charのパフォーマンスが低下する理由の1つは、これらのデータ型を直接サポートしていないことです。つまり、JVM仕様では、これらのデータ型の命令セットについては言及されていません。保存、ロード、追加などの命令には、intデータ型のバージョンがあります。ただし、short / byte / charのバージョンはありません。たとえば、以下のJavaコードを検討してください。

void spin() {
 int i;
 for (i = 0; i < 100; i++) {
 ; // Loop body is empty
 }
}

以下は、同じようにマシンコードに変換されます。

0 iconst_0 // Push int constant 0
1 istore_1 // Store into local variable 1 (i=0)
2 goto 8 // First time through don't increment
5 iinc 1 1 // Increment local variable 1 by 1 (i++)
8 iload_1 // Push local variable 1 (i)
9 bipush 100 // Push int constant 100
11 if_icmplt 5 // Compare and loop if less than (i < 100)
14 return // Return void when done

次のように、intをshortに変更することを検討してください。

void sspin() {
 short i;
 for (i = 0; i < 100; i++) {
 ; // Loop body is empty
 }
}

対応するマシンコードは次のように変更されます。

0 iconst_0
1 istore_1
2 goto 10
5 iload_1 // The short is treated as though an int
6 iconst_1
7 iadd
8 i2s // Truncate int to short
9 istore_1
10 iload_1
11 bipush 100
13 if_icmplt 5
16 return

ご覧のとおり、shortデータ型を操作するために、intデータ型の命令バージョンを使用し、必要に応じてintをshortに明示的に変換しています。これにより、パフォーマンスが低下します。

さて、次のように直接のサポートを与えない理由を挙げます。

Java仮想マシンは、int型のデータを最も直接サポートします。これは、Java仮想マシンのオペランドスタックとローカル変数配列の効率的な実装を見込んでいます。また、典型的なプログラムのintデータの頻度によっても動機付けられます。他の整数型では、直接サポートが少なくなります。たとえば、ストア、ロード、または追加命令のバイト、文字、またはショートバージョンはありません。

ここにある JVM仕様から引用（ページ58）。

Question 7

違いはほとんど目立ちません！それは、デザイン、適切さ、均一性、習慣などの問題です。時々、それは単に好みの問題です。あなたが気にするのは、あなたのプログラムが立ち上がって実行され、正確さを損なうことのないものに置き換えてfloatも、intどちらかのタイプを使用することでパフォーマンスが変わることを実証できない限り、どちらか一方に進んでも利点はありません。2バイトまたは3バイトが異なるタイプに基づいてパフォーマンスを調整することは、本当に最後に注意する必要があります。Donald Knuthはかつて、「時期尚早な最適化がすべての悪の根源である」と述べました（それが彼であるかどうかはわかりません。答えがあれば編集してください）。