Take It or Leave It II:コンピューター向けゲームショー


20

これは、毎週月曜日のPSTのMidnightに投稿する一連のパズルの2番目です。最初のパズルはここにあります。

コンテキスト:

世捨て人の億万長者がゲーム番組を作成し、世界で最も優秀で優秀なプログラマーを引き付けました。月曜日の真夜中のストロークで、彼は志願者のプールから1人をその週の出場者として選び、彼らにゲームを提供します。あなたは今週の幸運な出場者です!

今週のゲーム:

ホストは、10,000個のデジタルエンベロープのスタックへのAPIアクセスを提供します。これらのエンベロープはランダムにソートされ、その中に1ドルから10,000ドルの間のドル値が含まれています(同じドル値を含むエンベロープは2つありません)。

次の4つのコマンドを自由に使用できます。

  1. Read():スタックの一番上にある封筒のドルの数字を読み取ります。

  2. Take():封筒にドルの数字をゲームショーウォレットに追加し、封筒をスタックから取り出します。

  3. Pass():スタックの一番上のエンベロープからポップします。

  4. Oracle(M):スタック内の次のMエンベロープの平均値を返します。現在読み取り可能なエンベロープは含まれません。

ルール:

  1. 封筒でPass()を使用すると、内部のお金は永久に失われます。

  2. $ Xを含むエンベロープでTake()を使用する場合、それ以降、$ Xを含むエンベロープでTake()を使用することはできません。これらの封筒の1つでTake()を実行すると、ウォレットに0ドルが追加されます。

  3. ターンTでOracle(M)を使用すると、エンベロープT + 1からT + Mの平均が返されます。Oracle()は、T + Mを回すまで無効です。

最大限の金額でゲームを終了するアルゴリズムを作成します。

Pythonでアルゴリズムを作成している場合は、@ Maltysenが提供するこのコントローラーを自由に使用してくださいhttps ://gist.github.com/livinginformation/70ae3f2a57ecba4387b5

注1:この場合の「最大」とは、N> = 1000実行後のウォレットの中央値を意味します。Nが無限大に増加すると、特定のアルゴリズムの中央値が収束することが間違っていることを証明したいと思います。代わりに平均値を最大化してみてください。しかし、平均値は中央値よりも小さなNによって放り出される可能性が高いと感じています。

注2:このパズルの前の部分に対するすべての解決策はここで有効なので、それらを再投稿することはほとんど価値がありません。パートIIでは、以前のパズルのアルゴリズムの改善のみが考慮されます。

編集:メタに関するこの投稿を考慮して、賞品の条件は削除されました。


うわー、私は私が寝坊信じることができない:O
ベータ崩壊

@Beta Decayクロックが刻々と過ぎています!:)
LivingInformation

奇跡の意味は何ですか?以前に読んだすべての封筒を集計するだけで、無料のオラクルを作成できます。何が間違っていますか?
ルイスメンドー

1
@LuisMendo独自の集計では残りのすべての値の平均しか知ることができません。オラクルを使用すると、次のM値の平均を取得できますM
レトコラディ

1
以前の課題に対するすべてのソリューションは、この課題に対する有効なソリューションでもあるため、暗黙的に提出されたものと見なすことができますか?
レトコラディ

回答:


9

Groovy $ 713337 $ 817829 $ 818227

ブートストラップコード:

class Instance {
    List values = new ArrayList(1..10000); {
        Collections.shuffle(values)
    }
    int i = 0
    int value = 0
    int max = 0
    int nextOracle = 0

    def pass() {
        if (i >= 10000)
            throw new NoSuchElementException()
        i++
    }

    def take() {
        if (i >= 10000)
            throw new NoSuchElementException()
        int v = values[i]
        if (v > max) {
            max = v
            value += v
        }
        i++
    }

    double oracle(int m) {
        if (m <= 0 || i < nextOracle || i + m >= 10000)
            throw new NoSuchElementException()

        nextOracle = i + m
        values.subList(i + 1, i + m + 1).stream().reduce { l, r -> r+l }.get() / m
    }

    int read() {
        if (i >= 10000)
            throw new NoSuchElementException()
        values[i]
    }
}

アルゴリズム

double square(double v) { v * v }
final double factor = Math.pow(1.5, 1.1)
int attempts = 5000
(1..attempts).stream().parallel().mapToLong {
    def puzzle = new Instance()

    int[] memory = 1..10000 // We will remember every envelope
    int memStart = 0

    while (memStart < 10000 - 3) {
        int value = puzzle.read()
        int i = Arrays.binarySearch(memory, memStart, 10000, value) - memStart
        if (i < 0) { // We can't use the money
            puzzle.pass()
            continue
        }
        if (i == 0) { // Of course we take the lowest
            puzzle.take()
            memStart++
            continue
        }
        int remaining = Arrays.stream(memory, i + 1 + memStart, 10000).sum() // Money we could win if taken
        int losing = Arrays.stream(memory, memStart, memStart + i).sum() // Money we cna't win if taken
        if (value > losing) { // If we pass, we lose money automatically
            puzzle.take()
            memStart += i + 1
        } else if ((losing - value * 16 / 7) * square(Math.log(i)) > remaining / factor) {
            System.arraycopy(memory, memStart, memory, ++memStart, i)
            puzzle.pass()
        } else {
            puzzle.take()
            memStart += i + 1
        }
    }

    // It's broken down to last three elements
    List values = Arrays.copyOfRange(memory, 10000 - 3, 10000)
    while (!values.contains(puzzle.read())) // Skip values we can't use
        puzzle.pass()
    int value1 = puzzle.read()
    int value2 = puzzle.oracle(1)
    if (value1 == values.max() && (
            values.contains(value2)
            ? (value1 * 2 < values.sum() && values.min() == value2)
            : (value1 < values.min() / 2 + (values - [value1]).max())
            )) {
        puzzle.pass()
    }

    // Finish it
    while (puzzle.i < puzzle.values.size()) {
        puzzle.take()
    }

    puzzle.value as Long
}.sum() / attempts // Sum runs and average

残りの値と可能な値を比較します。このスクリプトは高速ではありません(1000xシミュレーションごとに1分かかります)...しかし、同時にシミュレーションを実行します。

私のアルゴリズムが機能する理由はわかりませんが、試行錯誤でした。数学演算をまとめて、定数を操作しました。スコアの変動を減らすために、現在のスコアに対して5000倍実行しました(反復回数に応じて+/- $ 4000です)。

最後にオラクルがなくても、以前のパズルに対する@orlpのソリューションを(ほとんど)破るはずです。


7

C#-今すぐ803.603ドル-> 804.760ドル(Oracleを使用)

ブートストラップコード

public static class ShuffleExtension
{
    private static Random rng = new Random();  

    public static void Shuffle<T>(this IList<T> list)  
    {  
        int n = list.Count;
        while (n > 1) {  
            n--;  
            int k = rng.Next(n + 1);  
            T value = list[k];  
            list[k] = list[n];  
            list[n] = value;  
        }  
    }
}

public class Puzzle
{
    public List<int> Values = new List<int>(10000);

    public Puzzle()
    {
        for ( int i = 1; i <= 10000; i++ )
        {
            Values.Add(i);
        }
        Values.Shuffle();
    }

    public int i = 0;
    public int value = 0;
    public int max = 0;
    public int nextOracle = 0;

    public void Pass() {
        if ( i >= Values.Count )
            throw new IndexOutOfRangeException();
        i++;
    }

    public void Take() {
        if (i >= Values.Count )
            throw new IndexOutOfRangeException();
        int v = Values[i];
        if (v > max) {
            max = v;
            value += v;
        }
        i++;
    }

    public double oracle(int m) {
    if (m <= 0) { 
        throw new IndexOutOfRangeException();
    }
    if ( i < nextOracle ) {
        throw new IndexOutOfRangeException();
    }
    if ( i + 1 + m > Values.Count ) {
        throw new IndexOutOfRangeException();
    }

    nextOracle = i + m;
    var oracleValues = new List<int>();
    for ( int l = 0; l < m; l++ )
    {
        oracleValues.Add(Values[i + 1 + l]);
    }
    return oracleValues.Average (v => v);
}

    public int Read() {
        if (i >= Values.Count )
            throw new IndexOutOfRangeException();
        return Values[i];
    }
}

ゲームコード:

    void Main()
{
    var m = 0;
    for ( int l = 0; l < 1000; l++ )
    {
        var game = new Puzzle();
        var maxVal = 0;
        var lastOracle = 0;
        var lastOracleValue = 0.0m;
        var oracleValueForIOf = 0;

        for ( int i = 0; i < 10000; i++ )
        {
            var val = game.Read();
            var oracleStep = 1;
            var canUseOracle = (i - lastOracle >= oracleStep) && i + oracleStep + 1 <= 10000;
            if ( canUseOracle )
            {
                var oracle = game.oracle(oracleStep);
                lastOracle = i;
                lastOracleValue = (decimal)oracle;
                oracleValueForIOf = i + 1;
            }
            if ( TakeTheMoney(val, maxVal, oracleValueForIOf, lastOracleValue, i) )
            {
                maxVal = val;
                game.Take();
            }
            else
            {
                game.Pass();
            }
        }
        m += game.value;
    }
    ((int)(m / 1000)).Dump();
}

private bool TakeTheMoney(int val, int maxVal, int oracleValueForIOf, decimal lastOracleValue, int i)
{
    if ( val > maxVal )
    {
        if ( oracleValueForIOf != i + 1
            &&
            (val < 466.7m + (0.9352m * maxVal) + (0.0275m * i))
            )
        {
            return true;
        }

        if (oracleValueForIOf == i + 1)
        {
            if ( val < 466.7m + (0.9352m * maxVal) + (0.0275m * i) )
            {
                return true;
            }
            if ( lastOracleValue > 466.7m + (0.9352m * val) + (0.0275m * i + 1) )
            {
                if ( val < 466.7m + (0.9352m * maxVal) + (0.0275m * i + 1) )
                {
                    return true;
                }
            }
        }
    }
    return false;
}

クレジットはReto Koradiに属します/codegolf//a/54181/30910

編集:Oracleの基本的な使用が実装されました。次のOracleが使用するしきい値を超えている場合、現在のエンベロープをOracleインデックスのインデックスに拡張します。これは頻繁にはヒットしませんが、それは改善です;-)


4
前の課題からのソリューションを再投稿することは非常に生産的だとは思いません。私たちは皆、これらのソリューションがこの課題のベースラインとして使用できることを認識しており、私はすでにOPにそれをどのように処理すべきかを尋ねるコメントを残していました。アイデアは、独自のソリューションを考え出すことです。これは、前の課題に対するソリューションよりも理想的です。
レトコラディ

ダウン投票をやめてください:)提出後にノート番号2が追加されました。他のソリューションよりも効果的であるため、ここに掲載しました。Oracleを使用して既存のソリューションに勝つ必要はありません。
ステファンシンケル

@StephanSchinkel現在のスコアを改善するためにOracleを含めることに成功した場合、私の賛成票があります。たった1ドルでも。
ドルス

@BetaDecayコミュニティが再び眉をひそめているのは正確に何ですか?私はちょうどopからの質問に従いました。再度、提出後にノート番号2が追加されました。
ステファンシンケル

クイズのパートIのソリューションを使用しない。
ステファンシンケル

4

Python-74112ドル

現在の値が次の値よりも低い場合にのみ取ります(つまり、両方を取ることができます)。

def algo():
  try:
    o=oracle(1)
  except ValueError:
    take()
  r=read()
  if r>o:
    passe()
  else:
    take()

Python-(平均を計算しています)

この答えは計算に非常に長い時間がかかります。約670.000 $に達します。私が見た各封筒を覚えています。決定を下す必要があるたびに、現在の封筒を取り出すか、それぞれ残しておくと、ウォレットに追加できる残りの封筒のリストを2つ生成します。

コードを最適化しませんでした。

def algo_2():
  global max_taken, past
  weight=0.92 #Empirically chosen.
  r=read()
  if len(past)==0:
    past.append(r)
    passe()
    return
  if r<max_taken:
    past.append(r)
    take() #the same as passe
    return
  coming=[x for x in range(1,10001) if x not in past and x>max_taken and x!=r ]
  comingIfTake=[x for x in range(1,10001) if x not in past and x>r ]
  if sum(coming)*weight<=sum(comingIfTake)+r:
    past.append(r)
    take()
  else:
    past.append(r)
    passe()

そして、init_gameは次のように始まります。

def init_game():
    global stack, wallet, max_taken, oracle_turns, past
    past=[]

3
セットを使用して過去、来ている、および来ているIfTakeを表し、交差を使用すると、コードははるかに高速になります。
ネイサンメリル

4

C#-$ 780.176

次の値が残りのすべての値の下位5%以内にあるかどうかを確認します。終わりに近づくにつれて、よりリラックスしてください。

public class Taker
{
    private List<int> remaining;
    private Game game;

    public Taker(Game game)
    {
        this.game = game;
        remaining = Enumerable.Range(1, game.Size + 100).ToList();
    }

    int score = 0;

    public int PlayGame()
    {
        for (int i = 0; i < game.Size; i++)
        {
            if (game.Read() < game.Max ||
                game.Read() > selectThreshold() ||
                doOracle()
                )
            {
                remaining.Remove(game.Read());
                game.Pass();
                continue;
            }
            remaining = remaining.SkipWhile(j => j < game.Read()).ToList();
            score += game.Take();
        }
        return score;
    }

    private bool doOracle()
    {
        return game.Oracle(1) < game.Read() &&
            game.Oracle(1) > game.Max;
    }

    private int selectThreshold()
    {
        int selector = (int)(remaining.Count * 0.05);
        return remaining.ElementAt(selector);
    }
}

そして、私のゲームクラスは非常にいので、ゲームクラスはoracleが許可されているかどうかも検証しませんが、私はOracle(1)のみを使用しているので問題はありません。

public class Game
{
    private int[] list;
    private int position = 0;
    private int max = 0;
    public int Max { get { return max; } }
    public int Size { get { return list.Length; } }

    public Game(int[] list)
    {
        this.list = list;
    }

    public int Read()
    {
        return list[position];
    }

    public int Take()
    {
        if (list[position] < max)
        {
            position++;
            return 0;
        }
        max = list[position];
        return list[position++];
    }

    public void Pass()
    {
        position++;
    }

    public int Oracle(int M)
    {
        int next = position + 1;
        M = Math.Max(0, Math.Min(M, list.Length - next));
        return new ArraySegment<int>(list, next, M).Sum();
    }
}

4

Java、804,991ドル

スコアは1001ラウンドからです。この答えとステファンシンケルのます。

これは、前回の課題での私の答えに基づいており、ペイオフを推定するために同じエントロピーベースの計算を使用しています。主な違いは、ペア(1と2、次に3と4など)でエンベロープを取得し、テイクテイク、テイクパス、パステイクなどの可能な組み合わせを調べることです。有効なエンベロープの数が本当に少ない場合の正確な推定スコア。

私が書いた「ラッパー」は、本当のラッパーではありません。1 Oracle(1)ラウンドおきに関数を呼び出すのではなく、ペアでエンベロープを提供します。

全体として、複雑さが増しているにもかかわらず、このボットは以前のボットよりも優れているとは言えません。

プレーヤー

import java.lang.Math;
public class Player2
{
    public int[] V;

    public Player2(int s)
    {
        V = new int[s];
        for(int i = 0; i<V.length; i++)
        {
            V[i] = i+1;
        }
        ////System.out.println();
    }

    public boolean [] takeQ(int x, int y)
    {
        //System.out.println("Look: " + x + " " + y);
        boolean [] move = new boolean[]{false,false};
        double max = 0;
        double val = 0;
        int[] nextV = V;

        ////System.out.println("look " + x);
        int i = find(V,x);
        if(i >= 0)  //if found
        {
            //try taking first envelope
            int[] newVt = takeSlice(V,i);
            //System.out.println("  T: " + ats(newVt));
            int j = find(newVt,y);
            if(j >= 0)
            {
                //try taking first and second
                int[] newVtt = takeSlice(newVt,j);
                val = x + y + calcVal(newVtt);
                //System.out.println("  TT: " + ats(newVtt) + " " + val);
                if(val > max)
                {
                    move = new boolean[]{true,true};
                    max = val;
                    nextV = newVtt;
                }
            }
            //try taking first and passing second
            int[] newVtp = passSlice(newVt,j);

            val = x + calcVal(newVtp);
            //System.out.println("  TP: " + ats(newVtp) + " " + val);
            if(val > max)
            {
                move = new boolean[]{true,false};
                max = val;
                nextV = newVtp;
            }
        }
        int[] newVp = passSlice(V,i);
        //System.out.println("  V: " + ats(V));
        //System.out.println("  P: " + ats(newVp));
        int j = find(newVp,y);
        if(j >= 0)
        {
            //try passing first and taking second
            int[] newVpt = takeSlice(newVp,j);
            val = y + calcVal(newVpt);
            //System.out.println("  PT: " + ats(newVpt) + " " + val);
            if(val > max)
            {
                move = new boolean[]{false,true};
                max = val;
                nextV = newVpt;
            }
        }
        //try taking first and passing second
        int[] newVpp = passSlice(newVp,j);

        val = calcVal(newVpp);
        //System.out.println("  PP: " + ats(newVpp) + " " + val);
        if(val > max)
        {
            move = new boolean[]{false,false};
            max = val;
            nextV = newVpp;
        }
        V = nextV;
        //System.out.println("  NEW: " + ats(V));
        return move;
    }

    public static String ats(int [] a)
    {
        String s = "";
        for(int i = 0; i < a.length; i++)
        {
            s += a[i] + ",";
        }
        return s;
    }

    public static int[] takeSlice (int[] list, int loc)
    {
        int [] newlist = new int[list.length - loc - 1];
        for(int j = loc + 1; j < list.length; j++)
        {
            newlist[j - loc - 1] = list[j];
        }
        return newlist;
    }

    public static int[] passSlice (int[] list, int loc)
    {
        int [] newlist = list;
        if(loc >= 0)
        {
            newlist = new int[list.length-1];
            for(int k = 0; k < loc; k++)
            {
                newlist[k] = list[k];
            }
            for(int k = loc + 1; k < list.length; k++)
            {
                newlist[k-1] = list[k];
            }
        }
        return newlist;
    }

    public static double calcVal(int [] list)
    {
        if(list.length < 8)
        {
            for(int i : list)
            {
                ////System.out.print(i + ",");
            }

                ////System.out.println();
            return computeMean(list);

        }
        return smoothEstimate(list);
    }

    public static double computeMean(int[] V)
    {
        if(V.length == 1)
        {
            return V[0];
        }
        else if(V.length > 1)
        {
            double[] Es = new double[V.length];
            for(int i = 0; i < V.length; i++)
            {
                int[] newVp = new int[V.length - 1];
                for(int j = 0; j < i; j++)
                {
                    newVp[j] = V[j];
                }
                for(int j = i + 1; j < V.length; j++)
                {
                    newVp[j-1] = V[j];
                }
                double pass = computeMean(newVp);
                int[] newVt = new int[V.length - i - 1];
                for(int j = i + 1; j < V.length; j++)
                {
                    newVt[j - i - 1] = V[j];
                }
                double take = V[i] + computeMean(newVt);
                if(take > pass)
                {
                    Es[i] = take;
                }
                else
                {
                    Es[i] = pass;
                }
            }
            double sum = 0;
            for(double d : Es)
            {
                sum += d;
            }
            return sum/V.length;
        }
        else
        {
            return 0;
        }
    }

    public static double smoothEstimate(int [] list)
    {
        double total = 0;
        for(int i : list)
        {
            total+=i;
        }
        double ent = 0;
        for(int i : list)
        {
            if(i > 0)
            {
                ent -= i/total * Math.log(i/total);
            }
        }
        ////System.out.println("      total " + total);
        ////System.out.println("      entro " + Math.exp(ent));
        ////System.out.println("      count " + list.length);
        return total * Math.pow(Math.exp(ent),-0.5) * 4.0/3;// * 1.1287 + 0.05284);
    }

    public static int find(int[] list, int search)
    {
        int first  = 0;
        int last   = list.length - 1;
        int middle = (first + last)/2;

        while( first <= last )
        {
            if ( list[middle] < search )
                first = middle + 1;    
            else if ( list[middle] == search )
                break;
            else
                last = middle - 1;

            middle = (first + last)/2;
        }

        if(first > last)
        {
            return -1;
        }
        return middle;
    }
}

コントローラ

import java.lang.Math;
import java.util.Random;
import java.util.ArrayList;
import java.util.Collections;
public class Controller2
{
    public static void main(String [] args)
    {
        int size = 10000;
        int rounds = 1001;
        ArrayList<Integer> results = new ArrayList<Integer>();
        for(int round = 0; round < rounds; round++)
        {
            int[] envelopes = new int[size];
            for(int i = 0; i<envelopes.length; i++)
            {
                envelopes[i] = i+1;
            }
            shuffleArray(envelopes);
            Player2 p = new Player2(size);
            int cutoff = 0;
            int winnings = 0;
            for(int i = 0; i<envelopes.length; i+=2)
            {
                boolean [] take = p.takeQ(envelopes[i],envelopes[i+1]);
                if(take[0] && envelopes[i] >= cutoff)
                {
                    winnings += envelopes[i];
                    cutoff = envelopes[i];
                }
                if(take[1] && envelopes[i+1] >= cutoff)
                {
                    winnings += envelopes[i+1];
                    cutoff = envelopes[i+1];
                }
            }
            results.add(winnings);
        }
        Collections.sort(results);
        System.out.println(rounds + " rounds, median is " + results.get(results.size()/2));

    }

    //stol... I mean borrowed from http://stackoverflow.com/questions/1519736/random-shuffling-of-an-array
    static void shuffleArray(int[] ar)
    {
        Random rnd = new Random();
        for (int i = ar.length - 1; i > 0; i--)
        {
            int index = rnd.nextInt(i + 1);
            // Simple swap
            int a = ar[index];
            ar[index] = ar[i];
            ar[i] = a;
        }
    }
}

ビットコインアドレス:1BVBs9ZEP8YY4EpV868nxi2R23YfL7hdMq


3

Python 3-$ 615570

実際にオラクルを使用していません...ええ:)

def algo():
    global prevs

    try:
        prevs.append(read())
    except NameError:
        prevs = [read()]

    if len(prevs) > 10000:
        prevs = [prevs[-1]]

    if read() < round(len(prevs),-1):
        take()
    else:
        passe()

以前のすべてのエンベロープのリストを作成し、現在のエンベロープが10エンベロープ増分の以前のエンベロープの数より小さいかどうかを確認します。


0

Python、87,424

わかりやすい簡単なアルゴリズム、ラッキー7です。

def LuckyNumber7():
Test = read()
if "7" in str(Test):
    take()
else:
    passe()

test(LuckyNumber7)

基本的には、read()を文字列に変換し、7が含まれているかどうかを確認します。ある場合は、封筒が必要です。そうでない場合、合格します。

平均して約81,000で、私は追跡していません。


それで、これは運に頼ることは成功した戦略ではないことを示していますか?;)
レトコラディ

@RetoKoradiうん:D
The_Basset_Hound
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.