杯雪先生吧 关注:15贴子:331
  • 3回复贴,共1

【国战】从重复的囚徒困境看国战前期的盲狙和反盲狙策略

取消只看楼主收藏回复



IP属地:新加坡1楼2013-06-14 09:52回复
    先摘录两段文字。
    ————————————————分割线——————————————————
    首先必须要纠正的几个错误是:
    1.我是吴国人 我知己知彼我下家是个蜀国人 我要怒杀他! 《--二!形势确定了么你就怒杀他 你怒杀完蜀国人保准跳出四个魏爱信不信 如果要弃牌了你就随便搞一下别往死整 如果不用弃牌 不用弃牌你还想干神马?
    2.场上一健康明吴 一残血明吴 一健康明魏 一健康非吴暗将 我大蜀无人 先踩死残血吴吧! 《--二!好好回忆一下暗将干过什么 你确定他不是魏国人么?健康的魏国人比吴国人难打多了 收人一时爽全家XXX你们懂!
    3.我大魏存二将 东吴存二将 群雄余一将虎视眈眈 我们先杀吴吧! 《--二!强烈建议你以行动召唤吴国人跟你一起踩死群 如果不动群 你们和东吴互杀 最后的结果大半是养肥群雄三足鼎力 而且经实践证明该话题中的群胜面最大-、-
    请不要单纯的看这三个问题 请自动举一反三-、-我说的是可用于任何形势的理论 而不是一个简单的例子
    (相关链接:ht防tp://ti度eba.ba娘idu.com/p/2173977370)


    IP属地:新加坡2楼2013-06-14 09:57
    回复
      罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。
      合作的进化阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
      最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol
      Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。
      成功条件
      通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。
      友善
      最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
      报复
      但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
      宽恕
      成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。
      不嫉妒
      最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。
      因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。


      IP属地:新加坡3楼2013-06-14 09:59
      回复
        先这么开个坑,有空来说说自己看法。


        IP属地:新加坡4楼2013-06-14 10:01
        回复