【国战】从重复的囚徒困境看国战前期的盲狙和反盲狙策略【杯雪先生吧】

10月31日漏签0天

杯雪先生吧关注：15贴子：331

3回复贴，共1页

<返回杯雪先生吧

【国战】从重复的囚徒困境看国战前期的盲狙和反盲狙策略

取消只看楼主收藏回复

送TA礼物

IP属地:新加坡

1楼2013-06-14 09:52回复

先摘录两段文字。
————————————————分割线——————————————————
首先必须要纠正的几个错误是：
1.我是吴国人我知己知彼我下家是个蜀国人我要怒杀他！《--二！形势确定了么你就怒杀他你怒杀完蜀国人保准跳出四个魏爱信不信如果要弃牌了你就随便搞一下别往死整如果不用弃牌不用弃牌你还想干神马？
2.场上一健康明吴一残血明吴一健康明魏一健康非吴暗将我大蜀无人先踩死残血吴吧！《--二！好好回忆一下暗将干过什么你确定他不是魏国人么？健康的魏国人比吴国人难打多了收人一时爽全家XXX你们懂！
3.我大魏存二将东吴存二将群雄余一将虎视眈眈我们先杀吴吧！《--二！强烈建议你以行动召唤吴国人跟你一起踩死群如果不动群你们和东吴互杀最后的结果大半是养肥群雄三足鼎力而且经实践证明该话题中的群胜面最大-、-
请不要单纯的看这三个问题请自动举一反三-、-我说的是可用于任何形势的理论而不是一个简单的例子
（相关链接：ht防tp://ti度eba.ba娘idu.com/p/2173977370）

IP属地:新加坡

2楼2013-06-14 09:57

罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。
合作的进化阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（Anatol
Rapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%~5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。
成功条件
通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。
友善
最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。
报复
但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。
宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。
不嫉妒
最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。
因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

IP属地:新加坡

3楼2013-06-14 09:59

先这么开个坑，有空来说说自己看法。

IP属地:新加坡

4楼2013-06-14 10:01

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

3回复贴，共1页

<返回杯雪先生吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

【国战】从重复的囚徒困境看国战前期的盲狙和反盲狙策略

登录百度账号

扫二维码下载贴吧客户端