耶鲁大学博弈论公开课笔记
耶鲁大学博弈论公开课笔记
耶鲁大学公开课博弈论笔记(博弈论24讲) - 百度文库 (baidu.com)
P1 导论-五个入门结论
理性人
指代这一类人,他们只关心自己的利益(这个定义并不完备,需要修改)
举例:
- 囚徒困境(注意模型的不完备性)
- 宿舍卫生打扫问题(没人愿意投入)
- 企业打价格战(无限降价会使得自己收到损失)
结论
如果选择a的结果严格优于b,那么就说a相当于b来说是一个严格优势策略。结论:不要选择严格劣势策略(Do not play a strictly dominated strategy.
选择严格优势策略(无论对方选择什么,自己的收益都会更高)
在不同的参与者,不同的利益关心情况下,做出的选择都会不同
理性人的理性选择导致了次优的结果(Rational choice in this case,can lead to outcomes that suck.(Rational choice by rational players,can lead to bad outcomes.
协和谬误 Payoffs matter.苟欲求之,必先知之(You can’t get what you want,till you know what you want.
人总是以自己为出发点思考问题。
策略决策的核心:换位思考,站在别人的立场上看比人会怎样做,在考虑自己受益的同时,要注意别人的选择。(Put yourself in other’s shoes and try to figure out what they will do.
耶鲁大学的学生都很自私。(Yale students are evil.
P2 学会换位思考
博弈的三大要素
- players;参与人
- strategies;策略集合
- payoffs; 收益
举例
- 打渔问题
- 解决全球变暖问题(控制碳排放
- 防线布置问题(汉尼拔是否翻越阿尔卑斯山
严格劣势策略
- 无论对方做出哪个选择,你的这个选择都是 strictly 不利的 弱劣势策略:其中的一个策略严格劣于另外一个策略。
当对手有严格优势策略时,而我方两个策略相同时,考虑对手优势策略下的收益。
互动活动: 全班同学写1-100的数字,写到平均数的三分之二的人即为获胜方。
规则
- 所有人都从 1 到 100 中选个数字,最接近所有人选的数字的均值的2/3 者为获胜方
推理过程
- 作为理性人.每个人都会选择67( 100 2/3 )以下的数,进一步假设你的对手也是理性的,你会选择 45 ( 100 4/9 )以下的数 … …
- 依据哲学观点,如果大家都是理性程度相当的,(极端理性)那么最后数字将为 1 ,然而结果却是 9 (在本次实验中
- 这说明博弈的复杂性
导出
- 共同知识的概念
- 在本次实验中,是这样的:要在其中了解到对方都是理性人,知道对方知道对方都是理性人,知道对方知道对方知道对方都是理性人……
- 共同知识与共有知识之间的区别
- common knowledge(不同于 mutual knowledge共有知识.) :站在对手的角度思考对手在这次博弈中有多老练,思考对手知道你在博弈中有多老练,思考对手知道你在思考他有多老练,如此一直循环成立 (这个是网上抄的,我觉得不strict
- 共同知识的概念
共有知识和共同知识
- 共有知识 + 外部信息 -> 共同知识
- 例如:脏脸博弈,皇帝的新衣,沉默的螺旋
- 共有知识 + 外部信息 -> 共同知识
P3 迭代剔除和中位选民定理
学会在剔除劣势策略的情况下再重新审视博弈问题,再做决策。站在对方的立场上,考虑他们不会选择什么,再考虑对方会认为我们不会选择什么
利用迭代剔除法领悟中间选民问题
- 迭代剔除法
- 反复消去严格下策,不断把劣势策略剔除出去,最后只剩下相对优势的策略
- 中间选民问题
- 政治选举候选人的politic position. 如果从极左到极右有10个程度,则大部分人会选择5,6。 在政治上,人们倾向于中间站位。
- 在两党制中,政党表述纲领要吸引中间位置的选民,他们认为在选举中处于中间标度可以吸引左右两边的选民,并以此获得胜利。
- 理论的不完备性
- 太多了,qaq
- 这个公开课是200几年的,此时并没有发生民粹主义的崛起,可以用川普当选等所谓黑天鹅事件来find这个theory的missing
- 可以由理论的missing导出理论成立所需的假设条件
- 理论成立的条件
- 有两个参与人
政治立场能使选民相信
- 延伸出的问题(在商业上,人们倾向于选址集中。)
- 加油站选址
- 快餐店选址
- 比如顾客认为这一片都是快餐店,从而帮助顾客选择这个地方(对于快餐企业,在不确定哪个位置较佳的时候会选在同一处)
- 对于某快餐企业:根据其他快餐店地址,确定自己的新店地址可以减少决策量
在迭代剔除法不能运用时,比如说该博弈方1和2均没有严格下策,可以用二维坐标系画出选择策略之后的收益分布(即做一个函数辅助决策)
最佳策略:在对方不同选择的概率下,做出自己的最佳选择。 列方程,线性规划,求不同范围下的最优解。用数字使得自己的解释更为有力。
P4 足球比赛和商业合作之最佳对策
罚点球
- 一个进过模型简化的点球模型:罚球这可以选择左路,中路,右路3种路线去踢点球,们将可以选择向左扑救或者向右扑救。罚球者的收益很容易计算
- 结论
- 无论什么时候,罚球者向中路踢都不是一个最优的选择
- 不要选择一个在任何brief下都不是最优策略的策略
- 这里的brief并不是门将会向左或向右,而是指概率。我的理解是对中庸之道的批判。所以本例中,虽然罚球者的3种策略里没有劣势策略,不过还是可以用以上原则剔除掉一个策略
- missing
- 罚球者是右撇子
- 门将可以中出(to be continued)
Partnership game:商业合作
- 列出合作对象的效用函数,对此求导,令其一介导数为0,即可得出其最佳投入精力关于对方投入精力的函数(使自己的效益最大化,总效益-个人投入)。
- 假设合作只有两方,令两函数相等,所得交点即为纳什均衡。 即双方都不愿意偏离这一点。
P5 纳什均衡
1.纳什均衡的两大定义
No individual can do better by divieting.
NE can be thought of self-fullfiling.
2.任何参与人都严格不会改变策略,改变策略严格不会使参与人获得增益
3.其他参与人不改变行为的前提下,自己改变行为并没有任何好处
4.严格劣势永远不是最佳策略,最佳策略才可以出现NE
5.博弈会朝着趋向于一个均衡方向自然发展,结果不断趋向于一个NE
6.协和谬误不同于囚徒困境
- 它有两个(nash)均衡,即all in和all out
- 前者可以通过沟通解决,本身具有强制力,因为符合自身利益。例如: 在银行里存钱、微软垄断(规模效应) 等。
- 后者无沟通
7.区分协和谬误和沉默的螺旋之间的关系
- 沉默的螺旋(The Spiral Of Silence)是一个政治学和大众传播理论。理论基本描述了这样一个现象:人们在表达自己想法和观点的时候,如果看到自己赞同的观点受到广泛欢迎,就会积极参与进来,这类观点就会越发大胆地发表和扩散;而发觉某一观点无人或很少有人理会(有时会有群起而攻之的遭遇),即使自己赞同它,也会保持沉默。意见一方的沉默造成另一方意见的增势,如此循环往复,便形成一方的声音越来越强大,另一方越来越沉默下去的螺旋发展过程。理论是基于这样一个假设:大多数个人会力图避免由于单独持有某些态度和信念而产生的孤立。
P6 第六讲:约会策略与古诺模型
策略互补博弈 》协调博弈:性别大战(不同人有不同偏好) 策略代替博弈》
古诺模型
- 假设:2个公司生产可以完全互补产品,
- 在完全竞争市场上,成本=价格
- 在完全垄断市场上,价格=边际成本
- 古诺模型中,价格高于完全竞争市场,低于完全垄断市场