114培訓(xùn)網(wǎng)歡迎您來(lái)到游戲設(shè)計(jì)交流中心!

400-850-8622

全國(guó)統(tǒng)一學(xué)習(xí)專(zhuān)線 9:00-21:00

博弈的基本思路是怎樣?幫忙解釋一下!

博弈,詞語(yǔ)解釋是局戲、圍棋、賭博。現(xiàn)代數(shù)學(xué)中有博弈論,亦名“對(duì)策論”、“賽局理論”,屬應(yīng)用數(shù)學(xué)的一個(gè)分支, 表示在多決策主體之間行為具有相互作用時(shí),各主體根據(jù)所掌握信息及對(duì)自身能力的認(rèn)知,做出有利于自己的決策的一種行為理論。目前在生物學(xué)、經(jīng)濟(jì)學(xué)、國(guó)際關(guān)系、計(jì)算機(jī)科學(xué)、政治學(xué)、軍事戰(zhàn)略和其他很多*都有廣泛的應(yīng)用。博弈論主要研究公式化了的激勵(lì)結(jié)構(gòu)間的相互作用。是研究具有斗爭(zhēng)或競(jìng)爭(zhēng)性質(zhì)現(xiàn)象的數(shù)學(xué)理論和方法。也是運(yùn)籌學(xué)的一個(gè)重要*。圖書(shū)《博弈》介紹了博弈的發(fā)展。
博弈分為靜態(tài)博弈和動(dòng)態(tài)博弈。靜態(tài)博弈是指在博弈中,兩個(gè)參與人同時(shí)選擇或兩人不同時(shí)選擇,但后行動(dòng)者并不知道先行動(dòng)者采取什么樣的具體行動(dòng)。對(duì)雙方來(lái)說(shuō),都容易形成混沌的行為重組,由于規(guī)則的嚴(yán)密與精細(xì),任何人因時(shí)間問(wèn)題、資金問(wèn)題、心理問(wèn)題等等,致使在多次均衡后直到不明不白地造成大輸,參與靜態(tài)博弈和動(dòng)態(tài)博弈的大部分都是這種人。動(dòng)態(tài)博弈是指在博弈中,兩個(gè)參與人有行動(dòng)的先后順序,且后行動(dòng)者能夠觀察到先行動(dòng)者所選擇的行動(dòng)。
根據(jù)參與者能否形成約束性的協(xié)議,以便集體行動(dòng),博弈可分為合作性博弈和非合作性博弈。納什等博弈論專(zhuān)家研究得更多的是非合作性博弈。
所謂合作性博弈是指參與者從自己的利益出發(fā)與其他參與者談判達(dá)成協(xié)議或形成聯(lián)盟,其結(jié)果對(duì)聯(lián)盟方均有利;而非合作性博弈是指參與者在行動(dòng)選擇時(shí)無(wú)法達(dá)成約束性的協(xié)議。人們分工與交換的經(jīng)濟(jì)活動(dòng)就是合作性的博弈,而囚徒困境以及公共資源悲劇都是非合作性的博弈。
博弈又分靜態(tài)博弈和動(dòng)態(tài)博弈。
靜態(tài)博弈指參與者同時(shí)采取行動(dòng),或者盡管參與者行動(dòng)的采取有先后順序,但后行動(dòng)的人不知道先采取行動(dòng)的人采取的是什么行動(dòng)。
動(dòng)態(tài)博弈指參與者的行動(dòng)有先后順序,并且后采取行動(dòng)的人可以知道先采取行動(dòng)的人所采取的行動(dòng)。
從知識(shí)的擁有程度來(lái)看,博弈分為完全信息博弈和不完全信息博弈。信息是博弈論中重要的內(nèi)容。完全信息博弈指參與者對(duì)所有參與者的策略空間及策略組合下的支付有“完全的了解”,否則是不完全信息博弈。嚴(yán)格地講,完全信息博弈是指參與者的策略空間及策略組合下的支付,是博弈中所有參與者的“公共知識(shí)”的博弈。對(duì)于不完全信息博弈,參與者所做的是努力使自己的期望支付或期望效用*化。
以此博弈哲學(xué)語(yǔ)言也可體現(xiàn)出以下四種博弈分類(lèi):
完全信息靜態(tài)博弈、完全信息動(dòng)態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動(dòng)態(tài)博弈
其中策略性博弈應(yīng)屬于完全信息靜態(tài)博弈,而完全信息動(dòng)態(tài)博弈則包括擴(kuò)展性博弈和重復(fù)博弈等;不完全信息靜態(tài)博弈則是以貝葉斯均衡等理論完成對(duì)混合策略的重新解釋?zhuān)煌耆畔?dòng)態(tài)博弈則是完美貝葉斯均衡為核心概念的信號(hào)博弈。

博弈游戲的特點(diǎn)是什么?

1,游戲合理。
2,結(jié)果隨時(shí)會(huì)傾向與另一個(gè)人,即結(jié)果具有不確定性。
【資料】
博弈本意是:下棋。引申義是:在一定條件下,遵守一定的規(guī)則,一個(gè)或幾個(gè)擁有絕對(duì)理性思維的人或團(tuán)隊(duì),從各自允許選擇的行為或策略進(jìn)行選擇并加以實(shí)施,并從中各自取得相應(yīng)結(jié)果或收益的過(guò)程。有時(shí)候也用作動(dòng)詞,特指對(duì)選擇的行為或策略加以實(shí)施的過(guò)程。

個(gè)完整的博弈應(yīng)當(dāng)包括五個(gè)方面的內(nèi)容:*,博弈的參加者,即博弈過(guò)程中獨(dú)立決策、獨(dú)立承擔(dān)后果的個(gè)人和組織;第二,博弈信息,即博弈者所掌握的對(duì)選擇策
略有幫助的情報(bào)資料;第三,博弈方可選擇的全部行為或策略的集合;第四,博弈的次序,即博弈參加者做出策略選擇的先后;第五,博弈方的收益,即各博弈方做
出決策選擇后的所得和所失。

易木科技加油站博弈游戲最理想的競(jìng)爭(zhēng)策略是什么

達(dá)成共識(shí)。易木科技加油站博弈通過(guò)讓團(tuán)隊(duì)成員在經(jīng)營(yíng)過(guò)程中進(jìn)行價(jià)格博弈,通過(guò)博弈充分了解供應(yīng)鏈博弈的特征和認(rèn)識(shí)供應(yīng)鏈合作的重要性。易木科技加油站博弈游戲最理想的競(jìng)爭(zhēng)策略是達(dá)成共識(shí),相互信任。

*象棋人機(jī)博弈的游戲設(shè)定是什么?

《*象棋人機(jī)博弈》是一款單機(jī)版象棋小游戲。采用的游戲設(shè)定是*進(jìn)的智能算法。

游戲介紹

游戲大小為1.3MB,是一款單機(jī)版象棋小游戲。在電腦上進(jìn)行操作。

棋局表示

計(jì)算機(jī)要下棋首先是要讀懂象棋,意思就是要讓計(jì)算機(jī)知道棋盤(pán)上棋子的分布情況。我們首先要考慮的是用什么樣的數(shù)據(jù)結(jié)構(gòu)來(lái)記錄棋子和棋子在棋盤(pán)上的位置,用不同的數(shù)據(jù)結(jié)構(gòu)來(lái)表示棋盤(pán),程序會(huì)產(chǎn)生不同時(shí)間、空間復(fù)雜度。

假設(shè)棋盤(pán)是一個(gè)平面坐標(biāo)系,我們可以通過(guò)數(shù)組元素的橫坐標(biāo)和縱坐標(biāo)知道每個(gè)棋子的位置信息。并且在棋盤(pán)上最多32個(gè)棋子,所以可以用一個(gè)32個(gè)字節(jié)的一維數(shù)組表示所有棋子的位置,其中每個(gè)字節(jié)的高4位表示該棋子的橫坐標(biāo),低4位表示棋子的縱坐標(biāo)。

而已經(jīng)被吃掉的棋子用坐標(biāo)范圍以外的數(shù)表示。這樣棋盤(pán)信息就被裝入這32個(gè)字節(jié)中。當(dāng)然也可以把棋盤(pán)看作一維的,每個(gè)元素保存直接的位置信息。

游戲設(shè)定

走法生成就是要通過(guò)遍歷產(chǎn)生所有有效的走法,計(jì)算機(jī)通過(guò)程序挑選出最有利的走法,并判斷人類(lèi)棋手的走子是否符合走棋規(guī)則。

根據(jù)實(shí)戰(zhàn)統(tǒng)計(jì),*象棋每一步的合法走法大約是五六十中,還可以通過(guò)良好的數(shù)據(jù)結(jié)構(gòu)和走法預(yù)生成來(lái)提高生成速度。

走法預(yù)生成是為了提高走法產(chǎn)生的效率,把每種棋子在某一位置的*可走步建成一個(gè)數(shù)據(jù)庫(kù),在產(chǎn)生走法時(shí)直接取出數(shù)據(jù),然后根據(jù)具體的棋局去除不合法的走法,即以空間換時(shí)間的優(yōu)化。

走法生成是搜索的前提,優(yōu)化走法生成很大程度上可以提高博弈速度。 這款游戲采用的是*進(jìn)的智能算法,開(kāi)局非常的靈活多變,中殘局也具有相當(dāng)?shù)膶?duì)弈水平。

游戲還有多種難度和讓子設(shè)置,可以增加游戲里對(duì)弈的趣味性。這款精巧的單機(jī)版象棋小游戲,是廣大象棋愛(ài)好者們感受象棋樂(lè)趣的*選擇。

博弈論的中心思想是什么?

一、經(jīng)濟(jì)學(xué)中的“智豬博弈”(Pigs’payoffs)
這個(gè)例子講的是:豬圈里有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個(gè)踏板,每踩一下踏板,在遠(yuǎn)離踏板的豬圈的另一邊的投食口就會(huì)落下少量的食物。如果有一只豬去踩踏板,另一只豬就有機(jī)會(huì)搶先吃到另一邊落下的食物。當(dāng)小豬踩動(dòng)踏板時(shí),大豬會(huì)在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動(dòng)了踏板,則還有機(jī)會(huì)在小豬吃完落下的食物之前跑到食槽,爭(zhēng)吃到另一半殘羹。
那么,兩只豬各會(huì)采取什么策略?答案是:小豬將選擇“搭便車(chē)”策略,也就是舒舒服服地等在食槽邊;而大豬則為一點(diǎn)殘羹不知疲倦地奔忙于踏板和食槽之間。
原因何在?因?yàn)?,小豬踩踏板將一無(wú)所獲,不踩踏板反而能吃上食物。對(duì)小豬而言,無(wú)論大豬是否踩動(dòng)踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會(huì)去踩動(dòng)踏板的,自己親自去踩踏板總比不踩強(qiáng)吧,所以只好親力親為了。
“小豬躺著大豬跑”的現(xiàn)象是由于故事中的游戲規(guī)則所導(dǎo)致的。規(guī)則的核心指標(biāo)是:每次落下的事物數(shù)量和踏板與投食口之間的距離。
如果改變一下核心指標(biāo),豬圈里還會(huì)出現(xiàn)同樣的“小豬躺著大豬跑”的景象嗎?試試看。
改變方案一:減量方案。投食僅原來(lái)的一半分量。結(jié)果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會(huì)把食物吃完;大豬去踩,小豬將也會(huì)把食物吃完。誰(shuí)去踩踏板,就意味著為對(duì)方貢獻(xiàn)食物,所以誰(shuí)也不會(huì)有踩踏板的動(dòng)力了。
如果目的是想讓豬們?nèi)ザ嗖忍ぐ?,這個(gè)游戲規(guī)則的設(shè)計(jì)顯然是失敗的。改變方案二:增量方案。投食為原來(lái)的一倍分量。結(jié)果是小豬、大豬都會(huì)去踩踏板。誰(shuí)想吃,誰(shuí)就會(huì)去踩踏板。反正對(duì)方不會(huì)一次把食物吃完。小豬和大豬相當(dāng)于生活在物質(zhì)相對(duì)豐富的“共產(chǎn)主義”社會(huì),所以競(jìng)爭(zhēng)意識(shí)卻不會(huì)很強(qiáng)。
對(duì)于游戲規(guī)則的設(shè)計(jì)者來(lái)說(shuō),這個(gè)規(guī)則的成本相當(dāng)高(每次提供雙份的食物);而且因?yàn)楦?jìng)爭(zhēng)不強(qiáng)烈,想讓豬們?nèi)ザ嗖忍ぐ宓男Ч⒉缓谩?
改變方案三:減量加移位方案。投食僅原來(lái)的一半分量,但同時(shí)將投食口移到踏板附近。結(jié)果呢,小豬和大豬都在拼命地?fù)屩忍ぐ?。等待者不得食,而多勞者多得。每次的收獲剛好消費(fèi)完。
對(duì)于游戲設(shè)計(jì)者,這是一個(gè)*的方案。成本不高,但收獲*。
原版的“智豬博弈”故事給了競(jìng)爭(zhēng)中的弱者(小豬)以等待為*策略的啟發(fā)。但是對(duì)于社會(huì)而言,因?yàn)樾∝i未能參與競(jìng)爭(zhēng),小豬搭便車(chē)時(shí)的社會(huì)資源配置的并不是*狀態(tài)。為使資源最有效配置,規(guī)則的設(shè)計(jì)者是不愿看見(jiàn)有人搭便車(chē)的,*如此,公司的老板也是如此。而能否完全杜絕“搭便車(chē)”現(xiàn)象,就要看游戲規(guī)則的核心指標(biāo)設(shè)置是否合適了。
比如,公司的激勵(lì)制度設(shè)計(jì),獎(jiǎng)勵(lì)力度太大,又是持股,又是期權(quán),公司職員個(gè)個(gè)都成了百萬(wàn)富翁,成本高不說(shuō),員工的積極性并不一定很高。這相當(dāng)于“智豬博弈”增量方案所描述的情形。但是如果獎(jiǎng)勵(lì)力度不大,而且見(jiàn)者有份(不勞動(dòng)的“小豬”也有),一度十分努力的大豬也不會(huì)有動(dòng)力了----就象“智豬博弈”減量方案一所描述的情形。*的激勵(lì)機(jī)制設(shè)計(jì)就象改變方案三----減量加移位的辦法,獎(jiǎng)勵(lì)并非人人有份,而是直接針對(duì)個(gè)人(如業(yè)務(wù)按比例提成),既節(jié)約了成本(對(duì)公司而言),又消除了“搭便車(chē)”現(xiàn)象,能實(shí)現(xiàn)有效的激勵(lì)。
許多人并未讀過(guò)“智豬博弈”的故事,但是卻在自覺(jué)地使用小豬的策略。股市上等待莊家抬轎的散戶;等待產(chǎn)業(yè)市場(chǎng)中出現(xiàn)具有贏利能力新產(chǎn)品、繼而大舉仿制牟取暴利的游資;公司里不創(chuàng)造效益但分享成果的人,等等。因此,對(duì)于制訂各種經(jīng)濟(jì)管理的游戲規(guī)則的人,必須深諳“智豬博弈”指標(biāo)改變的個(gè)中道理

博弈論是什么?博弈論的思想是什么?

博弈論又被稱(chēng)為對(duì)策論(Game Theory),它是現(xiàn)代數(shù)學(xué)的一個(gè)新分支,也是運(yùn)籌學(xué)的一個(gè)重要組成內(nèi)容。在《博弈圣經(jīng)》中寫(xiě)到:博弈論是二人在平等的對(duì)局中各自利用對(duì)方的策略變換自己的對(duì)抗策略,達(dá)到取勝的意義。按照2005年因?qū)Σ┺恼摰呢暙I(xiàn)而獲得諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的Robert Aumann教授的說(shuō)法,博弈論就是研究互動(dòng)決策的理論。所謂互動(dòng)決策,即各行動(dòng)方(即局中人[player])的決策是相互影響的,每個(gè)人在決策的時(shí)候必須將他人的決策納入自己的決策考慮之中,當(dāng)然也需要把別人對(duì)于自己的考慮也要納入考慮之中……在如此迭代考慮情形進(jìn)行決策,選擇最有利于自己的戰(zhàn)略(strategy)。
博弈論的應(yīng)用領(lǐng)域十分廣泛,在經(jīng)濟(jì)學(xué)、政治科學(xué)(國(guó)內(nèi)的以及國(guó)際的)、軍事戰(zhàn)略問(wèn)題、進(jìn)化生物學(xué)以及當(dāng)代的計(jì)算機(jī)科學(xué)等領(lǐng)域都已成為重要的研究和分析工具。此外,它還與會(huì)計(jì)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)基礎(chǔ)、社會(huì)心理學(xué)以及諸如認(rèn)識(shí)論與倫理學(xué)等哲學(xué)分支有重要聯(lián)系。
博弈要素:
1.決策人:在博弈中率先作出決策的一方,這一方往往依據(jù)自身的感受、經(jīng)驗(yàn)和表面狀態(tài)優(yōu)先采取一種有方向性的行動(dòng)。(博弈圣經(jīng))
2.對(duì)抗者:在博弈二人對(duì)局中行動(dòng)滯后的那個(gè)人,與決策人要作出基本反面的決定,并且他的動(dòng)作是滯后的、默認(rèn)的、被動(dòng)的,但最終占優(yōu)。他的策略可能依賴(lài)于決策人劣勢(shì)的策略選擇,占去空間特性,因此對(duì)抗是*占優(yōu)的方式,實(shí)為領(lǐng)導(dǎo)人的階段性終結(jié)行為。(博弈圣經(jīng))
3.生物親序:所有生物在惡劣、未知的環(huán)境中都有尋找規(guī)律和有序的本能。在博弈中指參與者有從混亂的環(huán)境中等待、尋找有序的親近行為。(博弈圣經(jīng))
4.局中人(players):在一場(chǎng)競(jìng)賽或博弈中,每一個(gè)有決策權(quán)的參與者成為一個(gè)局中人。只有兩個(gè)局中人的博弈現(xiàn)象稱(chēng)為“兩人博弈”,而多于兩個(gè)局中人的博弈稱(chēng)為 “多人博弈”。
5.策略():一局博弈中,每個(gè)局中人都有選擇實(shí)際可行的完整的行動(dòng)方案,即方案不是某階段的行動(dòng)方案,而是指導(dǎo)整個(gè)行動(dòng)的一個(gè)方案,一個(gè)局中人的一個(gè)可行的自始至終全局籌劃的一個(gè)行動(dòng)方案,稱(chēng)為這個(gè)局中人的一個(gè)策略。如果在一個(gè)博弈中局中人都總共有有限個(gè)策略,則稱(chēng)為“有限博弈”,否則稱(chēng)為“無(wú)限博弈”。
6.得失(payoffs):一局博弈結(jié)局時(shí)的結(jié)果稱(chēng)為得失。每個(gè)局中人在一局博弈結(jié)束時(shí)的得失,不僅與該局中人自身所選擇的策略有關(guān),而且與全局中人所取定的一組策略有關(guān)。所以,一局博弈結(jié)束時(shí)每個(gè)局中人的“得失”是全體局中人所取定的一組策略的函數(shù),通常稱(chēng)為支付(payoff)函數(shù)。
7.次序(orders):各博弈方的決策有先后之分,且一個(gè)博弈方要作不止一次的決策選擇,就出現(xiàn)了次序問(wèn)題;其他要素相同次序不同,博弈就不同。
8.博弈涉及到均衡:均衡是平衡的意思,在經(jīng)濟(jì)學(xué)中,均衡意即相關(guān)量處于穩(wěn)定值。在供求關(guān)系中,某一商品市場(chǎng)如果在某一價(jià)格下,想以此價(jià)格買(mǎi)此商品的人均能買(mǎi)到,而想賣(mài)的人均能賣(mài)出,此時(shí)我們就說(shuō),該商品的供求達(dá)到了均衡。所謂納什均衡,它是一穩(wěn)定的博弈結(jié)果。
納什均衡(Nash ):在一策略組合中,所有的參與者面臨這樣一種情況,當(dāng)其他人不改變策略時(shí),他此時(shí)的策略是*的。也就是說(shuō),此時(shí)如果他改變策略他的支付將會(huì)降低。在納什均衡點(diǎn)上,每一個(gè)理性的參與者都不會(huì)有單獨(dú)改變策略的沖動(dòng)。納什均衡點(diǎn)存在性證明的前提是“博弈均衡偶”概念的提出。所謂“均衡偶”是在二人零和博弈中,當(dāng)局中人A采取其*策略a*,局中人B也采取其*策略b*,如果局中人仍采取b*,而局中人A卻采取另一種策略a,那么局中人A的支付不會(huì)超過(guò)他采取原來(lái)的策略a*的支付。這一結(jié)果對(duì)局中人B亦是如此。
這樣,“均衡偶”的明確定義為:一對(duì)策略a*(屬于策略集A)和策略b*(屬于策略集B)稱(chēng)之為均衡偶,對(duì)任一策略a(屬于策略集A)和策略b(屬于策略集B),總有:偶對(duì)(a, b*)≤偶對(duì)(a*,b*)≤偶對(duì)(a*,b)。
對(duì)于非零和博弈也有如下定義:一對(duì)策略a*(屬于策略集A)和策略b*(屬于策略集B)稱(chēng)為非零和博弈的均衡偶,對(duì)任一策略a(屬于策略集A)和策略 b(屬于策略集B),總有:對(duì)局中人A的偶對(duì)(a, b*) ≤偶對(duì)(a*,b*);對(duì)局中人B的偶對(duì)(a*,b)≤偶對(duì)(a*,b*)。
有了上述定義,就立即得到納什定理:
任何具有有限純策略的二人博弈至少有一個(gè)均衡偶。這一均衡偶就稱(chēng)為納什均衡點(diǎn)。
納什定理的嚴(yán)格證明要用到不動(dòng)點(diǎn)理論,不動(dòng)點(diǎn)理論是經(jīng)濟(jì)均衡研究的主要工具。通俗地說(shuō),尋找均衡點(diǎn)的存在性等價(jià)于找到博弈的不動(dòng)點(diǎn)。
納什均衡點(diǎn)概念提供了一種非常重要的分析手段,使博弈論研究可以在一個(gè)博弈結(jié)構(gòu)里尋找比較有意義的結(jié)果。
但納什均衡點(diǎn)定義只局限于任何局中人不想單方面變換策略,而忽視了其他局中人改變策略的可能性,因此,在很多情況下,納什均衡點(diǎn)的結(jié)論缺乏說(shuō)服力,研究者們形象地稱(chēng)之為“天真可愛(ài)的納什均衡點(diǎn)”。
塞爾頓(R·Selten)在多個(gè)均衡中剔除一些按照一定規(guī)則不合理的均衡點(diǎn),從而形成了兩個(gè)均衡的精煉概念:子博弈完全均衡和顫抖的手完美均衡。弈論的研究方法和其他許多利用數(shù)學(xué)工具研究社會(huì)經(jīng)濟(jì)現(xiàn)象的*一樣,都是從復(fù)雜的現(xiàn)象中抽象出基本的元素,對(duì)這些元素構(gòu)成的數(shù)學(xué)模型進(jìn)行分析,而后逐步引入對(duì)其形勢(shì)產(chǎn)影響的其他因素,從而分析其結(jié)果。
基于不同抽象水平,形成三種博弈表述方式,標(biāo)準(zhǔn)型、擴(kuò)展型和特征函數(shù)型利用這三種表述形式,可以研究形形色色的問(wèn)題。因此,它被稱(chēng)為“社會(huì)科學(xué)的數(shù)學(xué)”從理論上講,博弈論是研究理性的行動(dòng)者相互作用的形式理論,而實(shí)際上正深入到經(jīng)濟(jì)學(xué)、政治學(xué)、社會(huì)學(xué)等等,被各門(mén)社會(huì)科學(xué)所應(yīng)用。
博弈論是指某個(gè)個(gè)人或是組織,面對(duì)一定的環(huán)境條件,在一定的規(guī)則約束下,依靠所掌握的信息,從各自選擇的行為或是策略進(jìn)行選擇并加以實(shí)施,并從各自取得相應(yīng)結(jié)果或收益的過(guò)程,在經(jīng)濟(jì)學(xué)上博弈論是個(gè)非常重要的理論概念。
什么是博弈論?古語(yǔ)有云,世事如棋。生活中每個(gè)人如同棋手,其每一個(gè)行為如同在一張看不見(jiàn)的棋盤(pán)上布一個(gè)子,精明慎重的棋手們相互揣摩、相互牽制,人人爭(zhēng)贏,下出諸多精彩紛呈、變化多端的棋局。博弈論是研究棋手們 “出棋” 著數(shù)中理性化、邏輯化的部分,并將其系統(tǒng)化為一門(mén)科學(xué)。換句話說(shuō),就是研究個(gè)體如何在錯(cuò)綜復(fù)雜的相互影響中得出最合理的策略。事實(shí)上,博弈論正是衍生于古老的游戲或曰博弈如象棋、撲克等。數(shù)學(xué)家們將具體的問(wèn)題抽象化,通過(guò)建立自完備的邏輯框架、體系研究其規(guī)律及變化。這可不是件容易的事情,以最簡(jiǎn)單的二人對(duì)弈為例,稍想一下便知此中大有玄妙:若假設(shè)雙方都精確地記得自己和對(duì)手的每一步棋且都是最“理性” 的棋手,甲出子的時(shí)候,為了贏棋,得仔細(xì)考慮乙的想法,而乙出子時(shí)也得考慮甲的想法,所以甲還得想到乙在想他的想法,乙當(dāng)然也知道甲想到了他在想甲的想法…
面對(duì)如許重重迷霧,博弈論怎樣著手分析解決問(wèn)題,怎樣對(duì)作為現(xiàn)實(shí)歸納的抽象數(shù)學(xué)問(wèn)題求出*解、從而為在理論上指導(dǎo)實(shí)踐提供可能性呢?現(xiàn)代博弈理論由匈牙利大數(shù)學(xué)家馮·諾伊曼于20世紀(jì)20年代開(kāi)始創(chuàng)立,1944年他與經(jīng)濟(jì)學(xué)家?jiàn)W斯卡·摩根斯特恩合作出版的巨著《博弈論與經(jīng)濟(jì)行為》,標(biāo)志著現(xiàn)代系統(tǒng)博弈理論的初步形成。對(duì)于非合作、純競(jìng)爭(zhēng)型博弈,諾伊曼所解決的只有二人零和博弈--好比兩個(gè)人下棋、或是打乒乓球,一個(gè)人贏一著則另一個(gè)人必輸一著,凈獲利為零。在這里抽象化后的博弈問(wèn)題是,已知參與者集合(兩方) ,策略集合(所有棋著) ,和盈利集合(贏子輸子) ,能否且如何找到一個(gè)理論上的“解” 或“平衡” ,也就是對(duì)參與雙方來(lái)說(shuō)都最“合理” 、*的具體策略?怎樣才是“合理” ?應(yīng)用傳統(tǒng)決定論中的“最小*” 準(zhǔn)則,即博弈的每一方都假設(shè)對(duì)方的所有功略的根本目的是使自己*程度地失利,并據(jù)此*化自己的對(duì)策,諾伊曼從數(shù)學(xué)上證明,通過(guò)一定的線性運(yùn)算,對(duì)于每一個(gè)二人零和博弈,都能夠找到一個(gè)“最小*解” 。通過(guò)一定的線性運(yùn)算,競(jìng)爭(zhēng)雙方以概率分布的形式隨機(jī)使用某套*策略中的各個(gè)步驟,就可以最終達(dá)到彼此盈利*且相當(dāng)。當(dāng)然,其隱含的意義在于,這套*策略并不依賴(lài)于對(duì)手在博弈中的操作。用通俗的話說(shuō),這個(gè)著名的最小*定理所體現(xiàn)的基本“理性” 思想是“抱*的希望,做最壞的打算” 。
博弈論--這是一個(gè)熱得燙手的概念。它不僅僅存在于數(shù)學(xué)的運(yùn)籌學(xué)中,也正在經(jīng)濟(jì)學(xué)中占據(jù)越來(lái)越重要的地位(近幾年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)就頻頻授予博弈論研究者),但如果你認(rèn)為博弈論的應(yīng)用領(lǐng)域僅限于此的話,那你就大錯(cuò)了。實(shí)際上,博弈論甚至在我們的工作和生活中無(wú)處不在!在工作中,你在和上司博弈,也在和下屬博弈,你也同樣會(huì)跟其他相關(guān)*人員博弈;而要開(kāi)展業(yè)務(wù),你更是在和你的客戶以及競(jìng)爭(zhēng)對(duì)手博弈。在生活中,博弈仍然無(wú)處不在。博弈論代表著一種全新的分析方法和全新的思想。
諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者包羅·薩繆爾遜如是說(shuō):
要想在現(xiàn)代社會(huì)做個(gè)有價(jià)值的人,你就必須對(duì)博弈論有個(gè)大致的了解。
也可以這樣說(shuō),要相贏得生意,不可不學(xué)博弈論;要想贏得生活,同樣不可不學(xué)博弈論。
博弈論很深?yuàn)W嗎?通過(guò)本教材你將發(fā)現(xiàn)深?yuàn)W的博弈論原來(lái)也可以這么生動(dòng)、通俗和易懂。大量的案例、平實(shí)的語(yǔ)言,將幫助你輕松掌握博弈論這個(gè)今天最時(shí)髦的工具。
《博弈圣經(jīng)》中也說(shuō)到:21世紀(jì),應(yīng)站在博弈論的前沿。盡管博弈經(jīng)濟(jì)學(xué)家很少,但其獲諾貝爾獎(jiǎng)的比例*。最能震動(dòng)人類(lèi)情感的是博弈,對(duì)未來(lái)最有影響力的還是博弈。評(píng)論一個(gè)人和一個(gè)*的窮富,就看他分享博弈正理的多少。
可見(jiàn)博弈之重要。
經(jīng)濟(jì)學(xué)中的“智豬博弈”(Pigs’payoffs)
這個(gè)例子講的是:豬圈里有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個(gè)踏板,每踩一下踏板,在遠(yuǎn)離踏板的豬圈的另一邊的投食口就會(huì)落下少量的食物。如果有一只豬去踩踏板,另一只豬就有機(jī)會(huì)搶先吃到另一邊落下的食物。當(dāng)小豬踩動(dòng)踏板時(shí),大豬會(huì)在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動(dòng)了踏板,則還有機(jī)會(huì)在小豬吃完落下的食物之前跑到食槽,爭(zhēng)吃到另一半殘羹。
那么,兩只豬各會(huì)采取什么策略?答案是:小豬將選擇“搭便車(chē)”策略,也就是舒舒服服地等在食槽邊;而大豬則為一點(diǎn)殘羹不知疲倦地奔忙于踏板和食槽之間。
原因何在?因?yàn)?,小豬踩踏板將一無(wú)所獲,不踩踏板反而能吃上食物。對(duì)小豬而言,無(wú)論大豬是否踩動(dòng)踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會(huì)去踩動(dòng)踏板的,自己親自去踩踏板總比不踩強(qiáng)吧,所以只好親力親為了。
“小豬躺著大豬跑”的現(xiàn)象是由于故事中的游戲規(guī)則所導(dǎo)致的。規(guī)則的核心指標(biāo)是:每次落下的食物數(shù)量和踏板與投食口之間的距離。
如果改變一下核心指標(biāo),豬圈里還會(huì)出現(xiàn)同樣的“小豬躺著大豬跑”的景象嗎?試試看。
改變方案一:減量方案。投食僅原來(lái)的一半分量。結(jié)果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會(huì)把食物吃完;大豬去踩,小豬將也會(huì)把食物吃完。誰(shuí)去踩踏板,就意味著為對(duì)方貢獻(xiàn)食物,所以誰(shuí)也不會(huì)有踩踏板的動(dòng)力了。
如果目的是想讓豬們?nèi)ザ嗖忍ぐ澹@個(gè)游戲規(guī)則的設(shè)計(jì)顯然是失敗的。
改變方案二:增量方案。投食為原來(lái)的一倍分量。結(jié)果是小豬、大豬都會(huì)去踩踏板。誰(shuí)想吃,誰(shuí)就會(huì)去踩踏板。反正對(duì)方不會(huì)一次把食物吃完。小豬和大豬相當(dāng)于生活在物質(zhì)相對(duì)豐富的“共產(chǎn)主義”社會(huì),所以競(jìng)爭(zhēng)意識(shí)卻不會(huì)很強(qiáng)。
對(duì)于游戲規(guī)則的設(shè)計(jì)者來(lái)說(shuō),這個(gè)規(guī)則的成本相當(dāng)高(每次提供雙份的食物);而且因?yàn)楦?jìng)爭(zhēng)不強(qiáng)烈,想讓豬們?nèi)ザ嗖忍ぐ宓男Ч⒉缓谩?
改變方案三:減量加移位方案。投食僅原來(lái)的一半分量,但同時(shí)將投食口移到踏板附近。結(jié)果呢,小豬和大豬都在拼命地?fù)屩忍ぐ?。等待者不得食,而多勞者多得。每次的收獲剛好消費(fèi)完。
對(duì)于游戲設(shè)計(jì)者,這是一個(gè)*的方案。成本不高,但收獲*。
原版的“智豬博弈”故事給了競(jìng)爭(zhēng)中的弱者(小豬)以等待為*策略的啟發(fā)。但是對(duì)于社會(huì)而言,因?yàn)樾∝i未能參與競(jìng)爭(zhēng),小豬搭便車(chē)時(shí)的社會(huì)資源配置的并不是*狀態(tài)。為使資源最有效配置,規(guī)則的設(shè)計(jì)者是不愿看見(jiàn)有人搭便車(chē)的,*如此,公司的老板也是如此。而能否完全杜絕“搭便車(chē)”現(xiàn)象,就要看游戲規(guī)則的核心指標(biāo)設(shè)置是否合適了。
比如,公司的激勵(lì)制度設(shè)計(jì),獎(jiǎng)勵(lì)力度太大,又是持股,又是期權(quán),公司職員個(gè)個(gè)都成了百萬(wàn)富翁,成本高不說(shuō),員工的積極性并不一定很高。這相當(dāng)于“智豬博弈”增量方案所描述的情形。但是如果獎(jiǎng)勵(lì)力度不大,而且見(jiàn)者有份(不勞動(dòng)的“小豬”也有),一度十分努力的大豬也不會(huì)有動(dòng)力了----就象“智豬博弈”減量方案一所描述的情形。*的激勵(lì)機(jī)制設(shè)計(jì)就象改變方案三----減量加移位的辦法,獎(jiǎng)勵(lì)并非人人有份,而是直接針對(duì)個(gè)人(如業(yè)務(wù)按比例提成),既節(jié)約了成本(對(duì)公司而言),又消除了“搭便車(chē)”現(xiàn)象,能實(shí)現(xiàn)有效的激勵(lì)。
許多人并未讀過(guò)“智豬博弈”的故事,但是卻在自覺(jué)地使用小豬的策略。股市上等待莊家抬轎的散戶;等待產(chǎn)業(yè)市場(chǎng)中出現(xiàn)具有贏利能力新產(chǎn)品、繼而大舉仿制牟取暴利的游資;公司里不創(chuàng)造效益但分享成果的人,等等。因此,對(duì)于制訂各種經(jīng)濟(jì)管理的游戲規(guī)則的人,必須深諳“智豬博弈”指標(biāo)改變的個(gè)中道理。
[編輯本段]納什博弈論的原理與應(yīng)用
1950年和1951年納什的兩篇關(guān)于非合作博弈論的重要論文,徹底改變了人們對(duì)競(jìng)爭(zhēng)和市場(chǎng)的看法。他證明了非合作博弈及其均衡解,并證明了均衡解的存在性,即著名的納什均衡。從而揭示了博弈均衡與經(jīng)濟(jì)均衡的內(nèi)在聯(lián)系。納什的研究奠定了現(xiàn)代非合作博弈論的基石,后來(lái)的博弈論研究基本上都沿著這條主線展開(kāi)的。然而,納什天才的發(fā)現(xiàn)卻遭到馮·諾依曼的斷然否定,在此之前他還受到愛(ài)因斯坦的冷遇。但是骨子里挑戰(zhàn)權(quán)威、藐視權(quán)威的本性,使納什堅(jiān)持了自己的觀點(diǎn),終成一代大師。要不是30多年的嚴(yán)重精神病折磨,恐怕他早已站在諾貝爾獎(jiǎng)的領(lǐng)獎(jiǎng)臺(tái)上了,而且也絕不會(huì)與其他人分享這一殊榮。
納什是一個(gè)非常天才的數(shù)學(xué)家,他的主要貢獻(xiàn)是1950至1951年在普林斯頓讀博士學(xué)位時(shí)做出的。然而,他的天才發(fā)現(xiàn)———非合作博弈的均衡,即“納什均衡”并不是一帆風(fēng)順的。
1948年納什到普林斯頓*讀數(shù)學(xué)系的博士。那一年他還不到20歲。當(dāng)時(shí)普林斯頓可謂人杰地靈,大師如云。愛(ài)因斯坦、馮·諾依曼、列夫謝茨(數(shù)學(xué)系主任)、阿爾伯特·塔克、阿倫佐·切奇、哈羅德·庫(kù)恩、諾爾曼·斯蒂恩羅德、埃爾夫·??怂埂热荚谶@里。博弈論主要是由馮·諾依曼(1903—1957)創(chuàng)所立的。他是一位出生于匈牙利的天才的數(shù)學(xué)家。他不僅創(chuàng)立了經(jīng)濟(jì)博弈論,而且提出了計(jì)算機(jī)的基本原理。早在20世紀(jì)初,塞梅魯(Zermelo)、鮑羅(Borel)和馮·諾伊曼已經(jīng)開(kāi)始研究博弈的準(zhǔn)確的數(shù)學(xué)表達(dá),直到1939年,馮·諾依曼遇到經(jīng)濟(jì)學(xué)家?jiàn)W斯卡·摩根斯特恩(Oskar ),并與其合作才使博弈論進(jìn)入經(jīng)濟(jì)學(xué)的廣闊領(lǐng)域。
1944年他與奧斯卡·摩根斯特恩合著的巨作《博弈論與經(jīng)濟(jì)行為》出版,標(biāo)志著現(xiàn)代系統(tǒng)博弈理論的的初步形成。盡管對(duì)具有博弈性質(zhì)的問(wèn)題的研究可以追溯到19世紀(jì)甚至更早。例如,1838年古諾(Cournot)簡(jiǎn)單雙寡頭壟斷博弈;1883年伯特蘭和1925年艾奇沃奇思研究了兩個(gè)寡頭的產(chǎn)量與價(jià)格壟斷;2000多年前*著名軍事家孫武的后代孫臏利用博弈論方法幫助田忌賽馬取勝等等都屬于早期博弈論的萌芽,其特點(diǎn)是零星的,片斷的研究,帶有很大的偶然性,很不系統(tǒng)。馮·諾依曼和摩根斯特恩的《博弈論與經(jīng)濟(jì)行為》一書(shū)中提出的標(biāo)準(zhǔn)型、擴(kuò)展型和合作型博弈模型解的概念和分析方法,奠定了這門(mén)*的理論基礎(chǔ)。合作型博弈在20世紀(jì)50年代達(dá)到了巔峰期。然而,諾依曼的博弈論的局限性也日益暴露出來(lái),由于它過(guò)于抽象,使應(yīng)用范圍受到很大限制,在很長(zhǎng)時(shí)間里,人們對(duì)博弈論的研究知之甚少,只是少數(shù)數(shù)學(xué)家的專(zhuān)利,所以,影響力很有限。正是在這個(gè)時(shí)候,非合作博弈———“納什均衡”應(yīng)運(yùn)而生了,它標(biāo)志著博弈論的新時(shí)代的開(kāi)始!納什不是一個(gè)按部就班的學(xué)生,他經(jīng)常曠課。據(jù)他的同學(xué)們回憶,他們根本想不起來(lái)曾經(jīng)什么時(shí)候和納什一起完完整整地上過(guò)一門(mén)必修課,但納什爭(zhēng)辯說(shuō),至少上過(guò)斯蒂恩羅德的代數(shù)拓?fù)鋵W(xué)。斯蒂恩羅德恰恰是這門(mén)*的創(chuàng)立者,可是,沒(méi)上幾次課,納什就認(rèn)定這門(mén)課不符合他的口味。于是,又走人了。然而,納什畢竟是一位英才天縱的非凡人物,他廣泛涉獵數(shù)學(xué)王國(guó)的每一個(gè)分支,如拓?fù)鋵W(xué)、代數(shù)幾何學(xué)、邏輯學(xué)、博弈論等等,深深地為之著迷。納什經(jīng)常顯示出他與眾不同的自信和自負(fù),充滿咄咄逼人的學(xué)術(shù)野心。1950年整個(gè)夏天納什都忙于應(yīng)付緊張的考試,他的博弈論研究工作被迫中斷,他感到這是莫大的浪費(fèi)。殊不知這種暫時(shí)的“放棄”,使原來(lái)模糊、雜亂和無(wú)緒的若干念頭,在潛意識(shí)的持續(xù)思考下,逐步形成一條清晰的脈絡(luò),突然來(lái)了靈感!這一年的10月,他驟感才思潮涌,夢(mèng)筆生花。其中一個(gè)最耀眼的亮點(diǎn)就是日后被稱(chēng)之為“納什均衡”的非合作博弈均衡的概念。納什的主要學(xué)術(shù)貢獻(xiàn)體現(xiàn)在1950年和1951年的兩篇論文之中(包括一篇博士論文)。1950年他才把自己的研究成果寫(xiě)成題為“非合作博弈”的長(zhǎng)篇博士論文,1950年11月刊登在美國(guó)*科每月公報(bào)上,立即引起轟動(dòng)。說(shuō)起來(lái)這全靠師兄戴維·蓋爾之功,就在遭到馮·諾依曼貶低幾天之后,他遇到蓋爾,告訴他自己已經(jīng)將馮·諾依曼的“最小*原理”(minimax solution)推到非合作博弈領(lǐng)域,找到了普遍化的方法和均衡點(diǎn)。蓋爾聽(tīng)得很認(rèn)真,他終于意識(shí)到納什的思路比馮·諾伊曼的合作博弈的理論更能反映現(xiàn)實(shí)的情況,而對(duì)其嚴(yán)密優(yōu)美的數(shù)學(xué)證明極為贊嘆。蓋爾建議他馬上整理出來(lái)發(fā)表,以免被別人捷足先登。納什這個(gè)初出茅廬的小子,根本不知道競(jìng)爭(zhēng)的險(xiǎn)惡,從未想過(guò)要這么做。結(jié)果還是蓋爾充當(dāng)了他的“經(jīng)紀(jì)人”,代為起草致科的短信,系主任列夫謝茨則親自將文稿遞交給科。納什寫(xiě)的文章不多,就那么幾篇,但已經(jīng)足夠了,因?yàn)槎际蔷分械木?。這一點(diǎn)也是值得我們深思的。國(guó)內(nèi)提一個(gè)教授,要求在“核心的刊物”上發(fā)表多少篇文章。按照這個(gè)標(biāo)準(zhǔn)可能納什還不一定夠資格。
1996年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主莫爾里斯當(dāng)牛津*艾奇沃思經(jīng)濟(jì)學(xué)講座教授時(shí)也沒(méi)有發(fā)表過(guò)什么文章,特殊的人才,必須有特殊的選拔辦法。
納什在上*時(shí)就開(kāi)始從事純數(shù)學(xué)的博弈論研究,1948年進(jìn)入普林斯頓*后更是如魚(yú)得水。20歲出頭已成為聞名世界的數(shù)學(xué)家。特別是在經(jīng)濟(jì)博弈論領(lǐng)域,他做出了劃時(shí)代的貢獻(xiàn),是繼馮·諾依曼之后最偉大的博弈論大師之一。他提出的著名的納什均衡的概念在非合作博弈理論中起著核心的作用。后續(xù)的研究者對(duì)博弈論的貢獻(xiàn),都是建立在這一概念之上的。由于納什均衡的提出和不斷完善為博弈論廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、管理學(xué)、社會(huì)學(xué)、政治學(xué)、軍事科學(xué)等領(lǐng)域奠定了堅(jiān)實(shí)的理論基礎(chǔ)。

棋類(lèi)游戲的算法有哪些

棋類(lèi)游戲的算法有哪些

棋類(lèi)游戲通常包含三大要素:棋盤(pán)、棋子和游戲規(guī)則,其中游戲規(guī)則又包括勝負(fù)判定規(guī)則、落子的規(guī)則以及游戲的基本策略。下面我來(lái)給大家講講各類(lèi)棋類(lèi)游戲的算法。

除了棋盤(pán)和棋子的建模,棋類(lèi)游戲最重要的部分就是AI算法的設(shè)計(jì)。目前棋類(lèi)游戲的AI基本上就是帶啟發(fā)的搜索算法,那么常用的搜索算法有哪些呢?

1. 博弈與博弈樹(shù)

博弈可以理解為有限參與者進(jìn)行有限策略選擇的競(jìng)爭(zhēng)性活動(dòng),比如下棋、打牌、競(jìng)技、戰(zhàn)爭(zhēng)等。根據(jù)參與者種類(lèi)和策略選擇的方式可以將博弈分成很多種,比如“二人零和、全信息、非偶然”博弈,也就是我們常說(shuō)的零和博弈(Zero-sum Game)。所謂“零和”,就是有贏必有輸,不存在雙贏的結(jié)果。所謂“全信息”,是指參與博弈的雙方進(jìn)行決策時(shí)能夠了解的信息是公開(kāi)和透明的,不存在信息不對(duì)稱(chēng)的情況。比如棋類(lèi)游戲的棋盤(pán)和棋子狀態(tài)是公開(kāi)的,下棋的雙方都可以看到當(dāng)前所有棋子的位置,但是很多牌類(lèi)游戲則不滿足全信息的條件,因?yàn)榕祁?lèi)游戲都不會(huì)公開(kāi)自己手中的牌,也看不到對(duì)手手中的牌。所謂的“非偶然”,是指參與博弈的雙方的決策都是“理智”的行為,不存在失誤和碰運(yùn)氣的情況。

在博弈過(guò)程中,任何一方都希望自己取得勝利,當(dāng)某一方當(dāng)前有多個(gè)行動(dòng)方案可供選擇時(shí),他總是挑選對(duì)自己最為有利同時(shí)對(duì)對(duì)方最為不利的那個(gè)行動(dòng)方案。當(dāng)然,博弈的另一方也會(huì)從多個(gè)行動(dòng)方案中選擇一個(gè)對(duì)自己最有利的方案進(jìn)行對(duì)抗。參與博弈的雙方在對(duì)抗或博弈的過(guò)程中會(huì)遇到各種狀態(tài)和移動(dòng)(也可能是棋子落子)的選擇,博弈雙方交替選擇,每一次選擇都會(huì)產(chǎn)生一個(gè)新的棋局狀態(tài)。

假設(shè)兩個(gè)棋手(可能是兩個(gè)人,也可能是兩臺(tái)計(jì)算機(jī))MAX和MIN正在一個(gè)棋盤(pán)上進(jìn)行博弈。當(dāng)MAX做選擇時(shí),主動(dòng)權(quán)在MAX手中,MAX可以從多個(gè)可選決策方案中任選一個(gè)行動(dòng),一旦MAX選定某個(gè)行動(dòng)方案后,主動(dòng)權(quán)就轉(zhuǎn)移到了MIN手中。MIN也會(huì)有若干個(gè)可選決策方案,MIN可能會(huì)選擇任何一個(gè)方案行動(dòng),因此MAX必須對(duì)做好應(yīng)對(duì)MIN的每一種選擇。如果把棋盤(pán)抽象為狀態(tài),則MAX每選擇一個(gè)決策方案就會(huì)觸發(fā)產(chǎn)生一個(gè)新?tīng)顟B(tài),MIN也同樣,最終這些狀態(tài)就會(huì)形成一個(gè)狀態(tài)樹(shù),這個(gè)附加了MAX和MIN的決策過(guò)程信息的狀態(tài)樹(shù)就是博弈樹(shù)(Game Tree)。

2. 極大極小值搜索算法

極大極小值(Min-Max)搜索算法是各種博弈樹(shù)搜索算法中最基礎(chǔ)的搜索算法。假如MAX和MIN兩個(gè)人在下棋,MAX會(huì)對(duì)所有自己可能的落子后產(chǎn)生的局面進(jìn)行評(píng)估,選擇評(píng)估值*的局面作為自己落子的選擇。這時(shí)候就該MIN落子,MIN當(dāng)然也會(huì)選擇對(duì)自己最有利的局面,這就是雙方的博弈,即總是選擇最小化對(duì)手的'*利益(令對(duì)手的*利益最小化)的落子方法。作為一種博弈搜索算法,極大極小值搜索算法的名字就由此而來(lái)。

3. 負(fù)極大值搜索算法

博弈樹(shù)的搜索是一個(gè)遞歸的過(guò)程,極大極小值算法在遞歸搜索的過(guò)程中需要在每一步區(qū)分當(dāng)前評(píng)估的是極大值節(jié)點(diǎn)還是極小值節(jié)點(diǎn)。1975年Knuth和Moore提出了一種消除MAX節(jié)點(diǎn)和MIN節(jié)點(diǎn)區(qū)別的簡(jiǎn)化的極大極小值算法,稱(chēng)為負(fù)極大值算法Negamax。該算法的理論基礎(chǔ)是:

max(a,b) = -min(-a, -b)

簡(jiǎn)單地將遞歸函數(shù)MiniMax()返回值取負(fù)再返回,就可以將所有的MIN 節(jié)點(diǎn)都轉(zhuǎn)化為MAX節(jié)點(diǎn),對(duì)每個(gè)節(jié)點(diǎn)的搜索都嘗試讓節(jié)點(diǎn)值*,這樣就將每一步遞歸搜索過(guò)程都統(tǒng)一起來(lái)。

4. “α-β”剪枝算法

有很多資料將“α-β”剪枝算法稱(chēng)為“α-β”搜索算法,實(shí)際上,它不是一種獨(dú)立的搜索算法,而是一種嫁接在極大極小值算法和負(fù)極大值算法上的一種優(yōu)化算法?!唉?β”剪枝算法維護(hù)了一個(gè)搜索的極大極小值窗口:[α,β]。其中α表示在搜索進(jìn)行到當(dāng)前狀態(tài)時(shí),博弈的MAX一方所追尋的*值中最小的那個(gè)值(也就是MAX的最壞的情況)。在每一步的搜索中,如果MAX所獲得的極大值中最小的那個(gè)值比α大,則更新α值(用這個(gè)最小值代替α),也就是提高α這個(gè)下限。

而β表示在搜索進(jìn)行到當(dāng)前狀態(tài)時(shí),博弈的MIN一方的最小值中*的那個(gè)值(也就是MIN的最壞的情況)。在每一步的搜索中,如果MIN所獲得的極小值中*的那個(gè)值比β小,則更新β值(用這個(gè)*值代替β),也就是降低β這個(gè)上限。當(dāng)某個(gè)節(jié)點(diǎn)的α≥β時(shí),說(shuō)明該節(jié)點(diǎn)的所有子節(jié)點(diǎn)的評(píng)估值既不會(huì)對(duì)MAX更有利,也不會(huì)對(duì)MIN更有利,也就是對(duì)MAX和MIN的選擇不會(huì)產(chǎn)生任何影響,因此就沒(méi)有必要再搜索這個(gè)節(jié)點(diǎn)及其所有子節(jié)點(diǎn)了。

5. 估值函數(shù)

對(duì)于很多啟發(fā)式搜索算法,其“智力”的高低基本上是由估值函數(shù)(評(píng)估函數(shù))所決定,棋類(lèi)游戲的博弈樹(shù)搜索算法也不例外。

估值函數(shù)的作用是把一個(gè)棋局量化成一個(gè)可直接比較的數(shù)字,這個(gè)數(shù)字在一定程度上能反映取勝的概率。棋局的量化需要考慮很多因素,量化結(jié)果是這些因素按照各種權(quán)重組合的結(jié)果。這些因素通常包括棋子的戰(zhàn)力(棋力)、雙方棋子占領(lǐng)的空間、落子的機(jī)動(dòng)性、威脅性(能吃掉對(duì)方的棋子)、形和勢(shì)等。

6. 置換表與哈希函數(shù)

置換表( table)也是各種啟發(fā)式搜索算法中常用的輔助算法,它是一種以空間換時(shí)間的策略,使用置換表的目的就是提高搜索效率。一般情況下,置換表中的每一項(xiàng)代表者一個(gè)棋局中*的落子方法,直接查找置換表獲得這個(gè)落子方法能避免耗時(shí)的重復(fù)搜索,這就是使用置換表能大幅提高搜索效率的原理。

使用置換表*的問(wèn)題是置換表的組織和查找的效率。一般來(lái)說(shuō),置換表越大,查找的命中率就越高。但這個(gè)關(guān)系不是絕對(duì)的,當(dāng)置換表大小達(dá)到一定規(guī)模后,不僅不會(huì)再提高命中率,反而會(huì)因?yàn)楹臅r(shí)的查找操作影響算法的效率。所以置換表不是越大越好,需要根據(jù)計(jì)算機(jī)的性能以及搜索的深度選擇一個(gè)合適的大小。此外,為了查找操作更高效,通常都會(huì)用可直接訪問(wèn)的哈希表方式組織置換表,哈希函數(shù)的性能就成為影響置換表性能的重要因素。棋類(lèi)游戲普遍采用Zobrist哈希算法。

博弈論案例 分析

博弈論分析
一、經(jīng)濟(jì)學(xué)中的“智豬博弈”(Pigs’payoffs)
這個(gè)例子講的是:豬圈里有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個(gè)踏板,每踩一下踏板,在遠(yuǎn)離踏板的豬圈的另一邊的投食口就會(huì)落下少量的食物。如果有一只豬去踩踏板,另一只豬就有機(jī)會(huì)搶先吃到另一邊落下的食物。當(dāng)小豬踩動(dòng)踏板時(shí),大豬會(huì)在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動(dòng)了踏板,則還有機(jī)會(huì)在小豬吃完落下的食物之前跑到食槽,爭(zhēng)吃到另一半殘羹。
那么,兩只豬各會(huì)采取什么策略?答案是:小豬將選擇“搭便車(chē)”策略,也就是舒舒服服地等在食槽邊;而大豬則為一點(diǎn)殘羹不知疲倦地奔忙于踏板和食槽之間。
原因何在?因?yàn)?,小豬踩踏板將一無(wú)所獲,不踩踏板反而能吃上食物。對(duì)小豬而言,無(wú)論大豬是否踩動(dòng)踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會(huì)去踩動(dòng)踏板的,自己親自去踩踏板總比不踩強(qiáng)吧,所以只好親力親為了。
“小豬躺著大豬跑”的現(xiàn)象是由于故事中的游戲規(guī)則所導(dǎo)致的。規(guī)則的核心指標(biāo)是:每次落下的事物數(shù)量和踏板與投食口之間的距離。
如果改變一下核心指標(biāo),豬圈里還會(huì)出現(xiàn)同樣的“小豬躺著大豬跑”的景象嗎?試試看。
改變方案一:減量方案。投食僅原來(lái)的一半分量。結(jié)果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會(huì)把食物吃完;大豬去踩,小豬將也會(huì)把食物吃完。誰(shuí)去踩踏板,就意味著為對(duì)方貢獻(xiàn)食物,所以誰(shuí)也不會(huì)有踩踏板的動(dòng)力了。
如果目的是想讓豬們?nèi)ザ嗖忍ぐ?,這個(gè)游戲規(guī)則的設(shè)計(jì)顯然是失敗的。
改變方案二:增量方案。投食為原來(lái)的一倍分量。結(jié)果是小豬、大豬都會(huì)去踩踏板。誰(shuí)想吃,誰(shuí)就會(huì)去踩踏板。反正對(duì)方不會(huì)一次把食物吃完。小豬和大豬相當(dāng)于生活在物質(zhì)相對(duì)豐富的“共產(chǎn)主義”社會(huì),所以競(jìng)爭(zhēng)意識(shí)卻不會(huì)很強(qiáng)。
對(duì)于游戲規(guī)則的設(shè)計(jì)者來(lái)說(shuō),這個(gè)規(guī)則的成本相當(dāng)高(每次提供雙份的食物);而且因?yàn)楦?jìng)爭(zhēng)不強(qiáng)烈,想讓豬們?nèi)ザ嗖忍ぐ宓男Ч⒉缓谩?
改變方案三:減量加移位方案。投食僅原來(lái)的一半分量,但同時(shí)將投食口移到踏板附近。結(jié)果呢,小豬和大豬都在拼命地?fù)屩忍ぐ?。等待者不得食,而多勞者多得。每次的收獲剛好消費(fèi)完。
對(duì)于游戲設(shè)計(jì)者,這是一個(gè)*的方案。成本不高,但收獲*。
原版的“智豬博弈”故事給了競(jìng)爭(zhēng)中的弱者(小豬)以等待為*策略的啟發(fā)。但是對(duì)于社會(huì)而言,因?yàn)樾∝i未能參與競(jìng)爭(zhēng),小豬搭便車(chē)時(shí)的社會(huì)資源配置的并不是*狀態(tài)。為使資源最有效配置,規(guī)則的設(shè)計(jì)者是不愿看見(jiàn)有人搭便車(chē)的,*如此,公司的老板也是如此。而能否完全杜絕“搭便車(chē)”現(xiàn)象,就要看游戲規(guī)則的核心指標(biāo)設(shè)置是否合適了。
比如,公司的激勵(lì)制度設(shè)計(jì),獎(jiǎng)勵(lì)力度太大,又是持股,又是期權(quán),公司職員個(gè)個(gè)都成了百萬(wàn)富翁,成本高不說(shuō),員工的積極性并不一定很高。這相當(dāng)于“智豬博弈”增量方案所描述的情形。但是如果獎(jiǎng)勵(lì)力度不大,而且見(jiàn)者有份(不勞動(dòng)的“小豬”也有),一度十分努力的大豬也不會(huì)有動(dòng)力了----就象“智豬博弈”減量方案一所描述的情形。*的激勵(lì)機(jī)制設(shè)計(jì)就象改變方案三----減量加移位的辦法,獎(jiǎng)勵(lì)并非人人有份,而是直接針對(duì)個(gè)人(如業(yè)務(wù)按比例提成),既節(jié)約了成本(對(duì)公司而言),又消除了“搭便車(chē)”現(xiàn)象,能實(shí)現(xiàn)有效的激勵(lì)。
許多人并未讀過(guò)“智豬博弈”的故事,但是卻在自覺(jué)地使用小豬的策略。股市上等待莊家抬轎的散戶;等待產(chǎn)業(yè)市場(chǎng)中出現(xiàn)具有贏利能力新產(chǎn)品、繼而大舉仿制牟取暴利的游資;公司里不創(chuàng)造效益但分享成果的人,等等。因此,對(duì)于制訂各種經(jīng)濟(jì)管理的游戲規(guī)則的人,必須深諳“智豬博弈”指標(biāo)改變的個(gè)中道理。
二、囚徒困境博弈
在博弈論中,含有占優(yōu)戰(zhàn)略均衡的一個(gè)著名例子是由塔克給出的“囚徒困境”(prisoners’
dilemma)博弈模型。該模型用一種特別的方式為我們講述了一個(gè)警察與小偷的故事。假設(shè)有兩個(gè)小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個(gè)房間內(nèi)進(jìn)行審訊,對(duì)每一個(gè)犯罪嫌疑人,警方給出的政策是:如果一個(gè)犯罪嫌疑人坦白了罪行,交出了贓物,于是證據(jù)確鑿,兩人都被判有罪。如果另一個(gè)犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個(gè)犯罪嫌人沒(méi)有坦白而是抵賴(lài),則以妨礙公務(wù)罪(因已有證據(jù)表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴(lài),則警方因證據(jù)不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。下表給出了這個(gè)博弈的支付矩陣。
表 囚徒困境博弈 [Prisoner's dilemma]
B 坦白   B 抵賴(lài)
A坦白 –8, –8  0, –10
A抵賴(lài) –10, 0  –1, –1
我們來(lái)看看這個(gè)博弈可預(yù)測(cè)的均衡是什么。對(duì)A來(lái)說(shuō),盡管他不知道B作何選擇,但他知道無(wú)論B選擇什么,他選擇“坦白”總是*的。顯然,根據(jù)對(duì)稱(chēng)性,B也會(huì)選擇“坦白”,結(jié)果是兩人都被判刑8年。但是,倘若他們都選擇“抵賴(lài)”,每人只被判刑1年。在表2.2中的四種行動(dòng)選擇組合中,(抵賴(lài)、抵賴(lài))是帕累托*的,因?yàn)槠x這個(gè)行動(dòng)選擇組合的任何其他行動(dòng)選擇組合都至少會(huì)使一個(gè)人的境況變差。不難看出,“坦白”是任一犯罪嫌疑人的占優(yōu)戰(zhàn)略,而(坦白,坦白)是一個(gè)占優(yōu)戰(zhàn)略均衡。
要了解納什的貢獻(xiàn),首先要知道什么是非合作博弈問(wèn)題。現(xiàn)在幾乎所有的博弈論教科書(shū)上都會(huì)講“囚犯的兩難處境”的例子,每本書(shū)上的例子都大同小異。
博弈論畢竟是數(shù)學(xué),更確切地說(shuō)是運(yùn)籌學(xué)的一個(gè)分支,談經(jīng)論道自然少不了數(shù)學(xué)語(yǔ)言,外行人看來(lái)只是一大堆數(shù)學(xué)公式。好在博弈論關(guān)心的是日常經(jīng)濟(jì)生活問(wèn)題,所以不能不食人間煙火。其實(shí)這一理論是從棋弈、撲克和戰(zhàn)爭(zhēng)等帶有競(jìng)賽、對(duì)抗和決策性質(zhì)的問(wèn)題中借用的術(shù)語(yǔ),聽(tīng)上去有點(diǎn)玄奧,實(shí)際上卻具有重要現(xiàn)實(shí)意義。博弈論大師看經(jīng)濟(jì)社會(huì)問(wèn)題猶如棋局,常常寓深刻道理于游戲之中。所以,多從我們的日常生活中的凡人小事入手,以我們身邊的故事做例子,娓娓道來(lái),并不乏味。
話說(shuō)有一天,一位富翁在家中被殺,財(cái)物被盜。警方在此案的偵破過(guò)程中,抓到兩個(gè)犯罪嫌疑人,斯卡爾菲絲和那庫(kù)爾斯,并從他們的住處搜出被害人家中丟失的財(cái)物。但是,他們矢口否認(rèn)曾殺過(guò)人,辯稱(chēng)是先發(fā)現(xiàn)富翁被殺,然后只是順手牽羊偷了點(diǎn)兒東西。于是警方將兩人隔離,分別關(guān)在不同的房間進(jìn)行審訊。由地方檢察官分別和每個(gè)人單獨(dú)談話。
檢察官說(shuō),“由于你們的偷盜罪已有確鑿的證據(jù),所以可以判你們一年刑期。但是,我可以和你做個(gè)交易。如果你單獨(dú)坦白殺人的罪行,我只判你三個(gè)月的監(jiān)禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙檢舉,那么你就將被判十年刑,他只判三個(gè)月的監(jiān)禁。但是,如果你們兩人都坦白交代,那么,你們都要被判5年刑?!彼箍柗平z和那庫(kù)爾斯該怎么辦呢?他們面臨著兩難的選擇——坦白或抵賴(lài)。顯然*的策略是雙方都抵賴(lài),結(jié)果是大家都只被判一年。但是由于兩人處于隔離的情況下無(wú)法串供。所以,按照亞當(dāng)·斯密的理論,每一個(gè)人都是從利己的目的出發(fā),他們選擇坦白交代是*策略。因?yàn)樘拱捉淮梢云谕玫胶芏痰谋O(jiān)禁———3個(gè)月,但前提是同伙抵賴(lài),顯然要比自己抵賴(lài)要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對(duì)方坦白了而自己抵賴(lài)了,那自己就得坐10年牢。太不劃算了!因此,在這種情況下還是應(yīng)該選擇坦白交代,即使兩人同時(shí)坦白,至多也只判5年,總比被判
10年好吧。所以,兩人合理的選擇是坦白,原本對(duì)雙方都有利的策略(抵賴(lài))和結(jié)局(被判1年刑)就不會(huì)出現(xiàn)。
這樣兩人都選擇坦白的策略以及因此被判5年的結(jié)局被稱(chēng)為“納什均衡”,也叫非合作均衡。因?yàn)?,每一方在選擇策略時(shí)都沒(méi)有“共謀”(串供),他們只是選擇對(duì)自己最有利的策略,而不考慮社會(huì)福利或任何其他對(duì)手的利益。也就是說(shuō),這種策略組合由所有局中人(也稱(chēng)當(dāng)事人、參與者)的*策略組合構(gòu)成。沒(méi)有人會(huì)主動(dòng)改變自己的策略以便使自己獲得更大利益?!扒敉降膬呻y選擇”有著廣泛而深刻的意義。個(gè)人理性與集體理性的沖突,各人追求利己行為而導(dǎo)致的最終結(jié)局是一個(gè)“納什均衡”,也是對(duì)所有人都不利的結(jié)局。他們兩人都是在坦白與抵賴(lài)策略上首先想到自己,這樣他們必然要服長(zhǎng)的刑期。只有當(dāng)他們都首先替對(duì)方著想時(shí),或者相互合謀(串供)時(shí),才可以得到最短時(shí)間的監(jiān)禁的結(jié)果。“納什均衡”首先對(duì)亞當(dāng)·斯密的“看不見(jiàn)的手”的原理提出挑戰(zhàn)。按照斯密的理論,在市場(chǎng)經(jīng)濟(jì)中,每一個(gè)人都從利己的目的出發(fā),而最終全社會(huì)達(dá)到利他的效果。
不妨讓我們重溫一下這位經(jīng)濟(jì)學(xué)圣人在《國(guó)富論》中的名言:“通過(guò)追求(個(gè)人的)自身利益,他常常會(huì)比其實(shí)際上想做的那樣更有效地促進(jìn)社會(huì)利益?!睆摹凹{什均衡”我們引出了“看不見(jiàn)的手”的原理的一個(gè)悖論:從利己目的出發(fā),結(jié)果損人不利己,既不利己也不利他。兩個(gè)囚徒的命運(yùn)就是如此。從這個(gè)意義上說(shuō),“納什均衡”提出的悖論實(shí)際上動(dòng)搖了西方經(jīng)濟(jì)學(xué)的基石。因此,從“納什均衡”中我們還可以悟出一條真理:合作是有利的“利己策略”。但它必須符合以下黃金律:按照你愿意別人對(duì)你的方式來(lái)對(duì)別人,但只有他們也按同樣方式行事才行。也就是*人說(shuō)的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“納什均衡”是一種非合作博弈均衡,在現(xiàn)實(shí)中非合作的情況要比合作情況普遍。所以“納什均衡”是對(duì)馮·諾依曼和摩根斯特恩的合作博弈理論的重大發(fā)展,甚至可以說(shuō)是一場(chǎng)革命。
從“納什均衡”的普遍意義中我們可以深刻領(lǐng)悟司空見(jiàn)慣的經(jīng)濟(jì)、社會(huì)、政治、國(guó)防、管理和日常生活中的博弈現(xiàn)象。我們將例舉出許多類(lèi)似于“囚徒的兩難處境”
這樣的例子。如價(jià)格戰(zhàn)博弈、軍奮競(jìng)賽博弈、污染博弈等等。一般的博弈問(wèn)題由三個(gè)要素所構(gòu)成:即局中人(players)又稱(chēng)當(dāng)事人、參與者、策略等等的集合,策略
()集合以及每一對(duì)局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個(gè)特定的策略關(guān)系被選擇,每一局中人所得到的效用。所有的博弈問(wèn)題都會(huì)遇到這三個(gè)要素。
美國(guó)密西根*一位叫做羅伯特·愛(ài)克斯羅德的人。愛(ài)克斯羅德是一個(gè)政治科學(xué)家,他組織了一場(chǎng)計(jì)算機(jī)競(jìng)賽。這個(gè)競(jìng)賽的思路非常簡(jiǎn)單:任何想?yún)⒓舆@個(gè)計(jì)算機(jī)競(jìng)賽的人都扮演“囚徒困境”案例中一個(gè)囚犯的角色。他們把自己的策略編入計(jì)算機(jī)程序,然后他們的程序會(huì)被成雙成對(duì)地融入不同的組合。分好組以后,參與者就開(kāi)始玩“囚徒困境”的游戲。他們每個(gè)人都要在合作與背叛之間做出選擇。關(guān)鍵問(wèn)題在于,他們不只玩一遍這個(gè)游戲,而是一遍一遍地玩上200次。這就是博弈論專(zhuān)家所謂的“重復(fù)的囚徒困境”。
“重復(fù)的囚徒困境”更逼真地反映了具有經(jīng)常而長(zhǎng)期性的人際關(guān)系。而且,這種重復(fù)的游戲允許程序在做出合作或背叛的抉擇時(shí)參考對(duì)手程序前幾次的選擇。如果兩個(gè)程序只玩過(guò)一個(gè)回合,則背叛顯然就是*理性的選擇。但如果兩個(gè)程序已經(jīng)交手過(guò)多次,則雙方就建立了各自的歷史檔案,用以記錄與對(duì)手的交往情況。同時(shí),它們各自也通過(guò)多次的交手樹(shù)立了或好或差的聲譽(yù)。雖然如此,對(duì)方的程序下一步將會(huì)如何舉動(dòng)卻仍然極難確定。實(shí)際上,這也是該競(jìng)賽的組織者愛(ài)克斯羅德希望從這個(gè)競(jìng)賽中了解的事情之一。一個(gè)程序總是不管對(duì)手作何種舉動(dòng)都采取合作的態(tài)度嗎?或者,它能總是采取背叛行動(dòng)嗎?它是否應(yīng)該對(duì)對(duì)手的舉動(dòng)回之以更為復(fù)雜的舉措?如果是,那會(huì)是怎么樣的舉措呢?
事實(shí)上,競(jìng)賽的*個(gè)回合交上來(lái)的14個(gè)程序中包含了各種復(fù)雜的策略。但使愛(ài)克斯羅德和其他人深為吃驚的是,競(jìng)賽的桂冠屬于其中最簡(jiǎn)單的策略:一報(bào)還一報(bào)。我把它叫做“以其人之道,還治其人之身”。
“一報(bào)還一報(bào)”的策略是這樣的:它總是以合作開(kāi)局,但從此以后就采取以其人之道還治其人之身的策略。也就是說(shuō),一報(bào)還一報(bào)的策略實(shí)行了胡蘿卜加大棒的原則。它永遠(yuǎn)不先背叛對(duì)方,從這個(gè)意義上來(lái)說(shuō)它是“善意的”。它會(huì)在下一輪中對(duì)對(duì)手的前一次合作給予回報(bào)(哪怕以前這個(gè)對(duì)手曾經(jīng)背叛過(guò)它),從這個(gè)意義上來(lái)說(shuō)它是“寬容的”。但它會(huì)采取背叛的行動(dòng)來(lái)懲罰對(duì)手前一次的背叛,從這個(gè)意義上來(lái)說(shuō)它又是“強(qiáng)硬的”。而且,它的策略極為簡(jiǎn)單,對(duì)手程序一望便知其用意何在,從這個(gè)意義來(lái)說(shuō)它又是“簡(jiǎn)單明了的”。
三、價(jià)格戰(zhàn)博弈
現(xiàn)在我們經(jīng)常會(huì)遇到各種各樣的家電價(jià)格大戰(zhàn),彩*戰(zhàn)、冰箱大戰(zhàn)、空調(diào)大戰(zhàn)、微波爐大戰(zhàn)……這些大戰(zhàn)的受益者首先是消費(fèi)者。每當(dāng)看到一種家電產(chǎn)品的價(jià)格大戰(zhàn),百姓都會(huì)“沒(méi)事兒偷著樂(lè)”。在這里,我們可以解釋廠家價(jià)格大戰(zhàn)的結(jié)局也是一個(gè)“納什均衡”,而且價(jià)格戰(zhàn)的結(jié)果是誰(shuí)都沒(méi)錢(qián)賺。因?yàn)椴┺碾p方的利潤(rùn)正好是零。競(jìng)爭(zhēng)的結(jié)果是穩(wěn)定的,即是一個(gè)“納什均衡”。這個(gè)結(jié)果可能對(duì)消費(fèi)者是有利的,但對(duì)廠商而言是災(zāi)難性的。所以,價(jià)格戰(zhàn)對(duì)廠商而言意味著自殺。從這個(gè)案例中我們可以引伸出兩個(gè)問(wèn)題,一是競(jìng)爭(zhēng)削價(jià)的結(jié)果或“納什均衡”可能導(dǎo)致一個(gè)有效率的零利潤(rùn)結(jié)局。二是如果不采取價(jià)格戰(zhàn),作為一種敵對(duì)博弈論
(vivalry
game)其結(jié)果會(huì)如何呢?每一個(gè)企業(yè),都會(huì)考慮采取正常價(jià)格策略,還是采取高價(jià)格策略形成壟斷價(jià)格,并盡力獲取壟斷利潤(rùn)。如果壟斷可以形成,則博弈雙方的共同利潤(rùn)*。這種情況就是壟斷經(jīng)營(yíng)所做的,通常會(huì)抬高價(jià)格。另一個(gè)極端的情況是廠商用正常的價(jià)格,雙方都可以獲得利潤(rùn)。從這一點(diǎn),我們又引出一條基本準(zhǔn)則:“把你自己的戰(zhàn)略建立在假定對(duì)手會(huì)按其*利益行動(dòng)的基礎(chǔ)上”。事實(shí)上,完全競(jìng)爭(zhēng)的均衡就是“納什均衡”或“非合作博弈均衡”。在這種狀態(tài)下,每一個(gè)廠商或消費(fèi)者都是按照所有的別人已定的價(jià)格來(lái)進(jìn)行決策。在這種均衡中,每一企業(yè)要使利潤(rùn)*化,消費(fèi)者要使效用*化,結(jié)果導(dǎo)致了零利潤(rùn),也就是說(shuō)價(jià)格等于邊際成本。在完全競(jìng)爭(zhēng)的情況下,非合作行為導(dǎo)致了社會(huì)所期望的經(jīng)濟(jì)效率狀態(tài)。如果廠商采取合作行動(dòng)并決定轉(zhuǎn)向壟斷價(jià)格,那么社會(huì)的經(jīng)濟(jì)效率就會(huì)遭到破壞。這就是為什么WTO和各國(guó)*要加強(qiáng)反壟斷的意義所在。
四、貿(mào)易戰(zhàn)博弈論
這個(gè)問(wèn)題對(duì)于剛剛加入WTO的*而言尤為重要。任何一個(gè)*在國(guó)際貿(mào)易中都面臨著保持貿(mào)易自由與實(shí)行貿(mào)易保護(hù)主義的兩難選擇。貿(mào)易自由與壁壘問(wèn)題,也是一個(gè)“納什均衡”,這個(gè)均衡是貿(mào)易雙方采取不合作博弈的策略,結(jié)果使雙方因貿(mào)易戰(zhàn)受到損害。X國(guó)試圖對(duì)Y國(guó)進(jìn)行進(jìn)口貿(mào)易限制,比如提高關(guān)稅,則Y國(guó)必然會(huì)進(jìn)行反擊,也提高關(guān)稅,結(jié)果誰(shuí)也沒(méi)有撈到好處。反之,如X和Y能達(dá)成合作性均衡,即從互惠互利的原則出發(fā),雙方都減少關(guān)稅限制,結(jié)果大家都從貿(mào)易自由中獲得了*利益,而且全球貿(mào)易的總收益也增加了。
博弈論案例分析
案例一:博弈論在企業(yè)人力資本投資中的應(yīng)用[1]
一、引言
一個(gè)企業(yè)能否在市場(chǎng)中取得經(jīng)濟(jì)優(yōu)勢(shì),依賴(lài)于企業(yè)科技優(yōu)勢(shì)、產(chǎn)品的市場(chǎng)適應(yīng)性等等,而這一切又源于人才優(yōu)勢(shì)。因此,一個(gè)企業(yè)面臨著如何盡可能地保持自己人力資源的優(yōu)勢(shì),如何吸引優(yōu)秀人才加入企業(yè)添加新動(dòng)力,如何有效培訓(xùn)使己有員工獲得技能的提高,如何使員工適應(yīng)外部環(huán)境變化的要求,如何有效挽留公司的核心人才等等。但是統(tǒng)計(jì)調(diào)查顯示,我國(guó)的培訓(xùn)現(xiàn)狀不盡如人意。總體來(lái)看,我國(guó)企業(yè)培訓(xùn)管理的制度化、規(guī)范化程度有待加強(qiáng),培訓(xùn)計(jì)劃執(zhí)行不力,培訓(xùn)效果跟蹤與評(píng)價(jià)環(huán)節(jié)薄弱,培訓(xùn)對(duì)改善員工績(jī)效的效用沒(méi)有發(fā)揮,培訓(xùn)結(jié)果與員工晉升沒(méi)有太大影響等。造成這種現(xiàn)狀的原因固然是多方面的,其中一個(gè)主要原因就是人力資本投資收益的滯后性和不確定性,擔(dān)心員工“硬了翅膀就飛走”,得不償失。企業(yè)是否增加人力資本投資,員工是否留任企業(yè),都是利益的博弈,結(jié)果是選擇有利于自己的戰(zhàn)略。本文用博弈論對(duì)企業(yè)人力資本投資作分析,說(shuō)明企業(yè)應(yīng)當(dāng)進(jìn)行人力資本投資和投資后應(yīng)采取措施保證人力資本投資收益的獲取。
二、概念和假定
1.概念界定
①人力資本。人力資本是通過(guò)投資于已有人力資源而形成的、以復(fù)雜勞動(dòng)力為載體的、能實(shí)現(xiàn)價(jià)值增值的可變資本。
②企業(yè)人力資本投資。企業(yè)人力資本投資是指企業(yè)通過(guò)一定的投入(貨幣、資本或?qū)嵨?獲得人力資源,增加企業(yè)員工的知識(shí)、技能、健康水平,提高企業(yè)管理、文化水平和企業(yè)形象,從而提升企業(yè)人力資本存量,使企業(yè)經(jīng)濟(jì)效益提高的一種投資行為。
2.基本假設(shè)
①經(jīng)濟(jì)人。經(jīng)濟(jì)人假設(shè)是指無(wú)論是組織還是個(gè)人,追求自身利益的*化。
②完全信息。完全信息是指信息是完全通暢的,不存在滯塞,而且客觀存在的信息的獲取是不需要成本的。
③物質(zhì)資本充足。商品的生產(chǎn)總是物質(zhì)資本和人力資本結(jié)合在一起進(jìn)行的。
要使生產(chǎn)高效率的進(jìn)行,物質(zhì)資本和人力資本必須保持適當(dāng)?shù)谋壤?
三、人力資本投資與員工個(gè)人的博弈分析
本文從企業(yè)與員工之間的角度作人力資本投資的完全信息靜態(tài)博弈分析,重點(diǎn)分析企業(yè)是否增加人力資本投資以及投資后如何行動(dòng)。
假定在完全信息的條件下,企業(yè)和員工都是理性的。企業(yè)可以選擇對(duì)員工培訓(xùn)或*。根據(jù)企業(yè)的選擇,員工會(huì)做出留下或是轉(zhuǎn)投其他企業(yè)的選擇。假設(shè)企業(yè)不對(duì)員工進(jìn)行培訓(xùn)是員工的收入為d,當(dāng)企業(yè)選擇培訓(xùn),假設(shè)分?jǐn)偟絾T工個(gè)人的培訓(xùn)費(fèi)用為c,經(jīng)過(guò)培訓(xùn)后多支付員工的薪水為e(e可以為零,即經(jīng)過(guò)培訓(xùn)后不增加員工薪水),經(jīng)過(guò)培訓(xùn)后員工為企業(yè)帶來(lái)的收益增加值為b。又假設(shè)員工離職去另一單位獲得的報(bào)酬為a。這里為了分析更簡(jiǎn)單一些,假設(shè)員工經(jīng)過(guò)培訓(xùn)與未經(jīng)過(guò)培訓(xùn)跳槽的收入一樣,都為a。有時(shí)候培訓(xùn)后由于員工技能提高跳槽會(huì)獲得更多的收入,但是并不影響下面的分析。企業(yè)培訓(xùn)博弈分析如表1所示:當(dāng)b-c-e<0時(shí),即企業(yè)對(duì)員工培訓(xùn)后得到的收益增加值小于支出時(shí),不管員工做出如何決策,企業(yè)都不會(huì)得到任何的收益增加值,因此企業(yè)是不會(huì)對(duì)員工進(jìn)行培訓(xùn)投入的。
當(dāng)b-c-e>0時(shí),該博弈成立并可能會(huì)出現(xiàn)兩種均衡:如果此時(shí)員工選擇留下所獲得的收益d+e大于其選擇跳槽時(shí)所獲的收益a時(shí),理性的員工必定會(huì)留在原來(lái)的企業(yè),企業(yè)也必然會(huì)選擇培訓(xùn)投入,這也是這個(gè)博弈中雙方的*決策;如果此時(shí)員工選擇留下所獲得的收益d+e小于其選擇跳槽時(shí)所獲的收益a時(shí),理性的員工必定選擇跳槽,此時(shí)企業(yè)損失為c,損失最慘重。對(duì)企業(yè)而言,如果知道這樣做令員工跳槽的話,那么企業(yè)還不如剛開(kāi)始就*,那樣蒙受的損失會(huì)少些。這里需要指出的是,一個(gè)員工是否跳槽并不簡(jiǎn)單的取決于對(duì)方企業(yè)開(kāi)出的薪酬。影響因素有很多,比如員工個(gè)性是否與企業(yè)匹配、員工個(gè)人發(fā)展前景、員工興趣與崗位的匹配等等。上述表格中,企業(yè)如果不對(duì)員工進(jìn)行培訓(xùn),那么員工留下或離職取決于現(xiàn)有收入d和跳槽企業(yè)的薪酬a。
如果d>a,員工留下:反之員工跳槽

總之,員工是否留任企業(yè),是一種利益的博弈,并且企業(yè)與員工之間存在著信息的不對(duì)稱(chēng),企業(yè)必須采取先發(fā)行動(dòng)傳遞信號(hào)減弱員工離任的動(dòng)機(jī),只要企業(yè)能留住員工,人力資本投資就會(huì)給企業(yè)帶來(lái)巨大的經(jīng)濟(jì)效益。
[編輯]案例二:博弈論在企業(yè)經(jīng)營(yíng)活動(dòng)的應(yīng)用策略[2]
哈佛商波特教授的競(jìng)爭(zhēng)五種力量,給出了我們思考行業(yè)市場(chǎng)競(jìng)爭(zhēng)狀況和態(tài)勢(shì)時(shí)一種全面而詳細(xì)的分析方法,其中一種力量是潛在進(jìn)入者的威脅。
那么,根據(jù)市場(chǎng)類(lèi)型(完全競(jìng)爭(zhēng)市場(chǎng)、壟斷競(jìng)爭(zhēng)市場(chǎng)、完全壟斷市場(chǎng)和寡頭壟斷市場(chǎng)),由于多數(shù)行業(yè)市場(chǎng)屬于壟斷競(jìng)爭(zhēng)市場(chǎng),就存在現(xiàn)有企業(yè)和新進(jìn)入者之間的進(jìn)入和退出博弈,這取決于彼此結(jié)構(gòu)性的進(jìn)入障礙、對(duì)關(guān)鍵資源的控制度、規(guī)模經(jīng)濟(jì)效應(yīng)及現(xiàn)有企業(yè)的市場(chǎng)優(yōu)勢(shì)的因素。
如果你是現(xiàn)有行業(yè)的壟斷者和一定程度的影響者,阻止?jié)撛谶M(jìn)入者進(jìn)入市場(chǎng)或遏止現(xiàn)有企業(yè)惡性競(jìng)爭(zhēng)的博弈策略有:
1.擴(kuò)大生產(chǎn)能力策略
壟斷者為阻止?jié)撛谶M(jìn)入者進(jìn)入市場(chǎng),壟斷者可能對(duì)潛在進(jìn)入者進(jìn)行威脅。但壟斷者的這種威脅是否能達(dá)到阻止進(jìn)入的目的,取決于其承諾。所謂承諾(Promise),是指對(duì)局者所采取的某種行動(dòng),這種行動(dòng)使其威脅成為一種令人可信的威脅。那么,一種威脅在什么條件下會(huì)變得令人可信呢?一般是,只有當(dāng)對(duì)局者在不實(shí)行這種威脅會(huì)遭受更大損失的時(shí)候,與承諾行動(dòng)相比,空頭威脅無(wú)法有效阻止市場(chǎng)進(jìn)入的主要原因是,它是不需要任何成本的。發(fā)表聲明是容易的,僅僅宣稱(chēng)將要做什么或者標(biāo)榜自己是說(shuō)一不二的人也都缺乏實(shí)質(zhì)性的意義。因此,只有當(dāng)對(duì)局者采取了某種行動(dòng),而且這種行動(dòng)需要較高的成本或代價(jià),才會(huì)使威脅變得可信。
2.保證*價(jià)格條款的策略
所謂“保證*價(jià)格”條款策略,即可采取限制性定價(jià)策略,通過(guò)收取低于進(jìn)入發(fā)生時(shí)的價(jià)格來(lái)防范進(jìn)入。如某商店規(guī)定,顧客在本商店購(gòu)買(mǎi)這種商品一定時(shí)期內(nèi)(如一個(gè)月),如果其他任何商店以更低的價(jià)格出售同樣的商品,本店將退還差價(jià),并補(bǔ)償差額的一定百分比(如10%
)。例如,如果你在該商店花5
000元購(gòu)買(mǎi)了一架尼康相機(jī),一周后你在另一家商店發(fā)現(xiàn)那里只賣(mài)4500元,那么你就可以向該商店交涉,并獲得550元的退款。
又如假定一個(gè)將存在兩期的市場(chǎng)。在第1期只有一個(gè)廠商,面臨兩種選擇:
①制定一個(gè)壟斷高價(jià)60元,可獲1
000元的利潤(rùn),但會(huì)使?jié)撛谄髽I(yè)認(rèn)為該行業(yè)有利可圖,從而選擇在第2期進(jìn)入;而一旦該市場(chǎng)有兩個(gè)企業(yè)存在,將會(huì)使市場(chǎng)價(jià)格下降到30元,企業(yè)利潤(rùn)降為200元。這樣,兩期的總利潤(rùn)是1000+200=1200元。
②制定低價(jià)40元,潛在企業(yè)如果進(jìn)來(lái),價(jià)格降到20元,兩個(gè)企業(yè)的利潤(rùn)都將是0。
故此時(shí)潛在企業(yè)將不會(huì)進(jìn)入。這樣,第二期的價(jià)格可以確定一個(gè)壟斷高價(jià)60元,因此總利潤(rùn)將為600+1000=1600元。
對(duì)消費(fèi)者來(lái)說(shuō),保證*價(jià)格條款使你至少在一個(gè)月內(nèi)不會(huì)因?yàn)樯唐方祪r(jià)而后悔你的購(gòu)買(mǎi),但這種條款對(duì)消費(fèi)者是承諾,對(duì)競(jìng)爭(zhēng)者是警告,無(wú)疑是企業(yè)之間競(jìng)爭(zhēng)的一種手段。
保證*價(jià)格條款是一種承諾,由于法律的限制,商店在向消費(fèi)者公布了這一條款之后是不能不實(shí)行的,因此它是絕對(duì)可信的。這一承諾隱含著企業(yè)A向企業(yè)B發(fā)出的不要降價(jià)競(jìng)爭(zhēng)的威脅,并使這種威脅產(chǎn)生其預(yù)期的效果。
3.限制進(jìn)入定價(jià)策略
限制進(jìn)入定價(jià)是指現(xiàn)有企業(yè)通過(guò)收取低于進(jìn)入發(fā)生的價(jià)格的策略來(lái)防范進(jìn)入,潛在進(jìn)入者看到這一低價(jià)后,推測(cè)出進(jìn)入后價(jià)格也會(huì)那么低甚至更低,因而進(jìn)入該市場(chǎng)終將無(wú)利可圖而放棄進(jìn)入。
4.掠奪性定價(jià)策略
掠奪性定價(jià)是指將價(jià)格設(shè)定為低于成本來(lái)達(dá)到驅(qū)逐其他企業(yè)的目的,而期望由此發(fā)生的損失在新進(jìn)入企業(yè)或者競(jìng)爭(zhēng)對(duì)手被逐出市場(chǎng)后,掠奪企業(yè)能夠行使市場(chǎng)權(quán)力時(shí)可能得到補(bǔ)償,即在驅(qū)逐其他企業(yè)后,再制定壟斷高價(jià)以彌補(bǔ)前期的損失。這也是一種價(jià)格報(bào)復(fù)策略。掠奪性定價(jià)與限制定價(jià)之間的差異在于限制定價(jià)是針對(duì)那些尚未進(jìn)入市場(chǎng)的企業(yè),是想較長(zhǎng)一段時(shí)間內(nèi)維持低價(jià)來(lái)限制新企業(yè)的進(jìn)入,而掠奪性定價(jià)則將矛頭指向已經(jīng)進(jìn)入的企業(yè)或即將來(lái)臨之際。如你產(chǎn)能過(guò)剩,在新企業(yè)進(jìn)入時(shí)可以進(jìn)行產(chǎn)能擴(kuò)張,將商品大幅降價(jià)防堵其進(jìn)入。
5.廣告戰(zhàn)博弈
有些商品只有在使用后才知道其質(zhì)量真正如何,我們把這種商品稱(chēng)為經(jīng)驗(yàn)品。只有生產(chǎn)那些高質(zhì)量經(jīng)驗(yàn)品的企業(yè)才會(huì)選擇做巨額廣告,而低質(zhì)量的企業(yè)將不會(huì)做廣告。原因是高質(zhì)量經(jīng)驗(yàn)品會(huì)有大量的回頭客,而低質(zhì)量經(jīng)驗(yàn)品則鮮有人再次光顧。
另外現(xiàn)有廠商之間產(chǎn)量、價(jià)格競(jìng)爭(zhēng)的博弈,尚有古諾模型、伯川德模型可以描述。博弈理論在宏微觀層面對(duì)企業(yè)參與競(jìng)爭(zhēng)、制定競(jìng)爭(zhēng)策略均有指導(dǎo)意義。著名營(yíng)銷(xiāo)專(zhuān)家希頓曾說(shuō),企業(yè)家的藝術(shù)就是對(duì)企業(yè)的策略性經(jīng)營(yíng)和管理,博弈作為策略,企業(yè)在當(dāng)今激烈的市場(chǎng)競(jìng)爭(zhēng)中需要博弈!

溫馨提示:為不影響您的學(xué)業(yè),來(lái)校區(qū)前請(qǐng)先電話咨詢(xún),方便我校安排相關(guān)的專(zhuān)業(yè)老師為您解答
相關(guān)資料
姓名不能為空
手機(jī)號(hào)格式錯(cuò)誤