复杂决策|ABM+机器学习:如何理解终局之战?_综合维修_维修服务_长江号
空调维修热线400-716-5055

复杂决策|ABM+机器学习:如何理解终局之战?

更新时间:2026-04-26 03:04发布时间:1年前人气:2

现实世界中的诸多场景,从古代的田忌赛马到现代的核威慑、越南战争及俄乌冲突,都可以认为是典型的博弈场景。在冯·诺伊曼和奥斯卡·摩根斯特恩的《博弈论与经济行为》奠定其理论研究基础之后,博弈论作为一个重要的分析工具,在众多学科和领域中都得到了广泛的应用。。

事实上,ABM从一开始就受到了博弈论和演化思想的影响。冯·诺伊曼不仅是博弈论的奠基人之一,还发展了第一个ABM系统的雏形——“通用构造器”(Universal Constructor)或“元胞自动机”(Cellular Automata)。

受此启发,我们认为可行的研究路径是:可以秉承某些常规博弈论的思想,为非常规复杂战略博弈进行建模,然后主要依赖ABM来探索其可能的结果,即通过多次(大于100次,甚至更多)模拟,基于不同的参数甚至方程系统,模拟不同行为、行为规则、互动规则的多种组合下的复杂博弈结果,来获得不同博弈结果及中间状态的概率分布,从而加深对博弈系统的理解。

针对非常规复杂战略博弈的ABM建模思路大致如下:我们首先需要基于相应的历史或现实案例,从中抽象、提炼出行为体特征、环境特征和其他初始设定;其次结合专家知识,大致明确行为矩阵;然后是让系统在各种行为规则、互动规则的制约下不断运行,系统状态也会随之不断更新;通过多次模拟和不断验证和校准,最终获得可靠的不同博弈结果及中间状态的概率分布。有了这样的结果,我们便能倒推在特定博弈场景中,博弈各方的行为策略和特定的行为。

部分可观测马尔可夫决策过程是一类复杂的决策模型,往往用于在不确定性情境中生成决策。其主要组成要素包括:环境状态、行为体的行为空间、 状态转移概率、行为奖励、观测空间、奖励的衰减系数等。

强化学习的目的是让行为体学习并找到最优或接近最优的行为策略方法,以此最大化奖励收益。强化学习的演化性和动态性使我们能够探索行为体在复杂博弈场景中的决策及策略偏好变化,并为ABM的验证与校准提供支持。这种结合将帮助我们更好地把握系统的不同状态及其概率分布。“全数据”计算的思路,即基于问题来思考数据和技术路径的思路。

总结。这样才能够最终实现让博弈建模从理论模型(“玩具”)到真实场景应用的决定性转变。唐世平,系复旦大学教授、复杂决策分析中心主任。

400-716-5055
  • 长江号

    n扫码访问手机端