目前,美陆军在作战推演活动中,通常让部队士兵扮演敌军,并依靠长期以来建立的技术、战术和流程(TTP)和传统的兵力运用模式来实现推演。COMBAT寻求开发自适应的敌军人工智能系统,使其提供出人意料的新型敌军COA,以此来干扰传统美军策略。COMBAT项目的核心目标是促进新型TTP的开发。以前,美军尚未将新出现的人工智能技术应用到复杂的决策空间中,本项目是对未来人工智能应用的一种探索。
项目承包商将通过对实体和行为的建模来构建敌军机动式步兵旅人工智能算法,该人工智能算法可在用户选择的非密兵力对抗建模和仿真环境中运行。仿真环境既可以是商用现货、政府现货产品,也可以自行构建,并能够对包含多个连级部队的作战旅、旅级部队内部的指控结构、战略(整个旅)、战役(多个连)和战术(一个连)级行为进行建模。连级部队会由于实体建模的保真度而降低地形对士兵的影响,但仍能够表现具有代表性的士兵能力。
承包商将使用美国陆军外军研究办公室于2016年发布的《俄罗斯部队的作战方式:俄罗斯地面部队的部队结构、战术和现代化》文件来开发其敌军AI算法和行为。在该参考文件中,军事战术家详细评审了俄罗斯连级部队的战术,其详细程度可保证复杂实体行为的开发和编程。DARPA希望申请方能够通过自然语言处理技术或对敌军条令文件进行非结构化文本提取等技术来生成敌军实体的行为基线,发现其实体的相互依赖关系,并开发敌军COA。承包商将使用公开发布的《美陆军野战条令3.0—作战》来开发美军AI算法和行为。
COMBAT项目将以强化学习算法和博弈论为基础。在强化学习算法中,代理通过不断学习从而在不确定的复杂环境中实现目标。由于这种高复杂度的环境无法完全探究,因此可使用蒙特卡洛仿真等方法来探索交互空间。代理尝试解决的每个问题可被看做一系列状态,代理采取行动后可从一个状态转移到另一个状态。代理可观测当前环境状态,并基于当前状态和过去的经验采取下一步行动,采取行动后代理会获取该行动在解决问题方面的收益,代理的最终目标是不断学习以获取最大累积收益。
目前的强化学习研究领域正在探索将复杂任务分解为子任务的半自动和自动化方法。强化学习通常以马尔科夫决策过程(MDP)为基础,该过程可为结果部分随机,部分受决策者控制的情况提供决策建模数学框架。MDP假设未来只依赖当前情况,不依赖过去情况。在如作战推演这样的复杂环境中,将所有潜在状态进行融合、确定所有行动和定义所有奖励充满挑战。为应对这一挑战,人工智能研究人员已经在探索各种方法,这些方法可将复杂任务分解为更小的子任务集。这个领域被称为层级强化学习,可使机器最优化复杂度较低的子任务,这些子任务更容易管理,并可将这些子任务进行合并以实现整体目标。
将复杂任务分解为一些子任务可解决COMBAT项目面临的一些关键挑战,这一能力不仅可使复杂环境容易处理,还能便于知识的转移,因为子任务可用于不同的整体任务。任务分解还可使作战人员使用不同的时间单位和保真度来处理同一问题。例如,在对抗推演中,火力呼叫这一子任务的时间单位为秒且需要5分钟才能执行完毕,而整体对抗推演的时间单位为分钟,那么为使火力呼叫这一子任务更加具体,在执行整个对抗推演时可根据子任务需要调整时间单位。
政府团队将利用半自动兵力生成系统(OneSAF)来评估开发商的人工智能系统。OneSAF是一个交互式,基于回合制的人在回路建设性建模和仿真工具。政府团队将在OneSAF中重建参考场景,采用人在回路的方式对红蓝军回合制对抗进行裁决。