英特尔二进制优化工具:如何最大限度地提升游戏和基准测试性能

  • Intel 二进制优化工具可在不修改原始 .exe 文件的情况下优化已编译的二进制文件,重新组织指令并增强向量化。
  • 该工具依赖于 HWPGO 和英特尔实验室生成的配置文件,平均性能提升接近 8%,在游戏中最高可达 20% 以上。
  • 目前其范围有限:支持的游戏很少,仅限 Arrow Lake Refresh,并且在反作弊和 Geekbench 等基准测试方面存在问题。
  • 如果其兼容性得到扩展,透明度问题得到解决,它可能会成为英特尔性能战略的关键支柱。

英特尔二进制优化工具

全新英特尔酷睿Ultra 200S Plus处理器(又称Arrow Lake Refresh)的到来,带来的不仅仅是更高的主频和更多的核心。它还附带了一款非常特殊的软件: 英特尔二进制优化工具,或称 BOT/IBOT这项技术旨在进一步提升实际性能,尤其是在……方面 使用配置一般GPU的游戏 并且能够处理繁重的工作量,而无需开发人员编写任何一行代码。

这种方法很有意思,因为它关注的是二进制文件在 CPU 上的执行方式,而不仅仅是芯片的原始性能。英特尔没有提出重新编译程序或修补游戏,而是提出了一种…… 对已编译代码进行动态优化 这项技术作用于可执行文件和处理器之间,重新组织指令并更好地利用内部微架构。所有这些都引发了一个非常有趣的争论:如果其中一个处理器采用了如此积极的支持,那么比较这两个处理器是否还“公平”?

英特尔二进制优化工具究竟是什么?它与其他优化工具有何不同?

英特尔二进制优化工具本质上是 对已编译的二进制文件应用一层智能翻译和优化。它不会重新编译、反编译或修改游戏或应用程序的原始可执行文件,但它会改变二进制文件向 CPU 提供数据的方式,使其运行效率更高。

这个想法源于一个存在多年的根本问题:许多游戏和程序在开发时都考虑到了以下几点: 较旧的架构、游戏主机或通用CPU结果是,当在像 Arrow Lake Refresh 这样的现代硬件上运行这些程序时,CPU 无法得到充分利用。会出现效率低下、分支预测失败、缓存利用率低,或者明明可以进行向量化却无法进行向量化的情况。

BOT 建议英特尔在其自己的实验室中,不采用传统的编译器优化或开发者补丁, 在微架构层面分析这些工作负载 并生成代码的优化版本,但不会修改磁盘上的 .exe 文件。

在英特尔的软件生态系统中,BOT 与英特尔应用优化器 (APO) 等工具以及性能套件的其他组件协同工作。APO 主要专注于…… 核心和线程分配以及与调度器的交互 从操作系统层面来看,BOT 的作用甚至更深入到 CPU 内部执行的指令流中,这使得两个系统能够相互补充,而不是重叠。

英特尔机器人内部运作

Intel BOT 的内部工作原理:HWPGO、微架构和二进制配置文件

英特尔机器人背后的技术引擎依赖于一种方法 基于硬件的轮廓引导优化(HWPGO)简而言之,英特尔会分析二进制文件在其架构上运行时的行为,检测瓶颈,并根据这些信息生成机器代码的优化版本。

在此分析过程中,系统会详细监控分支预测失败、流水线冒泡、缓存延迟和预取器使用不当等问题。一旦发现低效模式,系统就会构建一个 重新组织指令的修正配置文件 为了最大限度地减少这些问题。目标不是减少工作量或“跳过”操作,而是以一种能够让 CPU 保持更高有效 IPC 的方式来完成相同的工作量。

关键在于,整个性能分析过程并非在您的电脑上进行,而是在英特尔的实验室中进行。该公司利用链路后优化技术生成…… 重构后的二进制代码提高了指令密度这些配置文件是专门针对其最新芯片的微架构设计的。它们作为性能优化包的一部分分发给用户,供其激活使用。

在您的计算机上,当您激活 Intel BOT 时,一个用户模式服务会在后台运行。此服务负责: 监控兼容二进制文件的发布情况 并将其执行重定向到英特尔创建的优化路径。硬盘上的 .exe 文件不会被修改:改变的是指令在运行时遵循的路径,这类似于某些游戏中显卡驱动程序将着色器替换为优化版本的方式。

从技术角度来看,该工具类似于一种动态执行流程优化器,利用其对 Arrow Lake Refresh 微架构的内部了解。它既不是传统的驱动程序,也不是游戏补丁;它介于两者之间。 在不改变“部件”的情况下重新排列说明菜单仅按它们被提供给 CPU 的顺序排列。

Intel BOT、APO 和其他 Intel 性能工具之间的关系

在英特尔最近的战略中,BOT 并非孤立存在:它是与其他技术共存的更广泛方案的一部分。 英特尔极限调整实用程序 (XTU)英特尔应用程序优化器 (APO) 和英特尔自家的二进制优化工具 (IBOT/BOT)。每个组件都涵盖了性能的不同方面。

XTU更侧重于经典的一面 CPU超频、电压和参数也就是说,是对硬件本身进行调优。APO作用于软件和操作系统层面,控制线程和任务在不同类型的核心(P核心、E核心)之间的分配方式,并监控资源分配情况,以便最需要资源的应用程序能够受益于合适的硬件。

而机器人则更进一步: CPU 为特定二进制文件执行的指令流程APO 努力让任务在正确的时间落入正确的内核,而 BOT 则确保这些指令以最适合芯片内部架构的方式进行排序和向量化。

实际上,这意味着当一款游戏在支持的游戏列表中,并且用户激活了相应的模式时, APO和BOT可以协同工作APO负责合理分配工作负载,而BOT则提取生成的机器代码。正是在这些场景下,性能提升最为显著,尤其是在那些对英特尔混合架构适应性较差的游戏中。

值得注意的是,尽管 BOT 的理念与 APO 的理念相似(两者都是从应用程序“外部”应用的软件优化), 它们不能互换或等价。英特尔将它们作为互补工具,用于微调性能堆栈的每一层:从硬件及其配置(XTU),到进程分配(APO),再到机器代码本身的重组(BOT)。

游戏性能提升:从小幅改进到显著飞跃

英特尔声称,在其首批支持的游戏中,二进制优化工具实现了…… 游戏中平均提升约 8%。在特定情况下,峰值会更高。目前,我们讨论的是一个包含大约12款游戏的精简名单,但初步结果令人瞩目。

被引用最多的例子之一是 古墓丽影之影由于最初的优化方式,这款游戏并没有充分利用现代英特尔处理器的混合架构。而使用 APO + BOT 组合后,性能提升了约 22%,一些基准测试甚至更高,例如帧率从 298 帧/秒跃升至 375 帧/秒,提升幅度接近 26%。

在更现代的游戏中,针对当前CPU进行了更好的优化,例如 赛博朋克2077然而,情况发生了显著变化。在这种情况下,提升幅度仅为几个百分点:在某些基准测试中,帧率从大约 210 FPS 提升到略高于 220 FPS,或者在其他特定场景中,帧率从大约 173 FPS 提升到大约 179 FPS。我们说的是…… 增长约3-5%这些功能仍然很受欢迎,因为它们对用户来说是“免费的”,但它们不再给用户体验带来太大改变。

这些数据表明,BOT既不是奇迹也不是黑魔法,而是…… 这很大程度上取决于初始游戏的优化程度(好或坏)。当原始二进制文件与英特尔架构严重不兼容时,影响可能非常显著。如果优化得当,BOT 只能提升少量帧率,但这在关键时刻或高刷新率下仍然至关重要。

除了游戏领域之外,在某些资源密集型应用中也观察到了显著效果,例如: 物体移除或HDR处理实验室分析表明,由于对原本标量代码段进行了更积极的向量化,性能提升可达 30%。

深度向量化和指令分析:Geekbench 案例

要了解BOT的功能,最清晰的方法之一是看看负责BOT的Primate Labs公司的工作。 Geekbench的他们详细研究了在启用英特尔工具后,基准测试程序的执行情况如何变化。为此,他们使用了英特尔软件开发模拟器(SDE),该模拟器能够帮助他们测量执行的指令数量和类型。

在不使用机器人的情况下,标准的 Geekbench 6 测试运行大约需要 100 分钟。 1,26万亿条指令 完成。启用 BOT 后,该数字降至约 1,08 万亿,这意味着指令总数减少了约 14%。换句话说,工作更加紧凑高效,而且没有削减功能或走捷径。

按指令类型细分后,该工具的设计理念就更加清晰了。标量指令的数量从大约……下降。 220.000亿至约84.600亿而向量指令(SSE2、AVX2 等)的数量从 1.250 亿条飙升至约 18.300 亿条,也就是说,这类指令的数量增加了约 13,7 倍。

这清楚地表明,BOT 主要致力于 将低效的标量代码段转换为向量化代码 这样可以更好地利用英特尔处理器中的SIMD单元。以前执行的许多简单重复性操作,现在被分组为向量操作,可以并行处理多个数据点,这与该公司最新微架构的内部设计完美契合。

这种大规模的向量化并非盲目进行。它基于硬件分析(HWPGO)和英特尔在其实验室执行的二进制级后优化,这也解释了为什么从外部来看,BOT 被视为一种 一个相当精密的黑盒子用户只能看到基准测试或游戏运行速度更快,但无法确切了解对执行路径应用了哪些转换。

仅兼容少数游戏,Arrow Lake Refresh 版本独有,需要手动激活。

尽管该工具潜力巨大,但仍存在一些明显的局限性。首先,至少在初始阶段, Intel Bot 的兼容性仅限于少数几款游戏。目前已收录约十余款精选游戏。英特尔表示将扩充游戏库,但就目前而言,游戏种类相当有限。

第二个重要的限制是,它是一个 Arrow Lake Refresh 处理器(Core Ultra 200S Plus)的独有特性其中,Linux 支持依赖于诸如以下的解决方案: 质子11这是前几代产品无法激活的功能,这使得 BOT 成为该 CPU 系列与以往型号以及部分与直接竞争对手相比的一个区别特征。

此外,为了享受这些优化功能,用户必须执行某些步骤:目前,机器人是通过以下方式激活的: 英特尔性能包中的“高级模式” 而且需要重启系统才能正确应用这些配置文件。过程并不复杂,但远非完全透明。

英特尔一直坚持希望最终体验尽可能自动化,事实上,一旦设置完成,很多神奇的功能都会在后台自动运行,但目前仍然存在一些需要人工干预的环节。 复杂性和独特性 这限制了它在不太热情的用户或不太愿意接触高级设置的用户中产生的巨大影响。

另一点需要考虑的是,由于 BOT 操作的层级非常低,它目前在二进制文件的执行路径上处于非常底层。 在许多敏感环境中被禁止尤其是在那些反作弊系统非常严格的网络游戏中。

反作弊系统的问题以及基准测试领域的疑虑

英特尔BOT最棘手的方面之一是它与……的互动 多人游戏中的反作弊系统由于该工具会修改二进制文件在运行时的执行方式,因此一些反作弊程序(例如 Ricochet 或 Vanguard)可能会将其解释为试图操纵游戏并将其标记为可疑行为。

这意味着,就目前而言, 机器人可能不适用于竞技性强的在线游戏客户权益至上。在英特尔与反作弊厂商达成明确共识,或找到具体方法来确保这些优化不会带来不公平优势之前,该功能可能仍仅限于单人游戏或没有此类强效反作弊系统的体验。

另一个主要的争议点出现在合成基准测试领域。Geekbench 背后的公司 Primate Labs 表示,使用机器人程序可能会…… 损害结果的有效性因为它从根本上改变了可执行文件的预期行为。在基准测试环境中,系统“纯粹的性能”是需要衡量的,而像这样的外部优化层则彻底改变了测试结果。

为了保持透明度,Geekbench 会明确标记检测到 Intel BOT 干预的运行结果。基准测试的 6.7 版本将添加此功能。 用于识别“机器人增强型”结果的特定标记这样一来,它们就能很容易地与传统测量方法区分开来,并且不会在没有适当说明的情况下被混入排名中。

这种情况引发了一个有趣的辩论,即在优化软件可以……的时代,我们应该如何解读基准测试。 从根本上重新安排CPU的工作顺序硬件的“真实”能力与软件提供的帮助之间的界限正在变得模糊,这迫使我们重新思考,当我们比较两个配置截然不同的处理器时,我们究竟在衡量什么。

然而,从最终用户的角度来看,讨论的重点就不那么哲学化了:如果一款游戏或应用程序在他们的电脑上运行速度明显更快,是因为英特尔在不牺牲质量或功能的前提下改进了执行路径,那么用户的感受只会是: “它的处理器性能更好”虽然部分功劳应该归功于二进制优化层,而不仅仅是硅。

与竞争对手相比,英特尔机器人的实际优势和未来发展前景

从宏观角度来看,BOT被视为英特尔的一种“秘密武器”。 缩小部分绩效差距 在 Nova Lake 及其承诺的 BLLC 等未来架构到来之前,它们将面临来自竞争对手的非常强大的替代方案,尤其是在游戏领域。

该工具的主要优势在于,当原始可执行文件针对英特尔架构优化不佳时, 利润可能非常丰厚。 用户无需修改游戏本身的任何内容,开发者也无需发布特定补丁。这是一种恢复最初为其他平台或主机设计的游戏中损失的性能的方法。

此外,BOT 不会降低视觉质量、过场动画或物理效果:程序的功能保持不变。改变的是指令的组织方式,以便 CPU 能够…… 把更多精力放在有用的工作上,减少等待。 通过数据、缓存或预测器。从游戏体验的角度来看,这意味着更稳定的帧率,并且在某些情况下,还能减少复杂场景下的性能波动。

未来最大的挑战将是他们的 行业可扩展性和接受度为了让 Intel BOT 产生真正的巨大影响,支持的游戏和应用程序列表必须大幅增长,生态系统中的关键参与者(反作弊软件、基准测试开发商、开发工作室等)将不得不适应这一新的中间件层的存在。

同样值得关注的是竞争对手的反应。如果这种二元优化策略被证明有效并受到市场欢迎,那么其他公司探索类似策略也就不足为奇了。 类似的后优化代码解决方案 或者深入研究驱动程序和中间层的使用,以最大限度地发挥硬件的性能。

总体而言,英特尔二进制优化工具对于那些希望在特定工作负载下榨取每一帧帧数或额外分数的用户来说展现出了巨大的潜力,但它在兼容性、透明度和适用范围方面仍存在诸多模糊之处。如果英特尔能够扩大其支持范围,改进与反作弊软件的集成,并在基准测试中使其表现常态化,那么它可能会成为…… 这是他们绩效策略的关键部分。 未来几年,除了纯粹的硬件改进之外,还需要更多发展。

相关文章:
使用 Wise Game Booster 加速您的游戏