
它在本文中引用。从协作设计到登陆的第一天:如何使用Core Ultra进行推理优化2.2倍,这是该系列“ Wall Face Small Steel Cannon”的最后杰作 - Miniicpm 4.0。英特尔和壁面英特尔从模型的开发模型中紧密工作,从而提高了长期和短文本之间的多重推论效率,第0天的EDSIDE PC的积分适应性以及长度为128K的上下文窗口。双方都基于英特尔硬件体系结构实施了详细的技术协作和个性化的投机解码设置。通过启用硬件的草稿模型与Intel Acceleration Suite以及改善KV Cache内存的技术相结合,在末端到末端推理效率取得了2.2倍的改进,并合作提供了最终最终方面渲染模型的新创新和经验。这次,小型4.0 LLM墙壁推出的串联模型具有两个参数8B和0.5B。取决于单个体系结构的技术困难,在此迅速的情况下,这很难,在OpenVino™工具套件的帮助下优化了MiniPM 4.0系列模型的性能,并具有出色的性能。 CPU处理引擎型号和AI潜伏期1st代币(毫秒)Segundo令牌(1秒)Intel®Core™Ultra 7 258V(IGPU)MinICPM4-0.5BFP1659.9487.9487.62Intel®Core™Ultra 7 258V(NPU(NPU) miniCPM4-0.5BFP16141.9967.46Intel®Core™ultra 7 258V(IGPU)Minicpm4-8bint4-Mixed-Asym694.6021.3interl®Core™ultra Ultra Ultra 7 258V(IGPU)) miniCPM4-8Bint4混合-ASYM694.6021.3Intel®Core™Ultra 7 258V(IGPU)Minicpm4-8bint4-Mixed-Asym694.6021.3intel®Core7 ™Ultra 9 285H(IGPU)MinICPM4-0.5BFP1665.3283.67Intel®Core™Ultra 9 285H(IGPU)Minicpm4-8bint4-Mezcado评估的延迟第一个单词和第一个单词的延迟。 INT4混合物和FP16精度配置的平均1K输入性能。加热阶段后三次执行每个测试,并选择平均值作为报告数据。 tofformance tados基于以下sku1或sku2 2配置在长篇小说窗口中的创新:英特尔也正在取得新的进步。信任块的低调机制,再加上操作员的深层融合以及硬件驱动算法的优化,长期缓存和推理效率的额外提高实现了显着降低。假设可以保证输出的质量,在Intel Ruixuan™Pro B60版本中,长上下文窗口首次扩展到128K。与密集的模型相比,令牌的初始延迟为3减少了8%3,并且标签速度增加了3.8倍。这些改进之后,您可以在90秒内阅读,分析和总结300多页的哈利·波特小说。这不仅可以极大地改善AI的PC的用户体验,而且还可以使这是解锁新应用程序的强大基础。将来,英特尔将继续与墙壁表面保持详细的合作和联合研究和开发,从而进一步提高上下文窗口的长期应用。请参阅视频演示,以获取有关128K文本输入处理效果的信息。在当前的数字时代,人工智能技术正在以前所未有的速度发展。作为AI PC的世界领导者和发起人技术公司,英特尔一直承诺促进Endeside模型的创新发展。这种合作不仅展示了英特尔在AI领域的强大技术实力,而且还反映了其对创新生态系统的坚实承诺。整合优势和技术资源在双方的s中,平台的应用和实施是预期的Intel,Minicpm 4.0系列模型的联合解决方案感觉坚固,并在多种情况下起着关键作用,包括智能的生活改善和生产力。着眼于未来,英特尔将继续与隔离墙的情报保持密切的合作,同时积极扩大其关联并不断探索AI技术的新限制。英特尔承诺通过连续创新来促进人工智能技术的传播和发展,从而创造一个更聪明,更有效的未来社会。