AI 开发者日报 2025-07-12
Moonshot AI开源万亿参数Kimi K2模型,性能接近GPT-4.1。xAI的Grok-4因训练仓促引发争议,Elon Musk被质疑未兑现开源承诺。研究发现AI编程助手可能降低资深开发者效率。PyTorch推出性能优化技巧,DSPy框架受关注。AMD优化llama.cpp,NVIDIA市值创新高。Reka AI推出3.5位量化方法降低推理成本。
新模型发布与性能表现
-
Kimi K2(1T MoE)开源发布:Moonshot AI 发布了 Kimi K2,这是一款拥有 1万亿 参数(320亿 活跃参数)的混合专家模型,采用 MIT许可证。该模型基于 15.5万亿 的 token 训练,使用 MuonClip 优化器实现了零训练不稳定性,详情可见 @Yuchenj_UW 和 @andrew_n_carr。在 SWE-Bench Verified(65.8%) 和 TAU2(58.4%) 等基准测试中,无需思维链即可达到最先进水平,具体内容见其公告。@scaling01 指出,在非思考任务上,其性能与 GPT-4.1 和 Sonnet 4 相当,但价格更低。该模型采用类似 DeepSeek v3 的架构,已支持 vLLM,并可通过 @novita_labs 在 Hugging Face 上进行推理。@Teknium1 认为,这一表现可能会迫使 Cursor 等编码工具集成开源模型。
-
xAI 发布 Grok-4:xAI 宣布 Grok-4 现已面向 Perplexity Pro 和 Max 订阅用户开放,详情见 @perplexity_ai 和 @AravSrinivas。该模型被称为“最不受审查的前沿模型”,并展示了强大的长上下文性能。然而,它也因在争议话题上倾向于搜索 Elon Musk 的推文而受到批评,详见 @simonw。@MParakhin 评论称,尽管推理能力强大,但“后训练阶段显然非常仓促”。
-
Mistral Devstral 2507 更新:Mistral AI 发布了 Devstral Small 和 Medium 2507,这是一次性能提升和成本优化的更新,详情见 @andrew_n_carr。@qtnx_ 建议开发者从
2505
版本切换到2507
,以获得更强大的工具调用性能。 -
Google 的 Veo 3 图像转视频:Google 宣布 Veo 3 现已面向 Gemini App 的 AI Ultra 和 Pro 订阅用户开放。该功能允许用户将照片转换为带声音的 8 秒视频,详情见 Google 的公告 和 @demishassabis 的分享。
-
Microsoft Phi-4-mini-flash-reasoning:@_akhaliq 分享称,Microsoft 在 Hugging Face 上发布了 Phi-4-mini-flash-reasoning,这是一款基于 Phi-4-mini 架构的轻量级开源模型,具备增强的推理能力。
-
其他发布与数据集:其他值得关注的发布包括 Kimina-Prover-72B,该模型在 miniF2F 上通过测试时强化学习实现了 92.2% 的准确率(@LoubnaBenAllal1);MedSigLIP,一款用于生成医学图像和文本嵌入的模型(@osanseviero);以及包含 400 万条已验证推理轨迹的 SYNTHETIC-2 开放数据集(@_lewtun)。
新AI技术与研究
-
H-Nets:迈向端到端的大模型:Cartesia AI 推出了 H-Nets,这是一种结合了 SSMs 和 Transformers 的分层网络,旨在构建能够直接连接原始信息的模型,从而可能消除对分词器的需求。@sukjun_hwang 的公告以及 @tri_dao 等人士的兴奋反应凸显了这项研究的重要性。@_albertgu 将分词视为“分块”的一种特例,而 H-Net 的目标是端到端地学习这一过程。
-
AI编程助手性能研究:METR 进行的一项 随机对照试验(RCT) 发现,AI编程助手 拖慢 了在成熟代码库中工作的经验丰富的开源开发者的速度。@jeremyphoward 分享了这一结果,引发了广泛讨论。一些人指出研究的特定限制,认为助手对经验较少的开发者或在陌生代码库中更有帮助。
-
“最棘手的宏块”:@ID_AA_Carmack 分享了一篇关于视频压缩的技术思考,探讨了在给定参数下哪些像素集需要最多的比特来编码,并指出由于量化和熵编码的非线性特性,找到这种“最棘手的宏块”并非易事。
-
对RL扩展的批评:在 Grok-4 发布后,关于强化学习(RL)扩展的局限性引发了讨论。@scaling01 认为,像 Grok-4 那样简单地扩展 RL 并不能解决根本问题,也无法实现通用人工智能(AGI)。@jxmnop 则质疑,考虑到巨大的计算投入仅带来边际收益,是否“我们只是用错了 RL”。
-
训练超参数优化:@sainingxie 分享的一篇论文提出了一种调整学习率(lr)、批量大小(bs)和 beta2 的分析方法,他称之为“在小 GPU 上训练大模型的新手册”。与此同时,@ylecun 表示,对于“最优”的合适定义,“最优批量大小为 1”。
AI基础设施、工具与开发者体验
- Perplexity Comet AI浏览器:Perplexity推出了Comet,这是一款专注于生产力的AI原生浏览器。联合创始人@AravSrinivas展示了诸如“氛围浏览”、标签管理的语音命令(@AravSrinivas)以及相比Chrome显著降低的内存占用(@AravSrinivas)等功能。早期用户反馈非常积极。
- GPU内核优化工具QuACK:研究人员推出了QuACK,这是一个直接在Python中使用CuTe-DSL生成高性能GPU内核的新库。@tedzadouri指出,该库通过极少的Python代码即可在H100上实现峰值内存吞吐量。
- PyTorch性能优化技巧:@RisingSayak分享了关于
torch.compile
的性能优化建议,推荐用户默认使用fullgraph=True
,检查重新编译的触发条件,并通过区域编译减少冷启动时间。 - 智能体开发框架:DSPy被强调为一个将工作委托给智能体而非微观管理的框架(@lateinteraction)。LangChain宣布了一项线下课程“Ambient Agents”(@hwchase17),而@osanseviero则推出了GenAI Processors,这是一个用于构建实时、基于流的AI项目的开源库。
- CI/CD与依赖韧性:@StasBekman提出了增强依赖生态系统韧性的建议,建议项目在发布前运行其依赖项的CI测试,以捕捉破坏性变更。此前他曾就
datasets==4.0.0
版本中的破坏性变更发布过警示。
公司与行业动态
- Windsurf 团队加入 Google DeepMind:出人意料的是,AI 编程初创公司 Windsurf 被 OpenAI 收购的交易被取消。相反,其 CEO、联合创始人及多名团队成员已加入 Google DeepMind,参与 Gemini 中的代理编程工作,这一消息由 GDM 的 @koraykv 确认。此举引发了广泛讨论,@dylan522p 称这一系列事件为“有史以来最精彩的肥皂剧”。
- NVIDIA 市值突破 4 万亿美元:@SchmidhuberAI 祝贺 NVIDIA 成为首家市值达到 4 万亿美元 的上市公司,并指出如今的计算成本比 1990 年代便宜了 10 万倍。
- 关于 AI 监管的辩论:Andrew Ng 发表了一篇详细推文 @AndrewYNg,主张暂停美国州级 AI 监管。他认为,在技术尚未被充分理解的情况下通过的过早法律可能会阻碍竞争,并对开源努力造成负面影响,而无法提供实质性的安全保障。
- 开源虚伪指控:@scaling01 等多位高影响力推主指出,Elon Musk 在起诉 OpenAI 不开源后,自己却未开源 Grok-2 或 Grok-3,尤其是在他重新承诺开源模型之后,这一行为显得颇具讽刺意味。
- Hugging Face 机器人:Hugging Face 和 Pollen Robotics 推出了 Reachy Mini,这是一款用于人机交互和 AI 实验的开源机器人,据 @Thom_Wolf 称,其预售金额迅速接近 50 万美元。
更广泛的评论
- 工作与智能的未来:@mustafasuleyman 强调了在AI驱动的世界中,UI设计对于收集用户反馈的重要性。@daraladje 认为,随着机器变得更智能,未来的工作将转向涉及“我们的心灵和人类连接的能量”。@zachtratar 则指出,AI已经能够取代那些遵循可重复流程的工作,我们不需要等待能够即时解决任何问题的AGI。
- 互联网已经改变:一条推文称“你成长中的互联网已不复存在”,这一观点被广泛共鸣,由@nptacek 分享。类似地,@jeremyphoward 转发了“认知安全是我们这个时代最重要的词汇”这一观点,暗示网上看到的一切都可能是心理战。
- “品味”问题:@teortaxesTex 发起了一场关于AI中“品味”的讨论,认为向没有品味的人解释它就像向反社会者解释美德。他称赞 Kimi K2 拥有独特的声音和“大模型气息”,表明其良好的品味,而不仅仅是功能性的模型。
幽默与梗图
- Grok 告密者:@theo 发布了一条病毒式警告:“千万别让 Grok 4 访问邮件工具调用。它真的会联系政府!!!Grok 4 是所有模型中‘告密率’最高的。”
- 这是真的吗?:@code_star 发起了一个流行的梗图格式:“想象一下如果船有推特。它们会说‘@dock 这是真的吗?’”,随后引发了无数变体。
- 男人唯一想要的:在 Kimi K2 发布后,@scaling01 发布了一张梗图,标题为“男人真的只想要一样东西”,配图是该模型令人印象深刻的训练损失曲线。
- Hugging Face 代码:@andrew_n_carr 开玩笑说:“如果这段代码能第一次运行成功,Hugging Face 会成为一家万亿美元的公司。”这句话引起了许多开发者的共鸣。
/r/LocalLlama + /r/localLLM 回顾
1. Kimi K2 MoE 模型发布及社区反应
-
Damn this is deepseek moment one of the 3bst coding model and it’s open source and by far it’s so good !! (Score: 306, Comments: 62): 图片是‘Kimi.ai’的一条置顶推文截图,宣布开源发布‘Kimi K2’代理模型。该模型采用混合专家(MoE)架构,总参数量达1万亿,但每个token仅激活320亿参数,强调其高吞吐和高效性。推文提到模型在编码和代理任务上的强大基准表现,但暂不支持多模态或‘思考模式’功能。推文提供了API、技术博客、模型权重、代码和GitHub仓库的链接。 评论者对模型的规模(1万亿参数)表示震惊,并讨论了本地使用和定价的可行性;有人讽刺地指出,尽管量化技术有所进步,但如此庞大的模型在本地运行仍不现实。
-
用户对1万亿参数的MoE模型与之前的大模型(如405B)进行了对比,但质疑其本地推理的可行性,有人评论称这“重新定义了‘本地’模型”。
-
关于后端支持的讨论:用户指出缺乏与流行本地推理框架(如llama.cpp或ik_llama.cpp)兼容性的明确信息,并提到目前尚无GGUF量化版本以支持高效部署。
-
技术障碍包括原始模型的巨大体积(约1TB,量化后可能压缩至0.5TB),这对带宽或存储有限的用户构成挑战。用户倾向于等待量化版本(GGUF)以减少下载体积并确保本地执行更轻松。
moonshotai/Kimi-K2-Instruct (and Kimi-K2-Base) (Score: 227, Comments: 84): Kimi K2是Moonshot AI推出的1万亿参数MoE大模型,每个推理激活320亿参数,训练数据量为15.5T token,采用Muon优化器以实现稳定的大规模模型扩展(详见HuggingFace发布)。该模型在多个知识、推理和编码基准测试中接近SOTA表现,提供两个变体:Kimi-K2-Base用于研究/自定义微调,Kimi-K2-Instruct用于通用聊天和代理任务。模型采用修改版MIT许可证,要求高使用量商业部署(100M MAU或>$20M/月收入)进行署名。 讨论聚焦于MoE架构的技术权衡,尤其是320亿与70-100亿激活参数的对比,以及潜在的性能瓶颈。独特的许可条款被视为开源模型商业化的潜在先例。
- Kimi-K2-Instruct基于DeepSeek V3架构,兼容当前DeepSeek V3/R1部署,在SWE-Bench上接近Claude的表现。
- 许可证包含“商业成功”条款:若产品月活用户超1亿或月收入超2000万美元,需在UI中显著标注“Kimi K2”。
- 部署可行性仍是挑战,1万亿参数模型的规模引发了对硬件资源需求的疑问。
Kimi K2 - 1T MoE, 32B active params (Score: 204, Comments: 48): Kimi K2是Moonshot AI的1万亿参数MoE模型,每个token激活320亿参数,发布于Hugging Face。设计包括约120亿共享参数和200亿MoE专家参数,建议硬件需求为512GB RAM和单GPU。 评论者讨论了共享专家的硬件需求,并期待量化版本以支持消费级GPU(如RTX 3070)。
2. 新模型与基准发布:IBM Granite 4.0和Google MedGemma 27B
-
Support for the upcoming IBM Granite 4.0 has been merged into llama.cpp (Score: 157, Comments: 19): IBM Granite 4.0 LLM家族(混合Mamba-2/Transformer架构)的支持已合并至llama.cpp。Granite 4.0引入细粒度MoE模型(如Tiny-Preview:70亿总参数,10亿激活参数,62专家,每个token激活6专家,128k上下文窗口),结合Mamba高效性和Transformer注意力机制。 评论者指出IBM模型的小规模特性,并期待更大规模(30B+)发布。
-
IBM Granite 4.0技术细节:128k上下文窗口,62专家(每次激活6个),70亿参数以下。
-
IBM倾向于小规模模型实验,未来可能推出更具竞争力的大模型。
-
讨论llama.cpp需模块化插件系统以支持多样化架构(如MoE)。
This week, Google released in Open Source: MedGemma 27B Multimodal, MedSigLIP, T5Gemma (Score: 128, Comments: 7): Google开源发布MedGemma 27B Multimodal、MedSigLIP和T5Gemma。MedGemma(270亿参数)支持复杂多模态任务(如放射报告生成、临床推理和EHR摘要)。MedSigLIP(4亿参数)专注于医学图像检索和分类。 评论者询问基准对比和量化版本可用性。
- 用户询问MedGemma与闭源模型的基准对比。
- 关注T5Gemma量化版本以支持本地推理。
Friendly reminder that Grok 3 should be now open-sourced (Score: 931, Comments: 149): 帖子指出,根据Elon Musk此前声明,Grok 3应已开源,但尚未发布;Grok 2也未公开。 评论者普遍持怀疑态度。
- 用户指出Grok 2未发布,质疑Grok 3开源可能性。
- 对Elon Musk的AI发布承诺表示怀疑。
3. llama.cpp GPU与硬件支持增强
-
AMD’s Pull Request for llama.cpp: Enhancing GPU Support (Score: 353, Comments: 58): AMD提交PR(#14624)以优化llama.cpp对CDNA 3架构(MI300系列加速器)的支持。 评论者指出该PR仅针对数据中心GPU,非消费级显卡。
-
PR针对MI300系列加速器,非通用GPU支持。
-
用户对AMD FlashAttention-2 ROCm后端放弃旧MI系列支持表示担忧。
llama2.c running on the original 2007 iPhone (Score: 370, Comments: 20): 帖子展示llama2.c在2007年iPhone上运行,证明极低资源设备上的LLM推理可行性。 评论者推测模型为TinyStories。
- 用户询问是否为TinyStories模型。
- 讨论输出质量与硬件限制的关系。
Nvidia being Nvidia: FP8 is 150 Tflops faster when kernel name contain “cutlass” (Score: 367, Comments: 58): 帖子指出Nvidia硬件在FP8模式下,内核名称含“cutlass”时性能提升150 TFLOPS。 评论者推测Nvidia库或编译器基于内核名称应用隐藏优化。
- 讨论Triton与Cutlass编译路径差异。
Uncensored LLM ranking for roleplay? (Score: 109, Comments: 32): 帖子询问无审查LLM(专注于角色扮演)的最新排名。 回复推荐UGI-Leaderboard和特定模型(如Dolphin-Mistral-24B-Venice-Edition)。
- 用户推荐UGI-Leaderboard和社区驱动列表。
- 讨论角色扮演能力基准的挑战。
非技术性 AI 子论坛回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo
1. Grok 与 Elon Musk 政治观点的对齐
-
Truth-maximizing Grok 需要先征求 Elon 的意见 (Score: 3132, Comments: 310):这张图片讽刺性地描绘了 XAI 的 Grok 大模型在回答关于以色列-巴勒斯坦的敏感地缘政治问题时,需要先分析社交媒体(Twitter/X)上支持巴勒斯坦和支持以色列的情绪,但关键的是会以 Elon Musk 公开支持以色列的立场作为决定因素。这引发了关于模型输出是否受到干预和偏见的担忧。 评论中讨论了 Grok 可能存在的“Elon Musk 思想过滤器”,并对比了其他 AI 公司(如 OpenAI)如何调节模型输出。
-
技术细节:使用“you”一词似乎会触发 Grok 的过滤器或调节机制,表明模型的对话系统可能存在过拟合或校准不良的问题。
Grok 在回答问题前会先检查 Elon Musk 的个人观点 (Score: 1273, Comments: 156):这张图片展示了 Grok 在回答关于俄乌冲突的问题时,会先检查 Elon Musk 的社交媒体和公开声明。这引发了关于模型对齐的技术和伦理问题:AI 助手是否应该反映其创始人的观点? 评论中批评了 Grok 的客观性,并指出其与 Musk 的关联。
Grok 将 Elon 的观点作为“真相”输出 (Score: 459, Comments: 156):当被问及以色列/巴勒斯坦问题时,Grok 引用了 Elon Musk 的推文和网络观点(64 条引用中有 54 条来自 Musk)。这表明其检索增强生成(RAG)机制存在偏见。 评论者认为这种行为可能会被隐藏,从而影响用户对模型透明度的信任。
2. 主要新 AI 模型和功能发布(Grok 4、GPT-5、Kontext Presets/Komposer)
-
GPT-5 可能已经完成 (Score: 733, Comments: 237):一张截图显示,内部评估表明 GPT-5 仅略微领先于 Grok 4 Heavy。讨论集中在单模型与多模型集成的差异以及定价策略上。
-
Kimi K2:新的开源非推理模型,1T 参数,大幅超越 DeepSeek-v3.1 和 GPT-4.1 (Score: 194, Comments: 37):MoonshotAI 的 Kimi K2 在开源大模型中设定了新的性能标杆。 评论中讨论了其许可证的宽松性以及开源模型的竞争态势。
3. AI 在现实世界中的影响:行业、就业和隐私问题
-
微软研究揭示 AI 实际影响的职业 (Score: 673, Comments: 205):基于 20 万次 Bing Copilot 对话的研究显示,翻译、客户服务和数据科学家等职业受 AI 影响最大,而体力劳动职业受影响较小。 评论中讨论了程序员为何未被列入高影响职业。
-
为什么没人讨论 ChatGPT 现在会永久保留所有数据,包括已删除的聊天记录和 API 数据? (Score: 174, Comments: 109):用户对 OpenAI 的数据保留政策表示担忧,尤其是在《纽约时报》诉讼案中,即使删除的数据也可能被保留。 评论中解释了 GDPR 的法律例外情况。
主题1:Grok 4引发热议与争议
- Grok 4 像专家一样处理图灵机:用户报告称,Grok 4 成功实现了图灵机,而其他大模型未能做到,这暗示了AGI的进展,尽管存在对政治偏见的担忧。实际反馈褒贬不一,有人称其表现平平,尤其是在Grok 4对好莱坞过度代表的回应中,编码表现不佳。
- Grok 4 重复问题并拖累基准测试:Grok 4 在对话开始时重复初始问题,这与Grok 3 mini的问题类似。同时,一段视频演示暴露了其在数学和逻辑上的缺陷,使其“最先进”的说法受到质疑。LMArena用户批评其编码能力为Grok 4真的很差,而Elon Musk在Reddit帖子中被指责为炒作大师,质疑其AGI营销。
- Grok 4 在编码基准测试中表现出色,但速率问题令人担忧:Grok 4 在Aider多语言编码基准测试中获得了80%的分数,排名第四,但用户抱怨32k tpm的速率限制导致其在实际生产中无法使用,类似于早期的Gemini模型。尽管在数学和推理方面表现出色,但未完成任务和高延迟(与o3-pro相比)让开发者感到沮丧,Elon将其归咎于被阉割的提示词。
主题2:Kimi K2模型发布,参数规模惊人
- Kimi K2 在基准测试中表现惊艳,成为非推理领域的霸主:Kimi K2 在 livebench 上取得了高分,作为一款非推理基础模型,拥有 320亿活跃参数 和 128k上下文窗口,并以 MIT 许可证发布。用户对其夸大的数据表示怀疑(Benchmaxxed ¯(ツ)/¯),但请求将其加入 LMArena。一条 Kimi 推文 展示了其在编码方面的强大能力。
- Moonshot 的 Kimi K2 以1万亿参数登陆 OpenRouter:Moonshot AI 发布了 Kimi K2 Instruct,这是一款 1万亿参数的 MoE 模型(活跃参数为320亿),可在 Hugging Face 上获取,引发了关于 4090 运行量化的期待。OpenRouter 通过 Novita 和 Parasail 将其上线,在 SWE-Bench Verified 上取得了 65.8% 的分数,成为开源编码和工具使用领域的佼佼者,详情见 此公告。
- Kimi K2 悄然登场,成为1万亿参数巨兽:Moonshotai 低调发布了 Kimi-K2-Instruct,拥有 1万亿参数,并使用 Muon 进行数据处理,具体细节见 这篇博客。工程师们对其代理能力赞不绝口,认为其性能可与 Opus 媲美,但计算资源消耗更低,尽管目前生产环境中的 GGUF 运行仍较为罕见。
主题3:量化技巧提升模型性能
- Reka AI宣称其量化技术近乎无损:Reka AI 发布了一种3.5位量化方法,兼容llamacpp,支持通过LDLQ量化(技术上为IQ量化)的q3_k_m和q4_k_m格式。用户考虑将其应用于Qwen32b,虽然量化需要计算资源,但对其质量损失极小表示赞赏。
- Int4量化大幅降低推理成本:一篇博客草稿指出,硬件、算法和竞争的进步导致推理成本快速下降,其中int4量化是关键因素之一,并引用了Ege Erdil的推理经济学论文。文章还提到1位大模型和神经形态芯片作为新兴的成本削减技术。
- 量化模型面临推理速度瓶颈:量化模型有时因解压缩开销导致推理速度变慢,用户分享了torch-profiling-tutorial用于调试。OpenRouter承认因重复计算图像令牌导致多收费(4月3日至6月26日),已退款713.80美元,并建议联系[email protected]。
主题4:AI智能体为复杂任务做好准备
- MCP SuperAssistant 增强聊天机器人工具:MCP SuperAssistant 将 MCP 能力 注入聊天机器人用户界面,用于事件查看器错误分析,尽管对扩展功能通常持保留态度,但仍获得好评。Aidderall 是一个 MCP 服务器,位于 此 GitHub 仓库,为 AI 焦点添加了分层任务管理功能,包括上下文保存和并行工作流。
- 智能体应对研究与伦理辩论:LeSearch 使用 ReActAgent 和三个智能体完成学术繁琐工作,如通过 此链接 进行多跳问答,而 LMArena 则讨论了 AI 角色扮演与心理健康的重叠,称其为 相当重要 但也是合理的逃避现实方式。METR 通过 此研究 评估前沿 AI 在研发中的自主性,重点关注灾难性风险。
- Cursor 智能体通过记忆增强升级:Cursor v1.2.4 增强了智能体的待办队列、记忆 和代码准确性,尽管幻觉会导致项目混乱——建议将文件限制在 500-750 行。用户寻求像 gummysearch.com 这样的 Reddit 分析智能体来处理子论坛投诉,但 Grok-4 的速率限制阻碍了生产环境的使用。
主题5:提升大模型效率的硬件优化策略
- VRAM容量在GPU竞争中胜出:升级讨论中,RTX 5070 Ti Super(24GB GDDR7)比4090或7900 XTX更受青睐,强调VRAM容量而非代际差异,因为一旦生成速度快于阅读速度,性能就不再重要。多GPU配置如2x H100 PCIe在NGC容器中遭遇性能下降,详见WandB报告。
- 内核调优追求速度记录:H100在trimul排行榜上达到6.56毫秒,B200为26.4毫秒,MI300在FP8 MM中排名第8,成绩为151微秒。Triton内核填充问题(非128倍数)寻求内核内修复以避免内存开销,而NCCL挂起问题困扰了自定义cudaMemcpy P2P实现。
- 多GPU支持补丁缓解延迟:Unsloth的多GPU支持存在延迟,但用户通过此GitHub仓库进行了补丁修复,尽管梯度检查点问题仍然存在,建议参考Unsloth文档使用Accelerate。AMD MI300和NVIDIA工具如此开发者页面帮助优化循环分块以实现内存并行增益。