AI 开发者日报 2025-09-25

阿里巴巴Qwen3系列发布：Max、VL、Coder及520亿美元路线图

Qwen3-Max、Qwen3-VL与发布速度：阿里巴巴/通义千问发布了一系列模型：旗舰产品Qwen3-Max（现已成为Anycoder的默认模型）以及开源的Qwen3-VL，后者具备原生256K上下文（可扩展至1M）、支持32种语言的更强OCR功能、2小时视频中的精确事件定位、GUI操作/编码以及领先的风险检测能力。这些发布已登陆Hugging Face、ModelScope、GitHub和阿里云Model Studio；社区平台迅速接入（例如Yupp添加了Qwen3 Max和Qwen3 VL 235B A22B Instruct/Thinking；LMArena添加了三款Qwen3模型）。阿里巴巴宣称其发布速度无与伦比（约每月3.5次发布，多数为开源权重），并在云栖大会上讨论了多年基础设施路线图，评论指出其拥有“520亿美元战争基金”和重大计算规模扩张声明。详见公告和讨论：@huybery、@huybery关于Qwen3-VL、@Ali_TongyiLab（VL发布）、Anycoder默认设置、Yupp添加Qwen模型、LMArena添加Qwen3、发布速度、云栖大会回顾、高管剪辑/路线图。
Qwen3-Coder-Plus与API改进：编码系列获得了针对性升级（终端任务处理、脚手架适配；API修复），在WebDev Arena和智能体工具链中显示出早期竞争优势。详情：API更新、WebDev Arena提示词。

编程模型与智能体：GPT-5 Codex上线；Meta发布32B CWM

GPT-5 Codex（智能体优化版）正式上线：OpenAI的"Codex"变体现已集成到API和智能体工具中。亮点包括：最高400K上下文长度，具有"自适应推理"能力，可根据任务复杂度动态调整思考深度（简单任务消耗更少token，复杂任务消耗更多），定价约为每百万token 1.25/10美元。该模型已集成到Cline平台（带有"思考滑块"功能），并正在Web开发竞技场和智能体工作流中进行基准测试。相关链接：API可用性、Cline集成、Cline详情、WebDev竞技场。现场报告比较了长上下文和智能体运行时与Sonnet/GPT-5的吞吐量：示例、长上下文检索对比。
Meta FAIR的Code World Model (CWM) 32B（研究版）：Meta发布了基于研究许可的32B密集模型开源权重，该模型将代码生成框架化为使用代码执行世界模型进行规划。报告成绩：SWE-bench Verified通过率65.8%、LiveCodeBench通过率68.6%、Math-500通过率96.6%、AIME 2024通过率76.0%。技术报告、权重和代码均已公开，并附有SEAL/AI安全团队的安全准备报告。相关链接：@AIatMeta、@ylecun、指标总结、安全准备。
生态系统更新：GitHub Copilot的新嵌入模型和训练说明（用于更快、更准确的代码搜索）博客链接；Jules智能体现在可对PR反馈采取行动链接；Claude Sonnet 4和Opus 4.1现已集成到Microsoft 365 Copilot中Anthropic。

系统与基础设施：vLLM DCP、多模态数据管道和平台动向

vLLM 0.10.2 新增解码上下文并行（DCP）：由 Kimi/Moonshot 贡献，DCP 将 KV 缓存分片到多个 GPU 上以减少重复，在单节点 H200 上可实现高达 8 倍的 KV 容量和2-3 倍的吞吐量——特别适用于 KV 密集型工作负载（强化学习、离线数据生成）。快速开始：vllm serve deepseek-ai/DeepSeek-V3.1-Terminus -tp 8 -dcp 8。链接：@vllm_project、day-0 指南。
Perceptron 的多模态基础设施：该团队分享了 TensorStream 的设计——一种类似张量的抽象，用于交错的多模态数据，为其训练/推理代码提供动力——并发布了 Isaac 0.1 的技术细节，这是一个强调简单训练配方和鲁棒基础的小型 VLM。关于“复杂性预算”和原生多模态抽象的良好讨论：设计文章、Isaac 报告、评论、抽象 +1。
MCP 构建者和合规性：Figma 的 MCP 服务器登陆 VS Code（并可在 OpenHands 中使用），用于“设计到代码”流程 VS Code、OpenHands；Weaviate 获得 ISO 27001 链接；AMD 扩大与 Cohere 的合作（在 AMD Instinct 上的模型，主权 AI 姿态）AMD；Modular 筹集 2.5 亿美元以推动其统一的 AI 基础设施平台 Modular。

视频与多模态生成：阿里巴巴Wan2.5、Runway A2D、NVIDIA Lyra、Kling 2.5

阿里巴巴Wan2.5-Preview（原生多模态）：新架构通过联合多模态训练和RLHF原生对齐文本、图像、视频和音频；支持可控输入（文本/图像/音频）、同步多说话者音视频、1080p 10秒电影级视频，以及更强的图像生成/编辑功能（排版、图表、像素级编辑）。公告
Runway A2D：自回归到扩散的视觉语言模型：将现有自回归视觉语言模型适配为并行扩散解码，无需从头训练即可解锁速度-质量权衡；来自实习工作的开发预览展示了视觉语言扩散模型的实用路径。@runwayml，作者讨论
NVIDIA Lyra（3D/4D场景重建）：通过视频扩散自蒸馏从单张图像/视频进行前馈式3D和4D场景生成；权重已在Hugging Face发布。概述，模型
Kling 2.5 Turbo：内部盲测显示在文本到视频和图像到视频任务上显著优于Seedance/Veo变体；社区短片和竞赛正在推出。结果，竞赛

推理、强化学习与评估科学

RLPT（预训练数据上的强化学习）：通过自监督奖励在预训练语料库上直接进行下一段推理（ASR+MSR）训练——无需人工标注。在Qwen3-4B上报告的性能提升：+3.0 MMLU、+8.1 GPQA-Diamond、+6.6 AIME24、+5.3 AIME25。论文：推文、arXiv。
APRIL（强化学习中的主动部分回滚）：削减回滚长尾低效问题；在GRPO/DAPO/GSPO上实现高达**44%的吞吐量提升和8%**的最终准确率改进。推文、代码/论文。
“软标记，硬真相”：首个可扩展的连续思维链强化学习方法；软标记训练匹配离散pass@1性能，并通过提升多样性在pass@32上表现更优；最佳实践：训练用软标记，推理用硬标记。推文、arXiv。
有效推理≠更长的思维链：在10个大型推理模型上，更长的推理链和回顾可能与更低的准确率相关。新指标“失败步骤比例”可预测正确性；基于FSF的重排序可将pass@1提升高达**+10%**。推文、arXiv。
医学多模态脆弱性：压力测试显示前沿模型通常无需图像就能猜对答案，在微小提示词变化下会翻转判断，并编造有说服力但有缺陷的推理——排行榜掩盖了脆弱性。推文、arXiv。
相关：谷歌的测试时扩散深度研究器（TTD-DR）将扩散式迭代优化应用于长文本研究，报告在某些任务上相比OpenAI深度研究器获得高达**74.5%**的胜率，并具有更好的质量-延迟权衡。概述。

1. DeepSeek-V3.1-Terminus本地部署突破

您现在可以在本地设备上运行DeepSeek-V3.1-Terminus！ (得分：163，评论：29)：Unsloth发布了DeepSeek‑V3.1 Terminus的动态GGUF量化版本，通过逐层"智能"1位量化，使本地推理仅需约170GB内存（以及约162GB的Ollama就绪版本），将原始约715GB模型缩小约80%。他们的动态3位DeepSeek‑V3.1（思考）GGUF在Aider Polyglot基准测试中得分75.6%——据报道超过Claude‑4‑Opus（思考）——可通过llama.cpp运行，并提供示例Ollama标签hf.co/unsloth/DeepSeek-V3.1-Terminus-GGUF:TQ1_0**；资源：博客文章、HF仓库、指南。图片显示的是动态GGUF与基线和专有模型的性能对比基准图表。**热门评论质疑家庭用户的实用性——询问类似方法是否能压缩70B–200B模型以适应16–24GB VRAM GPU——而其他人则指出高VRAM/内存需求并给予赞扬。

关键问题是相同方法是否能让70B或100–200B模型在16–24GB消费级GPU上运行。这意味着需要极端量化/卸载以适应VRAM，家庭用户的实用性取决于此。
一位评论者引用内存占用从715GB降至170GB，同时具备"可靠的工具调用能力"。他们希望与GLM-4.5和Qwen进行正面比较，建议在工具使用/代理基准测试上验证质量与压缩比。
即使经过缩减，实际部署可能仍需要约~100GB VRAM（"现在需要再找约100GB的VRAM"）。这将超过典型的16–24GB游戏GPU，突显了本地使用的剩余硬件障碍。

2. DIY本地AI硬件：RTX 3080 20GB改装和Ryzen AI MAX+ 395

我的第二块来自中国的改装3080 20GB，用于本地AI推理、视频和图像生成.. (得分：219，评论：101)：OP展示了一块中国改装的GeForce RTX 3080，升级至20GB VRAM（可能是320位总线上的10×16Gb GDDR6X），用于本地AI推理/视频/图像工作负载，选择三风扇散热器而非鼓风机以改善噪音。这款2.5插槽显卡据报道保持良好散热。

价值/性能权衡 vs RTX 3090：3080 20GB改装版仍具有320位总线（~760 GB/s）和比3090的384位总线（~936 GB/s）更少的SM，因此对于既带宽敏感又VRAM敏感的AI/图像工作负载，3090的24GB和更宽总线可能显著更快，并允许更大的批次大小/检查点。鉴于二手3090价格通常在$500左右，评论者认为$500的3080-20GB难以证明合理性，除非价格接近$350——否则3090（或即将推出的24GB下一代选项）是更好的选择。规格参考：RTX 3080、RTX 3090。

使用3GB（24Gb）GDDR6X实现30GB 3080的可行性：理论上，10×24Gb芯片将在320位GA102上产生30GB，但这取决于GA102的内存控制器/BIOS是否支持24Gb密度和正确的时序配置——没有零售GA102板卡配备24Gb设备，因此兼容性未经证实。即使VBIOS识别，没有AIB级固件支持，稳定性/散热和内存训练可能存在问题。美光已采样24Gb GDDR6X芯片，使容量在纸面上合理：美光24Gb GDDR6X。

Ryzen AI MAX+ 395是真正的独角兽（褒义） (得分：218，评论：205)：OP评估了128GB Framework桌面主板（AMD Ryzen AI Max 300系列）用于本地AI推理的成本/性能，与具有类似规格的DIY桌面比较。可比的DIY零件清单（寻求4通道DDR5 ≥8000 MT/s）总计约$2240：消费级4通道DDR5主板>$600，通过Ryzen 9950X3D实现与395 MAX+"等效"的CPU~$660** + Noctua NH‑D15~$130，128GB DDR5‑8000 (4×24 GB)~$450，以及类似于板载iGPU的dGPU（RTX 4060/4060 Ti 16 GB)~$400。OP认为Framework主板的统一内存避免了GPU访问大模型权重时的PCIe带宽/延迟惩罚，而离散构建将消耗≳2倍功率（更多热量/噪音；参考房间加热帖子）。他们补充说，Apple M4 Pro/Max具有更高带宽但扩散吞吐量较差，成本约为2倍以获得类似RAM/GPU，而真正更高吞吐量的Nvidia设置（例如4× RTX 3090）则昂贵得多且耗电；编辑：引用的9955HX3D不支持4通道内存——Threadripper可以，但内存速度较慢。**热门回复要求具体基准测试（"数字"），并建议如果AMD推出256GB统一内存可能带来阶跃式改进。一位评论者推荐在相同预算内使用RTX 5080进行扩散工作负载（VRAM > 系统RAM），同时同意对于LLM，更大的统一内存（128GB+）对于更大的上下文和模型占用空间是有利的。

工作负载适应性和内存与吞吐量权衡：评论者指出，对于扩散/视觉工作负载，RTX 5080级GPU在相似价格点上将表现更佳，且图像/视频不需要128GB RAM。对于LLM，更大的系统/统一内存更有价值（适应更大模型/上下文），与"卡车（容量）vs跑车（吞吐量）"类比一致；假设的256GB统一内存SKU被视为LLM用例的市场变革者。
带宽瓶颈担忧：一位用户指出"

3. LLM性能增长声明和炒作反应

大模型性能每7个月翻倍 (得分：152，评论：57)：帖子断言一个经验性的"AI摩尔定律"，即大模型能力大约每~7**个月翻倍，通过进度图表（图片）说明，并构架为基准测试性能的持续指数增长。该声明呼应了先前关于加速AI进展的解释，例如Computerphile对AI类似摩尔定律的概述（视频）；帖子本身未详细说明方法或聚合了哪些基准。**评论者强调成本与质量同步下降（token/模型定价下降），归功于开源竞争带来的价格压力；其他人认为该观察并不新鲜，指出早期报道如Computerphile视频。

图表方法批判：它似乎将LLM能力转换为"人类完成任务时间"，并对每个任务使用50%成功阈值，这高度主观且任务依赖。提出的例子："在网络上查找事实"可能从几秒到几天不等，取决于具体性；"为定制芯片优化代码"定义不清，可能跨越数小时到数月；而"创办新公司"在167h不是一个有意义的、可测量的单位。没有标准化基准和精确任务规范，像"每7个月翻倍"这样的声明存在 cherry-picking 和歪曲真实进展的风险。

成本/性能动态：评论者指出能力提升伴随推理成本下降，开源模型加剧价格竞争。从业者仍依赖2024–2025开源模型如Mistral、Llama 3.1和Qwen 2.5 Coder，暗示感知改进是任务和部署依赖的；成本/性能权衡（例如本地推理 vs API）、稳定性和工具链可能超过头条"翻倍"指标。报告能力和$/token或$/任务将更好地捕捉真实世界价值。
先前关于缩放的文献：链接的Computerphile视频，AI版的摩尔定律？（https://www.youtube.com/watch?v=evSFeqTZdqs&t=1s），回顾了LLM缩放趋势，并区分了硬件驱动的FLOPs/$增益与算法效率改进，这些共同创造了明显的能力翻倍。它将进展构架为来自更大模型、更好训练数据/配方和推理优化，警告不要将单一"翻倍周期"视为跨任务通用。

哦我的天，这是什么怪物？ (得分：590，评论：124)：**图片（图表）似乎是一个基准排行榜，其中多个LLM在任务上达到接近或正好100，表明评估已饱和/达到天花板，无法再区分顶级模型。评论者指出，中国前沿模型位于或接近图表顶部，暗示与领先西方模型的性能持平。**显著观点："如果模型得分100，那么这是一个无用的基准"，认为指标已失去区分力；其他人强调中国模型已达到前沿水平，而一位批评者批评纵向模式截图的方形图表可读性差。

基准饱和担忧：如果模型达到100，表明存在天花板效应和弱区分力。这增加了过拟合/测试污染的风险，并推动社区转向更困难或对抗性套件，如MMLU-Pro和GPQA，以及鲁棒性/长上下文评估，而非仅依赖经典MMLU、GSM8K或HumanEval。参见MMLU 论文、MMLU-Pro 论文、GPQA 论文。
多位评论者指出展示的Qwen结果并非"本地"，这很重要，因为API托管模型可能与可下载权重和量化后的本地性能不同。设备上约束（VRAM、吞吐量）和量化（例如Q4_K_M）通常在推理/代码基准上损失~1–5分并改变延迟；例如，运行7B Q4需要约5–6 GB VRAM，14B约9–10 GB，32B约20–24 GB（llama.cpp量化）。
中国模型已达到前沿水平的声明与近期报告一致：Qwen2.5、DeepSeek‑V2和Yi系列发布与既定前沿模型竞争的MMLU/GSM8K/MT‑Bench和编码分数。参见Qwen2.5 博客、DeepSeek‑V2 论文和Hugging Face上的Yi模型（Yi‑34B）；确切排名取决于评估设置（提示、CoT、解码）以及测试是否受污染控制。

AI技术社区周报：图像编辑新突破、游戏AI测试与文化创作

1. Qwen图像编辑2509版发布：基准测试与工作流程

Qwen图像编辑原版与2509新版的快速对比：对原始Qwen图像编辑与新版"2509"构建进行并排测试，两者均量化为Q5_K_M GGUF格式并在默认ComfyUI中运行。2509模型需要"QwenImageEditPlus"文本编码器才能正确操作。使用首次样本输出（无LoRA），2509版本在保持源风格和构图方面明显更一致；剩余问题包括表情编辑时的轻微全身比例变化和眼镜蓝色色调丢失。更新的文本编码器还观察到约5-10%的速度提升。示例图片。
QWEN图像生成作为单一源图像到动态宽屏视频概念（WAN 2.2 FLF），使用新版（QWEN EDIT 2509）进行微调：创作者展示了一个ComfyUI流程，将单个Qwen生成的图像通过"WAN 2.2 FLF"工作流程转换为动态宽屏视频，并使用"QWEN 2509 EDIT"进行微调。提供了完整的可重现性：CivitAI上的自定义LoRA（链接）、完整的Qwen图像工作流程（pastebin）、WAN 2.2 FLF工作流程（pastebin）和QWEN 2509 EDIT工作流程（pastebin），以及包含所有视频部分/替代方案、图像部分、MP3音乐、.pdn编辑文件和每个阶段提示词的ZIP存档（Drive）。

2. 游戏中的AI：Among Us欺骗基准测试与Veo-3游戏视频

研究人员让AI玩Among Us来测试它们的欺骗、说服和心理理论能力。GPT-5获胜。：来自4wallai（"Among AIs"）的报告声称通过让智能体玩Among Us风格的社会推理游戏来基准测试大模型的欺骗、说服和心理理论能力（报告）。共享的图表显示"GPT-5"排名第一，Anthropic的Claude Sonnet排名第二。
如果他们制作了一款关于斯大林生平的游戏：OP分享了一个据称使用Google的Veo-3生成的短历史片段（Veo），描绘了斯大林的早期生活和巴巴罗萨行动的初始阶段。评论者指出许多视觉效果与《荒野大镖客2》资源难以区分，斯大林在1880年代以成人形象出现，可能是由于视频生成模型不允许渲染未成年人的内容安全限制。

3. ChatGPT照片编辑与AI文化讽刺项目

要求chatgpt从我的婚礼照片中移除我的父亲。：用户使用ChatGPT的图像编辑功能从婚礼照片中移除一个人；生成的输出显示出全局身份/属性漂移和面部伪影：女性的眼镜消失，儿童的耳朵形态改变（"半精灵"），几个面部显示纹理/几何不匹配，产生诡异的"皮行者"外观——这是在生成填充过程中实例分割和身份约束较弱时的典型故障模式。
文化讽刺：OP表示标题为"文化讽刺"的视频是使用生成式AI制作的："大多数图像是用ChatGPT制作的。它也帮助我进行编辑。"评论者声称该作品是衍生品，称其为Neural Viz的"公然"抄袭，并建议查看Neural Viz。

4. 其他AI社区动态

竞赛已经开始：非技术性梗图暗示AI军备竞赛以电力消耗（引用"1 TW"数字）而非模型能力或效率来衡量。评论者质疑使用功耗作为竞争指标的相关性。
我几乎要被这些建议逼疯了。：OP显示ChatGPT UI在GPT-4.1上的行为，助手反复注入硬编码的后续提示——"你想让我建议另一个主题还是继续当前主题？"——即使在明确指示停止后也是如此。这表明这是服务器端/产品UX功能，无法通过提示控制。

1. 面向智能浏览器和IDE的MCP工具

Chrome DevTools MCP让AI代理掌控方向盘：谷歌宣布Chrome DevTools MCP进入公开预览阶段，允许AI编程代理（Claude Code、Cursor、VS Code、Gemini）通过CDP/Puppeteer控制实时Chrome浏览器，只需一行npx安装命令即可实现性能追踪、DOM/控制台检查、截图和网络捕获功能，详情可见Chrome DevTools MCP（公开预览）。

开发者们特别强调了一行npx安装的便捷性，并讨论了将MCP与Claude Code和Cursor配对使用，实现完整的浏览器调试和端到端测试循环。

MCP服务器为本地代理注入强大动力：Cursor用户澄清MCP服务器作为代理的API接口，支持使用exa.ai进行网络搜索、分析以及集成Playwright MCP、Context7、Azure DevOps MCP和GitHub MCP等功能，以自动化本地编程工作流。

他们将MCP定位为统一协议，让代理能够在编辑器和CLI中组合各种能力（搜索、运行、分析），形成智能编程循环。

规范审查强化MCP语义：贡献者指出模型上下文协议——嵌入式资源暗示资源"title"在schema.ts中缺失，并在issue #1533中开启了关于ReadResourceResult.contents数组的讨论，以澄清多部分网络资源。

他们讨论了为无法通过读取调用检索的嵌入式资源同时添加title和name字段，并建议使用Claude Code起草SEP作为"良好测试"。

2. Gemini Live与模型对决

Gemini Live支持语音对话和函数调用：Google的Logan Kilpatrick宣布推出Gemini Live模型，具备原生音频功能、改进的函数调用能力以及更自然的对话体验，相关信息分享在Gemini Live模型上。

早期测试者称赞了对话流畅度和口音识别，但也指出了iOS Safari兼容性问题、背景噪音敏感度、会话时长限制以及语音转文本准确度方面的担忧。

GPT-5 Codex在Livebench上的表现：Perplexity用户报告GPT-5 Pro（又名GPT-5 Codex）正在livebench上进行评估，提到模型思考时间较长，有时只生成一半的答案。

社区成员询问Perplexity是否在GPT-5 Codex上存在可靠性问题，暗示该模型可能仍处于迭代中期。

4o在常识性测试中胜过GPT-5：OpenAI社区帖子声称4o在基于图像的常识性测试中击败了GPT-5，引发了关于实验设置和有效性的讨论。

怀疑者提醒道，"在没有听到GPT-5的推理过程之前很难下定论"，指出模型可能推断出提问者是在开玩笑。

3. GPU内核与一致性：从Hopper TMA到PTX证明

PTX一致性通过Dat3M实现形式化验证：工程师们提出了《NVIDIA PTX内存一致性模型的形式化分析》以及关于复合/统一GPU内存模型的后续研究，使用Dat3M工具将PTX/Vulkan转换为Dartagnan进行验证。

他们指出了自动识别缺失的PTX栅栏，并建议将此类检查移至NVVM IR层以便更早发现问题。

追求最小化Hopper TMA矩阵乘法：社区寻求在原始CUDA中实现最小化的Hopper TMA矩阵乘法内核（不使用CUTLASS/Triton），灵感来自FAIR的新因果世界模型(CWM)论文，而其他人在使用WMMA+TMA时遇到了未指定的启动失败。

调试线程分享了ncu性能分析技巧，用于解决共享内存bank冲突问题，以及在CUDA图形/纹理API未定义时的头文件包含修复方法。

ThunderKittens在H100 TMA上遇到问题：ThunderKittens的H100矩阵乘法在CUDA 12.8/PyTorch 2.7 nightly环境下运行时崩溃，并分享了完整的日志和构建细节以便复现问题。

作者表示nvshmem支持将在后续版本（论文2）中提供，根据附件图片所示。

4. Modular的巨额融资与Mojo的Metal布局

Modular获得2.5亿美元融资，打造统一计算层：Modular宣布完成2.5亿美元融资，旨在加速AI统一计算层的开发。该公司将这一进展归功于社区的发展势头，并承诺将加快功能交付速度。

团队成员邀请潜在贡献者通过社区渠道直接联系，预示着未来一年将采用更开放的协作模式。

Mojo瞄准Metal GPU，推出自定义Bitcode：开发者对Mojo中新增的Metal GPU目标表示欢迎，其中包括一个自定义bitcode写入器，该工具可被复用以将领域特定语言（DSL）定向到Metal GPU。

开发者询问该bitcode写入器是否可用且可复用，着眼于实现领域特定编译器的跨栈可移植性。

5. 提示词、评估与视觉语言模型研究

灵活提取在GSM8k上的表现：在GSM8k v3（5-shot）测试中，flexible-extract方法获得了0.3594的精确匹配分数，表现不如strict-match的0.5742分，这让追踪提取鲁棒性的评估者感到意外。

一位成员开玩笑说*"哈哈，灵活怎么会比严格还差"*，引发了关于精度优先匹配与宽松提取的激烈讨论。

思维链：少即是多：实践者警告说，过重的**思维链（CoT）**可能会损害"思考型"模型的性能，并分享了一个交互式CoT信息图（React组件），包含任务预设、可见性切换和延迟滑块功能。

他们主张采用结果导向的提示词方法（如角色扮演、先验证再回应），而不是强制使用冗长的CoT，并建议通过实验验证而非套用模板化的CoT。

视觉语言模型挑战LLM提示词习惯：研究人员呼吁为视觉语言模型（VLM）提示词建立基准测试和可解释性研究，指出常规的LLM提示词技术在视觉语言模型上往往表现不佳。

提出的解决方案包括机制解释探测和探索LLM版的CFG（概念-特征图），以桥接概念并填补知识空白。