AI 开发者日报 2025-09-25
阿里巴巴发布通义千问Qwen3系列模型,并公布520亿美元基础设施投资计划。OpenAI和Meta升级编程AI能力,研究发现提示词策略需优化。DeepSeek-V3.1实现模型压缩,硬件方面推动边缘计算发展。多模态生成技术取得进展,但AI欺骗能力和版权问题引发关注。整体AI生态快速成熟。
阿里巴巴Qwen3系列发布:Max、VL、Coder及520亿美元路线图
-
Qwen3-Max、Qwen3-VL与发布速度:阿里巴巴/通义千问发布了一系列模型:旗舰产品Qwen3-Max(现已成为Anycoder的默认模型)以及开源的Qwen3-VL,后者具备原生256K上下文(可扩展至1M)、支持32种语言的更强OCR功能、2小时视频中的精确事件定位、GUI操作/编码以及领先的风险检测能力。这些发布已登陆Hugging Face、ModelScope、GitHub和阿里云Model Studio;社区平台迅速接入(例如Yupp添加了Qwen3 Max和Qwen3 VL 235B A22B Instruct/Thinking;LMArena添加了三款Qwen3模型)。阿里巴巴宣称其发布速度无与伦比(约每月3.5次发布,多数为开源权重),并在云栖大会上讨论了多年基础设施路线图,评论指出其拥有“520亿美元战争基金”和重大计算规模扩张声明。详见公告和讨论:@huybery、@huybery关于Qwen3-VL、@Ali_TongyiLab(VL发布)、Anycoder默认设置、Yupp添加Qwen模型、LMArena添加Qwen3、发布速度、云栖大会回顾、高管剪辑/路线图。
-
Qwen3-Coder-Plus与API改进:编码系列获得了针对性升级(终端任务处理、脚手架适配;API修复),在WebDev Arena和智能体工具链中显示出早期竞争优势。详情:API更新、WebDev Arena提示词。
编程模型与智能体:GPT-5 Codex上线;Meta发布32B CWM
-
GPT-5 Codex(智能体优化版)正式上线:OpenAI的"Codex"变体现已集成到API和智能体工具中。亮点包括:最高400K上下文长度,具有"自适应推理"能力,可根据任务复杂度动态调整思考深度(简单任务消耗更少token,复杂任务消耗更多),定价约为每百万token 1.25/10美元。该模型已集成到Cline平台(带有"思考滑块"功能),并正在Web开发竞技场和智能体工作流中进行基准测试。相关链接:API可用性、Cline集成、Cline详情、WebDev竞技场。现场报告比较了长上下文和智能体运行时与Sonnet/GPT-5的吞吐量:示例、长上下文检索对比。
-
Meta FAIR的Code World Model (CWM) 32B(研究版):Meta发布了基于研究许可的32B密集模型开源权重,该模型将代码生成框架化为使用代码执行世界模型进行规划。报告成绩:SWE-bench Verified通过率65.8%、LiveCodeBench通过率68.6%、Math-500通过率96.6%、AIME 2024通过率76.0%。技术报告、权重和代码均已公开,并附有SEAL/AI安全团队的安全准备报告。相关链接:@AIatMeta、@ylecun、指标总结、安全准备。
-
生态系统更新:GitHub Copilot的新嵌入模型和训练说明(用于更快、更准确的代码搜索)博客链接;Jules智能体现在可对PR反馈采取行动链接;Claude Sonnet 4和Opus 4.1现已集成到Microsoft 365 Copilot中Anthropic。
系统与基础设施:vLLM DCP、多模态数据管道和平台动向
-
vLLM 0.10.2 新增解码上下文并行(DCP):由 Kimi/Moonshot 贡献,DCP 将 KV 缓存分片到多个 GPU 上以减少重复,在单节点 H200 上可实现高达 8 倍的 KV 容量和2-3 倍的吞吐量——特别适用于 KV 密集型工作负载(强化学习、离线数据生成)。快速开始:
vllm serve deepseek-ai/DeepSeek-V3.1-Terminus -tp 8 -dcp 8
。链接:@vllm_project、day-0 指南。 -
Perceptron 的多模态基础设施:该团队分享了 TensorStream 的设计——一种类似张量的抽象,用于交错的多模态数据,为其训练/推理代码提供动力——并发布了 Isaac 0.1 的技术细节,这是一个强调简单训练配方和鲁棒基础的小型 VLM。关于“复杂性预算”和原生多模态抽象的良好讨论:设计文章、Isaac 报告、评论、抽象 +1。
-
MCP 构建者和合规性:Figma 的 MCP 服务器登陆 VS Code(并可在 OpenHands 中使用),用于“设计到代码”流程 VS Code、OpenHands;Weaviate 获得 ISO 27001 链接;AMD 扩大与 Cohere 的合作(在 AMD Instinct 上的模型,主权 AI 姿态)AMD;Modular 筹集 2.5 亿美元以推动其统一的 AI 基础设施平台 Modular。
视频与多模态生成:阿里巴巴Wan2.5、Runway A2D、NVIDIA Lyra、Kling 2.5
-
阿里巴巴Wan2.5-Preview(原生多模态):新架构通过联合多模态训练和RLHF原生对齐文本、图像、视频和音频;支持可控输入(文本/图像/音频)、同步多说话者音视频、1080p 10秒电影级视频,以及更强的图像生成/编辑功能(排版、图表、像素级编辑)。公告
-
Runway A2D:自回归到扩散的视觉语言模型:将现有自回归视觉语言模型适配为并行扩散解码,无需从头训练即可解锁速度-质量权衡;来自实习工作的开发预览展示了视觉语言扩散模型的实用路径。@runwayml,作者讨论
-
NVIDIA Lyra(3D/4D场景重建):通过视频扩散自蒸馏从单张图像/视频进行前馈式3D和4D场景生成;权重已在Hugging Face发布。概述,模型
-
Kling 2.5 Turbo:内部盲测显示在文本到视频和图像到视频任务上显著优于Seedance/Veo变体;社区短片和竞赛正在推出。结果,竞赛
推理、强化学习与评估科学
-
RLPT(预训练数据上的强化学习):通过自监督奖励在预训练语料库上直接进行下一段推理(ASR+MSR)训练——无需人工标注。在Qwen3-4B上报告的性能提升:+3.0 MMLU、+8.1 GPQA-Diamond、+6.6 AIME24、+5.3 AIME25。论文:推文、arXiv。
-
APRIL(强化学习中的主动部分回滚):削减回滚长尾低效问题;在GRPO/DAPO/GSPO上实现高达**44%的吞吐量提升和8%**的最终准确率改进。推文、代码/论文。
-
“软标记,硬真相”:首个可扩展的连续思维链强化学习方法;软标记训练匹配离散pass@1性能,并通过提升多样性在pass@32上表现更优;最佳实践:训练用软标记,推理用硬标记。推文、arXiv。
-
有效推理≠更长的思维链:在10个大型推理模型上,更长的推理链和回顾可能与更低的准确率相关。新指标“失败步骤比例”可预测正确性;基于FSF的重排序可将pass@1提升高达**+10%**。推文、arXiv。
-
医学多模态脆弱性:压力测试显示前沿模型通常无需图像就能猜对答案,在微小提示词变化下会翻转判断,并编造有说服力但有缺陷的推理——排行榜掩盖了脆弱性。推文、arXiv。
-
相关:谷歌的测试时扩散深度研究器(TTD-DR)将扩散式迭代优化应用于长文本研究,报告在某些任务上相比OpenAI深度研究器获得高达**74.5%**的胜率,并具有更好的质量-延迟权衡。概述。
热门推文(按参与度排名)
- 阿里巴巴的Wan2.5-Preview:原生多模态音视频生成与编辑 — 1453
- Qwen3‑VL开源:256K→1M上下文,32种语言OCR,精确视频事件定位 — 1410.5
- Sam Altman谈阿比林数据中心建设进展 — 9917
- 半导体节点名称("3nm"、"2nm")是营销简写,并非字面尺寸 — 9032.5
- Claude Sonnet 4和Opus 4.1登陆Microsoft 365 Copilot — 1265
- Gemini应用达到50亿张图片生成量 — 1123
1. DeepSeek-V3.1-Terminus本地部署突破
您现在可以在本地设备上运行DeepSeek-V3.1-Terminus! (得分:163,评论:29):Unsloth发布了DeepSeek‑V3.1 Terminus的动态GGUF量化版本,通过逐层"智能"1位量化,使本地推理仅需约170GB内存(以及约162GB的Ollama就绪版本),将原始约715GB模型缩小约80%。他们的动态3位DeepSeek‑V3.1(思考)GGUF在Aider Polyglot基准测试中得分75.6%
——据报道超过Claude‑4‑Opus(思考)——可通过llama.cpp运行,并提供示例Ollama标签hf.co/unsloth/DeepSeek-V3.1-Terminus-GGUF:TQ1_0
**;资源:博客文章、HF仓库、指南。图片显示的是动态GGUF与基线和专有模型的性能对比基准图表。**热门评论质疑家庭用户的实用性——询问类似方法是否能压缩70B–200B模型以适应16–24GB VRAM GPU——而其他人则指出高VRAM/内存需求并给予赞扬。
- 关键问题是相同方法是否能让
70B
或100–200B
模型在16–24GB
消费级GPU上运行。这意味着需要极端量化/卸载以适应VRAM,家庭用户的实用性取决于此。 - 一位评论者引用内存占用从
715GB
降至170GB
,同时具备"可靠的工具调用能力"。他们希望与GLM-4.5和Qwen进行正面比较,建议在工具使用/代理基准测试上验证质量与压缩比。 - 即使经过缩减,实际部署可能仍需要约
~100GB
VRAM("现在需要再找约100GB的VRAM")。这将超过典型的16–24GB
游戏GPU,突显了本地使用的剩余硬件障碍。
2. DIY本地AI硬件:RTX 3080 20GB改装和Ryzen AI MAX+ 395
我的第二块来自中国的改装3080 20GB,用于本地AI推理、视频和图像生成.. (得分:219,评论:101):OP展示了一块中国改装的GeForce RTX 3080,升级至20GB VRAM(可能是320位总线上的10×16Gb GDDR6X),用于本地AI推理/视频/图像工作负载,选择三风扇散热器而非鼓风机以改善噪音。这款2.5插槽显卡据报道保持良好散热。
价值/性能权衡 vs RTX 3090:3080 20GB改装版仍具有320位总线(~760 GB/s
)和比3090的384位总线(~936 GB/s
)更少的SM,因此对于既带宽敏感又VRAM敏感的AI/图像工作负载,3090的24GB
和更宽总线可能显著更快,并允许更大的批次大小/检查点。鉴于二手3090价格通常在$500
左右,评论者认为$500
的3080-20GB难以证明合理性,除非价格接近$350
——否则3090(或即将推出的24GB下一代选项)是更好的选择。规格参考:RTX 3080、RTX 3090。
- 使用3GB(24Gb)GDDR6X实现30GB 3080的可行性:理论上,10×
24Gb
芯片将在320位GA102上产生30GB
,但这取决于GA102的内存控制器/BIOS是否支持24Gb密度和正确的时序配置——没有零售GA102板卡配备24Gb设备,因此兼容性未经证实。即使VBIOS识别,没有AIB级固件支持,稳定性/散热和内存训练可能存在问题。美光已采样24Gb
GDDR6X芯片,使容量在纸面上合理:美光24Gb GDDR6X。
Ryzen AI MAX+ 395是真正的独角兽(褒义) (得分:218,评论:205):OP评估了128GB Framework桌面主板(AMD Ryzen AI Max 300系列)用于本地AI推理的成本/性能,与具有类似规格的DIY桌面比较。可比的DIY零件清单(寻求4通道DDR5 ≥8000 MT/s)总计约$2240
:消费级4通道DDR5主板>$600
,通过Ryzen 9950X3D实现与395 MAX+"等效"的CPU~$660
** + Noctua NH‑D15~$130
,128GB DDR5‑8000 (4×24 GB)~$450
,以及类似于板载iGPU的dGPU(RTX 4060/4060 Ti 16 GB)~$400
。OP认为Framework主板的统一内存避免了GPU访问大模型权重时的PCIe带宽/延迟惩罚,而离散构建将消耗≳2倍功率(更多热量/噪音;参考房间加热帖子)。他们补充说,Apple M4 Pro/Max具有更高带宽但扩散吞吐量较差,成本约为2倍以获得类似RAM/GPU,而真正更高吞吐量的Nvidia设置(例如4× RTX 3090)则昂贵得多且耗电;编辑:引用的9955HX3D不支持4通道内存——Threadripper可以,但内存速度较慢。**热门回复要求具体基准测试("数字"),并建议如果AMD推出256GB统一内存可能带来阶跃式改进。一位评论者推荐在相同预算内使用RTX 5080进行扩散工作负载(VRAM > 系统RAM),同时同意对于LLM,更大的统一内存(128GB+)对于更大的上下文和模型占用空间是有利的。
- 工作负载适应性和内存与吞吐量权衡:评论者指出,对于扩散/视觉工作负载,RTX 5080级GPU在相似价格点上将表现更佳,且图像/视频不需要
128GB
RAM。对于LLM,更大的系统/统一内存更有价值(适应更大模型/上下文),与"卡车(容量)vs跑车(吞吐量)"类比一致;假设的256GB
统一内存SKU被视为LLM用例的市场变革者。 - 带宽瓶颈担忧:一位用户指出"
3. LLM性能增长声明和炒作反应
大模型性能每7个月翻倍 (得分:152,评论:57):帖子断言一个经验性的"AI摩尔定律",即大模型能力大约每~7
**个月翻倍,通过进度图表(图片)说明,并构架为基准测试性能的持续指数增长。该声明呼应了先前关于加速AI进展的解释,例如Computerphile对AI类似摩尔定律的概述(视频);帖子本身未详细说明方法或聚合了哪些基准。**评论者强调成本与质量同步下降(token/模型定价下降),归功于开源竞争带来的价格压力;其他人认为该观察并不新鲜,指出早期报道如Computerphile视频。
图表方法批判:它似乎将LLM能力转换为"人类完成任务时间",并对每个任务使用50%
成功阈值,这高度主观且任务依赖。提出的例子:"在网络上查找事实"可能从几秒到几天不等,取决于具体性;"为定制芯片优化代码"定义不清,可能跨越数小时到数月;而"创办新公司"在167h
不是一个有意义的、可测量的单位。没有标准化基准和精确任务规范,像"每7个月翻倍"这样的声明存在 cherry-picking 和歪曲真实进展的风险。
- 成本/性能动态:评论者指出能力提升伴随推理成本下降,开源模型加剧价格竞争。从业者仍依赖2024–2025开源模型如Mistral、Llama 3.1和Qwen 2.5 Coder,暗示感知改进是任务和部署依赖的;成本/性能权衡(例如本地推理 vs API)、稳定性和工具链可能超过头条"翻倍"指标。报告能力和$/token或$/任务将更好地捕捉真实世界价值。
- 先前关于缩放的文献:链接的Computerphile视频,AI版的摩尔定律?(https://www.youtube.com/watch?v=evSFeqTZdqs&t=1s),回顾了LLM缩放趋势,并区分了硬件驱动的FLOPs/$增益与算法效率改进,这些共同创造了明显的能力翻倍。它将进展构架为来自更大模型、更好训练数据/配方和推理优化,警告不要将单一"翻倍周期"视为跨任务通用。
哦我的天,这是什么怪物? (得分:590,评论:124):**图片(图表)似乎是一个基准排行榜,其中多个LLM在任务上达到接近或正好100
,表明评估已饱和/达到天花板,无法再区分顶级模型。评论者指出,中国前沿模型位于或接近图表顶部,暗示与领先西方模型的性能持平。**显著观点:"如果模型得分100,那么这是一个无用的基准",认为指标已失去区分力;其他人强调中国模型已达到前沿水平,而一位批评者批评纵向模式截图的方形图表可读性差。
- 基准饱和担忧:如果模型达到
100
,表明存在天花板效应和弱区分力。这增加了过拟合/测试污染的风险,并推动社区转向更困难或对抗性套件,如MMLU-Pro和GPQA,以及鲁棒性/长上下文评估,而非仅依赖经典MMLU、GSM8K或HumanEval。参见MMLU 论文、MMLU-Pro 论文、GPQA 论文。 - 多位评论者指出展示的Qwen结果并非"本地",这很重要,因为API托管模型可能与可下载权重和量化后的本地性能不同。设备上约束(VRAM、吞吐量)和量化(例如
Q4_K_M
)通常在推理/代码基准上损失~1–5
分并改变延迟;例如,运行7B
Q4需要约5–6 GB
VRAM,14B
约9–10 GB
,32B
约20–24 GB
(llama.cpp量化)。 - 中国模型已达到前沿水平的声明与近期报告一致:Qwen2.5、DeepSeek‑V2和Yi系列发布与既定前沿模型竞争的MMLU/GSM8K/MT‑Bench和编码分数。参见Qwen2.5 博客、DeepSeek‑V2 论文和Hugging Face上的Yi模型(Yi‑34B);确切排名取决于评估设置(提示、CoT、解码)以及测试是否受污染控制。
AI技术社区周报:图像编辑新突破、游戏AI测试与文化创作
1. Qwen图像编辑2509版发布:基准测试与工作流程
-
Qwen图像编辑原版与2509新版的快速对比:对原始Qwen图像编辑与新版"2509"构建进行并排测试,两者均量化为
Q5_K_M
GGUF格式并在默认ComfyUI中运行。2509模型需要"QwenImageEditPlus"文本编码器才能正确操作。使用首次样本输出(无LoRA),2509版本在保持源风格和构图方面明显更一致;剩余问题包括表情编辑时的轻微全身比例变化和眼镜蓝色色调丢失。更新的文本编码器还观察到约5-10%
的速度提升。示例图片。 -
QWEN图像生成作为单一源图像到动态宽屏视频概念(WAN 2.2 FLF),使用新版(QWEN EDIT 2509)进行微调:创作者展示了一个ComfyUI流程,将单个Qwen生成的图像通过"WAN 2.2 FLF"工作流程转换为动态宽屏视频,并使用"QWEN 2509 EDIT"进行微调。提供了完整的可重现性:CivitAI上的自定义LoRA(链接)、完整的Qwen图像工作流程(pastebin)、WAN 2.2 FLF工作流程(pastebin)和QWEN 2509 EDIT工作流程(pastebin),以及包含所有视频部分/替代方案、图像部分、MP3音乐、.pdn编辑文件和每个阶段提示词的ZIP存档(Drive)。
2. 游戏中的AI:Among Us欺骗基准测试与Veo-3游戏视频
-
研究人员让AI玩Among Us来测试它们的欺骗、说服和心理理论能力。GPT-5获胜。:来自4wallai("Among AIs")的报告声称通过让智能体玩Among Us风格的社会推理游戏来基准测试大模型的欺骗、说服和心理理论能力(报告)。共享的图表显示"GPT-5"排名第一,Anthropic的Claude Sonnet排名第二。
-
如果他们制作了一款关于斯大林生平的游戏:OP分享了一个据称使用Google的Veo-3生成的短历史片段(Veo),描绘了斯大林的早期生活和巴巴罗萨行动的初始阶段。评论者指出许多视觉效果与《荒野大镖客2》资源难以区分,斯大林在1880年代以成人形象出现,可能是由于视频生成模型不允许渲染未成年人的内容安全限制。
3. ChatGPT照片编辑与AI文化讽刺项目
-
要求chatgpt从我的婚礼照片中移除我的父亲。:用户使用ChatGPT的图像编辑功能从婚礼照片中移除一个人;生成的输出显示出全局身份/属性漂移和面部伪影:女性的眼镜消失,儿童的耳朵形态改变("半精灵"),几个面部显示纹理/几何不匹配,产生诡异的"皮行者"外观——这是在生成填充过程中实例分割和身份约束较弱时的典型故障模式。
-
文化讽刺:OP表示标题为"文化讽刺"的视频是使用生成式AI制作的:"大多数图像是用ChatGPT制作的。它也帮助我进行编辑。"评论者声称该作品是衍生品,称其为Neural Viz的"公然"抄袭,并建议查看Neural Viz。
4. 其他AI社区动态
-
竞赛已经开始:非技术性梗图暗示AI军备竞赛以电力消耗(引用"1 TW"数字)而非模型能力或效率来衡量。评论者质疑使用功耗作为竞争指标的相关性。
-
我几乎要被这些建议逼疯了。:OP显示ChatGPT UI在GPT-4.1上的行为,助手反复注入硬编码的后续提示——"你想让我建议另一个主题还是继续当前主题?"——即使在明确指示停止后也是如此。这表明这是服务器端/产品UX功能,无法通过提示控制。
1. 面向智能浏览器和IDE的MCP工具
- Chrome DevTools MCP让AI代理掌控方向盘:谷歌宣布Chrome DevTools MCP进入公开预览阶段,允许AI编程代理(Claude Code、Cursor、VS Code、Gemini)通过CDP/Puppeteer控制实时Chrome浏览器,只需一行npx安装命令即可实现性能追踪、DOM/控制台检查、截图和网络捕获功能,详情可见Chrome DevTools MCP(公开预览)。
开发者们特别强调了一行npx安装的便捷性,并讨论了将MCP与Claude Code和Cursor配对使用,实现完整的浏览器调试和端到端测试循环。
MCP服务器为本地代理注入强大动力:Cursor用户澄清MCP服务器作为代理的API接口,支持使用exa.ai进行网络搜索、分析以及集成Playwright MCP、Context7、Azure DevOps MCP和GitHub MCP等功能,以自动化本地编程工作流。
- 他们将MCP定位为统一协议,让代理能够在编辑器和CLI中组合各种能力(搜索、运行、分析),形成智能编程循环。
规范审查强化MCP语义:贡献者指出模型上下文协议——嵌入式资源暗示资源"title"在schema.ts中缺失,并在issue #1533中开启了关于ReadResourceResult.contents
数组的讨论,以澄清多部分网络资源。
- 他们讨论了为无法通过读取调用检索的嵌入式资源同时添加title和name字段,并建议使用Claude Code起草SEP作为"良好测试"。
2. Gemini Live与模型对决
- Gemini Live支持语音对话和函数调用:Google的Logan Kilpatrick宣布推出Gemini Live模型,具备原生音频功能、改进的函数调用能力以及更自然的对话体验,相关信息分享在Gemini Live模型上。
早期测试者称赞了对话流畅度和口音识别,但也指出了iOS Safari兼容性问题、背景噪音敏感度、会话时长限制以及语音转文本准确度方面的担忧。
GPT-5 Codex在Livebench上的表现:Perplexity用户报告GPT-5 Pro(又名GPT-5 Codex)正在livebench上进行评估,提到模型思考时间较长,有时只生成一半的答案。
- 社区成员询问Perplexity是否在GPT-5 Codex上存在可靠性问题,暗示该模型可能仍处于迭代中期。
4o在常识性测试中胜过GPT-5:OpenAI社区帖子声称4o在基于图像的常识性测试中击败了GPT-5,引发了关于实验设置和有效性的讨论。
- 怀疑者提醒道,"在没有听到GPT-5的推理过程之前很难下定论",指出模型可能推断出提问者是在开玩笑。
3. GPU内核与一致性:从Hopper TMA到PTX证明
- PTX一致性通过Dat3M实现形式化验证:工程师们提出了《NVIDIA PTX内存一致性模型的形式化分析》以及关于复合/统一GPU内存模型的后续研究,使用Dat3M工具将PTX/Vulkan转换为Dartagnan进行验证。
他们指出了自动识别缺失的PTX栅栏,并建议将此类检查移至NVVM IR层以便更早发现问题。
追求最小化Hopper TMA矩阵乘法:社区寻求在原始CUDA中实现最小化的Hopper TMA矩阵乘法内核(不使用CUTLASS/Triton),灵感来自FAIR的新因果世界模型(CWM)论文,而其他人在使用WMMA+TMA时遇到了未指定的启动失败
。
- 调试线程分享了ncu性能分析技巧,用于解决共享内存bank冲突问题,以及在CUDA图形/纹理API未定义时的头文件包含修复方法。
ThunderKittens在H100 TMA上遇到问题:ThunderKittens的H100矩阵乘法在CUDA 12.8/PyTorch 2.7 nightly环境下运行时崩溃,并分享了完整的日志和构建细节以便复现问题。
- 作者表示nvshmem支持将在后续版本(论文2)中提供,根据附件图片所示。
4. Modular的巨额融资与Mojo的Metal布局
- Modular获得2.5亿美元融资,打造统一计算层:Modular宣布完成2.5亿美元融资,旨在加速AI统一计算层的开发。该公司将这一进展归功于社区的发展势头,并承诺将加快功能交付速度。
团队成员邀请潜在贡献者通过社区渠道直接联系,预示着未来一年将采用更开放的协作模式。
Mojo瞄准Metal GPU,推出自定义Bitcode:开发者对Mojo中新增的Metal GPU目标表示欢迎,其中包括一个自定义bitcode写入器,该工具可被复用以将领域特定语言(DSL)定向到Metal GPU。
- 开发者询问该bitcode写入器是否可用且可复用,着眼于实现领域特定编译器的跨栈可移植性。
5. 提示词、评估与视觉语言模型研究
- 灵活提取在GSM8k上的表现:在GSM8k v3(5-shot)测试中,flexible-extract方法获得了0.3594的精确匹配分数,表现不如strict-match的0.5742分,这让追踪提取鲁棒性的评估者感到意外。
一位成员开玩笑说*"哈哈,灵活怎么会比严格还差"*,引发了关于精度优先匹配与宽松提取的激烈讨论。
思维链:少即是多:实践者警告说,过重的**思维链(CoT)**可能会损害"思考型"模型的性能,并分享了一个交互式CoT信息图(React组件),包含任务预设、可见性切换和延迟滑块功能。
- 他们主张采用结果导向的提示词方法(如角色扮演、先验证再回应),而不是强制使用冗长的CoT,并建议通过实验验证而非套用模板化的CoT。
视觉语言模型挑战LLM提示词习惯:研究人员呼吁为视觉语言模型(VLM)提示词建立基准测试和可解释性研究,指出常规的LLM提示词技术在视觉语言模型上往往表现不佳。
- 提出的解决方案包括机制解释探测和探索LLM版的CFG(概念-特征图),以桥接概念并填补知识空白。