标签: Inference

4 篇文章

DeepSeek DSpark：推理加速的“投机解码”到底把LLM榨干了多少性能？

围绕DSpark论文与投机解码技术，解析大模型推理加速的新一轮工程优化思路与开源实现进展。

2026年6月28日

LLM Inference Optimization

本地 AI 正在逼近拐点：从苹果 M7 到 LLM 成本危机

结合苹果 AI 芯片路线、内存成本上涨与大模型推理成本，探讨本地运行 LLM 是否将成为未来几年的关键趋势。

2026年6月26日

LLM AppleSilicon Inference

OpenAI自研AI芯片曝光：推理算力战争进入硬件时代？

OpenAI联合Broadcom推出自研AI芯片，标志着大模型公司开始向底层硬件延伸，加速推理算力的垂直整合。

2026年6月25日

AI Semiconductors Hardware

GLM-5.2引发的效率争议：更强但更“慢”的前沿大模型

围绕GLM-5.2在接近前沿能力的同时出现推理耗时与token成本过高的问题，讨论大模型性能与效率之间的新矛盾。

2026年6月18日

LLM Inference Optimization

← 查看所有标签