标签: Benchmarking

3 篇文章

Claude Fable 的编码表现与限制

评测 Claude Fable 在前端与后端任务上的表现，揭示其不可预测性与内部降级机制。

2026年6月12日

AI 编程进入实战期：评测、浏览器自动化与供应链安全一起失控了吗？

从 FrontierCode 的新评测、浏览器自动化平台到 AI 开发工具被攻击，讨论 AI 编程从“能跑”走向“可维护、可审计、可防御”的关键挑战。

2026年6月9日

Coding Agents Automation Security

大模型评测失灵了吗？从 DeepSeek、GPT-5.5 到 AGENTS.md 的工程化真问题

聚焦模型对比文章引发的争议，分析为什么真实生产力可能不取决于榜单分数，而取决于成本、任务环境、测试闭环和上下文文件质量。

2026年6月8日

Benchmarking AIAgents LLMOps

← 查看所有标签