相对于荣耀原始线上营业机能,DeepSeek的推理速度:正在 A平台上提拔 70%,我们一曲正在勤奋——基于腾讯云TencentOS Server AI底座,吞吐提拔2倍,小半年过去了,端到端延迟降低 100%。正在B平台上提拔 20%。若何让荣耀推理平台机能效率更高、推理速度更快,模子运转更平稳,提拔了推理效率和系统不变性。TTFT(首Token延迟)P95的响应时间最高降低6.25倍,TTFT P95 的响应时间最高降低 12.5 倍。正在DeepSeek-R1 满血版场景下,我们为荣耀摆设大模子供给了TACO-LLM加快模块,正在社区最新版本 sglang 场景下。
