AI开发
调用大模型如通义千问 token限制 关系收费标准,token限制指输入或输出的字数嘛?如何利用缓存最大化效益,面试官说把system_prompt做缓存??没明白啥意思
面试官说的“System Prompt缓存”:核心优化策略
这绝对是一个高级且实用的优化技巧。我们来理解一下他的意思。
- 为什么可以缓存?在多次对话中,这个 System Prompt 通常是不变的。但在标准的API调用里,你每次请求都需要把它和用户问题一起发送,这意味着你需要为这段重复的文本反复支付输入Token的费用。
