LLM时代下的AI网关

AI 网关

AI Gateway 也被称为大模型网关、AI 网关，是一个用于部署和管理人工智能（AI）模型的平台，在开源社区有对应技术实现。它为用户提供了一种方便的方式来部署和管理 AI 模型，无论这些模型是预训练的模型，还是用户自己开发的模型。AI Gateway 还提供了一种方式，让用户能够在需要的时候轻松地调用这些模型，例如在进行数据分析或开发新的 AI 应用程序时。此外，AI Gateway 还提供了各种工具，可以帮助用户监控模型的性能，以及进行模型的优化。

当然，除了上述功能外，AI Gateway 的特点不仅限于些，它还提供了高度的灵活性和可扩展性，用户可以根据自己的需求选择部署模型的规模，以满足各种业务需求。用户也可以根据自己的需求，调整模型的参数，以满足特定需求。

此外，由于具有对模型的权限管理及实时监控功能，加上可以缓存、重试、调整模型调用优先级等优化措施，AI Gateway 还可以保护数据隐私，稳定、高负载、安全的运行。

AI 场景下的新需求

相比传统 Web 应用，LLM 应用在网关层的流量有以下三大特征：

长连接。由 AI 场景常见的 Websocket 和 SSE 协议决定，长连接的比例很高，要求网关更新配置操作对长连接无影响，不影响业务。
高延时。LLM 推理的响应延时比普通应用要高出很多，使得 AI 应用面向恶意攻击很脆弱，容易被构造慢请求进行异步并发攻击，攻击者的成本低，但服务端的开销很高。
大带宽。结合 LLM 上下文来回传输，以及高延时的特性，AI 场景对带宽的消耗远超普通应用，网关如果没有实现较好的流式处理能力和内存回收机制，容易导致内存快速上涨。

功能需求

AI 内容安全

能够做到对大模型请求/响应的实时处理与内容封禁，保障AI应用内容合法合规。

AI代理

支持不同模型提供商的provider

AI 缓存

LLM 结果缓存插件，默认配置方式可以直接用于 openai 协议的结果缓存，同时支持流式和非流式响应的缓存。

AI提示词

AI JSON 格式化

AI Agent

一个可定制化的 API AI Agent，支持配置 http method 类型为 GET 与 POST 的 API，支持多轮对话，支持流式与非流式模式。

AI 历史对话

AI 意图识别

AI RAG

AI 请求响应转换

灰度路由

网关支持模型按比例灰度能力，便于用户在模型间迁移，如下图所示，请求流量将有90%被路由到 OpenAI，10%被路由到 Deepseek。

API Key 二次分租

基于 API 网关的消费者鉴权能力支持 API Key 的二次分租，使用者在对外提供服务时，可以屏蔽掉模型提供商的 API Key，在网关上签发自己的 API Key 供用户使用，从而可以兼容历史调用方的 API Key；除了能够控制消费者的调用权限和调用额度，配合可观测能力，还可以对每个消费者的 token 用量进行观测统计。

可观测性

在灰度的过程中，需要持续观测不同模型的 token 开销以及响应速度的情况，来整体衡量切换效果。

网关具备开箱即用的 AI 可观测能力，提供了全局、provider 维度、模型维度以及消费者维度的 token 消耗/延时等观测能力。