deepseek 部署方案

DeepSeek是最近非常火的开源大模型，国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性，受到了众多开发者的关注。

无奈，在使用时候deepseek总是提示服务器繁忙，请稍后再试。

这可怎么办？

万幸的是，DeepSeek是一个开源模型，这意味着我们可以将它部署在自己的电脑上，以便随时使用！，同时各个云厂商也提供了自己的部署方案。

今天就跟大家分享一下，DeepSeek部署的几种方案。

本地部署方案

Ollama

首先我们需要安装Ollama，Ollama是一个用于本地管理和运行大模型的工具，能够简化模型的下载和调度操作。

进入Ollama官网（https://ollama.com）。

点击【Download】，选择适合自己系统的版本（Windows/mac/Linux）。

DeepSeek 模型, 以 deepseek-r1 为例，其提供了如下几个版本：

1.5b
7b
8b
14b
32b
70b
671b

启动 DeepSeek 模型

ollama run deepseek-r1:14b

在 Apple M1 Pro / 32 GB 机器上运行 14b 模型毫无压力，可以达到大约 10 token/s 的速度。

如果需要对API 进行加密，可参考：

How to secure the API with api key

llama.cpp

llama.cpp

SGLang

sglang SGLang is a fast serving framework for large language models and vision language models.

参考启动命令

ds1:

docker run  -e GLOO_SOCKET_IFNAME=bond0 -e NCCL_SOCKET_IFNAME=bond0 -e NCCL_DEBUG=INFO --gpus all \
    --shm-size 128g \
    --network=host \
    -v /modelshare_readonly/deepseek-ai:/deepseek \
    --name sglang_multinode1 \
    -d \
    --restart always \
    -p 50000:50000 \
    --ipc=host \
    --privileged --device=/dev/infiniband:/dev/infiniband \
    lmsysorg/sglang:v0.4.2.post4-cu125-srt \
    python3 -m sglang.launch_server --model-path /deepseek/DeepSeek-R1 --served-model-name DeepSeek-R1 --enable-metrics --enable-dp-attention --enable-cache-report --tp 16 --dist-init-addr 192.168.253.81:20001 --nnodes 2 --node-rank 0 --trust-remote-code --host 0.0.0.0 --port 50000

ds2:

docker run -e GLOO_SOCKET_IFNAME=bond0 -e NCCL_SOCKET_IFNAME=bond0 -e NCCL_DEBUG=INFO --gpus all \
    --shm-size 128g \
    --network=host \
    -v /modelshare_readonly/deepseek-ai:/deepseek \
    --name sglang_multinode2 \
    -d \
    --restart always \
    -p 50000:50000 \
    --ipc=host \
    --privileged --device=/dev/infiniband:/dev/infiniband \
    lmsysorg/sglang:v0.4.2.post4-cu125-srt \
    python3 -m sglang.launch_server --model-path /deepseek/DeepSeek-R1 --served-model-name DeepSeek-R1 --enable-metrics --enable-dp-attention --enable-cache-report --tp 16 --dist-init-addr 192.168.253.81:20001 --nnodes 2 --node-rank 1 --trust-remote-code --host 0.0.0.0 --port 50000

VLLM

vllm

inference

inference

支持DeepSeek的云服务平台

deepseek 官方

deepseek 官方

字节火山引擎

预埋推理接入点：

curl https://ark.cn-beijing.volces.com/api/v3/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ARK_API_KEY" \
  -d '{
    "model": "deepseek-r1-250120",
    "messages": [
      {"role": "system","content": "你是人工智能助手."},
      {"role": "user","content": "常见的十字花科植物有哪些？"}
    ]
  }'

同时也支持自定义在线接入点（Endpoint）

创建在线接入点

示例代码如下， ep-20250226225639-lbdsg 即为 Endpoint ID：

curl https://ark.cn-beijing.volces.com/api/v3/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ARK_API_KEY" \
  -d '{
    "model": "ep-20250226225639-lbdsg",
    "messages": [
      {"role": "system","content": "你是人工智能助手."},
      {"role": "user","content": "常见的十字花科植物有哪些？"}
    ]
  }'