deepseek 部署方案

deepseek 部署方案

Posted by vxiaozhi on February 7, 2025

DeepSeek是最近非常火的开源大模型,国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。

无奈,在使用时候deepseek总是提示服务器繁忙,请稍后再试。

这可怎么办?

万幸的是,DeepSeek是一个开源模型,这意味着我们可以将它部署在自己的电脑上,以便随时使用!, 同时各个云厂商也提供了自己的部署方案。

今天就跟大家分享一下,DeepSeek部署的几种方案。

本地部署方案

Ollama

首先我们需要安装Ollama,Ollama是一个用于本地管理和运行大模型的工具,能够简化模型的下载和调度操作。

进入Ollama官网(https://ollama.com)。

点击【Download】,选择适合自己系统的版本(Windows/mac/Linux)。

DeepSeek 模型, 以 deepseek-r1 为例, 其提供了如下几个版本:

1
2
3
4
5
6
7
1.5b
7b
8b
14b
32b
70b
671b

启动 DeepSeek 模型

1
ollama run deepseek-r1:14b

在 Apple M1 Pro / 32 GB 机器上运行 14b 模型毫无压力, 可以达到大约 10 token/s 的速度。

如果需要对API 进行加密,可参考:

llama.cpp

SGLang

  • sglang SGLang is a fast serving framework for large language models and vision language models.

参考启动命令

ds1:

1
2
3
4
5
6
7
8
9
10
11
12
13
docker run  -e GLOO_SOCKET_IFNAME=bond0 -e NCCL_SOCKET_IFNAME=bond0 -e NCCL_DEBUG=INFO --gpus all \
    --shm-size 128g \
    --network=host \
    -v /modelshare_readonly/deepseek-ai:/deepseek \
    --name sglang_multinode1 \
    -d \
    --restart always \
    -p 50000:50000 \
    --ipc=host \
    --privileged --device=/dev/infiniband:/dev/infiniband \
    lmsysorg/sglang:v0.4.2.post4-cu125-srt \
    python3 -m sglang.launch_server --model-path /deepseek/DeepSeek-R1 --served-model-name DeepSeek-R1 --enable-metrics --enable-dp-attention --enable-cache-report --tp 16 --dist-init-addr 192.168.253.81:20001 --nnodes 2 --node-rank 0 --trust-remote-code --host 0.0.0.0 --port 50000

ds2:

1
2
3
4
5
6
7
8
9
10
11
12
13
docker run -e GLOO_SOCKET_IFNAME=bond0 -e NCCL_SOCKET_IFNAME=bond0 -e NCCL_DEBUG=INFO --gpus all \
    --shm-size 128g \
    --network=host \
    -v /modelshare_readonly/deepseek-ai:/deepseek \
    --name sglang_multinode2 \
    -d \
    --restart always \
    -p 50000:50000 \
    --ipc=host \
    --privileged --device=/dev/infiniband:/dev/infiniband \
    lmsysorg/sglang:v0.4.2.post4-cu125-srt \
    python3 -m sglang.launch_server --model-path /deepseek/DeepSeek-R1 --served-model-name DeepSeek-R1 --enable-metrics --enable-dp-attention --enable-cache-report --tp 16 --dist-init-addr 192.168.253.81:20001 --nnodes 2 --node-rank 1 --trust-remote-code --host 0.0.0.0 --port 50000

VLLM

inference

支持DeepSeek的云服务平台

deepseek 官方

字节火山引擎

预埋推理接入点:

1
2
3
4
5
6
7
8
9
10
curl https://ark.cn-beijing.volces.com/api/v3/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ARK_API_KEY" \
  -d '{
    "model": "deepseek-r1-250120",
    "messages": [
      {"role": "system","content": "你是人工智能助手."},
      {"role": "user","content": "常见的十字花科植物有哪些?"}
    ]
  }'

同时也支持自定义在线接入点(Endpoint)

示例代码如下, ep-20250226225639-lbdsg 即为 Endpoint ID:

1
2
3
4
5
6
7
8
9
10
curl https://ark.cn-beijing.volces.com/api/v3/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ARK_API_KEY" \
  -d '{
    "model": "ep-20250226225639-lbdsg",
    "messages": [
      {"role": "system","content": "你是人工智能助手."},
      {"role": "user","content": "常见的十字花科植物有哪些?"}
    ]
  }'

其它参考:

阿里云百炼

腾讯云大模型知识引擎

其它