服务器配置如下(32CPU 32G RAM, 无 GPU):
# lscpu | grep NUMA NUMA node(s): 2 NUMA node0 CPU(s): 0-7,16-23 NUMA node1 CPU(s): 8-15,24-31
# free -h total used free shared buff/cache available Mem: 31Gi 10Gi 583Mi 145Mi 19Gi 19Gi Swap: 0B 0B 0B
# cat /etc/os-release PRETTY_NAME="Ubuntu 22.04.5 LTS" NAME="Ubuntu" VERSION_ID="22.04" VERSION="22.04.5 LTS (Jammy Jellyfish)" VERSION_CODENAME=jammy ID=ubuntu ID_LIKE=debian HOME_URL="https://www.ubuntu.com/" SUPPORT_URL="https://help.ubuntu.com/" BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/" PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy" UBUNTU_CODENAME=jammy
root@vp-jmpsvr:~# uname -a Linux vp-jmpsvr 5.15.0-119-generic #129-Ubuntu SMP Fri Aug 2 19:25:20 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux
|
模型推荐清单 (纯 CPU 环境)
| 模型名称 |
推荐版本 |
理由 |
内存占用 |
速度预期 |
| DeepSeek-V3 / R1 (Distill) |
deepseek-r1:7b 或 14b |
目前最强的推理模型,逻辑能力极佳。 |
~5GB / 9GB, |
极快 / 流畅 |
| Llama 3.1 |
llama3.1:8b |
综合素质平衡,适合通用的英文/开发任务。 |
~5.5GB |
极快 |
| Qwen 2.5 (通义千问) |
qwen2.5:7b 或 14b |
中文语境支持最好,适合文档处理、后端开发辅助。 |
~5GB / 9GB |
极快 / 流畅 |
| Command R |
command-r:35b |
内存极限挑战。适合需要长上下文(RAG)的任务。 |
~20GB |
较慢 |
安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
|
查看 Ollama Service 状态
# systemctl status ollama --no-pager ● ollama.service - Ollama Service Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: enabled) Active: active (running) since Tue 2026-04-28 16:53:27 CST; 3min 46s ago Main PID: 3683510 (ollama) Tasks: 15 (limit: 38371) Memory: 28.1M CPU: 251ms CGroup: /system.slice/ollama.service └─3683510 /usr/local/bin/ollama serve
|
运行推荐模型 (以 DeepSeek R1 7B 为例)
ollama run deepseek-r1:7b
|
(Optional)部署 Open WebUI(原 Ollama WebUI) ,它支持 Docker 部署
services: open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui restart: always network_mode: host environment: # 关键点:访问宿主机的 Ollama - OLLAMA_BASE_URL=http://127.0.0.1:11434 # 可选:设置 WebUI 的语言 - WEBUI_NAME=My AI Server # UI 监听端口 - PORT=9000
volumes: - ./open-webui:/app/data
|