AI 本地大模型 Ollama 部署

服务器配置如下(32CPU 32G RAM, 无 GPU):

# lscpu  | grep NUMA
NUMA node(s): 2
NUMA node0 CPU(s): 0-7,16-23
NUMA node1 CPU(s): 8-15,24-31

# free -h
total used free shared buff/cache available
Mem: 31Gi 10Gi 583Mi 145Mi 19Gi 19Gi
Swap: 0B 0B 0B

# cat /etc/os-release
PRETTY_NAME="Ubuntu 22.04.5 LTS"
NAME="Ubuntu"
VERSION_ID="22.04"
VERSION="22.04.5 LTS (Jammy Jellyfish)"
VERSION_CODENAME=jammy
ID=ubuntu
ID_LIKE=debian
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
UBUNTU_CODENAME=jammy

root@vp-jmpsvr:~# uname -a
Linux vp-jmpsvr 5.15.0-119-generic #129-Ubuntu SMP Fri Aug 2 19:25:20 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux

模型推荐清单 (纯 CPU 环境)

模型名称 推荐版本 理由 内存占用 速度预期
DeepSeek-V3 / R1 (Distill) deepseek-r1:7b 或 14b 目前最强的推理模型,逻辑能力极佳。 ~5GB / 9GB, 极快 / 流畅
Llama 3.1 llama3.1:8b 综合素质平衡,适合通用的英文/开发任务。 ~5.5GB 极快
Qwen 2.5 (通义千问) qwen2.5:7b 或 14b 中文语境支持最好,适合文档处理、后端开发辅助。 ~5GB / 9GB 极快 / 流畅
Command R command-r:35b 内存极限挑战。适合需要长上下文(RAG)的任务。 ~20GB 较慢

安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

查看 Ollama Service 状态

# systemctl status ollama --no-pager
● ollama.service - Ollama Service
Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: enabled)
Active: active (running) since Tue 2026-04-28 16:53:27 CST; 3min 46s ago
Main PID: 3683510 (ollama)
Tasks: 15 (limit: 38371)
Memory: 28.1M
CPU: 251ms
CGroup: /system.slice/ollama.service
└─3683510 /usr/local/bin/ollama serve


运行推荐模型 (以 DeepSeek R1 7B 为例)

ollama run deepseek-r1:7b

(Optional)部署 Open WebUI(原 Ollama WebUI) ,它支持 Docker 部署

services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: always
network_mode: host
environment:
# 关键点:访问宿主机的 Ollama
- OLLAMA_BASE_URL=http://127.0.0.1:11434
# 可选:设置 WebUI 的语言
- WEBUI_NAME=My AI Server
# UI 监听端口
- PORT=9000

volumes:
- ./open-webui:/app/data