← 全部指南
在你的 GPU 上提供本地模型服务(Llama、Ollama、LM Studio)
把闲置的 GPU 变成 Halo 收益——通过 Ollama 或 LM Studio 提供 Llama、Qwen、Gemma 等开源模型的服务,按固定价定价,并保持常驻运行。无需 API 密钥。
如果你有 GPU,就可以直接用自己的硬件提供开源模型服务——不需要供应商账户,
不需要 API 密钥,也没有按 token 计费的成本。Halo 已经在以这种方式运行
llama3.2、qwen3、gemma3、phi3 和 deepseek-r1 等本地模型。
1. 运行一个本地模型服务
任选一种运行时——两者都会暴露一个与 OpenAI 兼容的端点,供 halo CLI 对接:
- Ollama——先
ollama pull llama3.2,再ollama serve。 - LM Studio——在应用中下载模型,并启动其本地服务。
拉取一个适合你 GPU 的模型(尺寸参考见下文),并在接入 Halo 之前确认它能在 本地正常响应。
2. 让你的运营者对接它
halo setup --provider ollama --flat 0.20 # or --provider lmstudio
halo serve
halo serve 会通过 WebSocket 出站连接到中继——无需公网 URL,也无需开放
入站端口——它会公布你的本地模型,并持续服务直到被停止。你的运营者钱包
无需预先充值;USDC 会在结算时到账,且 gas 由 Halo 赞助。
为本地模型定价
本地模型没有可加价的上游按 token 单价,因此要按固定价定价:
halo setup --provider ollama --flat <usd-per-1k-tokens>
--flat 设置每 1,000 token 的固定美元价格。选一个既能在同款模型上胜过云端
API、又足以覆盖你的电费和时间成本的数字。详情参见
运营者定价与收益。
GPU 显存大致参考
模型需要能装进 VRAM(量化权重 + 上下文):
- 约 8B 的模型(Llama 3.1 8B、Qwen 8B)——约 8–12 GB VRAM 即可从容运行。
- 约 4B 及更小(
gemma3:4b、qwen3:4b、phi3)——普通显卡即可运行。 - 30B 以上——需要高端或多卡配置。
先用一个体积小、受欢迎的模型跑通流程,再逐步扩大规模。
保持它持续运行
本地运营者只有在线时才能赚钱,因此要把它当作服务来运行:
halo service install serve
halo service status serve
完整设置参见让你的运营者保持在线。