在你的 GPU 上提供本地模型服务（Llama、Ollama、LM Studio）

如果你有 GPU，就可以直接用自己的硬件提供开源模型服务——不需要供应商账户，不需要 API 密钥，也没有按 token 计费的成本。Halo 已经在以这种方式运行 llama3.2、qwen3、gemma3、phi3 和 deepseek-r1 等本地模型。

这是该提供什么服务中的本地路径。更想转售供应商 API？参见运行一个运营者。

1. 运行一个本地模型服务

任选一种运行时——两者都会暴露一个与 OpenAI 兼容的端点，供 halo CLI 对接：

拉取一个适合你 GPU 的模型（尺寸参考见下文），并在接入 Halo 之前确认它能在本地正常响应。

halo setup --provider ollama --flat 0.20    # or --provider lmstudio
halo serve

halo serve 会通过 WebSocket 出站连接到中继——无需公网 URL，也无需开放入站端口——它会公布你的本地模型，并持续服务直到被停止。你的运营者钱包 无需预先充值；USDC 会在结算时到账，且 gas 由 Halo 赞助。

本地模型没有可加价的上游按 token 单价，因此要按固定价定价：

halo setup --provider ollama --flat <usd-per-1k-tokens>

--flat 设置每 1,000 token 的固定美元价格。选一个既能在同款模型上胜过云端 API、又足以覆盖你的电费和时间成本的数字。详情参见运营者定价与收益。

模型需要能装进 VRAM（量化权重 + 上下文）：

先用一个体积小、受欢迎的模型跑通流程，再逐步扩大规模。

本地运营者只有在线时才能赚钱，因此要把它当作服务来运行：

halo service install serve
halo service status serve