← 全部指南

在你的 GPU 上提供本地模型服务(Llama、Ollama、LM Studio)

把闲置的 GPU 变成 Halo 收益——通过 Ollama 或 LM Studio 提供 Llama、Qwen、Gemma 等开源模型的服务,按固定价定价,并保持常驻运行。无需 API 密钥。

如果你有 GPU,就可以直接用自己的硬件提供开源模型服务——不需要供应商账户, 不需要 API 密钥,也没有按 token 计费的成本。Halo 已经在以这种方式运行 llama3.2qwen3gemma3phi3deepseek-r1 等本地模型。

这是该提供什么服务中的本地路径。更想转售供应商 API? 参见运行一个运营者

1. 运行一个本地模型服务

任选一种运行时——两者都会暴露一个与 OpenAI 兼容的端点,供 halo CLI 对接:

  • Ollama——先 ollama pull llama3.2,再 ollama serve
  • LM Studio——在应用中下载模型,并启动其本地服务。

拉取一个适合你 GPU 的模型(尺寸参考见下文),并在接入 Halo 之前确认它能在 本地正常响应。

2. 让你的运营者对接它

halo setup --provider ollama --flat 0.20    # or --provider lmstudio
halo serve

halo serve 会通过 WebSocket 出站连接到中继——无需公网 URL,也无需开放 入站端口——它会公布你的本地模型,并持续服务直到被停止。你的运营者钱包 无需预先充值;USDC 会在结算时到账,且 gas 由 Halo 赞助。

为本地模型定价

本地模型没有可加价的上游按 token 单价,因此要按固定价定价:

halo setup --provider ollama --flat <usd-per-1k-tokens>

--flat 设置每 1,000 token 的固定美元价格。选一个既能在同款模型上胜过云端 API、又足以覆盖你的电费和时间成本的数字。详情参见 运营者定价与收益

GPU 显存大致参考

模型需要能装进 VRAM(量化权重 + 上下文):

  • 约 8B 的模型(Llama 3.1 8B、Qwen 8B)——约 8–12 GB VRAM 即可从容运行。
  • 约 4B 及更小gemma3:4bqwen3:4bphi3)——普通显卡即可运行。
  • 30B 以上——需要高端或多卡配置。

先用一个体积小、受欢迎的模型跑通流程,再逐步扩大规模。

保持它持续运行

本地运营者只有在线时才能赚钱,因此要把它当作服务来运行:

halo service install serve
halo service status serve

完整设置参见让你的运营者保持在线

相关内容