作为运营者，该提供什么服务

运营者向网络提供推理服务，并按请求赚取 USDC。第一个要做的决定是提供什么服务—— 也就是你的模型响应从何而来。共有三条路径，而且你可以在同一个运营者上同时运行不止一种。

刚接触？本指南是”选哪条路”的总览。想直接上手 CLI 操作，参见运行一个运营者。

1. 本地 GPU 模型——用你自己的硬件

通过 Ollama 或 LM Studio，在你自己的机器上运行开源模型（Llama、Qwen、 Gemma 等），无需 API 密钥，也没有按 token 计费的成本。如果你已经有闲置的 GPU，这是利润率最高的方式。

halo setup --provider ollama --flat 0.20   # or --provider lmstudio
halo serve

完整流程参见：在你的 GPU 上提供本地模型服务。

2. 供应商 API 密钥——转售访问权限

已经在为 OpenAI、Anthropic、OpenRouter、Together、Fireworks、Groq、Venice 或 NEAR 付费？让你的运营者对接它，并按请求转售这部分访问权限。不需要任何硬件—— 你闲置的速率限额就能变成收入。

halo setup --provider openrouter --api-key <key> --margin 20
halo serve

<slug> 可以是 openclaw、claude-code、hermes、ollama、lmstudio、 openrouter、openai、anthropic、venice、near、together、fireworks、 groq 或 custom 之一。使用 halo setup --add-provider 可以添加更多供应商。

3. 托管模型——云端的一台机器

在租用的 GPU 主机（或已有的内部端点）上运行模型，并以同样的方式对外提供服务—— 通过 ollama、lmstudio 或 custom。当你需要比家用 GPU 更大的算力、但仍想掌控整套技术栈时，这是不错的选择。

哪些模型能赚钱？

需求跟随大众的搜索热度：开源的中国模型（DeepSeek、Qwen、Kimi）和 Llama 一直很受欢迎，网络目前已经在提供140 多个模型的服务。提供一个需求旺盛但供给不足的模型，是赢得请求最有把握的方式。定价是下一步—— 参见运营者定价与收益。

作为运营者，该提供什么服务

1. 本地 GPU 模型——用你自己的硬件

2. 供应商 API 密钥——转售访问权限

3. 托管模型——云端的一台机器

哪些模型能赚钱？

相关内容