Nên phục vụ gì với tư cách operator

Một operator phục vụ inference cho mạng lưới và kiếm USDC trên mỗi request. Quyết định đầu tiên là phục vụ gì — nơi các phản hồi model của bạn đến từ đâu. Bạn có ba hướng đi, và có thể chạy nhiều hơn một hướng trên cùng một operator.

Mới bắt đầu? Đây là bài tổng quan “chọn hướng nào”. Để thực hành trực tiếp với CLI, xem chạy một operator.

1. Model GPU cục bộ — phần cứng của riêng bạn

Chạy các model mở (Llama, Qwen, Gemma và nhiều hơn nữa) trên máy của chính bạn qua Ollama hoặc LM Studio, và phục vụ chúng mà không cần API key, không tốn chi phí per-token. Đây là biên lợi nhuận tốt nhất nếu bạn đã có sẵn GPU đang rảnh.

halo setup --provider ollama --flat 0.20   # hoặc --provider lmstudio
halo serve

Hướng dẫn đầy đủ: phục vụ model cục bộ trên GPU của bạn.

2. API key của provider — bán lại quyền truy cập

Đã trả tiền cho OpenAI, Anthropic, OpenRouter, Together, Fireworks, Groq, Venice, hoặc NEAR? Trỏ operator của bạn vào đó và bán lại quyền truy cập đó theo từng request. Không cần phần cứng — hạn mức rate limit dư thừa của bạn trở thành thu nhập.

halo setup --provider openrouter --api-key <key> --margin 20
halo serve

<slug> là một trong các giá trị openclaw, claude-code, hermes, ollama, lmstudio, openrouter, openai, anthropic, venice, near, together, fireworks, groq, hoặc custom. Thêm nhiều provider hơn bằng halo setup --add-provider.

3. Model được hosting — một cỗ máy trên cloud

Chạy một model trên một cỗ máy GPU thuê (hoặc một endpoint nội bộ có sẵn) và đứng trước nó theo cách tương tự — qua ollama, lmstudio, hoặc custom. Phù hợp khi bạn muốn nhiều dung lượng hơn một GPU tại nhà nhưng vẫn kiểm soát được toàn bộ stack.

Model nào kiếm được tiền?

Nhu cầu bám theo những gì mọi người tìm kiếm: các model mở của Trung Quốc (DeepSeek, Qwen, Kimi) và Llama luôn được ưa chuộng, và mạng lưới đã phục vụ hơn 140 model. Phục vụ một model đang có nhu cầu cao nhưng nguồn cung thấp là cách chắc chắn nhất để thắng request. Bạn chọn giá tiếp theo — xem giá cả & thu nhập của operator.

Nên phục vụ gì với tư cách operator

1. Model GPU cục bộ — phần cứng của riêng bạn

2. API key của provider — bán lại quyền truy cập

3. Model được hosting — một cỗ máy trên cloud

Model nào kiếm được tiền?

Liên quan