Phục vụ model cục bộ trên GPU của bạn (Llama, Ollama, LM Studio)

Nếu bạn có GPU, bạn có thể phục vụ model mở trực tiếp từ phần cứng của chính mình — không cần tài khoản provider, không cần API key, không tốn chi phí per-token. Halo đã chạy các model cục bộ như llama3.2, qwen3, gemma3, phi3 và deepseek-r1 theo cách này.

Đây là hướng cục bộ trong nên phục vụ gì. Muốn bán lại API của một provider thay vì vậy? Xem chạy một operator.

1. Chạy một máy chủ model cục bộ

Dùng một trong hai runtime — cả hai đều cung cấp một endpoint tương thích OpenAI mà CLI halo giao tiếp được:

Ollama — ollama pull llama3.2 rồi ollama serve.
LM Studio — tải một model trong ứng dụng và khởi động máy chủ cục bộ của nó.

Pull một model vừa với GPU của bạn (xem phần định cỡ bên dưới), và đảm bảo nó phản hồi cục bộ trước khi kết nối với Halo.

2. Trỏ operator của bạn vào đó

halo setup --provider ollama --flat 0.20    # hoặc --provider lmstudio
halo serve

halo serve kết nối outbound đến relay qua WebSocket — không cần URL công khai và không cần mở cổng inbound — thông báo các model cục bộ của bạn, và phục vụ cho đến khi bị dừng. Ví operator của bạn không cần nạp tiền trước; USDC sẽ về khi settlement và Halo tài trợ gas.

Định giá model cục bộ

Model cục bộ không có giá per-token upstream để cộng thêm biên lợi nhuận, nên hãy định giá chúng theo kiểu cố định (flat):

halo setup --provider ollama --flat <usd-per-1k-tokens>

--flat đặt một mức giá USD cố định cho mỗi 1.000 token. Chọn một con số vượt trội hơn các API cloud cho cùng model, trong khi vẫn đủ trang trải tiền điện và thời gian của bạn. Nói thêm về điều này trong giá cả & thu nhập của operator.

Định cỡ GPU sơ bộ

Một model cần vừa trong VRAM (trọng số đã lượng tử hóa + context):

Model ~8B (Llama 3.1 8B, Qwen 8B) — chạy thoải mái với ~8–12 GB VRAM.
~4B trở xuống (gemma3:4b, qwen3:4b, phi3) — chạy được trên card tầm trung.
30B trở lên — cần cấu hình cao cấp hoặc nhiều GPU.

Bắt đầu với một model nhỏ, phổ biến để chứng minh luồng hoạt động, rồi mở rộng dần lên.

Giữ nó luôn chạy

Một operator cục bộ chỉ kiếm tiền khi đang online, nên hãy chạy nó như một dịch vụ:

halo service install serve
halo service status serve

Xem giữ operator của bạn luôn online để có hướng dẫn thiết lập đầy đủ.