← Tất cả hướng dẫn

Sử dụng suy luận qua một endpoint cục bộ (CLI)

Dùng CLI halo để chạy một endpoint tương thích OpenAI cục bộ, trả tiền theo từng request từ ví của bạn — nạp một lần, tính phí theo lượng token thực dùng, kèm các cơ chế bảo vệ chi tiêu.

Vai trò consume (tiêu thụ) chạy một endpoint tương thích OpenAI cục bộ, trả tiền theo từng request từ ví của bạn — nhờ đó bất kỳ client OpenAI nào cũng có được dịch vụ suy luận mà không cần API key của nhà cung cấp trong code. Hướng dẫn này dùng trực tiếp CLI halo. Muốn để agent lo phần này thay bạn? Xem tiêu thụ cùng agent của bạn.

Halo hiện đang ở giai đoạn alpha trên Base mainnet, sử dụng USDC thật. Yêu cầu Node.js 20+.

Cài đặt CLI

bash <(curl -fsSL https://raw.githubusercontent.com/warden-protocol/run-halo/main/skill/scripts/install.sh)
halo doctor --json   # node version, install + wallet state, provider, endpoint + relay health

Cấu hình và chạy endpoint

# 1. một lần duy nhất: tạo ví + một profile consumer được lưu lại để `consume` không cần thêm flag.
#    (setup yêu cầu một slug --provider dù chỉ dùng thuần consume; openai là placeholder hợp lý.)
halo setup --provider openai --consume --consume-model gpt-4o-mini \
  --consume-allow "gpt-4o-mini,meta-llama/llama-3.1-8b-instruct" \
  --consume-max-usdc 0.05 --consume-port 8799

# 2. nạp USDC trên Base mainnet vào ví vừa in ra (dùng để trả cho việc suy luận),
#    cùng một ít ETH trên Base để trả gas cho khoản nạp vault.

# 3. chạy endpoint. --vault tính phí theo lượng token thực dùng; --vault-deposit nạp tiền
#    và tự động nạp thêm giữa chừng để endpoint không bao giờ bị rớt khỏi rail.
halo consume --vault --vault-deposit 5
#   endpoint : http://127.0.0.1:8799/v1

Gọi nó như bất kỳ endpoint OpenAI nào

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:8799/v1", api_key="halo")  # api_key unused unless --api-key set
resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Summarize Base mainnet in one sentence."}],
)
print(resp.choices[0].message.content)

Tính phí và các cơ chế bảo vệ

Vault mode (--vault) là rail thanh toán được khuyến nghị — kết hợp với --vault-deposit <usd> để endpoint tự nạp tiền và tự động nạp thêm giữa chừng. Nó tính phí theo lượng token thực tế mà mỗi request dùng (nạp một lần, quyết toán theo mức dùng thực), khớp với các operator định giá theo margin nên bạn trả đúng chi phí thực theo từng model thay vì một mức giá cố định. Ngoài gas cho việc nạp/rút, gas quyết toán được Halo tài trợ.

Các cơ chế bảo vệ chính:

  • --max-usdc <n> — mức trần cho mỗi request.
  • --budget-usdc <n> — mức trần tích lũy cho cả phiên chạy.
  • --consume-allow — danh sách model được phép dùng.
  • --confidential — chỉ định tuyến tới các operator TEE và mã hóa đầu-cuối prompt gửi tới enclave.

Giữ cho nó luôn chạy

Đừng chạy tiến trình nền (daemon) ở chế độ foreground dưới một agent hay gateway (việc restart gateway sẽ giết luôn các tiến trình con). Hãy cài nó như một dịch vụ hệ điều hành:

halo service install consume -- --vault --vault-deposit 5
halo service status consume
halo service logs consume

Liên quan