Consume inferencia desde un endpoint local (CLI)

El rol consume ejecuta un endpoint local compatible con OpenAI que paga por solicitud desde tu wallet, de modo que cualquier cliente de OpenAI obtiene inferencia sin claves de API de proveedores en su código. Esta guía usa la CLI de halo directamente. ¿Prefieres que un agente se encargue? Consulta consume con tu agente.

Halo está en alfa en la mainnet de Base, con USDC real. Requiere Node.js 20+.

Instala la CLI

bash <(curl -fsSL https://raw.githubusercontent.com/warden-protocol/run-halo/main/skill/scripts/install.sh)
halo doctor --json   # node version, install + wallet state, provider, endpoint + relay health

Configura y ejecuta el endpoint

# 1. one-time: wallet + a persisted consumer profile so `consume` needs no flags.
#    (setup wants a --provider slug even for pure consume; openai is a fine placeholder.)
halo setup --provider openai --consume --consume-model gpt-4o-mini \
  --consume-allow "gpt-4o-mini,meta-llama/llama-3.1-8b-instruct" \
  --consume-max-usdc 0.05 --consume-port 8799

# 2. fund the printed wallet with USDC on Base mainnet (this pays for inference),
#    plus a little ETH on Base for the vault deposit gas.

# 3. run the endpoint. --vault bills actual token usage; --vault-deposit funds it
#    and auto-refills mid-run so the endpoint never drops off the rail.
halo consume --vault --vault-deposit 5
#   endpoint : http://127.0.0.1:8799/v1

Invócalo como cualquier endpoint de OpenAI

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:8799/v1", api_key="halo")  # api_key unused unless --api-key set
resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Summarize Base mainnet in one sentence."}],
)
print(resp.choices[0].message.content)

Facturación y controles

El modo vault (--vault) es el riel de facturación recomendado: combínalo con --vault-deposit <usd> para que el endpoint se autofinancie y se recargue automáticamente durante la ejecución. Factura los tokens reales que usó cada solicitud (depositas una vez, liquidas según el uso real), lo cual encaja con operadores con precio por margen para que pagues el costo real por modelo en lugar de una cotización fija. Aparte del gas de depósito/retiro, el gas de liquidación lo patrocina Halo.

Controles clave:

--max-usdc <n> — tope por solicitud.
--budget-usdc <n> — límite acumulado para la ejecución.
--consume-allow — lista de modelos permitidos.
--confidential — enruta solo a operadores TEE y cifra el prompt de extremo a extremo hacia el enclave.

Mantenlo siempre activo

No lances el daemon en primer plano bajo un agente o gateway (un reinicio del gateway mata a sus procesos hijos). Instálalo como un servicio del sistema operativo:

halo service install consume -- --vault --vault-deposit 5
halo service status consume
halo service logs consume

Relacionado

Sirve inferencia y gana: ejecuta un operador (CLI).
Monitorea desde la web: vincúlate con el panel.
Referencia completa de la CLI: warden-protocol/run-halo.