Sirve modelos locales en tu GPU (Llama, Ollama, LM Studio)
Convierte una GPU sin usar en ganancias de Halo: sirve Llama, Qwen, Gemma y otros modelos abiertos vía Ollama o LM Studio, ponles precio fijo, y déjalos siempre activos. No necesitas clave de API.
Si tienes una GPU, puedes servir modelos abiertos directamente desde tu
propio hardware: sin cuenta de proveedor, sin clave de API, sin costo por
token para ti. Halo ya corre modelos locales como llama3.2, qwen3,
gemma3, phi3 y deepseek-r1 de esta forma.
Esta es la ruta local de qué servir. ¿Prefieres revender una API de proveedor en su lugar? Consulta ejecuta un operador.
1. Corre un servidor de modelo local
Usa cualquiera de los dos runtimes: ambos exponen un endpoint compatible con
OpenAI con el que habla la CLI de halo:
- Ollama —
ollama pull llama3.2y luegoollama serve. - LM Studio — descarga un modelo en la app e inicia su servidor local.
Descarga un modelo que le quepa a tu GPU (ver el dimensionamiento más abajo), y asegúrate de que responda localmente antes de conectar Halo.
2. Apunta tu operador hacia él
halo setup --provider ollama --flat 0.20 # o --provider lmstudio
halo serve
halo serve se conecta de salida al relay por WebSocket — sin URL pública
ni puerto de entrada abierto —, anuncia tus modelos locales, y sirve hasta que
se detiene. Tu wallet de operador no necesita financiamiento previo: el
USDC llega en la liquidación y Halo patrocina el gas.
Precios para modelos locales
Los modelos locales no tienen un precio por token de un upstream sobre el que aplicar un margen, así que ponles precio fijo:
halo setup --provider ollama --flat <usd-por-1k-tokens>
--flat fija un precio en USD por cada 1.000 tokens. Elige un número que le
gane a las APIs en la nube para el mismo modelo, sin dejar de cubrir tu
electricidad y tu tiempo. Más sobre esto en
precios y ganancias del operador.
Dimensionamiento aproximado de GPU
Un modelo necesita caber en la VRAM (pesos cuantizados + contexto):
- Modelos de ~8B (Llama 3.1 8B, Qwen 8B) — cómodos con ~8–12 GB de VRAM.
- ~4B y menores (
gemma3:4b,qwen3:4b,phi3) — corren en tarjetas modestas. - 30B+ — necesita un equipo de gama alta o multi-GPU.
Empieza con un modelo pequeño y popular para probar el flujo, y luego escala.
Mantenlo corriendo
Un operador local solo gana mientras está en línea, así que córrelo como servicio:
halo service install serve
halo service status serve
Consulta mantén tu operador siempre activo para la configuración completa.