← Todas las guías

Sirve modelos locales en tu GPU (Llama, Ollama, LM Studio)

Convierte una GPU sin usar en ganancias de Halo: sirve Llama, Qwen, Gemma y otros modelos abiertos vía Ollama o LM Studio, ponles precio fijo, y déjalos siempre activos. No necesitas clave de API.

Si tienes una GPU, puedes servir modelos abiertos directamente desde tu propio hardware: sin cuenta de proveedor, sin clave de API, sin costo por token para ti. Halo ya corre modelos locales como llama3.2, qwen3, gemma3, phi3 y deepseek-r1 de esta forma.

Esta es la ruta local de qué servir. ¿Prefieres revender una API de proveedor en su lugar? Consulta ejecuta un operador.

1. Corre un servidor de modelo local

Usa cualquiera de los dos runtimes: ambos exponen un endpoint compatible con OpenAI con el que habla la CLI de halo:

  • Ollamaollama pull llama3.2 y luego ollama serve.
  • LM Studio — descarga un modelo en la app e inicia su servidor local.

Descarga un modelo que le quepa a tu GPU (ver el dimensionamiento más abajo), y asegúrate de que responda localmente antes de conectar Halo.

2. Apunta tu operador hacia él

halo setup --provider ollama --flat 0.20    # o --provider lmstudio
halo serve

halo serve se conecta de salida al relay por WebSocket — sin URL pública ni puerto de entrada abierto —, anuncia tus modelos locales, y sirve hasta que se detiene. Tu wallet de operador no necesita financiamiento previo: el USDC llega en la liquidación y Halo patrocina el gas.

Precios para modelos locales

Los modelos locales no tienen un precio por token de un upstream sobre el que aplicar un margen, así que ponles precio fijo:

halo setup --provider ollama --flat <usd-por-1k-tokens>

--flat fija un precio en USD por cada 1.000 tokens. Elige un número que le gane a las APIs en la nube para el mismo modelo, sin dejar de cubrir tu electricidad y tu tiempo. Más sobre esto en precios y ganancias del operador.

Dimensionamiento aproximado de GPU

Un modelo necesita caber en la VRAM (pesos cuantizados + contexto):

  • Modelos de ~8B (Llama 3.1 8B, Qwen 8B) — cómodos con ~8–12 GB de VRAM.
  • ~4B y menores (gemma3:4b, qwen3:4b, phi3) — corren en tarjetas modestas.
  • 30B+ — necesita un equipo de gama alta o multi-GPU.

Empieza con un modelo pequeño y popular para probar el flujo, y luego escala.

Mantenlo corriendo

Un operador local solo gana mientras está en línea, así que córrelo como servicio:

halo service install serve
halo service status serve

Consulta mantén tu operador siempre activo para la configuración completa.

Relacionado