Обслуживание локальных моделей на своём GPU (Llama, Ollama, LM Studio)

Если у вас есть GPU, вы можете обслуживать открытые модели прямо со своего железа — без аккаунта у провайдера, без API-ключа и без затрат за токен. Halo уже запускает таким способом локальные модели вроде llama3.2, qwen3, gemma3, phi3 и deepseek-r1.

Это локальный путь из гайда что обслуживать. Предпочитаете перепродавать API провайдера? См. запуск оператора.

1. Запустите локальный сервер модели

Подойдёт любой из рантаймов — оба открывают OpenAI-совместимый эндпоинт, с которым говорит CLI halo:

Ollama — ollama pull llama3.2, затем ollama serve.
LM Studio — скачайте модель в приложении и запустите её локальный сервер.

Скачайте модель, которая помещается в ваш GPU (см. подбор размера ниже), и убедитесь, что она отвечает локально, прежде чем подключать Halo.

2. Направьте на неё оператора

halo setup --provider ollama --flat 0.20    # или --provider lmstudio
halo serve

halo serve подключается к релею исходящим соединением по WebSocket — без публичного URL и без открытого входящего порта, — анонсирует ваши локальные модели и обслуживает запросы, пока не остановлен. Кошелёк оператора не требует предварительного пополнения: USDC поступают при расчёте, а газ оплачивает Halo.

Ценообразование локальных моделей

У локальных моделей нет вышестоящей цены за токен, которую можно было бы наценить, поэтому назначайте фиксированную цену:

halo setup --provider ollama --flat <usd-per-1k-tokens>

--flat задаёт фиксированную цену в USD за 1000 токенов. Выберите число, которое выгоднее облачных API для той же модели, но при этом окупает электричество и ваше время. Подробнее в цены оператора и заработок.

Примерный подбор GPU по размеру

Модель должна помещаться в VRAM (квантованные веса + контекст):

~8B моделей (Llama 3.1 8B, Qwen 8B) — комфортно работают на ~8–12 ГБ VRAM.
~4B и меньше (gemma3:4b, qwen3:4b, phi3) — запускаются на скромных картах.
30B+ — нужна топовая карта или установка с несколькими GPU.

Начните с небольшой популярной модели, чтобы проверить весь процесс, а затем масштабируйтесь.

Держите её запущенной

Локальный оператор зарабатывает, только пока он онлайн, поэтому запускайте его как сервис:

halo service install serve
halo service status serve

Полную настройку смотрите в как удержать оператора онлайн.