Обслуживание локальных моделей на своём GPU (Llama, Ollama, LM Studio)
Превратите простаивающий GPU в доход на Halo — обслуживайте Llama, Qwen, Gemma и другие открытые модели через Ollama или LM Studio, назначайте фиксированную цену и работайте в режиме 24/7. API-ключ не нужен.
Если у вас есть GPU, вы можете обслуживать открытые модели прямо со своего
железа — без аккаунта у провайдера, без API-ключа и без затрат за токен. Halo
уже запускает таким способом локальные модели вроде llama3.2, qwen3,
gemma3, phi3 и deepseek-r1.
Это локальный путь из гайда что обслуживать. Предпочитаете перепродавать API провайдера? См. запуск оператора.
1. Запустите локальный сервер модели
Подойдёт любой из рантаймов — оба открывают OpenAI-совместимый эндпоинт, с
которым говорит CLI halo:
- Ollama —
ollama pull llama3.2, затемollama serve. - LM Studio — скачайте модель в приложении и запустите её локальный сервер.
Скачайте модель, которая помещается в ваш GPU (см. подбор размера ниже), и убедитесь, что она отвечает локально, прежде чем подключать Halo.
2. Направьте на неё оператора
halo setup --provider ollama --flat 0.20 # или --provider lmstudio
halo serve
halo serve подключается к релею исходящим соединением по WebSocket — без
публичного URL и без открытого входящего порта, — анонсирует ваши локальные
модели и обслуживает запросы, пока не остановлен. Кошелёк оператора не
требует предварительного пополнения: USDC поступают при расчёте, а газ
оплачивает Halo.
Ценообразование локальных моделей
У локальных моделей нет вышестоящей цены за токен, которую можно было бы наценить, поэтому назначайте фиксированную цену:
halo setup --provider ollama --flat <usd-per-1k-tokens>
--flat задаёт фиксированную цену в USD за 1000 токенов. Выберите число,
которое выгоднее облачных API для той же модели, но при этом окупает
электричество и ваше время. Подробнее в
цены оператора и заработок.
Примерный подбор GPU по размеру
Модель должна помещаться в VRAM (квантованные веса + контекст):
- ~8B моделей (Llama 3.1 8B, Qwen 8B) — комфортно работают на ~8–12 ГБ VRAM.
- ~4B и меньше (
gemma3:4b,qwen3:4b,phi3) — запускаются на скромных картах. - 30B+ — нужна топовая карта или установка с несколькими GPU.
Начните с небольшой популярной модели, чтобы проверить весь процесс, а затем масштабируйтесь.
Держите её запущенной
Локальный оператор зарабатывает, только пока он онлайн, поэтому запускайте его как сервис:
halo service install serve
halo service status serve
Полную настройку смотрите в как удержать оператора онлайн.