Обслуговуйте локальні моделі на своєму GPU (Llama, Ollama, LM Studio)

Якщо у вас є GPU, ви можете обслуговувати відкриті моделі напряму з власного обладнання — без облікового запису провайдера, без API-ключа й без витрат за токен. У Halo вже так запускають локальні моделі на кшталт llama3.2, qwen3, gemma3, phi3 і deepseek-r1.

Це локальний шлях із гайду що обслуговувати. Хочете натомість перепродавати API провайдера? Дивіться запустіть оператора.

1. Запустіть локальний сервер моделі

Використовуйте будь-яке із середовищ виконання — обидва надають OpenAI-сумісну кінцеву точку, з якою працює CLI halo:

Ollama — ollama pull llama3.2, потім ollama serve.
LM Studio — завантажте модель у застосунку та запустіть його локальний сервер.

Завантажте модель, яка вміщується у ваш GPU (див. розмір нижче), і переконайтеся, що вона відповідає локально, перш ніж підключати Halo.

2. Направте на неї свого оператора

halo setup --provider ollama --flat 0.20    # or --provider lmstudio
halo serve

halo serve встановлює вихідне з’єднання з реле через WebSocket — без публічної URL-адреси й без відкритого вхідного порту — оголошує ваші локальні моделі та обслуговує запити, доки не буде зупинено. Гаманець оператора не потребує попереднього поповнення; USDC надходять під час розрахунку, а комісію за газ спонсорує Halo.

Ціноутворення для локальних моделей

У локальних моделей немає вищерозташованої ціни за токен, яку можна було б підвищити, тому встановлюйте для них фіксовану ціну:

halo setup --provider ollama --flat <usd-per-1k-tokens>

--flat встановлює фіксовану ціну в USD за 1000 токенів. Оберіть число, яке вигідніше за хмарні API для тієї самої моделі, але при цьому окуповує вашу електроенергію й час. Докладніше про це в ціноутворенні та заробітку оператора.

Приблизний підбір GPU

Модель має вміщуватися у VRAM (квантовані ваги + контекст):

Моделі ~8B (Llama 3.1 8B, Qwen 8B) — комфортно на ~8–12 ГБ VRAM.
~4B і менші (gemma3:4b, qwen3:4b, phi3) — працюють на скромних картах.
30B+ — потребує топової конфігурації або кількох GPU.

Почніть із невеликої популярної моделі, щоб перевірити весь процес, а потім масштабуйтеся.

Підтримуйте безперервну роботу

Локальний оператор заробляє лише поки перебуває онлайн, тож запускайте його як службу:

halo service install serve
halo service status serve

Повне налаштування дивіться в забезпечте безперервну роботу оператора.