Обслуговуйте локальні моделі на своєму GPU (Llama, Ollama, LM Studio)
Перетворіть простоюючий GPU на заробіток у Halo — обслуговуйте Llama, Qwen, Gemma та інші відкриті моделі через Ollama чи LM Studio, встановіть фіксовану ціну й працюйте безперервно. API-ключ не потрібен.
Якщо у вас є GPU, ви можете обслуговувати відкриті моделі напряму з
власного обладнання — без облікового запису провайдера, без API-ключа й без
витрат за токен. У Halo вже так запускають локальні моделі на кшталт
llama3.2, qwen3, gemma3, phi3 і deepseek-r1.
Це локальний шлях із гайду що обслуговувати. Хочете натомість перепродавати API провайдера? Дивіться запустіть оператора.
1. Запустіть локальний сервер моделі
Використовуйте будь-яке із середовищ виконання — обидва надають
OpenAI-сумісну кінцеву точку, з якою працює CLI halo:
- Ollama —
ollama pull llama3.2, потімollama serve. - LM Studio — завантажте модель у застосунку та запустіть його локальний сервер.
Завантажте модель, яка вміщується у ваш GPU (див. розмір нижче), і переконайтеся, що вона відповідає локально, перш ніж підключати Halo.
2. Направте на неї свого оператора
halo setup --provider ollama --flat 0.20 # or --provider lmstudio
halo serve
halo serve встановлює вихідне з’єднання з реле через WebSocket — без
публічної URL-адреси й без відкритого вхідного порту — оголошує ваші локальні
моделі та обслуговує запити, доки не буде зупинено. Гаманець оператора не
потребує попереднього поповнення; USDC надходять під час розрахунку, а
комісію за газ спонсорує Halo.
Ціноутворення для локальних моделей
У локальних моделей немає вищерозташованої ціни за токен, яку можна було б підвищити, тому встановлюйте для них фіксовану ціну:
halo setup --provider ollama --flat <usd-per-1k-tokens>
--flat встановлює фіксовану ціну в USD за 1000 токенів. Оберіть число, яке
вигідніше за хмарні API для тієї самої моделі, але при цьому окуповує вашу
електроенергію й час. Докладніше про це в ціноутворенні та заробітку
оператора.
Приблизний підбір GPU
Модель має вміщуватися у VRAM (квантовані ваги + контекст):
- Моделі ~8B (Llama 3.1 8B, Qwen 8B) — комфортно на ~8–12 ГБ VRAM.
- ~4B і менші (
gemma3:4b,qwen3:4b,phi3) — працюють на скромних картах. - 30B+ — потребує топової конфігурації або кількох GPU.
Почніть із невеликої популярної моделі, щоб перевірити весь процес, а потім масштабуйтеся.
Підтримуйте безперервну роботу
Локальний оператор заробляє лише поки перебуває онлайн, тож запускайте його як службу:
halo service install serve
halo service status serve
Повне налаштування дивіться в забезпечте безперервну роботу оператора.