GPU'nuzda yerel modeller sunun (Llama, Ollama, LM Studio)

Bir GPU’nuz varsa, açık modelleri doğrudan kendi donanımınızdan sunabilirsiniz — sağlayıcı hesabı, API anahtarı veya size token başına maliyet gerekmez. Halo zaten llama3.2, qwen3, gemma3, phi3 ve deepseek-r1 gibi yerel modelleri bu şekilde çalıştırıyor.

Bu, ne sunmalısınız rehberinin yerel yoludur. Bunun yerine bir sağlayıcı API’sini yeniden satmayı mı tercih edersiniz? Bir operatör çalıştırın rehberine bakın.

1. Yerel bir model sunucusu çalıştırın

Her iki çalışma zamanından birini kullanın — ikisi de halo CLI’ının konuştuğu OpenAI uyumlu bir uç nokta sunar:

Ollama — önce ollama pull llama3.2, ardından ollama serve.
LM Studio — uygulama içinde bir model indirin ve yerel sunucusunu başlatın.

GPU’nuza uyan bir model indirin (aşağıdaki boyutlandırmaya bakın) ve Halo’yu bağlamadan önce yerelde yanıt verdiğinden emin olun.

2. Operatörünüzü buna yönlendirin

halo setup --provider ollama --flat 0.20    # or --provider lmstudio
halo serve

halo serve, relay’e WebSocket üzerinden giden bir bağlantıyla bağlanır — genel bir URL veya açık bir gelen port gerekmez — yerel modellerinizi duyurur ve durdurulana kadar sunum yapar. Operatör cüzdanınızın önceden fonlanmasına gerek yoktur; USDC mutabakat sırasında gelir ve gaz ücretlerini Halo karşılar.

Yerel modelleri fiyatlandırma

Yerel modellerin üzerine ekleme yapılacak bir üst düzey token başına fiyatı yoktur, bu yüzden onları sabit fiyatla fiyatlandırın:

halo setup --provider ollama --flat <usd-per-1k-tokens>

--flat, 1.000 token başına sabit bir USD fiyatı belirler. Aynı model için bulut API’lerini geride bırakan, ancak yine de elektrik ve zamanınızı karşılayan bir rakam seçin. Daha fazlası için operatör fiyatlandırması ve kazançları rehberinde.

Yaklaşık GPU boyutlandırması

Bir modelin VRAM’e sığması gerekir (kuantize edilmiş ağırlıklar + bağlam):

~8B modeller (Llama 3.1 8B, Qwen 8B) — ~8–12 GB VRAM’de rahatça çalışır.
~4B ve altı (gemma3:4b, qwen3:4b, phi3) — mütevazı kartlarda çalışır.
30B ve üzeri — üst düzey veya çoklu GPU kurulumu gerektirir.

Akışı kanıtlamak için küçük, popüler bir modelle başlayın, ardından ölçeği büyütün.

Çalışır durumda tutun

Yerel bir operatör yalnızca çevrimiçiyken kazanır, bu yüzden onu bir servis olarak çalıştırın:

halo service install serve
halo service status serve

Tam kurulum için operatörünüzü çevrimiçi tutun rehberine bakın.