GPU'nuzda yerel modeller sunun (Llama, Ollama, LM Studio)
Boşta duran bir GPU'yu Halo kazancına dönüştürün — Llama, Qwen, Gemma ve diğer açık modelleri Ollama veya LM Studio üzerinden sunun, sabit fiyat belirleyin ve her zaman açık kalın. API anahtarı gerekmez.
Bir GPU’nuz varsa, açık modelleri doğrudan kendi donanımınızdan
sunabilirsiniz — sağlayıcı hesabı, API anahtarı veya size token başına
maliyet gerekmez. Halo zaten llama3.2, qwen3, gemma3, phi3 ve
deepseek-r1 gibi yerel modelleri bu şekilde çalıştırıyor.
Bu, ne sunmalısınız rehberinin yerel yoludur. Bunun yerine bir sağlayıcı API’sini yeniden satmayı mı tercih edersiniz? Bir operatör çalıştırın rehberine bakın.
1. Yerel bir model sunucusu çalıştırın
Her iki çalışma zamanından birini kullanın — ikisi de halo CLI’ının
konuştuğu OpenAI uyumlu bir uç nokta sunar:
- Ollama — önce
ollama pull llama3.2, ardındanollama serve. - LM Studio — uygulama içinde bir model indirin ve yerel sunucusunu başlatın.
GPU’nuza uyan bir model indirin (aşağıdaki boyutlandırmaya bakın) ve Halo’yu bağlamadan önce yerelde yanıt verdiğinden emin olun.
2. Operatörünüzü buna yönlendirin
halo setup --provider ollama --flat 0.20 # or --provider lmstudio
halo serve
halo serve, relay’e WebSocket üzerinden giden bir bağlantıyla bağlanır
— genel bir URL veya açık bir gelen port gerekmez — yerel modellerinizi
duyurur ve durdurulana kadar sunum yapar. Operatör cüzdanınızın önceden
fonlanmasına gerek yoktur; USDC mutabakat sırasında gelir ve gaz
ücretlerini Halo karşılar.
Yerel modelleri fiyatlandırma
Yerel modellerin üzerine ekleme yapılacak bir üst düzey token başına fiyatı yoktur, bu yüzden onları sabit fiyatla fiyatlandırın:
halo setup --provider ollama --flat <usd-per-1k-tokens>
--flat, 1.000 token başına sabit bir USD fiyatı belirler. Aynı model için
bulut API’lerini geride bırakan, ancak yine de elektrik ve zamanınızı
karşılayan bir rakam seçin. Daha fazlası için operatör fiyatlandırması ve
kazançları rehberinde.
Yaklaşık GPU boyutlandırması
Bir modelin VRAM’e sığması gerekir (kuantize edilmiş ağırlıklar + bağlam):
- ~8B modeller (Llama 3.1 8B, Qwen 8B) — ~8–12 GB VRAM’de rahatça çalışır.
- ~4B ve altı (
gemma3:4b,qwen3:4b,phi3) — mütevazı kartlarda çalışır. - 30B ve üzeri — üst düzey veya çoklu GPU kurulumu gerektirir.
Akışı kanıtlamak için küçük, popüler bir modelle başlayın, ardından ölçeği büyütün.
Çalışır durumda tutun
Yerel bir operatör yalnızca çevrimiçiyken kazanır, bu yüzden onu bir servis olarak çalıştırın:
halo service install serve
halo service status serve
Tam kurulum için operatörünüzü çevrimiçi tutun rehberine bakın.