Cerebras Systems tarafından dünyanın en hızlı yapay zeka çıkarım çözümü olarak Cerebras Inference duyuruldu. Yeni çözüm, Microsoft Azure dahil olmak üzere hiper ölçekli bulutlarda bulunan NVIDIA GPU tabanlı AI çıkarım çözümlerinden neredeyse 20 kat daha hızlı olan Llama 3.1 8B için saniyede 1.800 token ve Llama 3.1 70B için saniyede 450 token sağlıyor.
Yeni çıkarım çözümünün fiyatı popüler GPU bulutlarının da çok altında. Örneğin, sadece 10 sente bir milyon token elde etmek ve böylece yapay zeka iş yükleri için 100 kat daha yüksek fiyat-performans oranı sağlamak mümkün.
Cerebras’ın 16 bitlik doğruluğu ve 20 kat daha hızlı çıkarım çağrıları, yapay zeka uygulama geliştiricilerinin hızdan veya maliyetten ödün vermeden yeni nesil yapay zeka uygulamaları oluşturmasına olanak tanıyacak. Bu fiyat-performans oranının Cerebras CS-3 sistemi ve Wafer Scale Engine 3 (WSE-3) yapay zeka işlemcisi sayesinde mümkün olduğu ifade ediliyor. CS-3, NVIDIA H100’den 7.000 kat daha fazla bellek bant genişliğine sahip olup üretken yapay zekanın bellek bant genişliği teknik zorluğunu çözüyor.
Cerebras Inference üç kademede sunuluyor. Bunlar:
- Ücretsiz Kademe, oturum açan herkese ücretsiz API erişimi ve cömert kullanım sınırları sunar.
- Esnek, sunucusuz dağıtım için tasarlanan Geliştirici Kademe, kullanıcılara piyasadaki alternatiflerin maliyetinin çok daha azı karşılığında bir API uç noktası sağlar; Llama 3.1 8B ve 70B modelleri sırasıyla milyon token başına 10 sent ve 60 sent fiyatlandırılır.
- Kurumsal Kademe, ince ayarlı modeller, özel hizmet seviyesi anlaşmaları ve özel destek sunar. Sürekli iş yükleri için ideal olan kuruluşlar, Cerebras tarafından yönetilen özel bir bulut veya müşteri tesisleri aracılığıyla Cerebras Inference’a erişebilir.
Daha hızlı ve daha uygun maliyetli yapay zeka çıkarım çözümlerine olan talep yoğunlaştıkça NVIDIA’nın hakimiyeti, özellikle çıkarım alanında bozulabilir.