Kullandığınız donanıma bağlı olarak, önemli boyuttaki büyük bir dil modelinin eğitiminin tamamlanması haftalar, aylar, hatta yıllar alabilir. Kimsenin bu kadar uzun süre bekleyecek elektriği ve zamanı yoktur. Çarşamba günü NVIDIA, 10.000’den fazla H100 Tensor Core GPU ile çalışan ve 175 milyar parametreli GPT-3 modelini 1 milyar token üzerinde dört dakikadan kısa bir sürede eğitebilen Eos süper bilgisayarının en yeni iterasyonunu tanıttı. Bu, NVIDIA’nın sadece altı ay önce belirlediği ‘MLPerf AI’ endüstri standardındaki bir önceki kıyaslamadan üç kat daha hızlı. Eos, muazzam miktarda hesaplamayı temsil ediyor. NVIDIA’nın ‘Infiniband’ ağını (saniyede bir petabayt veri taşıyor) ve 860 terabayt yüksek bant genişliğine sahip belleği (36PB/sn toplam bant genişliği ve 1,1PB sn birbirine bağlı) kullanarak bir araya getirilen 10.752 GPU’dan yararlanarak 40 exaflop yapay zeka işleme gücü sunuyor. Bulut mimarisinin tamamı 1344 düğümden (şirketlerin kendi altyapılarını kurmadan yapay zeka yeteneklerini genişletmek için ayda yaklaşık 37.000 dolar karşılığında erişim kiralayabilecekleri bireysel sunucular) oluşuyor.
NVIDIA, toplamda dokuz kıyaslama testinde altı rekor kırdı: GPT-3 için 3,9 dakikalık çentik, 1.024 Hopper GPU kullanarak Stable Diffusion modelini eğitmek için 2,5 dakikalık bir işaret, DLRM’yi eğitmek için bile bir dakika, RetinaNet için 55,2 saniye, 3D U-Net için 46 saniye ve BERT-Large modelini eğitmek için sadece 7,2 saniye gerekiyordu. NVIDIA, kıyaslamada kullanılan GPT-3’ün 175 milyar parametreli versiyonunun modelin tam boyutlu yinelemesi olmadığını belirtmekte gecikmedi. ‘Kararlı Difüzyon’ modeli de öyle. Daha büyük olan GPT-3 yaklaşık 3,7 trilyon parametre sunuyor ve kıyaslama testi olarak kullanılamayacak kadar büyük ve hantal. Örneğin, 512 GPU’lu eski A100 sisteminde eğitmek 18 ay sürerdi ancak Eos’un sadece sekiz güne ihtiyacı var. Bunun yerine NVIDIA ve MLPerf standardını yöneten MLCommons, 1 milyar token (üretici yapay zeka sistemlerinin anladığı en küçük payda veri birimi) kullanan daha kompakt bir versiyondan yararlanıyor. Bu test, çevrilecek potansiyel anahtar sayısı aynı olan GPT-3 versiyonunu kullanıyor. Tam boyutlu (175 milyar parametre), sadece içinde kullanılacak çok daha yönetilebilir bir veri seti (3,7 trilyona karşı bir milyar token).
Performanstaki etkileyici iyileşme, şirketin Haziran ayındaki kıyaslama denemelerinde kullandığı 3.584 Hopper GPU’ya kıyasla, bu son test turunda 10.752 H100 GPU kullanılmış olmasından kaynaklanıyor. Ancak NVIDIA, GPU sayısının üç katına çıkmasına rağmen, yazılım optimizasyonunun cömertçe kullanılmasıyla performansta 2,8 kat ölçeklendirmeyi (%93 verimlilik oranı) korumayı başardığını açıklıyor. Salvator, “Ölçeklendirme harika bir şey” dedi. “Ancak ölçeklendirme ile daha fazla altyapıdan bahsediyorsunuz, bu da daha fazla maliyet gibi şeyler anlamına gelebilir. Verimli bir şekilde ölçeklendirilmiş bir artış, kullanıcıların altyapınızı en iyi şekilde kullanması, böylece işinizi olabildiğince hızlı yapabilmeniz ve kuruluşunuzun yaptığı yatırımdan en yüksek değeri elde edebilmeniz anlamına gelir.” ifadelerini sözlerine ekledi. Çip üreticisi, geliştirme çabalarında yalnız değildi. Microsoft’un Azure ekibi bu kıyaslama turu için benzer bir 10.752 H100 GPU sistemi sundu ve NVIDIA’nınkinin yüzde ikisi içinde sonuçlar elde etti. NVIDIA Hızlandırılmış Bilgi İşlem Ürünleri Direktörü Dave Salvator, Salı günü yapılan bir ön bilgilendirme toplantısında gazetecilere şunları söyledi: “Azure ekibi, Eos süper bilgisayarıyla eşit bir performans elde etmeyi başardı.”
Sözlerine şöyle devam etti: “Dahası, Infiniband kullanıyorlar, ancak bu piyasada bulunan bir örnek. Bu, hiçbir zaman gerçek müşterilerin faydasını göremeyeceği bozulmamış bir laboratuvar sistemi değil. Bu, Azure’un müşterilerine sunduğu gerçek bir örnek.” NVIDIA bu genişletilmiş işlem yeteneklerini, şirketin temel model geliştirme, yapay zeka destekli GPU tasarımı, nöral render, çok modlu üretken yapay zeka ve otonom sürüş sistemlerinde devam eden çalışmaları da dahil olmak üzere çeşitli görevlere uygulamayı planlıyor. Salvator, MLCommons’un kısa süre önce ‘Kararlı Difüzyon’ görevlerinde model performansını test etmek için ek bir karşılaştırma ölçütü eklediğini belirterek, “Pazarda geçerliliğini korumak isteyen her iyi karşılaştırma ölçütü, hizmet vermek istediği pazarı en iyi şekilde yansıtmak için donanıma atacağı iş yüklerini sürekli olarak güncellemek zorundadır” dedi. “Bu, kod programlamadan protein zincirlerini keşfetmeye kadar her türlü şeyin üretildiğini gördüğümüz bir başka heyecan verici üretken yapay zeka alanıdır.” ifadelerini kullandı.
Bu kıyaslamalar önemli çünkü Salvator’un da belirttiği gibi, üretken yapay zeka pazarlamasının mevcut durumu biraz “Vahşi Batı” olabilir. Sıkı gözetim ve düzenlemelerin olmaması, “bazen belirli yapay zeka performans iddialarında, bu belirli iddiaların oluşturulmasında kullanılan tüm parametrelerden tam olarak emin olmadığınızı görüyoruz” anlamına geliyor. Salvator, MLPerf’in, şirketlerin kendi testlerini kullanarak ürettikleri kıyaslama rakamlarının “diğer konsorsiyumun üyeleri tarafından gözden geçirildiği, incelendiği, hatta bazı durumlarda itiraz edildiği veya sorgulandığı” konusunda profesyonel güvence sağladığını söyledi. “Bu sonuçlara gerçekten güvenilirlik kazandıran bu tür bir akran değerlendirme sürecidir.” dedi. NVIDIA son aylarda sürekli olarak yapay zeka yeteneklerine ve uygulamalarına odaklanıyor. CEO Jensen Huang Mart ayındaki GTC açılış konuşmasında “Yapay zeka için iPhone anındayız” dedi. O dönemde şirket, özellikle 60 GB VRAM (toplamda 640 bellek) çalıştıran sekiz H100 ya da A100 çipi ile süper bilgisayarın işlem gücünün dilimlerini paylaştıran DGX bulut sistemini duyurdu. Şirket, Mayıs ayında Computex’te ‘DGX GH200’ün piyasaya sürülmesiyle süper bilgisayar portföyünü genişletti.
