IBM, IBM Cloud içinde çalışan bir grup sanal makineden oluşan kendi “yapay zeka süper bilgisayarını” tanıtan en son teknoloji devi oldu. Şirketin geçen yılın Mayıs ayından bu yana çevrimiçi olduğunu iddia ettiği ‘Vela’ olarak bilinen sistem, büyük ölçekli yapay zeka modellerinin geliştirilmesi ve eğitilmesi amacıyla oluşturulan IBM’in ilk yapay zeka için optimize edilmiş, bulut tabanlı süper bilgisayarı olarak lanse ediliyor. Herkes, erişim için kaydolmaya koşmadan önce IBM, platformun şu anda IBM Araştırma topluluğu tarafından kullanılmak üzere ayrıldığını belirtti. Aslında, Vela’nın Mayıs 2022’den bu yana temel modeller üzerinde çalışmak da dahil olmak üzere gelişmiş yapay zeka yetenekleri üreten araştırmacılar için şirketin “gidilecek ortamı” haline geldiği belirtildi. IBM, bu mimariyi seçmesinin nedeninin, şirkete gerektiğinde ölçek büyütme konusunda daha fazla esneklik ve ayrıca benzer altyapıyı dünya genelindeki herhangi bir IBM Cloud veri merkezine dağıtma olanağı sağlaması olduğunu belirtiyor.
Ancak Vela herhangi bir eski standart IBM Cloud düğümü donanımı üzerinde çalışmıyor; her biri 1,5 TB DRAM ile yapılandırılmış 2. Nesil Xeon ölçeklenebilir işlemciler ve dört adet 3,2 TB NVMe flash sürücünün yanı sıra NVLink ve NVSwitch ile bağlanan sekiz adet 80 GB Nvidia A100 GPU’ya sahip ikiz soketli bir sistem. IBM’in “geleneksel süper bilgisayarlar yapay zeka için tasarlanmadı” diyerek farklı bir yol izlediği yönündeki ısrarına rağmen, bu durum Vela altyapısını tipik bir bulut altyapısından ziyade yüksek performanslı bilgi işlem (HPC) sitesine daha yakın hale getiriyor. IBM’in kendi Power 10 çipleri yerine x86 işlemcileri kullanmayı seçmesi de dikkat çekicidir, çünkü bunlar Big Blue tarafından büyük model yapay zeka çıkarımı gibi yoğun bellek iş yükleri için ideal olarak lanse edilmiştir.
Düğümler, iki seviyeli Clos yapısında düzenlenmiş birden fazla 100 Gbps ağ arayüzü kullanılarak birbirine bağlanmıştır; bu yapı, yedeklilik sağlamak üzere veriler için birden fazla yol olacak şekilde tasarlanmıştır. Bununla birlikte IBM, bir blog yazısında, büyük ölçekli yapay zeka modellerini oluşturmak ve dağıtmak için gereken süreyi mümkün olduğunca kısaltmaya odaklanan bulut yerel bir mimariyi tercih etme nedenlerini açıklıyor. Blogda “Sistemimizi geleneksel süper bilgisayar modelini kullanarak şirket içinde mi kuracağız, yoksa bu sistemi bulutun içine mi kuracağız, özünde aynı zamanda bir bulut olan bir süper bilgisayar mı inşa edeceğiz?” diye soruluyor. IBM, ikinci yaklaşımı benimseyerek performanstan bir miktar ödün verdiğini, ancak üretkenlikten önemli ölçüde kazanç sağladığını iddia ediyor.
Bunun nedeni, gerekli tüm kaynakların yazılım aracılığıyla yapılandırılabilmesinin yanı sıra, özel depolama altyapısı oluşturmak yerine veri setlerinin IBM’in ‘Bulut Nesne Deposu’na yüklenmesi örneğinde olduğu gibi, daha geniş IBM Cloud’ında mevcut olan hizmetlere erişebilmesidir. Big Blue ayrıca, Vela’daki tüm düğümleri çıplak metal örnekler yerine sanal makineler olarak çalıştırmayı tercih ettiğini, çünkü bunun altyapıyı farklı AI kullanıcılarının ihtiyaç duyduğu farklı yazılım yığınlarıyla sağlamayı ve bunu yeniden kolaylaştırdığını söyledi. IBM’in blogunda, “Sanal makineler, destek ekibimizin yapay zeka kümelerini dinamik olarak esnek bir şekilde ölçeklendirmesini ve kaynakları birkaç dakika içinde çeşitli türlerdeki iş yükleri arasında değiştirmesini kolaylaştıracaktı” deniyor. Ancak şirket, performansı optimize etmenin ve sanallaştırma ek yükünü yüzde 5’in altına, çıplak metal performansına yakın bir seviyeye indirmenin bir yolunu bulduğunu iddia ediyor. Bu, belirtilmemiş diğer donanım ve yazılım yapılandırmalarından hariç olan.
Virtual Machine Extensions (VMX), tek köklü IO sanallaştırma (SR-IOV) ve büyük sayfalar desteğiyle sanallaştırma için çıplak metal ana bilgisayarın yapılandırılmasını içeriyordu. Vela altyapısına ilişkin daha fazla ayrıntı IBM’in blogunda bulunabilir. IBM, bir yapay zeka süper bilgisayarına ev sahipliği yapmak için bulutu kullanan tek şirket değil. Geçtiğimiz yıl Microsoft, Nvidia’nın GPU hızlandırıcıları, ağ kiti ve ‘AI Enterprise’ yazılım paketi ile birlikte Azure altyapısını kullanan kendi platformunu tanıttı. Bu platformun Azure müşterilerinin erişimine açılması bekleniyordu ancak herhangi bir zaman dilimi belirtilmemişti. Yapay zeka süper bilgisayarları geliştiren ancak geleneksel şirket içi altyapı yolunu izleyen diğer şirketler arasında Meta ve Tesla da yer alıyor.