High Performance Computing (HPC), süper bilgisayarlar veya bilgisayar kümelerinin, normalde çok uzun süren işlemlerin kısa sürede ve hatasız olarak gerçekleştirilebilmesini sağlayan bilgi işlem alt yapılarıdır.
Günümüzde YBH sistemleri, maliyet ve esneklik avantajlarından ötürü bilgisayar kümeleri kullanılarak inşa edilmektedir. YBH sistemlerine, moleküler modelleme, kripto analiz, jeofizik araştırmaları, otomotiv ve havacılık simülasyonları ve veri madenciliği gibi yüksek yoğunluklu hesaplama gerektiren uygulamalarda ihtiyaç duyulmaktadır. İşlem süresi, simülasyon türü, sistemdeki CPU / GPU çekirdeği sayısı, işlem birimleri arasındaki ara bağlantı türü gibi birçok faktöre bağlıdır. Yüksek başarım için çok çekirdekli düğüm noktaları arasında yüksek bant genişlikli, düşük gecikmeli ara bağlantılara ve yine düşük gecikmeli depolama birimlerine ihtiyaç duyulur.

HPC İş Yükleri

  • Hesaplama Yoğun – Çok miktarda hesaplama gerektiren tek bir problem.
  • Bellek Yoğun – Büyük miktarda bellek gerektiren tek bir sorun.
  • Veri Yoğun – Büyük bir veri kümesinde çalışan tek bir sorun.
  • Yüksek Verim – Toplu olarak hesaplanacak ilgisiz birçok problem.

RDMA

Uzaktan Doğrudan Bellek Erişimi (Remote Direct Memory Access, RDMA), bir ağdaki bilgisayarların, her iki bilgisayarın işlemcisini, önbelleğini veya işletim sistemini aradan çıkarıp, ana bellek üzerinden veri alışverişi yapabilmesini sağlayan bir teknolojidir. Yerel olarak desteklenen Doğrudan Bellek Erişimi (DMA) gibi, RDMA de sunucu kaynaklarını kullanmadığından iletin performansını artırır. RDMA ayrıca düşük gecikme ve yüksek hızla ağ haberleşmesi için elverişli bir ortam sağlar. RDMA, ağ ve depolama uygulamaları için de kullanılabilir.

RDMA, ağ ara yüz kartında (Network Interface Card, NIC) özel bir taşıma protokolünün kullanılmasıyla iki yönlü doğrudan bir veri aktarımı sağlar. Bu teknoloji, bir bilgisayarın ana belleğinden veriyi doğrudan okumayı ve bu verileri doğrudan başka bir bilgisayarın ana belleğine yazmayı mümkün kılan sıfır kopya iletişim (Zero-Copy Networking) adı verilen bir özelliği desteklemektedir.

Gönderen ve alan aygıtların her ikisi de RDMA’yı destekliyorsa, ikisi arasındaki veri iletimi, mevcut RDMA olmayan ağ sistemlerinden çok daha hızlı gerçekleşir.

RDMA, hızlı ve yüksek kapasiteli HPC kümeleri ve veri merkezi ağları gerektiren uygulamalarda kendini kanıtlamıştır. Özellikle büyük verileri analiz ederken, uygulamaları işleyen süper bilgi işlem ortamlarında ve düşük gecikme süreleri ve yüksek aktarım oranlarını gerektiren makine öğrenimi uygulamaları için kullanışlıdır.

RDMA’yı destekleyen ağ protokolleri

  • Converged Ethernet üzerinden RDMA (RDMA over Converged Ethernet, RoCE).
  • Internet Geniş Alan RDMA Protokolü (Internet Wide Area RDMA Protocol. IWARP). IWARP, veri iletimi için İletim Denetimi Protokolü (TCP) veya Akış Denetimi İletim Protokolü (SCTP) kullanır. Bir sunucudaki uygulamaların, herhangi bir sunucudaki işletim sisteminden destek almadan başka bir sunucu üzerinde yürütülen uygulamalara doğrudan okuma veya yazma yapabilmelerini sağlamak için Internet Engineering Task Force, IETF, tarafından geliştirilmiştir
  • InfiniBand. RDMA, yüksek hızlı InfiniBand ağ bağlantıları için standart protokoldür. Infiniband ilk olarak HPC ara bağlantıları uygulamaları ile meşhur olmuştur. Büyük bilgisayar kümelerini hızla birbirine bağlayabilme yeteneği nedeniyle InfiniBand, büyük veri ortamları ve büyük kaynak gerektiren veri tabanı uygulamalarında da tercih edilmektedir

RDMA’yı destekleyen bazı üreticiler ve ürünleri

  • Broadcom ve Emulex ağ adaptörleri
  • Cavium FastLinQ 45000/41000 serisi Ethernet kartları
  • Dell EMC PowerEdge sunucuları
  • FreeBSD işletim sistemi
  • GlusterFS
  • Intel Xeon işlemcileri
  • Mellanox ConnectX ailesi ağ bağdaştırıcıları ve InfiniBand anahtarları
  • Microsoft Windows Server (2012 ve üzeri) SMB üzerinden RDMA yeteneği olan ağ bağdaştırıcılarını deskteklemektedir.
  • Nvidia DGX-1
  • RDMA üzerinden NFS için Oracle Solaris 11 ve üzeri
  • Red Hat
  • SUSE Linux Enterprise Server
  • VMware ESXi2

GPU Kullanımı

GPU yazılım uygulamaları için artırılmış bir performans sağlamaktadır. GPU ile hızlandırılmış hesaplama, Kullanıcı perspektifinden uygulamaların daha hızlı çalıştırılmasını sağlar. GPU ile hızlandırılmış bilgi işlem işlevleri, uygulamaların hesaplama yoğun bölümlerinin GPU taşınmasını sağlarken geri kalan bölümler CPU ile işlenir. CPU sıralı seri işleme için tasarlanmış çekirdeklerden oluşurken, GPU daha küçük ancak verimli verimli bir şekilde işlem sağlayan, işlemleri paralel olarak işletilen bir mimariye sahiptir. Sonuç olarak GPU ile hızlandırılmış bilgi işlemde, sıralı hesaplamalar için CPU, karmaşık hesaplamalar ise GPU’da paralel olarak işlenir. GPU ile hızlandırılmış bilgi işlemin diğer belirgin bir özelliği de paralel programlama modellerine sağlanan destektir. Böylelikle uygulama geliştiricilerine artırılmış bir uygulama performansı sağlanmış olmaktadır.

GPU ile hızlandırılmış bilgi işlemi video işleme, medikal görüntüleme, akışkan simülasyonları, renk ayrımı ve kurumsal uygulamalarda kullanılmaktadır. GPU ile hızlandırılmış bilgi işlem yapay zekâ ve derin öğrenme gibi karmaşık işlem gücünün ihtiyaç duyulduğu alanlarda gelecek vadetmektedir.

HPC Sanallaştırma

Geleneksel olarak HPC sistemleri doğrudan donanım üzerinde kurulup işletilmektedir. Ancak günümüzde donanım performansında gelinen nokta, sanallaştırılmış sunucular üzerinde HPC kümeleri oluşturularak, farklı
türde iş yükleri için kullanılabilmelerine olanak tanımaktadır. Sanallaştırma ile ihtiyaç duyulan HPC kümlerinin yapılandırılması ve yönetilmesi oldukça kolaylaşmaktadır. Ayrıca bu sistemlerin çok maksatlı olarak kullanılabilmesi, örneğin VDI servisleri ile birlikte, mümkün olmaktadır. VDI kaynakları kullanılmadığında, otomatik olarak bu kaynaklar HPC iş yükleri için tahsis edilebilmektedir.

Ancak sanallaştırma ile ilgili mevcut sorunların, HPC iş yüklerinin işletilmesinde de karşılaşılabileceği göz önünde bulundurulmalıdır. Bu tür bir hibrid yapı tasarlanırken, hafıza ve ağ kapasitesi gibi kaynakların doğru planlanması gerekir.

HPC Platform Yönetimi – OpenStack

OpenStack ile karşılaştırıldığında, HPC altyapı yönetimine yönelik yerleşik yaklaşımlar çok farklıdır. Geleneksel çözümler çok daha yüksek ölçekli ve düşük seviyeli yönetim katmanı sağlarlar. Bununla birlikte pek esnek
olmadıkları gibi kullanımları zor ve özel geliştirmeye çok açık değillerdir.

Bulut altyapısı yönetiminde edinilen yaklaşımlardaki farklılıklar sayesinde OpenStack, HPC altyapı yönetimine esneklik getirmektedir;

  • OpenStack’ın çok kullanıcılı altyapı için entegre desteği, kullanıcılar ve izolasyon gerektiren projeler arasında ayrım yapılmasını sağlar.
  • Bulut modeli, farklı projeler için farklı yazılım yığınlarının kullanılabilmesine olanak tanır.
  • Yazılım tanımlı orkestrasyon, alt yapının bir yazılım kodu olarak tanımlanıp, yapılandırılmasını sağlar.
  • Ironic (OpenStack’in fiziksel makineleri yapılandırmak için kullanılan bir projesi) tarafından desteklenen birçok donanım platformu bulunmaktadır. Bu bağlamda hemen hemen her türlü donanımın desteklenmesi mümkündür.
  • OpenStack’in işbirliğine dayalı açık geliştirme modeli, alt yapı için topluluk desteğine hızlı ve kolay erişim
  • sağlar.

Bir yanıt yazın