
AMD’nin Yeni RDNA 4 Mimarisine İlişkin Tüm Detaylar
AMD’nin yeni nesil RX 9070 ekran kartlarıyla ilgili tüm detaylara artık sahibiz. Yeni GPU’lar, GDDR6 bellekler dışında neredeyse her anlamda değişime uğrayan RDNA 4 GPU mimarisi üzerine inşa edildi. Başka bir deyişle, RX 9000 Serisi için sıfırdan inşa edilen bir mimariden bahsediyoruz. Peki neler değişti?
RDNA 4 Çekirdek Mimarisinin Tüm Ayrıntıları
İlk başta genel RDNA 4 gelişimi hakkında kısa bir özet geçelim:
- Üst düzey oyun iş yükleri için yoğun şekilde optimize edildi.
- Geliştirilmiş rasterizasyon performansı ve hesaplama verimliliği.
- Işın izleme performansında iki kata varan sıçrama.
- Kapsamlı yüksek performanslı makine öğrenimi desteği
- Tüm iş yükleri için geliştirilmiş bant genişliği verimliliği.
- Oyuncular ve içerik üreticiler için multimedya iyileştirmeleri.
AMD, çeşitli slaytlarla birlikte teknik özelliklerin yanı sıra RDNA 4 mimarisinin farklılıklarını da gösterdi. Kırmızı ekip, rasterizasyon, ışın izleme ve yapay zeka gibi tüm önemli iş yüklerinde performansı artırmak üzere kolları sıvadı.
Rasterizasyon performansı en küçük nesilsel kazanımları görüyor, ancak AMD’ye göre hala RDNA 3’ten yaklaşık %40 daha hızlı. Işın izleme performansı temelde iki katına çıkarken, yapay zeka performansı yoğun FP16 hesaplama için iki katına çıkıyor ve daha düşük hassasiyetli formatlar daha da yüksek performans sağlıyor.
Rasterizasyon iyileştirmelerinin spesifik detayları biraz belirsiz. RDNA 4, AMD’nin özellikle ışın izleme için yararlı olduğunu belirttiği sıra dışı bellek isteklerini destekliyor, ancak bu fark raster iş yüklerine de yardımcı olabilir.
Diğer büyük değişiklik dinamik kayıt tahsisi ile ilgili. Ekstra kayıtları yalnızca ihtiyaç duyulduğunda dinamik olarak tahsis eden AMD, işlem sırasında fazladan bir dalganın olabileceği örnek bir kullanım durumu sunuyor. Slaytlarda dört dalgaya karşılık üç dalga gösteriliyor, bu da %33’lük bir artış anlamına geliyor.
Işın izlemeye geçecek olursak, AMD mühendislerinin önemli şekilde çaba harcadığı yer burası. Bununla birlikte, donanım örneği dönüşümleri (işin çoğunu GPU gölgelendiricileri aracılığıyla yapmak yerine), yönlendirilmiş sınırlayıcı kutular, geliştirilmiş BVH (Bounding Volume Hierarchy) yapısı ve geçişi, slaytlarda bahsedilen sıra dışı bellek dönüşleri ve daha iyi ışın donanımı yığın yönetimi gibi bazı geliştirmeler sağlandı.
İyileştirmelerin çoğu kesişim oranlarının iki katına çıkarılması ve BVH sıkıştırmasından kaynaklanıyor, ancak diğer bölümler de sağlam bir gelişme sağlamak üzere bir araya geliyor. RDNA 4 mimarisini rakip NVIDIA mimarileriyle doğrudan kıyaslamak mümkün değil. Muhtemelen en son Blackwell (RTX 5000) mimarisinin yine gerisinde kalacaklar, fakat hesaplama birimi başına RDNA 2 ve RDNA 3’e kıyasla çok daha iyi performans sağlanacağı kesin. En azından Ampere (RTX 4000) performansına yakın olabilir.
Yapay zeka desteği konusunda da yine büyük değişimler mevcut. NVIDIA, RTX 2000 serisinden bu yana AI Tensor Çekirdeklerini güncellemeye devam ediyor. Öncesinde ise Volta veri merkezi GPU’larında yine Tensor Çekirdekleri vardı. Dolayısıyla NVIDIA beşinci nesil yapay zeka çekirdeklerine geçerken, AMD ikinci henüz ikinci nesilde. Yeşil takım her şeye çok daha önceden başladı. AMD ise CDNA GPU’larında yapılan çalışmaların çoğunu alıp RDNA tarafına taşıdı.
RDNA 3 mimarisindeki hesaplama birimleri, seyreklik desteği olmadan döngü başına 512 FP16 işlemi veya döngü başına 1024 INT4 işlemi yapabiliyordu. RDNA 4 ile AMD, yoğun işlemler için temel FP16 verimini iki katına çıkarıyor, seyrek işlemler için yine verimlilik iki kat artıyor, ayrıca yapay zeka alanında yararlı olduğu kanıtlanan FP8 iş yüklerinde iki katlık verimlilik artışı söz konusu. Bu, RDNA 3’teki FP16’ya kıyasla RDNA 4’teki FP8 için 8 kata kadar daha yüksek AI verimi anlamına geliyor ve INT4 verimi de benzer şekilde 8 kata kadar iyileşme gösteriyor.
Kırmızılılar, Stable Diffusion XL kullanarak geliştirmelerin yapay zeka performansını nasıl etkilediğine dair gerçek dünyadan bir örnek verdi. Sonuç olarak 64 CU’lu RX 9070 XT, 84 CU’lu RX 7900 XT’yi geride bıraktı. 9070 XT, 2 kata yakın şekilde daha yüksek performans sunabiliyor. Performans artışı, ML tabanlı yükseltme ve kare oluşturma (FSR 4) dahil olmak üzere diğer AI ve makine öğrenimi iş yükleri için çok yararlı olacaktır.
Bu değişikliklerin yanı sıra AMD, RDNA 4 ile önbellek ve bellek hiyerarşisinin bir kısmını yeniden düzenledi. Nelerin değiştiğine dair net bir ayrıntı vermediler, Infinity Cache’in üçüncü nesline geçiş yapıldığı belirtildi. Kapasite 64 MB olarak kalıyor, yani önceki nesille aynı. Muhtemelen nesilsel olarak bazı küçük iyileştirmeler yapıldı. Diğer fark ise monolitik GPU yapısı. Eskiden çok yongalı tasarım benimseniyordu. Yeni monolitik yani tekli yapı ile bellek çekirdeklere çok daha yakın. Nitekim daha iyi verimliliğe ve gecikme süreleri sağlanmış olmalı.
Diğer RDNA 4 İyileştirmeleri
RDNA 4 sadece çekirdek mimari yükseltmelerinden ibaret değil. Rasterizasyon ışın izleme ve yapay zeka geliştirmelerinin yanı sıra birkaç alanda daha geliştirme yapıldı. En büyük değişikliklerden biri medya kodlama donanımında. Video kodlama performansı konusunda AMD, NVIDIA ve Intel’in açık ara gerisinde kalarak son sırada yer almıştı. RDNA 4 ile aradaki fark kapanabilir.
AMD ekibi, H.264 (AVC) kalitesini %25’e kadar, H.265 (HEVC) kalitesini %11’e kadar iyileştirdiğini ve AV1 kodlama verimliliğini artırdığını söylüyor. Ayrıca AV1 ve VP9 kod çözme için daha iyi destek sunuluyor ve bellek erişimleri azaltılıyor.
Kalite iyileştirmelerinin yanı sıra, RDNA 4 çift medya motoruyla geliyor. NVIDIA aynısını Ada Lovelace mimarisi ile yapmıştı, şimdi rakibi benzer bir yaklaşım sergiliyor. Muhtemelen tüm iş yüklerine aynı oranda katkı sağlanmayacak. İyisi AMD, AV1 kodlama verimini iki katına çıkardıklarını söylüyor. Sonuç olarak Intel ve NVIDIA oldukça benzer sonuçlar veriyordu, RDNA 3 ile geride kalan AMD ise aradaki farkı kapatacak gibi.
RDNA 4 ile ilgili bir diğer değişiklik de AMD’nin video kare planlamasını GPU’ya devreden donanım çevirme kuyruğu desteği. Yeşil takım MFG (Çoklu Kare Üretimi) için benzer bir şeyden bahsederken, AMD’nin çözümü oluşturulan karelerin zamanlamasını iyileştirmek yerine CPU yükünü azaltarak video oynatmayı iyileştirmeye odaklanmış gibi görünüyor.
Radeon Image Sharpening (RIS) de RIS2 olarak güncellendi. RIS, AMD’nin CAS algoritmasına (Kontrasta Duyarlı Keskinleştirme) dayanan sürücü düzeyinde bir keskinleştirme çözümü. Böylelikle kalitenin artık daha iyi olması bekleniyor, RIS2’yi tüm API’lere uygulamak için tek bir tıklamayla geçiş yapılabiliyor.
Son olarak, RDNA 4 GPU’ları PCIe 5.0 arayüzlerini destekleyecek şekilde tasarlandı. x16 bağlantısı üzerinden verim iki katına çıkacak lakin pratikte çoğu iş yükü bundan yararlanmayacak, doğrusu yararlanamayacak. Özellikle oyunlarda tam x16 bağlantısı kullanırken PCIe 4.0 ve hatta PCIe 3.0 bile yeterli. Ancak yapay zeka ve belirli içerik oluşturma görevleri ek bant genişliğinden faydalanabilir.
Monolitik Tasarıma Dönüş, TSMC N4P Üretimi
RDNA 4 ile gelen ilginç değişikliklerden biri de, AMD’nin en azından şimdilik çiplet (çoklu küçük çipler) tasarımdan vazgeçmiş olması. Şirket gelecekte tekrar çok yongalı tasarıma dönüş yapabilir, ancak Navi 48 ve Navi 44 GPU’lar tamamen monolitik tasarımı benimseyecek.
Monolitikten kastımız nedir? Yıllardır AMD ve NVIDIA’nın ürettiği grafik işlemcilerinin hepsi bu tasarım üzerine inşa ediliyordu. Bellekler, çekirdek ve tüm birimler tek bir alana yerleştiriliyordu.
Bu tasarım tercihinin yanı sıra AMD, RDNA 3’te kullanılan TSMC N5 işlem teknolojisinden N4P üretimine geçiyor. N4P, N4 üretimine kıyasla performans ve verimlilikte küçük iyileştirmeler sağlayan bir yineleme. N5’ten doğrudan N4’e değil de N4P’ye geçilmesi daha iyi olmuş.
Diğer taraftan AMD gerçekten de üst düzeye oynamadığını göstermiş. GDDR7 bellek eksikliği ve daha büyük bir tasarımın olmaması bunu kanıtlıyor. Navi 48 çipi, 356,5 mm²’lik bir kalıpta 53,9 milyar transistör barındıracak. NVIDIA’nın RTX 5080 ve 5070 Ti’de kullandığı GB203, 378 mm^²’lik kalıpta 45,6 milyar transistör içeriyordu. Bu AMD’nin aslında daha üstün bir işlem teknolojisine ve/veya tasarıma sahip olduğunu gösterebilir. Ancak böyle söylemek mümkün değil.
Kalıp boyutları oldukça basit olsa da transistör sayıları öyle değildir. Bunlar daha çok matematiksel bir tahmin ve bir “transistörü” nelerin oluşturduğunu hesaplamanın farklı yolları var. Belki AMD daha fazla transistör içeren daha yoğun bir tasarıma sahip, belki de değil. Nihayetinde, çeşitli GPU’ların nasıl performans gösterdiğini görmemiz gerekecek.
GDDR6 Bellek ile Devam
RDNA 3 ile karşılaştırıldığında değişmeyen tek şey bellek desteği. Yakın tarihte duyurulan tüm GeForce RTX 5000 çözümlerinin daha güçlü GDDR7 belleğe geçiş yaptığını herkes biliyor. AMD, buna karşın 20 Gbps hızında GDDR6 bellek kullanmaya devam edecek. 9070 XT ve 9070 GPU’larda 256 bit arayüz ile birleştiğinde 640 GB/s bellek bant genişliği elde ediliyor.
64 MB Infinity Cache etkin bant genişliğini artıracak olsa da herhangi bir rakam verilmedi. RX 7900 GRE ve RX 7800 XT’nin her ikisinde de 64 MB Infinity Cache vardı. AMD bu GPU’larla temel bellek bant genişliğinin yaklaşık 4 katı olan etkili bant genişliği oranları sağladı, yeni Navi 48 GPU’ların da benzer sonuçlar göreceği tahmin ediliyor.
Detay verilmese de, Infinity Cache’te yapılan iyileştirmelerin performansa katkısı önemli rol oynuyor. Eğer ciddi iyileştirmeler yapıldıysa, GDDR7’ye geçiş belki de çok büyük önem arz etmiyor. NVIDIA’nın 28 Gbps hızındaki GDDR7 bellekleri ham bant genişliğinde %40’lık bir iyileşme sağlıyor. Bu oldukça büyük bir avantaj gibi görünebilir. Ancak büyük önbellekler hesaba katıldıktan sonra etkin bant genişliği o kadar da farklı olmayabilir.
64 CU’luk bir GPU’yu çalıştırmak için sadece çok fazla bant genişliğine ihtiyaç var. Örneğin RTX 5070 Ti, AMD’nin CU’larına kabaca benzeyen 70 SM’ye (Streaming Multiprocessors) sahip ve 48 MB L2 önbellek bulunuyor. Daha az GPU işlem kümesiyle daha büyük 64 MB L3 önbellek koymak, daha yüksek bellek hızlarına olan ihtiyacı azaltabilir. AMD, 16Gb (2 GB) GDDR6 modülleri kullanmaya devam ediyor, tedarikçi ise henüz bilinmiyor.