RDNA 3 oraz seria AMD Radeon RX 7000: szczegóły architektury [REUPLOAD]
Spis treści
AMD Radeon RX 7000 oraz architektura RDNA 3. AMD jeszcze nie potwierdziło oficjalnej nazwy, ale mało jest powodów, aby oczekiwać zmiany w numeracji modeli, którą znamy z serii RX 6000. Warto pozostać przy RX 7000, dopóki nie zostanie udowodnione inaczej. Nowe jednostki graficzne staną w szranki z najlepszymi kartami graficznymi.
Mamy wystarczająco dużo szczegółów, aby stworzyć jedno centralne źródło informacji na temat architektury RDNA 3 i serii RX 7000. Wciąż wiele rzeczy pozostaje nieznanych, w tym cena i dokładna data premiery. Specyfikacje będą się jeszcze nieco zmieniać, gdy AMD ostatecznie ustali swoje plany, ale mamy już wiele danych, które są nam znane.
RDNA 3 / Navi 3x w wielkim skrócie:
- Do 96 jednostek obliczeniowych (CU) / 12 288 jednostek cieniujących
- O 50% lepsza wydajność na wat
- Podwojenie liczby jednostek cieniujących na CU
- Architektura układu wieloczipowego GPU
- Do 192 MB pamięci Infinity Cache
AMD nie ujawniło jeszcze szczegółów dotyczących podstawowych specyfikacji swoich GPU RDNA 3. Wiemy, że AMD będzie korzystać z „układów wieloczipowych” (GPU chiplets – patrz niżej) oraz przeniesie co najmniej część głównych bloków konstrukcyjnych na węzeł procesowy TSMC N5, ale pozostałe szczegóły dotyczące RDNA 3 i RX 7000 powinny być traktowane jako nie do końca potwierdzone.
[Notatka: „GPU chiplets” to zaawansowana technologia polegająca na łączeniu wielu mniejszych układów GPU w jedno większe rozwiązanie, co pozwala na większą elastyczność projektową i wydajność.]
Obecnie istniejące jednostki graficzne RDNA 2 i serie RX 6000 składają się z czterech projektów GPU, rozrzuconych na całą dziesiątkę różnych modeli kart graficznych – a to nie uwzględnia jeszcze rozwiązań zintegrowanych. W przyszłości możemy spodziewać się podobnej oferty w serii RX 7000, ale obecnie znamy tylko trzy główne jednostki GPU: Navi 31, Navi 32 i Navi 33.
Zgodnie z logiką, każda jednostka GPU będzie wykorzystywana w wielu modelach kart graficznych. AMD po raz pierwszy zastosuje układy wieloczipowe w technologii RDNA 3, a najbardziej wiarygodne źródła wskazują, że kontrolery pamięci oraz pamięć Infinity Cache zostaną oddzielone od głównego układu obliczeniowego. AMD będzie nazywać te układy GCD (Graphics Chiplet Die) i MCD (Memory Chiplet Die). Należy zauważyć, że najmniejszy układ Navi 33 zachowa obecny monolityczny design stosowany w aktualnych jednostkach GPU.
Obecnie prędkości zegara są głównie czystą teorią. Nie oczekujemy, że AMD zmniejszy prędkości zegara w porównaniu z RDNA 2, a możliwe, że zobaczymy jeszcze wyższe prędkości – być może pierwsze GPU przekraczające 3,0 GHz? Na razie umiarkowana ilość wynosząca 2,5 GHz pozwala na przybliżoną ocenę całkowitej mocy obliczeniowej. A moc obliczeniowa… jest niesamowita, w teorii.
Z maksymalnie 12 288 jednostek GPU, z których każda wykonuje operację FP32 FMA (Fused Multiply Accumulate) w każdym cyklu, najwyższy model potencjalnie osiągnie 61,4 teraflopa mocy obliczeniowej, a dla obciążeń FP16 ta wartość podwoi się. Nawet układ z kategorii średniej mógłby oferować potencjalnie 38,4 teraflopa, co jest niemal dwukrotnie więcej niż obecnie oferuje RX 6900 XT. To sprawia, że zastanawiamy się, czy te plotkowane specyfikacje są zawyżone, czy też rzeczywista wydajność będzie niższa. Dowiemy się tego w nadchodzących miesiącach.
Całkowita przepustowość pamięci w przypadku najwyższych modeli powinna wzrosnąć o 50% w porównaniu do RX 6950 XT. Ponownie, może to być więcej niż przewidywane 50%, ale oczekujemy, że AMD pozostanie przy standardowej pamięci GDDR6, a dostępność układów o prędkości 18 Gb/s wydaje się wystarczająco obfita. Rzeczywista przepustowość pamięci otrzyma wsparcie od pamięci Infinity Cache, która w większości modeli będzie mniejsza niż w RDNA 2. To może zostać zrównoważone przez większą przepustowość lub inne modyfikacje w projekcie karty.
AMD Radeon RX 7000 Oczekiwania
Podobnie jak w przypadku dwóch poprzednich generacji sprzętu AMD, firma celuje w przynajmniej 50% poprawę wydajności na wat w przypadku RDNA 3. Mimo że to wydaje się dość konkretnie określone, pozostawia to sporo miejsca na ewentualne zmiany. Na przykład RDNA 2 dostarczyło wydajność na poziomie o 50% lepszym niż RDNA.
AMD Radeon RX 6900 XT zużywa 308W mocy, podczas gdy osiąga 130 klatek na sekundę przy rozdzielczości 1080p (ultra), 106 klatek na sekundę przy rozdzielczości 1440p (ultra) i 63 klatki na sekundę przy rozdzielczości 4K (ultra). Układ z niższej klasy, RX 6700 XT, zużywa 215W i średnio osiąga 96 klatek na sekundę, 71 klatek na sekundę i 39 klatek na sekundę w tych samych rozdzielczościach. Natomiast RX 5700 XT zużywa 214W mocy i uzyskuje 74 klatki na sekundę, 53 klatki na sekundę i 29 klatek na sekundę przy tych samych rozdzielczościach.
Przeprowadźmy obliczenia: RX 6900 XT zapewnia poprawę wydajności na wat w zakresie od 22% do 50%, podczas gdy RX 6700 XT zapewnia jedynie poprawę od 29% do 34%. Jeśli uwzględnimy wszystkie inne karty graficzne z architektur RDNA i RDNA 2 jako punkty odniesienia, potencjalny zakres poprawy wydajności na wat stanie się jeszcze szerszy.
Najbardziej rozsądnym założeniem jest to, że najwyższy układ RDNA 3 dostarczy znaczący wzrost wydajności w porównaniu z obecnym najwyższym układem RDNA 2. Biorąc pod uwagę 50% wzrost przepustowości pamięci, wydaje się rozsądne oczekiwać podobnego lub nawet większego wzrostu wydajności obliczeniowej. Prawdopodobnie zobaczymy wyższe maksymalne zużycie energii dla najwyższego modelu, przypuszczalnie RX 7900 XTX. Modele z niższych kategorii mogą dostarczać większą wydajność niż karty z aktualnej generacji przy mniejszym zużyciu energii. Ostateczne korzyści będą zależały również od wybranej rozdzielczości i ustawień graficznych.
AMD również wspominało o niejasnych ulepszeniach architektury. Chociaż nie potwierdziło tego, spodziewamy się, że sprzęt do śledzenia promieni zostanie znacznie unowocześniony. Obecne układy RDNA 2 wykorzystują jednostki tekstur do pomocy w przeglądaniu struktury BVH (Bounding Volume Hierarchy), podczas gdy Nvidia i nawet Intel posiadają dedykowany sprzęt do BVH. Dodanie takiego sprzętu, wraz z drugą jednostką przecięcia promienia/trójkąta, mogłoby znacznie poprawić wydajność śledzenia promieni przez AMD. To także mogłoby znacznie przyczynić się do osiągnięcia wyniku wykazującego poprawę wydajności na wat większą niż 50%.
Architektura AMD RDNA 3: Układy wieloczipowe GPU
Jednym z najbardziej oczekiwanych nowości w architekturze AMD RDNA 3 są układy wieloczipowe GPU. W przeciwieństwie do tradycyjnego monolitycznego układu, gdzie całe GPU jest zintegrowane na jednym chipie, układy wieloczipowe składają się z mniejszych, niezależnych układów GPU, nazywanych „GPU chiplets”. Takie podejście wprowadza nową elastyczność i skalowalność projektowania.
AMD wydzieli część głównych bloków konstrukcyjnych, takich jak kontrolery pamięci i pamięć Infinity Cache, do oddzielnych „Memory Chiplet Die” (MCD) i „Graphics Chiplet Die” (GCD). Takie rozdzielenie ma na celu zoptymalizowanie wydajności pamięci oraz ułatwienie integracji nowych technologii i ulepszeń.
Architektura układów wieloczipowych pozwala na zwiększenie efektywności energetycznej i lepsze zarządzanie ciepłem, co może przyczynić się do osiągnięcia wyższej wydajności przy zachowaniu niższego zużycia energii. Choć specyfikacje i szczegóły wydajności RDNA 3 są nadal niejasne, oczekuje się, że ta nowa architektura przyniesie znaczące ulepszenia w porównaniu z poprzednimi generacjami AMD GPU.
Przechodzenie na układy wieloczipowe GPU przynosi kilka zalet. Po pierwsze, umożliwia to łatwiejsze i bardziej elastyczne zarządzanie produkcją. Wieloczipowe podejście pozwala na większą wydajność produkcji chipów, co może obniżyć koszty produkcji i dostawy. Po drugie, układy wieloczipowe pozwalają na lepsze zarządzanie energią i ciepłem. Poprzez rozdzielenie poszczególnych komponentów GPU na osobne chipy, można bardziej precyzyjnie zarządzać wydajnością i obciążeniem termicznym każdej części, co może wpłynąć na poprawę efektywności energetycznej i wydajności.
Jednakże, choć układy wieloczipowe przynoszą pewne korzyści, to również wiąże się z nowymi wyzwaniami projektowymi i implementacyjnymi. Integracja wielu chipów GPU w jedną jednostkę wymaga zaawansowanych technologii i zapewnienia odpowiedniej komunikacji między nimi. Ponadto, niektóre gry lub aplikacje mogą nie wykorzystać w pełni potencjału układów wieloczipowych, co może wpłynąć na ostateczną wydajność.
Obecnie projektowane GPU są monolityczne, co oznacza, że wszystko, co jest potrzebne do działania GPU, pochodzi z jednego kawałka krzemu. Z tego powodu w układach GPU zawarta jest duża redundancja, a chipy są sprzedawane w konfiguracjach „zebranych”. Na przykład, układ Navi 21 był używany w modelach 6950 XT, 6900 XT, 6800 XT i 6800, gdzie liczba jednostek obliczeniowych (CU) wahała się od 60 do 80.
Interesująco, układ Navi 21 miał także osiem interfejsów pamięci 32-bitowych, ale AMD nie wypuściło żadnych wariantów Navi 21 z mniejszą liczbą kanałów pamięci. To samo dotyczyło głównie Navi 22, Navi 23 i Navi 24 – rozmiary pamięci i pamięci cache wydają się były opcją „wszystko albo nic”. Być może spowodowane to było ograniczeniami projektowymi, chociaż układ Navi 22 był używany w modelu RX 6700 od Sapphire z interfejsem 160-bitowym zamiast pełnego 192-bitowego interfejsu.
Zgodnie z informacjami, w układach Navi 31 i 32 AMD wydzieli wszystkie bloki interfejsu pamięci i pamięci Infinity Cache z głównego układu i przeniesie je do oddzielnych układów. Każdy układ Memory Chiplet Die (MCD) będzie zawierał interfejs GDDR6 64-bitowy oraz 16 MB pamięci Infinity Cache. Co ciekawe, układy MCD będą miały możliwość wykorzystania technologii trójwymiarowego układania chipów (3D chip stacking) z dodatkowym układem 16 MB pamięci na wierzchu głównego MCD, co pozwoli na uzyskanie łącznie 16 MB lub 32 MB pamięci cache. Wszystko wskazuje na to, że układy MCD z 32 MB pamięci cache będą używane tylko w najwyższej klasie kart graficznych (RX 7900 XT lub inna nazwa), ale to może ulec zmianie w przyszłości. Połączenie między układami MCD a układami Graphics Chiplet Die (GCD) będzie odbywało się za pośrednictwem technologii AMD Infinity Fabric, która zostanie nieco zaktualizowana w porównaniu do poprzednich wersji używanych w procesorach Ryzen.
Rozdzielenie pamięci Infinity Cache oraz interfejsu pamięci GDDR6 niesie za sobą kilka wyraźnych korzyści. Gęstość tranzystorów najlepiej skaluje się w przypadku układów logicznych, mniej korzystnie w przypadku pamięci cache, a najgorzej w przypadku interfejsów analogowych (np. dla pamięci). Połączenia wewnętrzne Infinity Fabric na obu układach GCD i MCD nadal wymagają pewnej przestrzeni układu, ale ewentualne uszkodzenia kontrolerów pamięci lub bloków pamięci cache już nie stanowią problemu – po prostu zostają odrzucone.
Tymczasem, układy MCD zostaną wytworzone na istniejącym procesie N6 firmy TSMC, który jest tańszy od najnowocześniejszego N5 (choć N3 jest już w drodze), a rozmiar układu nie będzie nawet poważnym problemem. Angstronomics twierdzi, że układy MCD będą miały tylko około 38 mm kwadratowych, co oznacza, że wafel o średnicy 300 mm z procesem N6 może pomieścić około 1600 układów MCD, mniej więcej. Nie będzie żadnych realnych trudności w po prostu odrzuceniu każdego uszkodzonego chipa, zamiast martwić się o budowanie nadmiarowości.
Układy GCD dla Navi 31 i Navi 32 również staną się mniejsze, a na droższym węźle N5 może to być bardzo pomocne. AMD może wciąż wytworzyć około 180 większych układów GCD Navi 31 na wafel lub niemal 300 mniejszych układów GCD Navi 32. Firma może także nadal wykorzystać „zebrane” chipy z mniejszą liczbą jednostek obliczeniowych lub nawet układy MCD do tworzenia produktów niższej klasy.
Gdyby AMD zdecydowało się pozostać przy monolitycznych projektach, prawdopodobnie układ Navi 31 miałby rozmiar zbliżony do 550 mm kwadratowych i dostawałby być może 100 układów na wafel. Biorąc pod uwagę, że wafle N5 prawdopodobnie kosztują ponad dwukrotnie więcej niż N6, z perspektywy kosztów to powinno być łatwe osiągnięcie korzyści. To także daje AMD większą elastyczność w zakresie rozmiarów pamięci cache, przynajmniej w przypadku produktów z wyższej klasy. Stosowana pamięć cache jest obecnie tylko na układach MCDs, co pozwala na swobodne odprowadzenie ciepła z GCD do układu chłodzenia – to coś, z czym 3D V-cache zmagało się na procesorach CPU.
Architektura AMD RDNA 3: Główne ulepszenia
W architekturze RDNA 3, AMD wprowadzi także wiele innych zmian. Firma oświadczyła, że wprowadzi zrewidowaną jednostkę obliczeniową oraz zoptymalizowaną architekturę cieniowania, zmiany w jednostce obliczeniowej mogą obejmować usprawnienia w działaniu rdzenia GPU, co może przyczynić się do zwiększenia wydajności obliczeniowej i efektywności energetycznej. Zoptymalizowana architektura cieniowania może odnosić się do optymalizacji przepływu pracy i zarządzania shaderami, aby zapewnić bardziej efektywne przetwarzanie graficzne.
Jedną dość oczywistą zmianą dotyczącą shaderów GPU mogłoby być zmniejszenie sprzętu FP64 (Floating-Point 64-bit). W większości jest on obecny ze względów zgodności, ale zajmuje przestrzeń na chipie. Karty graficzne Nvidia dla konsumentów mają działkę FP32 wynoszącą 1/32 i utrzymują tę proporcję przez kilka generacji, podczas gdy AMD wybrało działkę FP32 wynoszącą 1/16.
Jednostki obliczeniowe (Compute Units – CUs) również zostaną przeprojektowane, a podejście wygląda podobnie do tego, co zrobiła Nvidia z architekturą Ampere. Oczekujemy, że RDNA 3 CUs będą miały dwukrotnie więcej jednostek FP32. To spowoduje ogromny wzrost teoretycznej mocy obliczeniowej, ponieważ AMD przejdzie z 80 jednostek RDNA 2 CUs i maksymalnie 5120 shaderów GPU na maksymalnie 96 jednostek RDNA 3 CUs z 12 288 shaderami GPU. Nawet jeśli rzeczywista korzyść nie będzie się skalować bezpośrednio z teoretycznej mocy obliczeniowej, to powinno to znacznie poprawić wydajność.
Zwiększenie liczby jednostek FP32 w jednostkach obliczeniowych RDNA 3 oznacza większą moc przetwarzania dla operacji zmiennoprzecinkowych, co może wpłynąć na wzrost wydajności w różnych zastosowaniach, w tym w grach i aplikacjach profesjonalnych. Wyższa liczba jednostek i shaderów GPU zapewni większą moc obliczeniową i potencjalnie pozwoli na bardziej zaawansowane efekty w grach, renderowanie grafiki w czasie rzeczywistym, jak również przyspieszenie obliczeń naukowych i innych zadań.
Już wspomnieliśmy, że spodziewamy się, że AMD będzie również dostosowywać i udoskonalać akceleratory promieniowania (Ray Accelerators). Dzielenie jednostek tekstur z układami do przechodzenia przez drzewa BVH mogło być w porządku dla pierwszej generacji sprzętu do promieniowania, ale druga generacja akceleratorów promieniowania musi być lepsza. Wydajność DXR była jednym z nielicznych słabych punktów w przypadku architektury RDNA 2, i choć jeszcze nie osiągnęliśmy punktu, w którym wydajność promieniowania przewyższa wydajność rasterizacji, dwa lata to wystarczająco dużo czasu, aby wdrożyć istotne uaktualnienia.
Niezwykle ważne jest, aby AMD skupiło się na optymalizacji i doskonaleniu akceleratorów promieniowania, aby poprawić wydajność ray tracingu na nowych kartach graficznych RDNA 3. Wydajność ray tracingu jest kluczowa dla zapewnienia bardziej realistycznych i zaawansowanych efektów światła, cieni i odbić w grach oraz w aplikacjach graficznych.
Zmiany w akceleratorach promieniowania mogą wpłynąć na całkowitą jakość wizualną w grach, zwłaszcza w scenach o dużej złożoności oświetleniowej i zjawiskach świetlnych. Poprawa wydajności DXR i optymalizacje wprowadzone w nowych akceleratorach promieniowania mogą pozwolić na bardziej płynną i realistyczną grafikę w czasie rzeczywistym.
Ogólnie oczekuje się, że optymalizacje i ulepszenia w architekturze RDNA 3 przyniosą znacznie wyższą wydajność przy podobnym rozmiarze chipa, nawet jeśli układ byłby wykonany na tym samym węźle procesowym co RDNA 2. To duża teza, a węzeł N5 firmy TSMC powinien zapewnić wzrost gęstości nawet o 1,8-krotnie. RDNA 3 może nawet osiągnąć taki wysoki cel, biorąc pod uwagę usunięcie interfejsów GDDR6 i pamięci cache z głównego układu GCD.
Zmiany w architekturze RDNA 3, takie jak wydzielenie interfejsów pamięci i pamięci cache na osobne układy MCDs oraz optymalizacje i ulepszenia w jednostkach obliczeniowych i akceleratorach promieniowania, mogą przyczynić się do bardziej efektywnego wykorzystania dostępnej przestrzeni na chipie. Dzięki temu AMD może uzyskać wyższą wydajność przy podobnym rozmiarze układu w porównaniu do RDNA 2.
Architektura AMD RDNA 3: Tensor Cores
Podczas naszej rozmowy z Samem Naffzigerem z AMD zapytaliśmy, czy zobaczymy w kartach graficznych dla użytkowników tensor cores lub ich odpowiedniki. W skrócie, tensor cores to jednostki obliczeniowe zoptymalizowane pod kątem dużej wydajności przepustowości, posiadające znacznie ograniczony zestaw instrukcji w porównaniu do shaderów GPU. Karty RTX firmy Nvidia wyposażone są w tensor cores do zastosowań takich jak DLSS (Deep Learning Super Sampling) oraz inne aplikacje związane z uczeniem maszynowym. Również firma Intel postąpiła podobnie, wprowadzając w architekturze Arc jednostki XMX (Xe Matrix eXtensions) wykorzystywane do XeSS (Xe Super Sampling) oraz innych oprogramowań związanych z głębokim uczeniem.
Firma AMD nie waha się dostarczać takiego sprzętu w swoich kartach graficznych, a ma już jednostki tensorowe w obecnych układach Instinct MI250X oraz w nadchodzących układach GPU dla centrów danych MI300. To właśnie tam większość aplikacji, które rzeczywiście skorzystają z tensor cores, jest aktualnie uruchamiana, a chociaż istnieje potencjalne zastosowanie tego typu sprzętu w kartach dla użytkowników, AMD wydaje się być zadowolone z pominięcia dodatkowego sprzętu do sztucznej inteligencji w tej chwili.
AMD Radeon RX 7000: Zasilanie
Zasada Moore’a głównie skupiała się na poprawie optymalnych gęstości tranzystorów przez zmniejszanie ich rozmiarów. Chociaż wciąż obserwujemy postęp, od dawna przekroczyliśmy punkt podwajania liczby tranzystorów co dwa lata. Wraz z tym nastąpił także dramatyczny spadek tempa poprawy efektywności energetycznej.
Kiedyś osiągano mniejsze tranzystory pracujące na wyższych taktowaniach przy niższych napięciach, co skutkowało mniejszym zużyciem energii. Obecnie otrzymujemy jedynie ogólne deklaracje o obniżeniu zużycia energii o 30% przy tej samej wydajności lub zwiększeniu wydajności o 15% przy tej samej mocy. Wykonanie odpowiednich obliczeń ujawnia, że te dwie rzeczy nie są równoważne.
Żadna firma nie jest odporna na skutki uboczne, a wszystkie sygnały wskazują na zwiększone zużycie energii przez układy GPU następnej generacji. Interfejs zasilania PCIe 5.0 oraz nadchodzące zasilacze, które go obsługują, mogą dostarczać do 600W za pośrednictwem pojedynczego złącza 16-pin, co sugeruje szerszy trend w branży związany z wyższą mocą układów GPU. Usłyszeliśmy wiele różnych plotek na temat serii RTX 4000 firmy Nvidia, które oscylują między 450W dla modelu 4090.
Jeszcze nie ma oficjalnych informacji na temat TBP (Typical Board Power) dla AMD RDNA 3, ale można założyć, że będą one wyższe niż w przypadku RDNA 2, jeśli taka będzie strategia firmy Nvidia. Sam Naffziger z AMD potwierdził to.
„To naprawdę podstawy fizyki napędzają ten proces,” wyjaśnił Naffziger. „Zapotrzebowanie na wydajność w grach i obliczeniach, jeśli cokolwiek, tylko przyspiesza, a jednocześnie technologia procesowa spowalnia znacznie i tempa poprawy. Dlatego poziomy mocy będą się po prostu zwiększać. Mamy jednak wieloletnią roadmapę znaczących udoskonaleń efektywności, aby zrównoważyć ten trend, ale tendencja jest obecna.”
AMD nadal twierdzi, że zwiększyła taktowanie z układami RDNA 3, zachowując jednocześnie efektywność energetyczną. AMD od dawna dyskutuje o swojej strategii „krzyżowego zapylania” zespołów projektowych CPU i GPU, przynosząc najlepsze technologie z obu dziedzin do każdego nowego projektu CPU i GPU. Nowe rdzenie GPU RDNA 3 mają być „intrinsically more power efficient” (wewnętrznie bardziej wydajne energetycznie), ale decyzja biznesowa wciąż musi zostać podjęta.
„Wydajność jest najważniejsza,” stwierdził Naffziger, „ale nawet jeśli nasze projekty są bardziej efektywne energetycznie, nie oznacza to, że nie zwiększamy poziomu mocy, jeśli konkurencja robi to samo. Po prostu będą musieli podnieść go znacznie wyżej niż my.”
Koniecznie sprawdźcie nasz specyficzny ranking kart graficznych, w którym znajdziecie najbardziej opłacalne karty graficzne. Naszym priorytetem była opłacalność, więc do stworzenia rankingu użyliśmy matematyki, aby wyliczyć stosunek wydajności do ceny. I tak właśnie macie możliwość wybrania kart graficznych, które są najbardziej opłacalne. Znajdziecie również kilka innych, ciekawych funkcji. Mamy tracker cen, alerty cenowe, porównywarkę kart graficznych oraz codzienne aktualizacje cen oraz pozycji w rankingu.