Nvidia Ada Lovelace i seria kart graficznych GeForce RTX 40X0: Szczegóły architektury
Dogłębna analiza nowej architektury Ada Lovelace przez Tomshardware.com
Spis treści
Architektura Ada firmy Nvidia i karty graficzne z serii GeForce RTX 40 rozpoczęły swoją sprzedaż 12 października 2022 roku, z początkiem od modelu GeForce RTX 4090. Kolejnym modelem był GeForce RTX 4080, który trafił na rynek miesiąc później, 16 listopada 2022 roku. Następnie, 5 stycznia 2023 roku, miała miejsce premiera modelu RTX 4070 Ti (wcześniej znany jako RTX 4080 12GB), a najnowszym modelem wprowadzonym na rynek był RTX 4070, który zadebiutował 13 kwietnia. To około dwóch lat po wprowadzeniu architektury Nvidia Ampere i zgodnie z harmonogramem, biorąc pod uwagę spowolnienie (lub jak kto woli, śmierć) prawa Moore’a. Jest to również doskonała wiadomość dla miłośników najlepszych kart graficznych, którzy potrzebowali nowej konkurencji.
Na początku 2022 roku, mieliśmy dość dużo informacji na temat tego, czego można się spodziewać. Obecnie karty są już w sprzedaży, a Nvidia potwierdziła specyfikacje wielu kart z serii RTX 40. Zebraliśmy wszystkie te informacje w jednym miejscu, aby przedstawić wszystko, co wiemy i czego możemy oczekiwać od architektury Ada firmy Nvidia oraz rodziny kart RTX 40.
Wciąż krążą plotki, głównie dotyczące przyszłych kart Ada Lovelace, takich jak plotkowany Titan RTX Ada / RTX 4090 Ti, a także niższe modele, takie jak RTX 4060 (RTX 4060 Ti recenzja) i RTX 4050. Niższe modele GPU już są dostępne w mobilnych rozwiązaniach z serii Nvidia RTX 40. Pomimo numerów modeli, mamy teraz dobrą wiedzę na temat tego, czego możemy się spodziewać od architektury Ada Lovelace. Dzięki dostępności GPU, zaktualizowaliśmy tutaj informacje, aby dokładnie przedstawić, czego można się spodziewać po nowej generacji GPU.
Pierwsza fala kart RTX 40-series dla komputerów stacjonarnych już została wprowadzona na rynek. Jeśli Nvidia będzie kontynuować podobny harmonogram wydawniczy jak w przeszłości, możemy oczekiwać, że reszta serii RTX 40 zostanie stopniowo wprowadzona w ciągu kolejnego roku. RTX 4060 Ti powinien trafić na rynek w maju, a modele alternatywne, takie jak RTX 4060 Ti 16GB i RTX 4060, pojawią się w lipcu. Wreszcie, możliwe jest również pojawienie się modelu 4050 w tym okresie letnim. Zacznijmy od ogólnego przeglądu specyfikacji i danych technicznych dla serii GPU Ada.
RTX 4090 | RTX 4080 | RTX 4070 Ti | RTX 4070 | RTX 4060 Ti | RTX 4060 | |
Architektura | Ada Lovelace | Ada Lovelace | Ada Lovelace | Ada Lovelace | Ada Lovelace | Ada Lovelace |
Taktowanie rdzenia | 2235 MHz | 2205 MHz | 2310 MHz | 1920 MHz | 2310 MHz | 1830 MHz |
Taktowanie boost | 2520 MHz | 2505 MHz | 2610 MHz | 2475 MHz | 2535 Mhz | 2460 MHz |
Taktowanie pamięci | 21200 MHz | 22400 MHz | 21000 MHz | 21000 MHz | 18000 MHz | 17000 MHz |
Rdzenie CUDA | 16384 | 9728 | 7680 | 5888 | 4352 | 3072 |
Ilość VRAM | 24 GB GDDR6X | 16 GB GDDR6X | 12 GB GDDR6X | 12 GB GDDR6X | 8 GB GDDR6 | 8 GB GDDR6 |
Szyna pamięci | 384-bit | 256-bit | 192-bit | 192-bit | 128-bit | 128-bit |
Pobór mocy | 450 W | 320 W | 285 W | 200 W | 160 W | 115 W |
Układ graficzny | AD102 | AD103 | AD104 | AD104 | AD106 | AD107 |
Litografia | 5 nm | 5 nm | 5 nm | 5 nm | 5 nm | 5 nm |
Wszystkie karty z wyjątkiem RTX 4050 są teraz oficjalne, a specyfikacje są w pełni dokładne. Istnieją plotki dotyczące RTX 4050, ale specyfikacje są bardziej domysłami opartymi na informacjach na temat mobilnego RTX 4050 i stacjonarnego RTX 4060. Innymi słowy, należy podchodzić z dużą dozą ostrożności do informacji dotyczących RTX 4090 Ti, Titan oraz RTX 4050, ponieważ są one bardziej spekulacją niż czymś konkretnym. Nvidia nie ujawniła oficjalnie nawet istnienia tych kart i nie zrobi tego aż do momentu, gdy będą bliżej daty premiery.
Oczywiście, istnieje wiele miejsca na szczycie dla przyszłej karty RTX 4090 Ti. Należy zauważyć, że maksymalna pamięć podręczna L2 jest zmniejszona w przypadku 4090 (dwanaście bloków po 6 MB zamiast dwunastu bloków po 16 MB), ROP-y są nieco ograniczone, a Nvidia z pewnością mogłaby zwiększyć taktowanie i pobór mocy… oraz cenę. [Westchnienie.] Chociaż krążą wiarygodne plotki o karcie Founders Edition o szerokości 4 slotów, obecnie nic nie jest oficjalne.
Wiemy, że Nvidia osiąga obecnie prędkości taktowania w zakresie od 2,5 do 2,6 GHz na kartach GPU z serii RTX 40, a oczekujemy podobnych lub nawet wyższych taktowań w przypadku przyszłych kart z tej linii. Jednak oficjalne specyfikacje i rzeczywiste taktowania nie zawsze są identyczne. Na przykład RTX 4070 deklaruje taktowanie podstawowe 2475 MHz, podczas gdy w testach karta RTX 4070 Founders Edition regularnie osiągała prędkości powyżej 2700 MHz. Nvidia z powodzeniem przeprowadziła również podkręcenie karty RTX 4090 do prędkości powyżej 3,0 GHz. Obecnie wstępnie szacujemy prędkość taktowania na poziomie 2,5 GHz dla nieoficjalnej karty GPU 4050.
Spośród sześciu (siedmiu, jeśli wliczymy RTX 4060 Ti 16GB jako oddzielną kartę) wydanych/ogłoszonych modeli, użyto pięciu różnych układów GPU, co stanowi zmianę w porównaniu do wcześniejszych premier. RTX 4090 wykorzystuje zdecydowanie ograniczoną implementację układu AD102 (89% rdzeni, 75% pamięci podręcznej). Natomiast RTX 4080 wykorzystuje „prawie kompletny” układ AD103 (95% rdzeni i całą pamięć podręczną), RTX 4070 Ti korzysta z w pełni aktywnego układu AD104, a RTX 4070 wykorzystuje 77% układu AD104. RTX 4060 Ti wykorzystuje większość układu AD106 (94%), podczas gdy RTX 4060 wykorzystuje cały układ AD107. Ponownie, możemy się spodziewać, że w pewnym momencie pojawią się warianty każdego GPU, zarówno z wykorzystaniem ograniczonej liczby rdzeni, jak i w pełni aktywnych.
Nvidia postawiła na dużą skalę w przypadku GPU AD102, które jest bardziej zbliżone pod względem rozmiaru i liczby tranzystorów do H100 niż GA102 do GA100. Szczerze mówiąc, to potężne GPU oferuje wydajność i cenę, która idzie w parze z jego potęgą. Zawiera znacznie więcej SM i związanych z nimi rdzeni niż jakiekolwiek GPU z serii Ampere, ma znacznie wyższe taktowania GPU i zawiera również wiele ulepszeń architekturalnych, które dalej zwiększają wydajność. Nvidia twierdzi, że RTX 4090 jest 2x–4x szybszy od poprzedniego RTX 3090 Ti, choć należy mieć pewne zastrzeżenia co do tych benchmarków.
Nasze testy wykazały, że wydajność wzrosła o około 60% w porównaniu do poprzedniej generacji RTX 3090 Ti. Dotyczy to rozdzielczości 4K i maksymalnych ustawień, bez korzystania z DLSS 2 lub DLSS 3. Jednak, jak zauważyliśmy w naszych recenzjach, chociaż DLSS 3 Generation może zwiększyć liczbę klatek na sekundę, nie jest to to samo co „rzeczywiste” klatki i zazwyczaj wprowadza opóźnienia, co oznacza, że odczuwalny jest wzrost wydajności rzędu 10-20% w stosunku do wydajności podstawowej. Warto również zauważyć, że jeśli obecnie korzystasz z procesora o bardziej umiarkowanej mocy, a nie z jednego z absolutnie najlepszych procesorów do gier, istnieje duże prawdopodobieństwo, że wydajność będzie ograniczona przez CPU nawet przy rozdzielczości 1440p na ustawieniach ultra z kartą 4090. Prawdopodobnie konieczna będzie większa modernizacja systemu, aby w pełni wykorzystać potencjał najszybszych GPU z serii Ada.
TSMC 4n: „4nm Nvidia”
Nvidia wykorzystuje proces TSMC 4N, czyli „4nm Nvidia”, we wszystkich GPU Ada, począwszy od dużego układu AD102 i Hoppera H100, a skończywszy na najmniejszym układzie AD107. Węzeł 4N TSMC to zmodyfikowana i udoskonalona wersja węzła N5, który szeroko stosowany jest w innych układach, a także jest używany w procesorach AMD Zen 4 i RDNA 3. Nie sądzimy, że Samsung będzie miał przekonującą alternatywę, która nie wymagałaby poważnego przeprojektowania podstawowej architektury, dlatego cała rodzina będzie korzystać z tego samego węzła technologicznego.
Węzeł technologiczny TSMC N4 oferuje kilka istotnych ulepszeń w porównaniu do węzła Samsung 8N („8nm Nvidia”), który był wykorzystywany w architekturze Ampere. Konkretnie, N4 posiada znacznie mniejsze elementy, co oznacza, że Nvidia może umieścić znacznie więcej tranzystorów na podobnej lub mniejszej powierzchni. Na przykład układ AD102 zawiera 76,3 miliarda tranzystorów na powierzchni matrycy o rozmiarze 608 mm^2, co daje średnio około 125 milionów tranzystorów na milimetr kwadratowy (MTrans/mm^2). Układy AD103/106/107 mają zbliżoną gęstość, wynoszącą około 119-121 MTrans/mm^2, natomiast układ AD104 jest najmniej gęsty, osiągając „tylko” 109 MTrans/mm^2. W porównaniu, układy Ampere GA102/104/106 miały gęstość tranzystorów wynoszącą około 43-45 MTrans/mm^2.
Proces technologiczny N4 pozwala również na obniżenie zużycia energii i poprawę efektywności. Tak, RTX 4090 ma ogromny budżet mocy wynoszący 450W TGP (całkowita moc graficzna), ale w teście 10 gier średnia wynosiła 390W przy ustawieniach 4K ultra. Najbardziej wymagające gry mogły pobierać 450W, podczas gdy inne potrzebowały jedynie około 300-325 watów. To najgorszy przykład w przypadku Ada, RTX 4080, 4070 Ti i 4070 znajdują się na czele naszej metryki wydajności, jeśli chodzi o ilość klatek na sekundę w stosunku do mocy zużywanej przez kartę (FPS per watt).
Na koniec, jak wspomniano wcześniej, prędkości taktowania w przypadku Ada są znacznie wyższe niż w przypadku Ampere. Oficjalne taktowania wzrosły z zakresu 1665-1860 MHz w przypadku Ampere (w zależności od modelu) do zakresu 2475-2610 MHz w przypadku Ada. To średnio o 40-50 procent wyższe taktowania, chociaż rzeczywiste taktowania zarówno dla Ampere, jak i Ada, zazwyczaj są o około 200 MHz wyższe od oficjalnych taktowań podczas trybu boost.
Ada przynosi ogromny wzrost wydajności obliczeniowej
Po przedstawieniu ogólnego przeglądu, przejdźmy do szczegółów. Najbardziej zauważalną zmianą w kartach GPU Ada będzie liczba jednostek strumieniowych (SMs) w porównaniu do obecnej generacji Ampere. W najwyższej klasie kart, AD102 może zawierać o 71% więcej jednostek strumieniowych niż GA102. Nawet gdyby żadna inna cecha architektury nie uległa znaczącej zmianie, można oczekiwać ogromnego wzrostu wydajności dzięki zwiększeniu liczby jednostek strumieniowych.
To dotyczy nie tylko grafiki, ale także innych elementów. Większość obliczeń nie uległa zmianie w porównaniu do Ampere, chociaż jednostki Tensor obsługują teraz FP8 (z uwzględnieniem rzadkości), co potencjalnie podwaja wydajność FP16. Każda jednostka Tensora 4. generacji może wykonać 256 obliczeń FP16 na cykl zegara, a przy uwzględnieniu rzadkości można to podwoić, a następnie podwoić jeszcze raz w przypadku FP8 i rzadkości. Teoretyczna wydajność obliczeniowa głębokiego uczenia/maszynowego dla RTX 4090 wynosi do 661 teraflops w FP16 i 1,321 teraflops w FP8. W pełni aktywny układ AD102 osiągnąłby 1,4 petaflopsa przy podobnych taktowaniach.
W porównaniu, pełny układ GA102 w RTX 3090 Ti osiąga maksymalnie około 321 teraflopsów w FP16 (ponownie, przy użyciu funkcji rzadkości Nvidia). Oznacza to, że RTX 4090 oferuje teoretyczny wzrost wydajności o 107% na podstawie liczby rdzeni i taktowania. Ten sam teoretyczny wzrost wydajności dotyczy również sprzętu do cieniowania i śledzenia promieni, z tą różnicą, że one również uległy zmianie.
Jednostki cieniowania GPU będą miały nową funkcję Shader Execution Reordering (SER), której Nvidia twierdzi, że poprawi ogólną wydajność o 25%, a operacje śledzenia promieni mogą być nawet do 200% bardziej efektywne. Niestety, obsługa SER będzie wymagać od deweloperów korzystania z własnych rozszerzeń Nvidia, dlatego istniejące gry niekoniecznie skorzystają z tej funkcji.
W międzyczasie, jednostki RT udoskonaliły sprzętowy proces przecięcia promienia/trójkąta (przynajmniej przepustowość na jednostkę), a także wprowadzono kilka nowych trików. Silnik Opacity Micro Meshes (OMM) umożliwia znacznie szybsze śledzenie promieni dla przezroczystych powierzchni, takich jak liście, cząstki czy ogrodzenia. Z kolei silnik Displaced Micro-Mesh (DMM) optymalizuje generowanie struktury Bounding Volume Hierarchy (BVH), a Nvidia twierdzi, że może tworzyć BVH nawet do 10 razy szybciej, przy użyciu o 20 razy mniejszej (5%) pamięci na przechowywanie BVH. Ponownie, konieczne jest, aby deweloperzy wykorzystali te nowe funkcje, więc istniejące gry wykorzystujące śledzenie promieni nie skorzystają z tych ulepszeń bez odpowiedniej łatki.
DMM – Displaced Micro-Meshes
Trzecia generacja rdzenia RT przyspiesza najbardziej złożone operacje matematyczne związane z ray tracingiem w czasie rzeczywistym, w tym przejście przez hierarchię objętości otaczających (BVH). Silnik przemieszczania mikrosiatek (Displaced Micro-Mesh Engine) to rewolucyjna funkcja wprowadzona w ramach nowej trzeciej generacji rdzenia RT. Podobnie jak cieniowanie siatek (mesh shaders) i teselacja miały głęboki wpływ na poprawę wydajności związanej z bardziej złożoną geometrią rastrową, pozwalając twórcom gier znacznie zwiększyć złożoność geometryczną; metoda DMMs (Displaced Micro-Meshes) służy do zmniejszenia złożoności struktury danych hierarchii objętości otaczających (BVH), która jest używana do określania punktów przecięcia promieni z geometrią. Wcześniej BVH musiało uwzględniać nawet najmniejsze szczegóły, aby poprawnie określić miejsce przecięcia. Architektura ray tracingu w Ada otrzymuje również znaczną poprawę wydajności dzięki funkcji Shader Execution Reordering (SER), która jest zdefiniowana oprogramowaniem i wymaga świadomości ze strony silników gier, aby pomóc GPU w reorganizacji i optymalizacji wątków pracujących związanych z ray tracingiem.
Teraz BVH nie musi zawierać danych dla każdego pojedynczego trójkąta na obiekcie, ale może reprezentować obiekty o złożonej geometrii jako uproszczoną siatkę bazową trójkątów, co znacznie upraszcza strukturę danych BVH. Prostsza BVH oznacza mniejsze zużycie pamięci i znaczne zmniejszenie obciążenia procesora CPU związanego z ray tracingiem, ponieważ CPU musi generować mniejszą strukturę. W starszych rdzeniach RT „Ampere” i „Turing” każdy trójkąt na obiekcie musiał być próbkowany z dużym nakładem, aby rdzeń RT mógł precyzyjnie obliczyć przecięcie promienia z każdym trójkątem. W przypadku Ada, dzięki uproszczonej BVH oraz mapom przemieszczeń, można przekazać rdzeniowi RT, który samodzielnie potrafi określić dokładne miejsce przecięcia. NVIDIA zaobserwowała kompresję liczby trójkątów w zakresie od 11:1 do 28:1. Powoduje to zmniejszenie czasu kompilacji BVH o 7,6-krotnie do ponad 15-krotnie w porównaniu do starszych rdzeni RT oraz zmniejszenie zapotrzebowania na pamięć o współczynniku od 6,5 do 20 razy. DMMs mogą zmniejszyć wykorzystanie przepustowości dysku i pamięci, wykorzystanie magistrali PCIe, a także obciążenie procesora CPU. NVIDIA współpracowała z firmami Simplygon i Adobe, aby dodać wsparcie dla DMM w ich narzędziach.
OMM – Opacity Micro Meshes
Opacity Micro Meshes (OMM) to nowa funkcja wprowadzona wraz z Ada, która poprawia wydajność rasteruzacji, zwłaszcza w przypadku obiektów posiadających alfa (dane o przezroczystości). Większość obiektów o niskim priorytecie w scenie 3D, takich jak liście na drzewie, to w zasadzie prostokąty z teksturami na liściach, gdzie przezroczystość (alfa) tworzy kształt liścia. Rdzenie RT mają trudności z przecinaniem promieni z takimi obiektami, ponieważ nie mają one rzeczywiście kształtu, który wydaje się widoczny (są to po prostu prostokąty z teksturami, które dają iluzję kształtu). W przypadku poprzedniej generacji rdzeni RT konieczne było wielokrotne oddziaływanie z etapem renderowania, aby ustalić kształt przezroczystego obiektu, ponieważ nie mogły one samodzielnie testować alfy.
Ten problem został rozwiązany dzięki zastosowaniu OMM (Opacity Micro Meshes). Podobnie jak DMM (Displaced Micro-Meshes) upraszcza geometrię, tworząc siatki z mikrotrójkątów, tak samo OMM tworzy siatki prostokątnych tekstur, które są zgodne z obszarami tekstur, które nie są przezroczyste. Dzięki temu rdzeń RT lepiej rozumie geometrię obiektu i może poprawnie obliczać przecięcia promieni. Ma to również znaczący wpływ na wydajność cieniowania w aplikacjach, które nie korzystają z ray tracingu. Praktyczne zastosowania OMM nie dotyczą tylko obiektów o niskim priorytecie, takich jak roślinność, ale także efektów dymu i lokalnej mgły. Tradycyjnie stosowano wiele nakładających się tekstur w takich efektach, co prowadziło do nadmiernego rysowania, ponieważ wszystkie tekstury musiały być w pełni przetwarzane przez shadery. Teraz wykonuje się tylko piksele nieprzezroczyste – OMM zapewnia przyspieszenie o 30% dla wypełniania bufora graficznego oraz wpływ na częstotliwość klatek wynoszący 10%.
Dzięki funkcji OMM w architekturze Ada, NVIDIA radzi sobie z tym ograniczeniem. OMM pozwala na efektywne przedstawienie tych obiektów o niskim priorytecie poprzez podzielenie ich na mniejsze mikrosiatki, które stanowią uproszczoną geometrię, przechwytującą informacje o kształcie i teksturze. Te mikrosiatki są następnie renderowane za pomocą tradycyjnych technik renderowania, znacznie zmniejszając złożoność dla rdzeni RT. Rdzenie RT mogą teraz bardziej wydajnie przecinać promienie z uproszczonymi mikrosiatkami, poprawiając wydajność w renderowaniu scen z obiektami transparentnymi. Redukuje to potrzebę wielokrotnych interakcji z etapem renderowania w celu określenia kształtu obiektu, ponieważ uproszczone mikrosiatki już zawierają niezbędne informacje.
W sumie te ulepszenia architektoniczne powinny umożliwić kartom Ada Lovelace ogromny skok wydajnościowy w porównaniu do poprzedniej generacji. Jednak to będzie zależało od deweloperów, czy włączą większość z tych funkcji, dlatego ich przyjęcie może być dość ograniczone.
Ada Lovelace ROP’sy (raster operation pipelines)
Liczba jednostek ROP (Raster Operations Pipeline) w przypadku Ada znacznie się zwiększa w niektórych przypadkach, zwłaszcza w przypadku najwyższego modelu (na razie) RTX 4090. Podobnie jak w przypadku Ampere, Nvidia łączy jednostki ROP z jednostkami GPC (Graphics Processing Clusters), ale niektóre z nich mogą być wyłączone. Zazwyczaj każdy GPC posiada 16 jednostek ROP.
Układ AD102 ma maksymalnie 144 jednostki strumieniowe (Streaming Multiprocessor) podzielone na 12 jednostek GPC (Graphics Processing Clusters), z których każda zawiera 12 jednostek SM. To daje maksymalnie 192 jednostki ROP (Raster Operations Pipeline), chociaż ostateczna liczba w przypadku RTX 4090 wynosi 11 jednostek GPC i 176 jednostek ROP. RTX 4080 posiada siedem jednostek GPC, tak jak GA102, choć w ciekawej zmianie jeden z klastrów GPC zawiera tylko 8 jednostek SM, podczas gdy pozostałe sześć ma maksymalnie 12 jednostek SM. Bez względu na to, wszystkie siedem jednostek GPC jest włączonych w RTX 4080, a karta ta posiada 112 jednostek ROP. Układ AD104 w RTX 4070 Ti i 4070 wykorzystuje pięć jednostek GPC, z których każda ma 12 jednostek SM, co daje łącznie 80 jednostek ROP.
Podsystem pamięci
W zeszłym roku firma Micron ogłosiła, że posiada plany dotyczące pamięci GDDR6X o prędkościach sięgających 24 Gb/s. Najnowszy model RTX 3090 Ti wykorzystuje pamięć o prędkości 21 Gb/s, a obecnie Nvidia jest jedyną firmą, która używa pamięci GDDR6X. To od razu rodzi pytanie, co będzie wykorzystywać pamięć GDDR6X o prędkości 24 Gb/s, a jedyną rozsądną odpowiedzią wydaje się być Nvidia Ada. Niższe modele GPU są bardziej skłonne do korzystania z tradycyjnej pamięci GDDR6, która osiąga maksymalnie 20 Gb/s i jest używana w kartach AMD RX 7900 XTX/XT.
Oficjalnie, karty RTX 4090, 4070 Ti i 4070 korzystają z układów o pojemności 2 GB i prędkości 21 Gb/s. Wyjątkiem jest karta RTX 4080, która wykorzystuje układy o pojemności 2 GB i prędkości 22,4 Gb/s. Jednakże, firma Micron nie produkuje układów o prędkości 22,4 Gb/s, więc w rzeczywistości są to układy o prędkości 24 Gb/s, które są taktowane bardziej konserwatywnie. Anegdotycznie, w naszych rozbiórkach kilku kart RTX serii 40, zauważyliśmy, że niektóre karty oznaczone jako „21 Gb/s” posiadają pamięć, która pracuje chłodniej i lepiej podkręca się, osiągając prędkość nawet 25 Gb/s. Przypuszczamy, że firma Micron po prostu obniża specyfikację niektórych układów, a obecnie wydajność układów o prędkości 24 Gb/s jest bardzo dobra.
Również w przypadku kart graficznych istnieje potrzeba proporcjonalnego skalowania mocy obliczeniowej i przepustowości w celu osiągnięcia deklarowanej wydajności. Fakt, że RTX 4090 ma taką samą maksymalną przepustowość jak RTX 3090 Ti, stanowi pewien problem. RTX 3090 Ti ma o 12% więcej mocy obliczeniowej niż RTX 3090, a wyższe taktowanie pamięci zapewnia dodatkowe 8% przepustowości. Na podstawie powyższych szczegółów dotyczących mocy obliczeniowej, pojawia się ogromna rozbieżność. RTX 4090 ma około dwukrotnie większą moc obliczeniową niż RTX 3090 Ti, ale oferuje tę samą przepustowość 1008 GB/s – czyżby dla przyszłego RTX 4090 Ti planowano osiągnąć 24 Gb/s przepustowości?
Istnieje dużo większy potencjał wzrostu przepustowości w przypadku niższych modeli GPU, zakładając, że zużycie energii przez pamięć GDDR6X pozostanie pod kontrolą. Obecne modele RTX 3050 do RTX 3070 korzystają z pamięci GDDR6 o taktowaniu 14-15 Gb/s. Wiemy już, że dostępna jest pamięć GDDR6 o taktowaniu 20 Gb/s, więc hipotetyczne RTX 4050 z pamięcią GDDR6 o taktowaniu 18 Gb/s powinno bez problemu sprostać wzrostowi mocy obliczeniowej GPU. Jeśli Nvidia nadal potrzebuje większej przepustowości, może również skorzystać z pamięci GDDR6X w niższych modelach GPU.
Punkt kluczowy polega na tym, że Nvidia nie potrzebuje ogromnego wzrostu samej przepustowości pamięci, ponieważ zamiast tego przeprojektowała architekturę, podobnie jak AMD w przypadku RDNA 2 w porównaniu do oryginalnej architektury RDNA. Konkretnie, Nvidia zwiększa ilość pamięci podręcznej L2 w celu zmniejszenia obciążenia na podsystem pamięciowego.
Ada stawia na L2 Cache
Jednym ze skutecznych sposobów redukcji potrzeby większej przepustowości surowej pamięci jest zastosowanie większej ilości pamięci podręcznej na układzie scalonym. Większa pamięć podręczna oznacza większą ilość trafień w pamięć podręczną, a każde trafienie oznacza, że GPU nie musi pobierać danych z pamięci GDDR6/GDDR6X. Duża pamięć podręczna może być szczególnie pomocna w przypadku wydajności w grach. Infinity Cache w układach RDNA 2 firmy AMD pozwolił osiągnąć więcej przy mniejszej przepustowości surowej, a pamięć L2 w układach Nvidia Ada pokazuje, że Nvidia zastosowała podobne podejście.
AMD stosuje ogromną pamięć podręczną L3 o pojemności do 128 MB w układzie Navi 21, 96 MB w przypadku Navi 22, 32 MB w przypadku Navi 23 oraz zaledwie 16 MB w przypadku Navi 24. AMD posiada również 96 MB pamięci L3 w nowym układzie Navi 31. Zaskakująco nawet mniejsza pamięć podręczna o pojemności 16 MB przynosi znaczne korzyści dla podsystemu pamięciowego. Nie uważamy, że karta Radeon RX 6500 XT jest ogólnie doskonała, ale praktycznie dorównuje kartom, które mają niemal dwukrotnie większą przepustowość pamięci.
Architektura Ada łączy do 8 MB pamięci podręcznej L2 z każdym kontrolerem pamięci 32-bitowym, lub 16 MB na kontroler 64-bitowy. Oznacza to, że karty z interfejsem pamięci 128-bitowym otrzymują łącznie 32 MB pamięci podręcznej L2, a karta z interfejsem 384-bitowym na układzie AD102 ma do 96 MB pamięci podręcznej L2. Jednak część bloków pamięci podręcznej L2 może zostać wyłączona, dlatego RTX 4090 ma tylko 72 MB pamięci podręcznej L2 (dwanaście bloków po 6 MB zamiast 8 MB), a niektóre inne modele Ada prawdopodobnie przyjmą podobne podejście.
Podczas gdy ilość pamięci podręcznej L2 w przypadku Ada może być mniejsza niż w przypadku pamięci Infinity Cache w architekturze RDNA 2 firmy AMD, warto pamiętać, że nie znamy jeszcze opóźnień ani innych aspektów projektu. Pamięć podręczna L2 zazwyczaj ma niższe opóźnienia niż pamięć podręczna L3, dlatego nieco mniejsza pamięć podręczna L2 może wciąż być konkurencyjna wobec większej, ale wolniejszej pamięci podręcznej L3. Jak widzieliśmy w przypadku układów RDNA 2, nawet 16 MB lub 32 MB pamięci Infinity Cache miało duże znaczenie dla wydajności.
Jeśli weźmiemy za przykład AMD RX 6700 XT, to można zauważyć, że ma on około 35% więcej mocy obliczeniowej w porównaniu do poprzedniej generacji RX 5700 XT. Wydajność w naszej hierarchii testów GPU wzrosła o około 32% w przypadku ustawień 1440p ultra, co oznacza, że wydajność ogólna skaluje się w zasadzie w zgodzie z mocą obliczeniową. Jednak RX 6700 XT posiada interfejs 192-bitowy i tylko 384 GB/s przepustowości, co stanowi 14% mniej niż 448 GB/s w przypadku RX 5700 XT. Oznacza to, że duża pamięć Infinity Cache dała AMD co najmniej 50% wzrost efektywnej przepustowości.
Ogólnie rzecz biorąc, wygląda na to, że Nvidia osiąga podobne rezultaty z Ada, a nawet bez szerszych interfejsów pamięci, układy Ada powinny mieć wystarczającą ilość efektywnej przepustowości. Warto również wspomnieć, że techniki kompresji pamięci Nvidia w poprzednich architekturach udowodniły swoją skuteczność, więc nieco mniejsze pamięci podręczne w porównaniu do AMD mogą nie mieć większego znaczenia.
Seria RTX 40X0 dostaje DLSS 3 Frame Generation
Jednym z ważnych ulepszeń dotyczących serii RTX 40 i architektury Ada Lovelace jest DLSS 3, który będzie działać tylko z kartami graficznymi serii RTX 40. Podczas gdy DLSS 1 i DLSS 2 działają zarówno na kartach serii RTX 20, jak i 30, i będą również działać na GPU Ada, DLSS 3 wprowadza fundamentalne zmiany w algorytmie i wydaje się wymagać nowych aktualizacji architektury.
W algorytmie DLSS 3 wejścia są w większości takie same jak wcześniej, ale teraz istnieje zaktualizowany Akcelerator Optical Flow (OFA), który używa dwóch poprzednich klatek i generuje dodatkowe wektory ruchu, które mogą być następnie przekazywane do jednostki Generacji Optycznej Wieloklatkowej. W połączeniu z trybem wydajnościowym skalowania DLSS, Generacja Klatek oznacza, że GPU potencjalnie musi renderować tylko 1/8 pikseli, które są przesyłane na ekran.
Przy okazji, OFA nie jest nowością w przypadku Ada. Turing i Ampere również miały blok OFA o stałej funkcji, tylko nie był on tak wydajny ani tak zaawansowany. Typowe zastosowania OFA w przeszłości obejmowały redukcję opóźnień w rzeczywistości rozszerzonej i wirtualnej, poprawę płynności odtwarzania wideo, zwiększenie efektywności kompresji wideo oraz umożliwienie stabilizacji wideo. Było ono również wykorzystywane w nawigacji samochodowej i robotyce, a także w analizie i zrozumieniu wideo.
W przypadku generacji Ampere, OFA został ulepszony do jednostki o stałej funkcji o wydajności 126 teraops (INT8), a teraz Ada zwiększa wydajność OFA do 305 teraops. Dodatkowa wydajność i inne usprawnienia umożliwiają tworzenie pola przepływu optycznego, które jest częścią Generacji Klatek w DLSS 3. Chociaż obecnie wyższa wydajność i możliwości Ada OFA są wymagane do działania DLSS 3, istnieje pewien margines elastyczności. Bryan Catanzaro, wiceprezes ds. stosowanej nauki głębokiego uczenia w Nvidia, napisał na Twitterze, że teoretycznie możliwe jest, że DLSS 3 w końcu będzie działać na układach Ampere. Jednak prawdopodobnie działałoby to na niższych poziomach jakości i wydajności, i może się nigdy nie wydarzyć.
Po zapoznaniu się z działaniem DLSS 3 mogę stwierdzić, że nie jest ono tak niesamowite, jak twierdzi Nvidia. Ponieważ obliczane klatki nie uwzględniają dodatkowych danych wprowadzanych przez użytkownika, a także ze względu na dodatkowe dwie klatki opóźnienia (w stosunku do generowanej liczby klatek), DLSS 3 może wyglądać lepiej niż się czuje. Weźmy na przykład grę taką jak A Plague Tale: Requiem działającą z 100 klatkami na sekundę przy skalowaniu DLSS 2, a Generacja Klatek może zwiększyć tę liczbę do 140-150 klatek na sekundę… ale według naszego zdania odczucia będą raczej na poziomie 110-120 klatek na sekundę w najlepszym przypadku. Przy niższej liczbie klatek przed Generacją Klatek, na przykład 30 klatek na sekundę, można otrzymać podwojenie wydajności do 60 klatek na sekundę, ale wciąż będzie się to odczuwać jak 30 klatek na sekundę.
Aktualnie DLSS 3 wymaga kart serii RTX 40 do działania, przynajmniej przy włączonej Generacji Klatek. Będzie to dodatkowa opcja, którą użytkownicy będą mogli wybrać, a bez niej DLSS 3 nadal obsługuje podstawowy algorytm skalowania DLSS 2 i również wymaga, aby deweloperzy używali Nvidia Reflex. Deweloperzy, którzy wybiorą wsparcie dla DLSS 3, będą obsługiwali karty serii RTX 40, jak również poprzednie karty z serii RTX.
Ada dostaje enkoder AV1, razy dwa
Karty graficzne Nvidia GeForce RTX 4090, 4080 i 4070 Ti będą wyposażone w dwa jednostki sprzętowe ósmej generacji Nvidia Encoder (NVENC). W przypadku modeli RTX 4070 i niższych, dostępna będzie tylko jedna jednostka NVENC. Będą one również obsługiwać kodowanie AV1, podobnie jak Intel Arc — z tym, że jest ich dwie zamiast jednej.
Kodowanie AV1 według Nvidia poprawia wydajność o 40%, ale wydaje się, że porównuje to z H.264 (jest podobne do HEVC/H.265 pod względem bitrate’ów i wydajności). Oznacza to, że wszystkie transmisje na żywo obsługujące ten kodek będą wyglądały, jakby miały o 40% wyższy bitrate niż obecne strumienie H.264. Oczywiście, usługa streamingowa musi obsługiwać AV1, aby to miało znaczenie.
Dwie jednostki kodera mogą podzielić między sobą pracę, co potencjalnie podwaja wydajność kodowania dla dowolnego obciążenia, nawet jeśli GPU koduje tylko jeden strumień. Przynajmniej tak teoretycznie; w praktyce nie zaobserwowaliśmy większych zmian w prędkości kodowania przy użyciu ffmpeg w porównaniu do poprzednich prędkości NVENC. Edytory wideo mogą skorzystać z wzrostu wydajności, a Nvidia współpracowała z takimi programami jak DaVinci Resolve, Handbrake, Voukoder i Jianying, aby umożliwić obsługę tej funkcji.
GeForce Experience i ShadowPlay również będą korzystać z nowego sprzętu, umożliwiając graczom rejestrowanie rozgrywki w rozdzielczości do 8K i 60 kl./s w technologii HDR. Idealne dla tych 0,01% osób, które mogą oglądać natywne treści w rozdzielczości 8K! Ponadto, jednostki NVENC nadal świetnie radzą sobie z kodowaniem w formatach H.264, HEVC i innych.
Zmniejszony pobór prądu
Wczesne doniesienia o zużyciu mocy na poziomie 600W i wyższym dla Ada wydają się być głównie nieuzasadnione, przynajmniej jeśli chodzi o ogłoszone modele Founders Edition. Faktycznie, po przetestowaniu sześciu różnych kart RTX 4090, nawet przy ręcznym podkręcaniu nie przekraczaliśmy konsekwentnie 600W. RTX 4090 ma tę samą wartość TGP (Total Graphics Power) na poziomie 450W, jak w przypadku poprzedniego modelu RTX 3090 Ti, podczas gdy RTX 4080 obniża to do zaledwie 320W, RTX 4070 Ti ma TGP wynoszące 285W, a RTX 4070 osiąga wartość 200W. Oczywiście, są to wartości dla referencyjnych modeli Founders Edition.
Jak już zauważyliśmy w przypadku RTX 3090 Ti i innych kart Ampere, niektórzy partnerzy AIB chętnie akceptują znacznie wyższe zużycie energii w dążeniu do uzyskania każdej możliwej jednostki wydajności. Karty RTX 4090 o niestandardowym projekcie, które pobierają nawet 600W, z pewnością nie są wykluczone, a przyszły model RTX 4090 Ti mógłby podnieść to jeszcze wyżej.
To wszystko ma związek z końcem skalowania Dennarda, równocześnie ze śmiercią Prawa Moore’a. W skrócie, skalowanie Dennarda – zwane również skalowaniem MOSFET – obserwowało, że z każdą kolejną generacją można było zmniejszyć wymiary o około 30%. Dzięki temu całkowita powierzchnia zmniejszała się o 50% (ze skalowaniem zarówno w długość, jak i szerokość), napięcie spadało podobnie 30%, a opóźnienia w obwodach również zmniejszały się o 30%. Ponadto, częstotliwość pracy wzrastała o około 40%, a całkowite zużycie energii zmniejszało się o 50%.
Jeśli to wszystko brzmi zbyt pięknie, aby mogło być prawdziwe, to dlatego, że skalowanie Dennarda praktycznie zakończyło się około 2007 roku. Podobnie jak Prawo Moore’a, nie zawiodło całkowicie, ale zyski stały się znacznie mniej widoczne. Prędkości zegarowe w układach scalonych wzrosły jedynie z maksymalnych około 3,7 GHz w 2004 roku z procesorem Pentium 4 Extreme Edition do dzisiejszego maksimum 5,5 GHz w modelu Core i9-12900KS. To nadal niemal 50% wzrostu częstotliwości, ale osiągnięto go przez sześć (lub więcej, w zależności od sposobu liczenia) generacji ulepszeń procesu technologicznego. Innymi słowy, gdyby nie śmierć skalowania Dennarda, nowoczesne procesory mogłyby osiągać częstotliwości nawet 28 GHz.
Nie tylko skalowanie częstotliwości przestało działać, ale także skalowanie napięcia i mocy. Dzisiaj nowa technologia procesu może poprawić gęstość tranzystorów, ale trzeba znaleźć równowagę między napięciami, a częstotliwościami. Jeśli chcesz, aby układ był dwukrotnie szybszy, możliwe, że będziesz musiał użyć prawie dwukrotnie większej mocy. Alternatywnie, można zbudować bardziej wydajny układ, ale nie będzie on szybszy. Nvidia zdaje się dążyć do uzyskania większej wydajności w przypadku Ada, choć nie oznacza to, że zupełnie zignorowano kwestie efektywności.
Przyjrzyjmy się na przykładzie karty RTX 4070 Ti. Nasze testy pokazują, że jest ona niemal na poziomie poprzedniej generacji karty RTX 3090 Ti pod względem wydajności, jednocześnie zużywając o 37% mniej energii. W niektórych przypadkach, jak w przypadku DLSS 3 i intensywnych obciążeń ray tracingiem, może nawet podwoić wydajność przy niższym zużyciu energii. Natomiast karta RTX 4070 jest najbardziej wydajną kartą graficzną, jaką testowaliśmy do tej pory.
Seria RTX 40X0 – ceny
Koszt kart RTX 40-serii będzie zależał od tego, ile Nvidia i sprzedawcy będą w stanie na nich zarobić. Nvidia wprowadziła serię Ampere z określonymi modelami finansowymi, które okazały się zupełnie niewłaściwe w dobie pandemii Covid-19. Ceny w rzeczywistości znacznie wzrosły, a spekulanci czerpali zyski, i to jeszcze przed tym, jak górnicy kryptowalut zaczęli płacić dwu- lub nawet trzykrotnie wyższe ceny niż oficjalnie zalecane.
Dobrą wiadomością jest, że ceny kart graficznych obecnie są niższe, a wydobycie Ethereum zostało zakończone. To z kolei całkowicie zabiło opłacalność górnictwa GPU, ponieważ większość kart teraz kosztuje więcej w eksploatacji niż jest w stanie zarobić. To wszystko brzmi dobrze, ale niestety nie gwarantuje rozsądnych cen.
Gdy masz dużo istniejących kart do sprzedania, co robisz? Podnosisz ceny nowych kart. Widzimy to na przykładzie cen startowych modeli RTX 4090, 4080, 4070 Ti i 4070. RTX 4090 kosztuje ~9000 zł, co jest zdecydowanie poza zasięgiem większości graczy. RTX 4080 nie jest dużo tańszy, kosztując ~6000-6500 zł, a RTX 4070 Ti kosztuje ~4200 zł, czyli o około 500-600 zł więcej niż MSRP RTX 3080 10GB i o 1000-1200 zł więcej niż odchodzący model RTX 3070 Ti. Właściwie dopiero pod koniec 2022 roku zaczęliśmy widzieć, że karty serii 30 są sprzedawane w detalu za bliskie swoim cenom sugerowanym przez producenta.
Nvidia zdołała wyczyścić swóje leżaki magazynowe z kart RTX serii 30, a karty serii RTX 40 są teraz dostępne bliżej ich sugerowanej ceny detalicznej. Również pozytywnym sygnałem jest dostępność nowych modeli RTX 4060 Ti i 4060 w podobnych przedziałach cenowych do ich poprzedników. Popyt na RTX 4090 w zakresie profesjonalnych zastosowań, takich jak badania z zakresu sztucznej inteligencji i uczenia maszynowego, może przyczynić się do wyższej premii cenowej. Ogólnie rzecz biorąc, cieszy fakt, że ceny zaczynają się ustabilizować i stają się bardziej zgodne z ich zamierzoną wartością rynkową.
Ceny kart graficznych Nvidia Ada i serii RTX 40 faktycznie odnotowały ogólny wzrost w porównaniu do poprzednich generacji. Konkurencja ze strony AMD Radeon RX 7000 i GPU RDNA 3 może również wpływać na kształtowanie cen. Choć dobrze jest zauważyć, że modele głównego nurtu, takie jak RTX 4060 Ti i niższe, powracają do równowagi cenowej w porównaniu z poprzednikami, zrozumiałe jest, że oczekujemy dalszego obniżenia cen w przyszłych modelach, takich jak RTX 4050. Balansowanie kosztów i wydajności stanowi kluczowe rozważanie zarówno dla konsumentów, jak i producentów, a będzie interesujące zobaczyć, jak kształtują się ceny na rynku GPU w przyszłości.
Koniecznie sprawdźcie nasz specyficzny ranking kart graficznych, w którym znajdziecie najbardziej opłacalne karty graficzne. Naszym priorytetem była opłacalność, więc do stworzenia rankingu użyliśmy matematyki, aby wyliczyć stosunek wydajności do ceny. I tak właśnie macie możliwość wybrania kart graficznych, które są najbardziej opłacalne. Znajdziecie również kilka innych, ciekawych funkcji. Mamy tracker cen, alerty cenowe, porównywarkę kart graficznych oraz codzienne aktualizacje cen oraz pozycji w rankingu.