Graphic Card.

그래픽 카드 - 연도별 세대(Generation) 및 설계(Architecture)에 따른 특징들을 소개합니다.

라데온 RX 9000 시리즈, 나비 4 (2025년 3월, Navi 4)

- 라데온 RX 9000 시리즈, 나비 4

RDNA 4는 하이엔드 제품군까지 선보였던 2, 3세대와 달리 퍼포먼스 라인업인 RX 9070 아래로 구성되어 RX 5700와 함께 발표되었던 초기 RDNA를 연상케 합니다. 또한 기존 GCN 아키텍처에서 RDNA 아키텍처로 전환될 때 가장 큰 변화 중 하나였던 메모리 계층이 다시 한 번 대대적인 개선의 대상이 되었습니다.

공식 다이어그램에서 직전 세대까지 셰이더 엔진 레벨에 포함되던 L1 캐시 메모리가 사라졌습니다. 대신 L2 캐시 메모리 용량이 증가한 것으로 미루어 보아 L1 레벨의 캐시 적중을 기대하는 대신 L0 캐시의 데이터를 그대로 L2 캐시로 전달하되, 두 캐시간 속도 차이를 완화해주는 버퍼 메모리 역할로 기능이 변경된 것으로 추측됩니다.

GPU 코어 내부의 캐시 메모리 뿐만 아니라 GDDR 메모리 활용에도 인상적인 변화가 있습니다. RDNA 3까지는 다수의 데이터가 메모리를 사용할 때 더 빨리 처리된 데이터가 있어도 요청된 순서에 따라 반환을 기다려야 했지만, 비순차(Out of Order) 대기열의 추가로 데이터를 즉시 반환할 수 있게 되었습니다. 이는 특히 수많은 광선 교차 판정을 수행하는 레이 트레이싱과 표면 렌더링이 서로 메모리를 점유하며 데이터 반환을 지연시키는 문제를 해결해 성능 효율을 끌어올렸습니다.

AMD Radeon RX 9000-series - Presentation Slide 01

컴퓨트 유닛은 전반적인 구조를 유지하되 레이 트레이싱 및 AI 가속 유닛을 확장하고 각각의 연산들이 간섭을 일으키지 않도록 유연성을 강화하는 개선이 주를 이뤘습니다. 레이 트레이싱 가속의 경우 박스와 트라이앵글 광선 교차 여부를 검증하는 유닛의 수가 8:2로 두 배 증가했으며, 지향성 경계 상자(OBB, Oriented Bounding Boxes) 기술을 도입해 X,Y,Z 축을 기준으로 생성되던 BVH 박스를 오브젝트 방향에 맞춰 회전시켜 빈 공간을 크게 줄이는 방식으로 노드 순회 효율을 향상시켰습니다.

레이 트레이싱 가속기가 3세대에 걸쳐 개선된 끝에 턱걸이로 경쟁사와 비교 가능한 수준에 도달한 것과 달리, AI 매트릭스 가속기는 2세대만에 최신 GPU에 걸맞는 성능을 달성한 모습입니다. 단정밀도(32-bit) 이하 데이터 타입의 경우 연산에 특화된 아키텍처인 CDNA의 매트릭스 코어(Matrix Core) 유닛이 탑재된 것과 동등한 수준의 처리량을 제공합니다. 사실상 RDNA와 CDNA 모두 단정밀도 이하의 데이터 처리량을 늘리는 것이 중요해지면서 차기 아키텍처에서 개발 방향을 통합하는 UDNA로의 전환이 발표되기도 했습니다.

AMD Radeon RX 9000-series - Presentation Slide 02

지포스 50 시리즈, 블랙웰 (2025년 1월, Blackwell)

- 지포스 50 시리즈, 블랙웰

NVIDIA 블랙웰 아키텍처는 튜링부터 시작된 GPU 패러다임 전환의 완성형이자 새로운 출발점이라고 볼 수 있습니다. AI 연산 효율성을 위해 일부 CUDA 코어를 실수 연산 전용 파이프라인으로 구분지어 운용하던 암페어나 에이다 러브레이스 아키텍처에서 한 발 더 나아가 모든 코어가 정수와 실수 연산을 더욱 유연하게 배분할 수 있도록 스케줄링 구조를 개선했습니다.

과거 GPU는 그래픽 렌더링에 특화된 실수 연산 성능이 절대적이었지만, 나날이 증가하는 VRAM 주소 계산 및 인덱싱이나 고해상도 텍스처 같은 대용량 데이터의 압축 처리 등 정수 연산의 필요성이 증가하고 있었습니다. 특히 레이 트레이싱이나 AI를 활용한 최신 기술들은 처리량이 폭발적으로 늘어나 정수 연산 성능의 비중이 실수 못지 않게 상승했기 때문입니다.

새롭게 개선된 SM 구조를 보다 효과적으로 활용할 수 있도록 에이다 러브레이스 아키텍처에서 첫 선을 보였던 셰이더 실행순서 재정렬(SER) 기술을 발전시켜 레이 트레이싱 데이터 뿐만 아니라, Tensor 코어를 활용하는 AI 신경망 기반 데이터(MMA, Matrix Multiply Accumulate)까지 역할이 확장되었습니다.

NVIDIA GeForce 50-series - Presentation Slide 01

블랙웰 아키텍처의 핵심인 5세대 Tensor 코어는 전작의 FP8에 이어 새로운 초저정밀도 연산인 NVFP4를 지원합니다. 4비트 리소스로 16비트 수준에 근접한 정확도를 유지하기 위해 마이크로 스케일링 팩터 보정을 하드웨어 네이티브로 구현, Transformer Engine 라이브러리와 함께 차세대 AI 연산 가속 환경을 제공합니다.

일반 소비자용 제품군 최초로 GDDR7 메모리를 탑재하며 차세대 GPU 다운 모습을 보이기도 했지만, 제조 공정은 이전 세대와 동일한 5nm의 최적화(4N -> 4NP) 단계에 머물렀습니다. 또한 AI 중심으로 파이프라인을 전환하는 Neural Shader 구조화에 설계 역량이 집중되면서 CUDA 코어 증가폭 역시 라인업에 따라 편차가 있으나 전반적으로 20~40% 수준에 머물렀습니다.

NVIDIA GeForce 50-series - Presentation Slide 02

아크 B 시리즈, 배틀메이지 (2024년 12월, Battlemage)

- 아크 B 시리즈, 배틀메이지

X^e2의 가장 큰 변화는 XVE가 8-Way SIMD 두 개를 스레드 컨트롤로 묶어 쓰던 구조에서 단일 16-Way SIMD 구조로 바뀌었다는 점입니다. 이론상으로는 유연성이 줄어든 것 처럼 보일 수 있지만, 인텔을 제외한 GPU들은 대부분 16-Way SIMD를 기준으로 동작하기 때문에 병목현상이 발생하던 스레드 그룹화 과정이 줄어들어 처리량이 늘어나는 개선으로 이어졌습니다.

첫 시도였음에도 긍정적인 평가를 받았던 레이 트레이싱 유닛은 BVH 순회 유닛을 2개에서 3개로 확장하면서 가장 큰 병목 구간인 박스 교차 검증 성능을 1.5배 향상시켰고, BVH 전용 캐시 메모리 및 트라이앵글 교차 검증 유닛을 두 배로 늘려 구조적 완성도를 높였습니다.

행렬 연산용 XMX는 수치상으로는 유닛 수가 줄어들었지만, 행렬 연산에 동원되는 XVE의 클럭당 효율이 개선되었고 텐서플로트(TF32) 데이터 타입 지원이 추가되었습니다. 레이 트레이싱의 디노이징이나 프레임 생성 기술 등 불규칙한 연산 처리가 늘어나는 추세에 따라 L2 캐시의 용량과 대역폭을 대폭 늘려 성능을 향상시켰습니다.

Intel Arc B-series - Presentation Slide 01

이처럼 Arc B 시리즈는 Arc A 시리즈 설계를 기반으로 효율성을 개선해 아키텍처의 완성도를 높이는데 주력한 모습입니다. 특히 새롭게 바뀐 XVE와 XMX 연산 유닛에 맞춰 개선된 스케줄링은 절대적인 성능 향상은 물론이고, 동일한 처리량일 때 소비되는 전력량도 크게 줄어든 것으로 나타나 상당한 개선을 이룬 것으로 보입니다.

특이하게도 BMG-G21 칩을 기반으로 한 메인스트림급 제품인 B580과 B570만 일반 소비자용으로 출시되었고, BMG-G31 칩은 B70으로 불리는 전문가용 제품으로만 출시되었습니다.

Intel Arc B-series - Presentation Slide 02

라데온 RX 7000 시리즈, 나비 3 (2022년 12월, Navi 3)

- 라데온 RX 7000 시리즈, 나비 3

외적인 변화가 거의 드러나지 않았던 GCN과 반대로 세대를 거듭할 때 마다 대격변을 선보이고 있는 RDNA의 3세대 아키텍처는 GPU 최초로 칩렛(Chiplet) 디자인 설계를 채택했습니다. 컴퓨트 유닛 집합체인 GCD(Graphics Compute Die)와 캐시 메모리 및 메모리 컨트롤러로 분산된 MCD(Memory Cache Die) 조각으로 나뉘어졌습니다.

각 MCD는 2세대 인피니티 캐시가 16MB씩 탑재되어 있으며 GCD와 GDDR6 SGRAM을 이어주는 브릿지 역할을 수행합니다. GCD와 인피니티 링크를 통해 9.2Gbps 대역폭으로 연결되며, GDDR6 메모리로는 64-bit 메모리 인터페이스로 연결됩니다. 따라서 MCD의 개수에 따라 인피니티 캐시와 GDDR6 메모리 인터페이스의 대역폭이 결정됩니다.

AMD Radeon RX 7000-series - Presentation Slide 01

각 컴퓨트 유닛마다 FP32 전용 SIMD32 유닛 쌍이 추가되었습니다. 그래픽 연산에 주로 FP32가 사용되는 탓에 극적인 성능 향상이 기대되기도 했지만, FP32 성능을 향상시키려면 듀얼 이슈(Dual Issue)라는 최적화 작업이 추가로 필요해 큰 영향을 미치지 못했습니다. 실질적으로는 레이 트레이싱 및 새롭게 추가된 AI 매트릭스 가속에 사용되는 WMMA(Wave Matrix Multiply Accmulate) 명령어 실행에 필요한 자원 최적화의 일환으로 볼 수 있습니다.

레이 트레이싱 가속기는 이전 세대에서 최초로 도입되었지만 부족한 성능이라는 평가가 주를 이뤘습니다. 때문에 이를 개선하기 위해 레이 트레이싱으로 지정된 명령어들을 하드웨어 레벨로 관리하는 한편, 특히 성능이 떨어지는 트라이앵글 경계 교차에서 걸러진 비가시 렌더링 처리(Culling)를 앞당겨 성능 최적화를 꾀했습니다. 여전히 경쟁사에 비해 성능 열세를 보이고 있지만 실용적이라고 할 수 있는 변화를 달성했습니다.

AI 매트릭스 가속기는 RDNA3에서 처음 도입된 하드웨어 합성곱(Convolution) 누산기로 경쟁사의 텐서 코어 역할에 해당합니다. 앞서 언급했듯이 WMMA 명령어로 덧셈과 곱셈이 누적되어 있는 연산을 실행할 수 있도록 설계되었습니다. 레이 트레이싱 가속기와 비슷하게 컴퓨트 유닛을 활용하므로 범용성이 높지만 성능면에서는 다소 아쉬운 상황입니다.

AMD Radeon RX 7000-series - Presentation Slide 02

지포스 40 시리즈, 에이다 러브레이스 (2022년 10월, Ada Lovelace)

- 지포스 40 시리즈, 에이다 러브레이스

에이다 러브레이스 아키텍처는 다이렉트X 11 시절 엔비디아를 최고의 전성기로 이끌었던 GTX 10 시리즈(Pascal)와 겹쳐보이는 구석이 있습니다. 성능과 효율 모두 검증된 이전 세대 아키텍처를 바탕으로 차세대 미세 공정에 최적화된 설계를 접목해 연산 능력을 극대화하는 전략을 취했고 성공적인 결과를 달성해냈기 때문입니다.

삼성 8nm 공정에서 TSMC 5nm 공정으로 전환하면서 비슷한 크기의 실리콘 다이에 2.5배가 넘는 트랜지스터를 탑재하는데 성공했습니다. 이에 따라 그래픽 연산 클러스터(GPC)가 최대 7개에서 12개로 대폭 증가했습니다. 수율 확보 차원에서 일부 클러스터가 비활성화 되기도 했지만, 그럼에도 불구하고 엄청난 고밀도 집적이라는 점은 변함이 없습니다.

NVIDIA GeForce 40-series - Presentation Slide 01

연산 유닛의 증가 뿐만 아니라 이를 효과적으로 활용하기 위한 워크 플로우 개선도 함께 이루어졌습니다. 특히 2개의 전용 기능이 추가된 RT 코어의 개선에도 불구하고 GPU 연산 워크로드와 상극인 레이 트레이싱의 무질서한 데이터들을 효율적인 구조로 모아주는 셰이더 실행순서 재정렬(SER, Shader Execution Reordering) 기술이 도입되었습니다.

앞서 언급되었듯이 기존 레이 트레이싱 연산은 순서에 관계없이 독립적으로 발생하기 때문에 데이터 참조 역시 무질서하게 이루어집니다. 따라서 캐시 레벨의 데이터 활용률이 낮아 VRAM 호출이 필연적이었지만, SER 기술로 근접한 레이 트레이싱 노드들이 한데 묶이면서 동일한 데이터를 참조할 확률이 증가해 최대 12배까지 늘어난 L2 캐시 메모리가 성능 효율을 극대화하는데 일조합니다.

최신 GPU의 핵심 역량으로 꼽히는 AI 연산 가속기, Tensor 코어 역시 새로운 데이터 타입인 FP8 연산을 지원합니다. INT8 수준의 메모리 사용량으로 더 넓은 범위의 수를 활용할 수 있고, 범위에 비해 정확도 역시 높은 편이기 때문에 차세대 AI 연산 포맷으로 떠오르고 있습니다. 특히 AI를 활용하는 기술인 DLSS 3에서 새롭게 추가된 보간 프레임 생성(Frame Generation)이 많은 주목을 받으며 GPU의 평가 기준에 AI 연산 성능의 비중이 크게 늘어나는 계기가 되었습니다.

NVIDIA GeForce 40-series - Presentation Slide 02

아크 A 시리즈, 알케미스트 (2022년 4월, Alchemist)

- 아크 A 시리즈, 알케미스트

아크 A 시리즈는 i740 이후 처음으로 출시한 확장 카드 형태의 인텔 GPU 입니다. 프로세서 내장형 iGPU(Integrated GPU) 개발을 지속해 온 덕분에 기본적인 설계 능력을 유지하고는 있었으나, AI 신경망 같은 차세대 연산이 GPU 활용을 가속하는 기조에 따라 본격적인 고성능 dGPU(Discrete GPU) 시장 진입을 알린 신호탄이라고 할 수 있습니다.

후발 주자인만큼 기존 GPU들의 장점을 취하려 한 모습이 엿보입니다. 내부 구조는 지포스 시리즈와 유사한 형태로 GPC에 대응하는 렌더 슬라이스, TPC에 대응하는 X^e 코어, SM에 해당하는 X^e 벡터 엔진(XVE, X^e Vector Engine) 및 Tensor 코어 역할의 X^e 매트릭스 확장(XMX, X^e Matrix eXtensions) 순으로 계층화 되어 있습니다.

레이 트레이싱 연산의 경우 후발 주자임에도 상당히 선도적인 구조를 취했습니다. 각 X^e 코어마다 독립적인 가속 유닛을 할당한 것은 물론이고, 레이 트레이싱 특유의 불규칙하고 파편화된 데이터들 중 비슷한 작업을 하는 데이터들을 묶어 실행 효율을 높이는 스레드 정렬 유닛(TSU, Thread Sorting Unit)을 선보였습니다.

Intel Arc A-series - Presentation Slide 01

라인업 구성은 Arc 3/5/7로 숫자가 높을수록 고성능 제품군이며, ACM-G10/G11 두 종류의 칩을 바탕으로 X^e 코어 구성 및 메모리 인터페이스를 조절해 성능을 구분합니다. 특이하게도 8-Way SIMD 구조를 워크로드에 따라 가변 스레드 그룹으로 묶어서 처리하는 방식으로, 레이 트레이싱이나 AI 같은 불규칙한 작업에 유리하지만 드라이버 지원에 따른 성능 편차가 크게 나타나기도 합니다.

최종 3D 그래픽 성능은 경쟁사들의 퍼포먼스급 수준으로 아주 뛰어나지는 않지만 시장 진입을 위한 첫 제품으로서 최소한의 완성도는 갖췄다고 볼 수 있습니다. 한편 내장 GPU 시절에도 강점이었던 영상 미디어 처리 측면은 더욱 강화되어 AV1 인코딩/디코딩 하드웨어 가속을 최초로 지원하는 GPU가 되었습니다.

Intel Arc A-series - Presentation Slide 02

라데온 RX 6000 시리즈, 나비 2 (2020년 12월, Navi 2)

- 라데온 RX 6000 시리즈, 나비 2

RDNA2는 GCN에 비해 확실히 개선된 그래픽 성능에도 불구하고 경쟁사에 비해 아쉬웠던 부분들을 대폭 개선한 설계로 많은 주목을 받았습니다. 대표적으로 레이 트레이싱을 위한 전용 유닛(RA, Ray Accelerator)이 추가되었고, 메모리 대역폭을 보충하기 위해 인피니티 캐시가 신설되었습니다.

레이 트레이싱 가속기는 컴퓨트 유닛마다 1개씩, WGP당 2개가 탑재됩니다. 직진하는 빛의 특성에 착안해 디스플레이에 표시되는 카메라 시점과 교차하는 경계 볼륨을 판정하는데 특화되어 있으며, BVH(Bounding Volume Hierarchy) 트리 내 사각형 박스 모양의 경계와 트라이앵글 경계의 교차 검증을 4:1 비율로 수행합니다.

이처럼 GPU의 역할이 계속해서 늘어나면서 데이터를 저장할 메모리의 중요도 역시 함께 증가했습니다. 하지만 경쟁력을 위해 동급의 성능과 가격 메리트를 모두 만족시켜야 하는 RDNA2 아키텍처의 여건상 GDDR6X 및 메모리 인터페이스를 확장하는 대신 L3 캐시 메모리 역할의 인피니티 캐시를 추가해 부족한 대역폭을 보충하는 방법을 선택했습니다. 실리콘 면적을 차지하는만큼 GPU 체급이 다소 줄어들게 되지만, 상대적으로 원활한 메모리 수급과 전력 소비량 감소라는 실익이 더 크게 작용한 셈입니다.

AMD Radeon RX 6000-series - Presentation Slide 01

흔히 ROP로 부르는 래스터 연산 파이프라인 집합체인 렌더 백엔드(RB)도 드디어 변화가 생겼습니다. 1세대 RDNA 아키텍처는 GCN 아키텍처와 동일하게 4-ROPs 집합으로 클럭 사이클당 4개의 32-bit 픽셀을 처리했지만, 렌더 백엔드 플러스(RB+)로 재설계되면서 두 배인 8-ROPs로 증설되어 연산 성능에 걸맞는 프레임레이트를 기대할 수 있게 되었습니다. 또한 RB+의 도입으로 가변 셰이딩(VRS, Variable Rate Shading) 기술을 공식적으로 지원하게 되었습니다.

이외에도 CPU 에서 GPU 메모리에 접근할 수 있게 해주는 스마트 액세스 메모리(SAM, Smart Access Memory) 기술을 선보였습니다. 실질적으로는 UEFI에 포함된 Resizable BAR(Base Address Register)를 활용한 기술로 그동안 호환성 문제 등으로 인한 32-bit 주소 체계의 한계로 접근 가능한 메모리 용량에 제한이 있었지만, 스마트 액세스 메모리를 기점으로 64-bit 주소 체계를 지원해 GPU 메모리 전역에 접근할 수 있게 되었습니다.

AMD Radeon RX 6000-series - Presentation Slide 02

지포스 30 시리즈, 암페어 (2020년 9월, Ampere)

- 지포스 30 시리즈, 암페어

암페어 아키텍처는 정수(INT)와 실수(FP) 파이프라인을 분리시켰던 튜링 아키텍처 기반 SM(Streaming Multiprocessor)를 다시 한 번 개선해 정수 연산을 담당하던 영역을 실수 연산도 겸하는 하이브리드 방식으로 전환시켰습니다. 전통적인 GPU 역할의 특성상 정수보다 실수 연산이 차지하는 비율이 더 높다는 점을 감안한 변화로 볼 수 있습니다.

메모리 측면에서는 고급 제품군에 GDDR6X 메모리가 채택되어 대역폭을 늘렸습니다. 높은 수준의 전력 무결성을 바탕으로 250mV의 전압차를 이용해 4겹(PAM4)으로 분리된 파형에 데이터를 실어 보냅니다. 기존의 2겹(PAM2) 파형 GDDR6와 신호 전달 방식부터 차이가 있어 전용 메모리 컨트롤러가 탑재되며, 표준 규격으로 제정된 GDDR5X와 달리 GDDR6X는 마이크론이 독점 공급합니다.

NVIDIA GeForce 30-series - Presentation Slide 01

앞서 언급된 CUDA 코어 및 메모리 영역의 변화도 있었지만, 암페어 아키텍처의 핵심 업그레이드는 튜링에서 최초로 도입되었던 RT 코어 및 Tensor 코어의 세대 교체로 이루어졌습니다.

이는 정수 연산부의 하이브리드화를 촉진한 실질적인 원인으로 전통적인 렌더링 연산과 레이 트레이싱 연산의 독립성을 증가시켰습니다. RT 코어는 삼각형 교차 지점을 검증하는 능력이 강화되었으며, Tensor 코어는 텐서플로트(TF32)와 브레인플로트(BF16) 방식을 추가로 지원해 다양한 연산을 가속할 수 있게 되었습니다. 이에 따라 암페어의 RT 코어나 Tensor 코어의 물리적 개수는 튜링과 큰 차이가 없지만 실질적인 성능은 약 2배 가량 향상된 것으로 알려졌습니다.

마이크로소프트 DirectStorage의 핵심 기능이자 엔비디아가 기여한 표준 기술 GDeflate를 활용하는 RTX IO 도입도 눈여겨볼 만합니다. VRAM을 사용하기 위한 데이터 압축 및 전송에 CPU를 거치지 않고 GPU가 직접 접근할 수 있게 되어 용량이 급격하게 증가하고 있는 리소스 파일들을 훨씬 빠르고 효과적으로 처리할 수 있게 되었습니다.

NVIDIA GeForce 30-series - Presentation Slide 02

라데온 RX 5000 시리즈, 나비 (2019년 7월, Navi)

- 라데온 RX 5000 시리즈, 나비

RDNA(Radeon DNA)는 고효율과 범용성의 두마리 토끼를 노렸지만 결국 모두 놓쳐버린 GCN(Graphics Core Next)을 뒤로하고 그래픽 카드라는 역할에 충실한 성능과 효율을 추구한 아키텍처입니다. 최초의 7nm 공정 제품이 될 뻔 했지만, 아쉽게도 라데온 VII이 반 년 가량 먼저 출시된 바 있습니다.

RDNA 아키텍처의 가장 핵심적인 개선은 연산 파이프라인의 변화에 있습니다. GCN 아키텍처의 컴퓨트 유닛(CU, Compute Unit)을 두 배로 확장시킨 듯한 구조이며, 실제로 듀얼 컴퓨트 유닛으로도 불리는 워크 그룹 프로세서(WGP, Work Group Processor)로 바뀌었습니다.

컴퓨트 유닛당 4개의 SIMD16 편성에서 2개의 SIMD32 편성으로 바뀌었으며, 명령어 발행 기본값 역시 Wave64에서 Wave32로 변경되었습니다. 기존의 GCN 아키텍처는 Wave64 명령어를 4-사이클에 걸쳐 SIMD16으로 분배하는 방식이었지만, RDNA 아키텍처는 한 사이클마다 Wave32 명령어를 그대로 SIMD32에 넘겨 처리하게 됩니다.

AMD Radeon RX 5000-series - Presentation Slide 01

두 개의 컴퓨트 유닛을 듀얼-코어처럼 활용하기 위해 로컬 데이터 셰어(LDS, Local Data Share) 메모리의 용량도 두 배로 늘어났습니다. 셰이더 명령어 및 스칼라 데이터 캐시는 컴퓨트 유닛 내 균등분할 방식에서 워크 그룹 프로세서 레벨의 로컬 데이터 셰어 메모리를 통해 각 SIMD32 웨이브에서 접근이 가능하도록 바뀌었습니다.

벡터 데이터를 담당하던 L1 캐시는 L0 캐시로 격상되었고, 컴퓨트 유닛의 확장에 따라 용량이 두 배로 증가하는 효과를 지닙니다. 이와 동시에 신설된 L1 데이터 공유 캐시는 셰이더 엔진(Shader Engine)으로 불리는 워크 그룹 프로세서 집합에 포함되었습니다. 이는 경쟁사의 스트리밍 멀티프로세서(SM, Streaming Multiprocessor) 구조와 유사합니다.

AMD Radeon RX 5000-series - Presentation Slide 02

지포스 20 / 16 시리즈, 튜링 (2018년 9월, Turing)

- 지포스 20 / 16 시리즈, 튜링

맥스웰과 파스칼로 기존 게이밍 그래픽의 정점을 달성한 엔비디아가 차세대 기술로 선택한 실시간 광원 추적(Ray Tracing, RT)에 초점을 맞춰 새롭게 개발된 GPU 입니다.

레이 트레이싱 기법은 직접 광원뿐만 아니라 객체에 반사되어 발생하는 간접 광원효과(n차)까지 반영해, 직접 광원효과(1차)에 비해 더욱 현실적인 표현이 가능합니다. 다만 광원을 추적하는 과정이 엄청난 처리량을 요구하기 때문에 실시간 렌더링 기반의 게임에 적용되지는 못했고, 정적 렌더링 및 영상 제작에만 주로 사용되어 왔습니다.

NVIDIA GeForce 20/16-series - Presentation Slide 01

이에 튜링 아키텍처는 인공지능 추론(Inference) 딥 러닝 기술을 응용해 광원을 추적하는 과정을 전담할 수 있도록 RT 코어와 텐서 코어를 추가함으로써 레이 트레이싱을 실시간 영역으로 가져왔습니다. 특히 텐서 코어는 레이 트레이싱 뿐만 아니라 대규모 반복 작업을 수행하는 딥 러닝 기반 기술들의 최적화가 가능할 것으로 보입니다.

한편으로는 엔비디아의 원천 기술인 CUDA 코어에도 큰 변화가 있었습니다. 바로 정수(INT)와 부동 소수점(FP) 파이프라인이 명확하게 구분되었다는 점 입니다. 지금까지는 스트리밍 멀티프로세서(SM)에 투입되는 데이터의 우선 순위에 따라 번갈아가며 처리했지만(Pre-Emption), CUDA 코어의 역할이 분리되면서 정수와 부동 소수점을 동시에 수행(Concurrent) 할 수 있게 되었습니다.

SM마다 128개의 연산 유닛이 정수(64개)와 부동 소수점(64개)으로 할당됩니다. 특이사항으로 정수 유닛은 CUDA 코어로 카운팅되지 않으며 부동 소수점 연산의 피크 효율도 16*8(128개) 구성이던 맥스웰/파스칼의 SM에 비해 낮아질 수 있지만, 정수 연산이 부동 소수점 연산을 방해하지 않도록 개선되어 실제 게이밍 환경에서 더 나은 효율을 기대할 수 있습니다.

NVIDIA GeForce 20/16-series - Presentation Slide 02

라데온 NCU 아키텍처, 베가 (2017년 8월, Vega)

- 라데온 NCU 아키텍처, 베가

AMD 라데온 테크놀로지스 그룹(RTG)의 표현에 의하면 그래픽 코어 넥스트(GCN) 아키텍처의 뒤를 잇는 새로운 개념(Next Generation GPU)으로, 소비자 입장에서는 기존의 라데온 RX 400 / 500 시리즈(Polaris)의 상위 모델이라기 보다는 라데온 Fury / Pro Duo 시리즈(Fiji)의 후속 모델이라는 표현이 좀 더 현실적이라고 볼 수 있습니다.

실제로 베가 아키텍처는 성능 외적으로 많은 면에서 기존 GPU 설계대비 차별화된 기능들이 대거 투입된 기념비적 라인업입니다. 우선 대외적으로 가장 널리 알려진 2세대 고 대역폭 메모리(HBM)을 탑재한 점을 꼽을 수 있습니다. 이미 라데온 Fury 시리즈가 소비자용 그래픽 카드 최초로 1세대 HBM을 탑재한 바 있으니 당연하다면 당연한 발전인 셈 입니다.

AMD Radeon Vega-series - Presentation Slide 01

심도깊게 파고들면 현 세대 그래픽 프로세싱 유닛으로서 베가의 발전 방향은 경쟁사와 마찬가지로 유연한 메모리 활용(Scalable Memory)을 추구한 설계입니다. 경쟁사가 기존 그래픽 메모리(VRAM)를 보다 효율적으로 활용하는 방향으로 발전해왔다면, 베가 아키텍처는 기존 그래픽 메모리에서 벗어나 연결된 시스템의 모든 주 / 보조 기억 장치(넓은 의미의 메모리)를 활용할 수 있게끔 발전한 것 입니다.

일반 소비자 입장에서 체감할만한 그래픽 컴퓨팅 요소로는 테셀레이션(Tessellation) 성능을 향상시킬 수 있도록 스케줄링 방식을 최적화(Intelligent Workgroup Distributor)하거나, 버텍스와 지오메트리 명령어를 한 스테이지에 끝낼 수 있는 프리미티브 셰이더(Primitive Shder) 추가, 경쟁사에서 먼저 적용한 타일 기반 렌더링(Draw Stream Binning Rasterizer) 도입이 확인되었습니다.

AMD Radeon Vega-series - Presentation Slide 02

라데온 400 / 500 시리즈, 폴라리스 (2016년 6월, Polaris)

- 라데온 400 / 500 시리즈, 폴라리스

오랫동안 암흑기를 거친 AMD의 그래픽 사업부가 라데온 테크놀로지스 그룹(RTG, Radeon Technology Group)으로 분리된 뒤 처음으로 선보인 아키텍처가 바로 폴라리스입니다. 구조적으로는 GCN 아키텍처 기반의 명령어 세트 설계를 계승했지만, 14nm FinFET 공정으로 전환에 성공해 이전 세대 모델의 편입 없이 모든 라인업을 일신했습니다.

최초의 폴라리스는 두 가지 칩 디자인으로 출시되었고, 이후 최저가 모델을 위한 칩이 추가로 개발되었습니다. 중급기를 담당하는 폴라리스 10(20, 500 시리즈)은 최대 2304개의 스트리밍 프로세서를 내장한 라데온 RX 480(RX 580) 및 하위 모델로 2048개의 라데온 RX 470(RX 570) 이 출시되었으며, 중국 한정으로 1792개의 스트리밍 프로세서를 탑재한 RX 470D 모델이 출시된 전례가 있습니다.

AMD Radeon 400/500-series - Presentation Slide 01

폴라리스 11(21, 500 시리즈)은 최대 1024개의 스트리밍 프로세서를 탑재합니다. 최초 출시된 라데온 RX 460의 경우 수율 확보를 위해 896개로 줄인 컷 칩으로 선보였지만, 이후 RX 560으로 전환되는 과정에서 수율이 확보되어 1024개의 풀 칩으로 업데이트 되었습니다.

폴라리스 12는 데스크탑 최저가 시장 및 노트북용으로 개발된 GPU 코어로 폴라리스 11처럼 수율 확보를 위해 최대 640개의 스트리밍 프로세서 중 512개를 사용하는 라데온 RX 550으로 출시되었습니다. 미세공정 수주처인 글로벌 파운드리의 14nm 공정이 LPE(Low Power Early)에서 LPP(Low Power Plus)로 전환되면서 핀펫(FinFET)의 접촉면적이 증가, 수율이 향상되면서 의미있는 클럭 상승분이 발생해 라데온 RX 400 시리즈에서 RX 500 시리즈로 업데이트 되었습니다.

AMD Radeon 400/500-series - Presentation Slide 02

지포스 10 시리즈, 파스칼 (2016년 4월, Pascal)

- 지포스 10 시리즈, 파스칼

엔비디아 파스칼 아키텍처는 오랫동안 GPU 업계의 발목을 잡아온 28nm 공정에서 벗어나 16nm FinFET 공정으로 생산되는 차세대 그래픽 솔루션입니다. 순수 그래픽 성능과 직결되는 설계 특성으로는 VRAM과 통신하는 메모리 인터페이스를 개선하는 한편, 진보한 델타 컬러 압축기술로 대역폭 점유율을 절약하는데 힘 쓴 모습입니다.

또한 플래그십 라인업인 GTX 1080 / GTX 1080 Ti / TITAN X 모델들은 최초로 GDDR5X 메모리를 채택하기도 했습니다. 기존 GDDR5 메모리가 7~8Gbps에서 상한선에 도달한 것과 달리, GDDR5X는 10Gbps 이상의 유효 클럭을 제공해 고 대역폭 메모리(HBM) 기술이 성숙할 때 까지 교두보 역할을 하기에 충분한 성능을 제공해 줄 것으로 기대됩니다.

NVIDIA GeForce 10-series - Presentation Slide 01

내부적으로는 약점으로 꼽히던 선점식 연산(Pre-Emption) 방식을 개선해 DX12 지원 능력을 강화하고, 가상현실(VR)에 최적화 된 동시 다중 투영(Simultaneous Multi-Projection) 뷰포트 엔진을 도입해 왜곡되는 화면을 실시간으로 보정할 수 있는 기능을 추가했으며, 싱글 패스 스테레오(Single-Path Stereo)나 다중 해상도 셰이딩(Multi-Res Shading)과 같은 기존 NVIDIA VRWorks 기술들의 효율도 높였습니다.

이번만큼은 경쟁사와 마찬가지로 실질적인 연산부인 스트리밍 멀티프로세서(SM) 구조는 맥스웰과 달라지지 않았기 때문에 클럭당 성능(IPC) 측면에서는 상술한 스케줄링 최적화 및 메모리 인터페이스 효율화 정책에 의한 상승분이 다수를 차지하며, 가시적으로 드러난 성능 향상폭은 신 공정 도입에 의한 폭발적인 최대 클럭 상승과 전력대비 성능 극대화의 공이 컸습니다.

NVIDIA GeForce 10-series - Presentation Slide 02

라데온 300 시리즈, 파이러츠 아일랜드 (2015년 6월, Pirates Islands)

- 라데온 300 시리즈, 파이러츠 아일랜드

중급기 AMD 라데온 R9 285 및 라데온 R9 380 시리즈로 통가(Tonga)가 먼저 출시된 후, 고 대역폭 메모리(HBM)를 지원하는 최상위 라인업 AMD 라데온 R9 Fury 시리즈로 피지(Fiji) 아키텍처가 발표되었습니다.

본격적으로 DirectX 12에 비동기 컴퓨트(Asynchronous Compute) 기능이 추가되면서 이를 강화시켜 줄 하드웨어 스케줄러를 탑재하고, 델타 컬러 압축(DCC) 기능을 도입해 그래픽 메모리를 효율적으로 활용하는데 주력한 모습입니다.

AMD Radeon 300-series - Presentation Slide 01

통가 아키텍처는 라데온 R9 285(256-bit)로 출시되었을 당시에는 타히티 아키텍처 기반의 R9 280 시리즈(384-bit)에 비해 적은 1792개의 스트리밍 프로세서와 메모리 인터페이스가 줄어든 탓에 큰 인기를 얻지 못했습니다. 물론 델타 컬러 압축 덕분에 성능 차이가 크지 않았고 전력 효율이 크게 늘었음에도 불구하고 절대 성능이 부족하다는 평이 주를 이뤘습니다.

이후 라데온 R9 380 시리즈로 전환되면서 클럭 스피드가 향상되고 2048개의 스트리밍 프로세서를 탑재한 R9 380X 모델이 단종 수순을 밟은 타히티보다 높은 성능을 달성했으며, 최대 4GB GDDR5 메모리를 탑재한 사양이 경쟁 상대(2GB)에 비해 우위를 점하면서 쏠쏠한 인기를 누렸습니다.

피지 아키텍처의 경우 하와이 아키텍처만으로는 커버가 불가능했던 경쟁사의 최상위 라인업을 견제하기 위해 최신 기술을 접목한 설계로 많은 관심을 받았습니다. 비록 성능 경쟁에서 우위를 점하지는 못했지만 GDDR5 메모리 대신 HBM을 도입한 최초의 소비자용 그래픽 카드라는 타이틀을 차지했으며, 라데온 R9 Nano 모델은 가장 작은 하이엔드 그래픽 카드로 집중 조명을 받았습니다.

AMD Radeon 300-series - Presentation Slide 02

지포스 900 / 750 시리즈, 맥스웰 (2014년 9월, Maxwell)

- 지포스 900 / 750 시리즈, 맥스웰

3세대 폴리모프 엔진이 32개의 CUDA 코어로 구성된 모듈 4개를 관리하는 SMM 구조(128 CUDA Cores) 단위로 배치됩니다. 케플러 아키텍처보다 배정밀도 유닛 비율을 더 줄여(1/32) 그래픽 카드로서의 효율성을 한층 더 향상시키는 한편, 3세대 델타 컬러 압축 알고리즘을 도입해 정체된 GDDR5 메모리의 유효 대역폭을 확보하고자 했습니다.

*단, 최초의 맥스웰 아키텍처는 지포스 GTX 750 시리즈로 출시되어 2세대 폴리모프 엔진을 탑재해 DirectX 12(FL11.0) / HDMI 1.4a 포트까지 지원합니다. 나머지 맥스웰 아키텍처 기반 지포스 GTX 900 시리즈는 DirectX 12(FL12.1) / HDMI 2.0 포트를 지원합니다.

NVIDIA GeForce 750/900-series - Presentation Slide 01

맥스웰 아키텍처의 SM 구성은 케플러 아키텍처 수준의 규모를 유지하면서 페르미 아키텍처의 제어 효율을 되찾기 위해 SMM 내부적으로 32개 CUDA 코어 구성의 컨트롤 로직 파티션을 구축해 스케줄링 로직을 개선했습니다. 이는 케플러 아키텍처가 보급형 GPU로 갈수록 효율이 더 좋았던 점을 감안해 소규모 SM 구조의 효율성을 반영한 것으로 볼 수 있습니다.

맥스웰 이후 아키텍처들이 공식 자료의 설계 명칭을 다시 SM(스트리밍 멀티프로세서)으로 변경하면서 사실상 지포스 시리즈 기초가 되는 구조로 자리잡았습다. 이에 따라 후속 아키텍처들은 주로 일반 연산으로는 한계가 뚜렷한 특정 기능들을 하드웨어 레벨의 GPU 병렬 연산으로 가속하는 전용 명령어 세트를 추가하는 방식으로 바뀌게 됩니다.

NVIDIA GeForce 750/900-series - Presentation Slide 02

라데온 200 시리즈, 볼케닉 아일랜드 (2013년 10월, Volcanic Islands)

- 라데온 200 시리즈, 볼케닉 아일랜드

중~보급기인 AMD 라데온 HD 7790으로 보네어(Bonaire)가 먼저 출시된 후, 최상위 모델인 AMD 라데온 R9 290 시리즈로 하와이(Hawaii) 아키텍처가 모습을 드러냈습니다.

DP(DisplayPort) 및 HDMI 포트가 대중화되면서 GPU에 내장된 오디오 코덱을 보다 유용하게 활용할 수 있도록 AMD 트루오디오(TrueAudio) 음장효과가 추가되었고, ACE 스케줄러를 강화시켜 연산 효율을 강화시킨 것이 주요 특징입니다.

AMD Radeon 200-series - Presentation Slide 01

또한 1세대와 마찬가지로 시간이 흐르면서 여러가지 기능들이 확장되거나 새롭게 추가되었습니다. 프로그래밍 인터페이스(API)는 DirectX 12(Feature Level 12.0) 과 OpenCL 2.0 까지 확장되었고, 이후 디스플레이 관련 주요 기능인 프리싱크(FreeSync)와 가상 초고해상도(VSR, Virtual Super Resolution)를 추가로 지원합니다. 동영상의 프레임을 보간해주는 플루이드 모션(Fluid Motion) 기술 또한 2세대 GCN 아키텍처부터 공식적으로 지원되었습니다.

하와이는 최대 2816개, 보네어는 최대 896개의 스트리밍 프로세서를 탑재했습니다. 또한 두 제품 모두 Rx 200 시리즈에서 Rx 300 시리즈로 전환되면서 GDDR5 그래픽 메모리 용량을 두 배로 늘려 4K 초고해상도나 가상현실과 같은 차세대 디스플레이 환경에 대응하는 모습을 보여주기도 했습니다.

AMD Radeon 200-series - Presentation Slide 02

지포스 600 / 700 시리즈, 케플러 (2012년 3월, Kepler)

- 지포스 600 / 700 시리즈, 케플러

혁신적인 구조였지만 발열과 전력 소비량으로 인해 결과가 썩 좋진 않았던 페르미의 계륵 포인트로 꼽힌 배정밀도(DP) 연산의 비중을 1/24 수준으로 줄였습니다. 이 때 부터 분야별로 최적화 방법을 달리하되 통합 설계를 추구한 경쟁사와 달리, 주력 연산처에 따라 명확하게 제품군을 분리시켜 자원 비율을 조절하며 GPU 코어를 설계하는 방향으로 노선을 정했다고 볼 수 있습니다.

케플러 아키텍처는 2세대 폴리모프 엔진과 192개의 CUDA 코어로 구성된 SMX를 최소 단위로 가지며, 내부적으로 16-Way CUDA 코어 묶음이 12개로 대폭 확장됐습니다. 이는 컨트롤 로직 대비 실행 유닛 비중을 크게 늘린 설계로 페르미 아키텍처에서 GF100 코어보다 GF104 코어가 더 나은 효율을 보였던 점을 고려해 유사한 방향으로 발전시킨 것으로 보입니다.

NVIDIA GeForce 600/700-series - Presentation Slide 01

결과적으로 배정밀도 연산 비중 축소 및 공정 개선 덕분에 남는 여력을 성능으로 전환하는 부스트 클럭(GPU Boost) 기능이 탄생하는 계기가 되었으며, GTX 670 이상의 일부 하이엔드 제품군들은 쿨링 솔루션까지 엔비디아가 직접 설계한 프리미엄 레퍼런스 디자인을 선보이기도 했습니다. 이는 추후 파운더스 에디션(Founder's Edition)이라는 명칭으로 이어지게 됩니다.

다만 케플러 라인업부터 GTX TITAN 이라는 새로운 플래그십 라인업을 출시하면서 처음이자 마지막으로 예외를 두었는데, 테슬라(TESLA) 라인업에서만 허용된 배정밀도(DP) 제한을 해제해서 출시한 것 입니다. 케플러 이후 아키텍처 기반 GTX TITAN 들은 배정밀도 유닛이 제한된 채로 출시되었습니다.

NVIDIA GeForce 600/700-series - Presentation Slide 02

라데온 HD 7000 시리즈, 서던 아일랜드 (2012년 1월, Southern Islands)

- 라데온 HD 7000 시리즈, 서던 아일랜드

그래픽 코어 넥스트(GCN) 아키텍처는 16개의 벡터 산술 연산자로 구성된 SIMD(Single Instruction Multi Data) 유닛 4개와 스칼라 유닛 1개 묶음으로 하나의 컴퓨트 유닛(CU)을 이루며, 이를 비동기 컴퓨트 엔진(ACE, Asynchronous Compute Engine)이 관리하는 방식입니다.

라데온 GPU 코어로는 최초로 VLIW 명령어 세트 대신 RISC 명령어 세트를 도입하는 거대한 변화를 성공적으로 이행한 기념비적인 아키텍처라고 볼 수 있겠습니다.

AMD Radeon HD 7000-series - Presentation Slide 01

스트리밍 프로세서는 최대 2048개의 타히티 XT 부터 1792개(Tahiti PRO) / 1536개(Tahiti LE) / 1280개(Pitcairn XT) / 1024개(Pitcairn PRO) / 640개(Cape Verde XT) / 512개(Cape Verde PRO) / 384개(Cape Verde LE)에 해당하는 AMD 라데온 HD 7000 시리즈가 최초로 출시되었으며, 일부 모델은 Rx 200 및 Rx 300 시리즈까지 명맥을 이어가기도 했습니다.

출시 당시에는 DirectX 11 및 OpenGL 4.2 / OpenCL™ 1.2 버전과 하드웨어 테셀레이션 유닛을 탑재한 것이 주요 특징이었지만 시간이 지나며 DirectX 12(Feature Level 11.1) 및 OpenGL 4.5로 확장되었으며, 독자 API 맨틀(Mantle)에서 파생된 벌칸(Vulkan) API와 비동기 셰이더(Asynchronous Compute) 기능을 추가로 지원합니다.

AMD Radeon HD 7000-series - Presentation Slide 02

지포스 400 / 500 시리즈, 페르미 (2010년 4월, Fermi)

- 지포스 400 / 500 시리즈, 페르미

32개의 CUDA 코어로 구성된 명령어 세트 설계 SM(Streaming Multiprocessor)가 최초로 구색을 갖춘 모델입니다. SM 내부적으로 2쌍의 16-Way CUDA 코어 묶음을 활용하는 방식으로 TSMC의 40nm 미세공정과 GDDR5 메모리를 투입해 뛰어난 성능을 발휘했음에도 불구하고, 당시 불안정했던 미세공정과 자원 분배 효율 문제로 발열과 전력 소비량이 과도하게 늘어나는 경향을 보였습니다.

지포스 GTX 480 / GTX 470 / GTX 465에 이르는 상위 라인업을 구축한 GF100 코어에서 이러한 문제가 불거지자 중급기용으로 설계하던 GF104 코어는 SM당 16-Way CUDA 코어 묶음 하나를 추가로 집어넣고, 워프 스케줄러당 디스패치 유닛도 2개로 늘려 단정밀도 연산을 우선하는 스트리밍 멀티프로세서를 투입합니다. 이러한 구조는 GF11x 코어까지 이어집니다.

NVIDIA GeForce 400/500-series - Presentation Slide 01

엔비디아는 스트리밍 멀티프로세서(SM/CUDA 코어) 뿐만 아니라 ROP의 개수도 유동적으로 조절하며 제품을 출시했기 때문에 제품군 구성이 다소 복잡한 편입니다.

512개(GTX 580) / 480개(GTX 480 & GTX 570) / 448개(GTX 470 & GTX 560 Ti) / 352개(GTX 465) 까지 GF100-GF110 코어로 구성되었으며, 384개(GTX 560) / 336개(GTX 460 & GTX 560) / 288개(GTX 460 SE & GTX 560 SE) 가 GF104-GF114 코어, 192개(GTS 450 & GTX 550 Ti) GF106-GF116 코어로 제품군을 선보였으며, 같은 모델명이라도 ROP 개수와 클럭 스피드를 달리한 제품들이 있습니다.

출시 초기엔 DirectX 11, OpenGL 4.0을 지원했으며, 드라이버 업데이트를 통해 DirectX 12(Feature Level 11.0), OpenGL 4.5, OpenCL 1.1까지 지원할 수 있도록 확장되었습니다. 엔비디아에서 출시한 GPU들 가운데 DirectX 12를 정식 지원하는 가장 오래된 그래픽 카드로 남은 기념비적인 모델이라고 할 수 있겠습니다.

NVIDIA GeForce 400/500-series - Presentation Slide 02