닥터몰라
페이스북

- 엔비디아 지포스 20 시리즈, 튜링 (Turing)

맥스웰과 파스칼로 기존 게이밍 그래픽의 정점을 달성한 엔비디아가 차세대 기술로 선택한 실시간 광원 추적(Ray Tracing, RT)에 초점을 맞춰 새롭게 개발된 GPU 입니다.

레이 트레이싱 기법은 직접 광원뿐만 아니라 객체에 반사되어 발생하는 간접 광원효과(n차)까지 반영해, 직접 광원효과(1차)에 비해 더욱 현실적인 표현이 가능합니다. 다만 광원을 추적하는 과정이 엄청난 처리량을 요구하기 때문에 실시간 렌더링 기반의 게임에 적용되지는 못했고, 정적 렌더링 및 영상 제작에만 주로 사용되어 왔습니다.

이에 튜링 아키텍처는 인공지능 추론(Inference) 딥 러닝 기술을 응용해 광원을 추적하는 과정을 전담할 수 있도록 RT 코어와 텐서 코어를 추가함으로써 레이 트레이싱을 실시간 영역으로 가져왔습니다. 특히 텐서 코어는 레이 트레이싱 뿐만 아니라 대규모 반복 작업을 수행하는 딥 러닝 기반 기술들의 최적화가 가능할 것으로 보입니다.

한편으로는 엔비디아의 원천 기술인 CUDA 코어에도 큰 변화가 있었습니다. 바로 정수(INT)와 부동 소수점(FP)의 역할로 명확하게 구분되었다는 점 입니다. 지금까지는 스트리밍 멀티프로세서(SM)에 투입되는 데이터의 우선 순위에 따라 번갈아가며 처리했지만(Pre-Emption), CUDA 코어의 역할이 분리되면서 정수와 부동 소수점을 동시에 수행(Concurrent) 할 수 있게 되었습니다.

SM마다 64개의 CUDA 코어가 정수(32개)와 부동 소수점(32개)으로 할당됩니다. 실질적인 그래픽 처리에 큰 영향을 미치는 부동 소수점 피크 효율은 32*4 구성이던 맥스웰/파스칼의 SM과 크게 다르지 않지만, 정수 연산이 부동 소수점 연산에 부담을 주지 않도록 개선되어 실제 게이밍 환경에서 더 나은 효율을 기대할 수 있습니다.

 Read more ≫ 

- AMD 라데온 NCU 아키텍처, 베가 (Vega)

AMD 라데온 테크놀로지스 그룹(RTG)의 표현에 의하면 그래픽 코어 넥스트(GCN) 아키텍처의 뒤를 잇는 새로운 개념(Next Generation GPU)으로, 소비자 입장에서는 기존의 라데온 RX 400 / 500 시리즈(Polaris)의 상위 모델이라기 보다는 라데온 Fury / Pro Duo 시리즈(Fiji)후속 모델이라는 표현이 좀 더 현실적이라고 볼 수 있습니다.

실제로 베가 아키텍처는 성능 외적으로(...) 많은 면에서 기존 GPU 설계대비 차별화된 기능들이 대거 투입된 기념비적 라인업입니다.

우선 대외적으로 가장 널리 알려진 2세대 고대역 메모리(HBM)을 탑재한 점을 꼽을 수 있습니다. 이미 라데온 Fury 시리즈가 소비자용 그래픽 카드 최초로 1세대 HBM을 탑재한 바 있으니 당연하다면 당연한 발전인 셈 입니다.

심도깊게 파고들면 현 세대 그래픽 프로세싱 유닛으로서 베가의 발전 방향은 경쟁사와 마찬가지로 유연한 메모리 활용(Scalable Memory)을 추구한 설계입니다. 경쟁사가 기존 그래픽 메모리(VRAM)를 보다 효율적으로 활용하는 방향으로 발전해왔다면, 베가 아키텍처는 기존 그래픽 메모리에서 벗어나 연결된 시스템의 모든 주 / 보조 기억 장치(넓은 의미의 메모리)를 활용할 수 있게끔 발전한 것 입니다.

일반 소비자 입장에서 체감할만한 그래픽 컴퓨팅 요소로는 테셀레이션(Tessellation) 성능을 향상시킬 수 있도록 스케줄링 방식을 최적화(Intelligent Workgroup Distributor)하거나, 버텍스와 지오메트리 명령어를 한 스테이지에 끝낼 수 있는 프리미티브 셰이더(Primitive Shder) 추가, 경쟁사에서 먼저 적용한 타일 기반 렌더링(Draw Stream Binning Rasterizer) 도입이 확인되었습니다.

 Read more ≫ 

- 엔비디아 지포스 10 시리즈, 파스칼 (Pascal)

엔비디아 파스칼 아키텍처는 오랫동안 GPU 업계의 발목을 잡아온 28nm 공정에서 벗어나 16nm FinFET 공정으로 생산되는 차세대 그래픽 솔루션입니다. 순수 그래픽 성능과 직결되는 설계 특성으로는 VRAM과 통신하는 메모리 인터페이스를 개선하는 한편, 진보한 델타 컬러 압축기술로 대역폭 점유율을 절약하는데 힘 쓴 모습입니다.

또한 플래그십 라인업인 GTX 1080 / GTX 1080 Ti / TITAN X 모델들은 최초로 GDDR5X 메모리를 채택하기도 했습니다. 기존 GDDR5 메모리가 7~8Gbps에서 상한선에 도달한 것과 달리, GDDR5X는 10Gbps 이상의 유효 클럭을 제공해 고대역 메모리(HBM) 기술이 성숙할 때 까지 교두보 역할을 하기에 충분한 성능을 제공해 줄 것으로 기대됩니다.

내부적으로는 약점으로 꼽히던 선점식 연산(Pre-Emption) 방식을 개선해 DX12 지원 능력을 강화하고, 가상현실(VR)에 최적화 된 동시 다중 투영(Simultaneous Multi-Projection) 뷰포트 엔진을 도입해 왜곡되는 화면을 실시간으로 보정할 수 있는 기능을 추가했으며, 싱글 패스 스테레오(Single-Path Stereo)나 다중 해상도 셰이딩(Multi-Res Shading)과 같은 기존 NVIDIA VRWorks™ 기술들의 효율도 높였습니다.

이번만큼은 경쟁사와 마찬가지로 실질적인 연산부인 스트리밍 멀티프로세서(SM) 구조는 맥스웰과 달라지지 않았기 때문에 클럭당 성능(IPC) 측면에서는 상술한 스케줄링 최적화 및 메모리 인터페이스 효율화 정책에 의한 상승분이 다수를 차지하며, 가시적으로 드러난 성능 향상폭은 신 공정 도입에 의한 폭발적인 최대 클럭 상승과 전력대비 성능 극대화의 공이 컸습니다.

 Read more ≫ 

- AMD 라데온 500 시리즈, 폴라리스 (Polaris)

오랫동안 암흑기를 거친 AMD의 그래픽 사업부가 라데온 테크놀로지스 그룹(RTG, Radeon Technology Group)으로 분리된 뒤 처음으로 선보인 아키텍처가 바로 폴라리스입니다. 구조적으로는 GCN 아키텍처 기반의 명령어 세트 설계를 계승했지만, 14nm FinFET 미세공정 전환에 성공해 이전 세대 모델의 편입 없이 모든 라인업을 일신했습니다.

최초의 폴라리스는 두 가지 칩 디자인으로 출시되었고, 이후 최저가 모델을 위한 칩이 추가로 개발되었습니다. 중급기를 담당하는 폴라리스 10(20)은 최대 2304개의 스트리밍 프로세서를 내장한 라데온 RX 480(RX 580) 및 하위 모델로 2048개의 라데온 RX 470(RX 570) 이 출시되었으며, 중국 한정으로 1792개의 스트리밍 프로세서를 탑재한 RX 470D 모델이 출시된 전례가 있습니다.

폴라리스 11(21)은 최대 1024개의 스트리밍 프로세서를 탑재합니다. 최초 출시된 라데온 RX 460의 경우 수율 확보를 위해 896개로 줄인 컷 칩으로 선보였지만, 이후 RX 560으로 전환되는 과정에서 수율이 확보되어 1024개의 풀 칩으로 업데이트 되었습니다.

폴라리스 12는 데스크탑 최저가 시장 및 노트북용으로 개발된 GPU 코어로 폴라리스 11처럼 수율 확보를 위해 최대 640개의 스트리밍 프로세서 중 512개를 사용하는 라데온 RX 550으로 출시되었습니다. 미세공정 수주처인 글로벌 파운드리의 14nm 공정이 LPE(Low Power Early)에서 LPP(Low Power Plus)로 전환되면서 핀펫(FinFET)의 접촉면적이 증가, 수율이 향상되면서 의미있는 클럭 상승분이 발생해 라데온 RX 400 시리즈에서 RX 500 시리즈로 업데이트 되었습니다.

 Read more ≫