닥터몰라
페이스북
그래픽 카드 (Graphic Card) - 연도별 세대 (Generation) 또는 설계 (Architecture)에 따른 특징들을 소개합니다.

* 상단 브랜드 로고 아이콘을 선택하면 제품 목록과 간단한 사양 정보를 확인하실 수 있습니다.
2018년 9월 (Turing)

- 엔비디아 지포스 20 / 16 시리즈, 튜링

맥스웰과 파스칼로 기존 게이밍 그래픽의 정점을 달성한 엔비디아가 차세대 기술로 선택한 실시간 광원 추적(Ray Tracing, RT)에 초점을 맞춰 새롭게 개발된 GPU 입니다.

레이 트레이싱 기법은 직접 광원뿐만 아니라 객체에 반사되어 발생하는 간접 광원효과(n차)까지 반영해, 직접 광원효과(1차)에 비해 더욱 현실적인 표현이 가능합니다. 다만 광원을 추적하는 과정이 엄청난 처리량을 요구하기 때문에 실시간 렌더링 기반의 게임에 적용되지는 못했고, 정적 렌더링 및 영상 제작에만 주로 사용되어 왔습니다.

이에 튜링 아키텍처는 인공지능 추론(Inference) 딥 러닝 기술을 응용해 광원을 추적하는 과정을 전담할 수 있도록 RT 코어와 텐서 코어를 추가함으로써 레이 트레이싱을 실시간 영역으로 가져왔습니다. 특히 텐서 코어는 레이 트레이싱 뿐만 아니라 대규모 반복 작업을 수행하는 딥 러닝 기반 기술들의 최적화가 가능할 것으로 보입니다.

한편으로는 엔비디아의 원천 기술인 CUDA 코어에도 큰 변화가 있었습니다. 바로 정수(INT)와 부동 소수점(FP)의 역할로 명확하게 구분되었다는 점 입니다. 지금까지는 스트리밍 멀티프로세서(SM)에 투입되는 데이터의 우선 순위에 따라 번갈아가며 처리했지만(Pre-Emption), CUDA 코어의 역할이 분리되면서 정수와 부동 소수점을 동시에 수행(Concurrent) 할 수 있게 되었습니다.

SM마다 64개의 CUDA 코어가 정수(32개)와 부동 소수점(32개)으로 할당됩니다. 실질적인 그래픽 처리에 큰 영향을 미치는 부동 소수점 피크 효율은 32*4 구성이던 맥스웰/파스칼의 SM과 크게 다르지 않지만, 정수 연산이 부동 소수점 연산에 부담을 주지 않도록 개선되어 실제 게이밍 환경에서 더 나은 효율을 기대할 수 있습니다.

 Read more ≫ 

2016년 5월 (Pascal)

- 엔비디아 지포스 10 시리즈, 파스칼

엔비디아 파스칼 아키텍처는 오랫동안 GPU 업계의 발목을 잡아온 28nm 공정에서 벗어나 16nm FinFET 공정으로 생산되는 차세대 그래픽 솔루션입니다. 순수 그래픽 성능과 직결되는 설계 특성으로는 VRAM과 통신하는 메모리 인터페이스를 개선하는 한편, 진보한 델타 컬러 압축기술로 대역폭 점유율을 절약하는데 힘 쓴 모습입니다.

또한 플래그십 라인업인 GTX 1080 / GTX 1080 Ti / TITAN X 모델들은 최초로 GDDR5X 메모리를 채택하기도 했습니다. 기존 GDDR5 메모리가 7~8Gbps에서 상한선에 도달한 것과 달리, GDDR5X는 10Gbps 이상의 유효 클럭을 제공해 고대역 메모리(HBM) 기술이 성숙할 때 까지 교두보 역할을 하기에 충분한 성능을 제공해 줄 것으로 기대됩니다.

내부적으로는 약점으로 꼽히던 선점식 연산(Pre-Emption) 방식을 개선해 DX12 지원 능력을 강화하고, 가상현실(VR)에 최적화 된 동시 다중 투영(Simultaneous Multi-Projection) 뷰포트 엔진을 도입해 왜곡되는 화면을 실시간으로 보정할 수 있는 기능을 추가했으며, 싱글 패스 스테레오(Single-Path Stereo)나 다중 해상도 셰이딩(Multi-Res Shading)과 같은 기존 NVIDIA VRWorks™ 기술들의 효율도 높였습니다.

이번만큼은 경쟁사와 마찬가지로 실질적인 연산부인 스트리밍 멀티프로세서(SM) 구조는 맥스웰과 달라지지 않았기 때문에 클럭당 성능(IPC) 측면에서는 상술한 스케줄링 최적화 및 메모리 인터페이스 효율화 정책에 의한 상승분이 다수를 차지하며, 가시적으로 드러난 성능 향상폭은 신 공정 도입에 의한 폭발적인 최대 클럭 상승과 전력대비 성능 극대화의 공이 컸습니다.

 Read more ≫ 

2014년 2월 (Maxwell)

- 엔비디아 지포스 9 / 7 시리즈, 맥스웰

3세대 폴리모프 엔진이 32개의 CUDA 코어로 구성된 모듈 4개를 관리하는 SMM 명령어 세트 설계(128 CUDA Cores)를 최소단위로 구축됩니다. 스페셜 피쳐 유닛(SFU) 하나당 4개의 CUDA 코어가 할당되어 GF100/110에서 보여준 1:8 비율보다 높은 밀도의 SM 구성을 갖췄으며, 케플러 아키텍처보다 배정밀도 유닛 비율을 한 번 더 줄여(1/32) 그래픽 카드로서의 효율성을 한층 더 향상시켰습니다.

*단, 최초의 맥스웰 아키텍처는 지포스 GTX 750 시리즈(GM107)로 출시되어 2세대 폴리모프 엔진을 탑재해 DirectX® 12(FL11.0) / HDMI 1.4a 포트까지 지원합니다. 나머지 맥스웰 아키텍처 기반 지포스 GTX 900 시리즈(GM20x)는 DirectX® 12(FL12.1) / HDMI 2.0 포트를 지원합니다.

페르미 아키텍처와 케플러 아키텍처에서 가장 효율적인 구성들만 골라서 적용했다고 봐도 과언이 아닌 아키텍처입니다. SMM 보다 작은 단위로 32개 CUDA 코어 구성의 컨트롤 로직을 구축했으며, GK20x 기반 저가형 케플러 아키텍처에서 효율을 더 높일 수 있는 것을 확인한 텍스쳐 유닛과 그래픽 작업에서 필요성이 낮은 DPU를 공유 자원으로 활용한 것으로 확인되었습니다.

맥스웰 이후 아키텍처들이 명령어 세트 설계의 명칭을 SM(스트리밍 멀티프로세서)으로 변경하면서 사실상 SM 구조에 기반한 그래픽 명령어 세트 설계로는 최종 형태로 여겨지고 있습니다. 이에 따라 GPU 코어의 발전 방향도 통합 연산으로는 한계가 뚜렷한 특정 기능들을 하드웨어 레벨로 가속하는 전용 명령어 세트를 추가하는 형태로 바뀌게 됩니다.

 Read more ≫ 

2012년 4월 (Kepler)

- 엔비디아 지포스 6 / 7 시리즈, 케플러

혁신적인 구조였지만 발열과 전력 소비량으로 인해 결과가 썩 좋진 않았던 페르미의 계륵 포인트로 꼽힌 배정밀도(DP) 연산을 담당할 별개의 유닛을 만들어 1/24 수준으로 줄였습니다. 이 때 부터 분야별로 최적화 방법을 달리하되 통합 설계를 추구한 경쟁사와 달리, 주력 연산처에 따라 명확하게 제품군을 분리시켜 자원 비율을 조절하며 GPU 코어를 설계하는 방향으로 노선을 정했다고 볼 수 있습니다.

2세대 폴리모프 엔진에 192개의 CUDA 코어로 구성된 SMX 명령어 세트 설계를 최소 단위로 가지며, 엔비디아에서 공개한 자료에 따르면 케플러 아키텍처는 GF104/114 기반을 개량한 것에 가깝습니다. 스페셜 피쳐 유닛(SFU)과 CUDA 코어의 비율이 1:6을 이루도록 구성되었기 때문인데 로드/스토어 및 SFU를 공유 자원으로 활용하면서 하나의 커다란 로직으로 분류되었지만, 본질적으로는 SM(48) 4개를 통합하여 효율적인 병렬성을 추구한 구조라고 볼 수 있습니다.

결과적으로는 배정밀도를 분리한 설계 덕분에 TDP로 불리는 발열 및 전력 디자인 제안이 대폭 완화되어 남는 여력을 성능으로 전환하는 부스트 클럭(GPU Boost) 기능이 탄생하는 계기가 되었으며, 저가형 제품에만 적용되었던 GK20x 기반 케플러는 텍스처 유닛을 공유하여 효율을 높이는 성과를 내어 맥스웰 아키텍처로 넘겨주는 역할을 맡습니다.

다만 케플러 라인업부터 GTX TITAN 이라는 새로운 플래그십 라인업을 출시하면서 처음이자 마지막으로 예외를 두었는데, 테슬라(TESLA) 라인업에서만 허용한 배정밀도(DP) 유닛을 모두 탑재해서 출시한 것 입니다. 케플러 이후 아키텍처 기반 GTX TITAN 들은 배정밀도 유닛이 제한된 채로 출시되었습니다.

 Read only ∥ 

2010년 4월 (Fermi)

- 엔비디아 지포스 4 / 5 시리즈, 페르미

32개의 CUDA 코어로 구성된 명령어 세트 설계 SM(Streaming Multiprocessor)가 최초로 구색을 갖춘 모델입니다. TSMC의 40nm 미세공정과 GDDR5 메모리를 투입해 성능상 우위를 되찾았지만, 두 개의 ALU로 배정밀도 연산을 실시하도록 설계되어 뛰어난 DP 성능을 발휘했음에도 불구하고 당시 불안정했던 미세공정과 자원 분배 효율 문제로 발열과 전력 소비량이 과도하게 늘어나는 경향을 보였습니다.

지포스 GTX 480 / GTX 470 / GTX 465에 이르는 상위 라인업을 구축한 GF100 코어에서 이러한 문제가 불거지자, 중급기용으로 설계하던 GF104 코어는 아예 배정밀도 연산을 겸하는 지정 CUDA 코어 16개(DP 연산에 4개의 코어 사용, 4x4)를 추가로 집어넣어 단정밀도 연산을 우선하는 16+32 CUDA 코어로 구성된 스트리밍 멀티프로세서를 투입합니다. 이러한 구조는 GF11x 코어까지 이어집니다.

엔비디아는 스트리밍 멀티프로세서(SM/CUDA 코어) 뿐만 아니라 ROP의 개수도 유동적으로 조절하며 제품을 출시했기 때문에 제품군 구성이 다소 복잡한 편입니다.

512개(GTX 580) / 480개(GTX 480 & GTX 570) / 448개(GTX 470 & GTX 560 TI) / 352개(GTX 465) 까지 GF100-GF110 코어로 구성되었으며, 384개(GTX 560) / 336개(GTX 460 & GTX 560) 288개(GTX 460 SE & GTX 560 SE)GF104-GF114 코어, 192개(GTS 450 & GTX 550 Ti) GF106-GF116 코어로 제품군을 선보였으며, 같은 모델명이라도 ROP 개수와 클럭 스피드를 달리한 제품들이 있습니다.

출시 초기엔 DirectX® 11, OpenGL 4.0을 지원했으며, 드라이버 업데이트를 통해 DirectX® 12(Feature Level 11.0), OpenGL 4.5, OpenCL 1.1까지 지원할 수 있도록 확장되었습니다. 엔비디아에서 출시한 GPU 중 최초로 DirectX® 12를 정식 지원하는 그래픽 카드로 남은 기념비적인 모델이라고 할 수 있겠습니다.

 Read more ≫