blevels

Home / AI / AI 용어사전 / GPU — AI가 빠르게 생각하는 핵심 칩의 역할

TERM

GPU — AI가 빠르게 생각하는 핵심 칩의 역할

게시일 2026-04-30수정일 2026-04-30
공식 링크
On this page

AI 모델 하나를 학습시키는 데 수천 개의 GPU가 수주에서 수개월 동안 쉬지 않고 연산을 수행한다. H100 GPU 한 장의 가격이 수천만 원을 넘는 이유, AI 기업들이 GPU 확보에 수조 원을 투자하는 이유가 여기에 있다. AI 인프라 경쟁의 실체는 GPU 확보 경쟁이다.

정의

GPU(Graphics Processing Unit, 그래픽 처리 장치)는 원래 3D 그래픽 렌더링을 위해 설계된 칩으로, 수천 개의 소형 코어가 동시에 병렬 연산을 수행하는 구조를 가진다. AI machine-learning|머신러닝 연산의 핵심인 행렬 곱셈(Matrix Multiplication)에 최적화되어 있어, CPU 대비 수십~수백 배 빠른 AI 연산 속도를 제공한다.

CPU와 GPU의 구조적 차이

| 구분 | CPU | GPU | |---|---|---| | 코어 수 | 수십 개 (고성능 기준) | 수천~수만 개 | | 연산 방식 | 순차적·복잡한 분기 처리 | 병렬·단순 반복 처리 | | 클럭 속도 | 높음 (5GHz+) | 낮음 (1~2GHz) | | 메모리 | 빠른 캐시, 용량 제한 | 대용량 HBM | | AI 적합성 | 범용. AI 연산에 비효율 | 행렬 연산에 최적화 |

CPU는 복잡한 로직과 분기 처리에 강하지만, AI 학습에서 반복되는 행렬 연산에는 GPU가 압도적으로 유리하다. ResNet-50 이미지 분류 모델을 CPU로만 학습하면 수개월이 걸리지만, GPU 클러스터에서는 몇 시간이면 완료된다.

AD

AI용 GPU의 발전

NVIDIA는 2007년 CUDA(Compute Unified Device Architecture)를 출시해 GPU를 그래픽 외 범용 연산에 활용하는 길을 열었다. 2012년 AlexNet이 GPU를 활용해 ImageNet 챌린지를 압도하면서 AI 전용 GPU 수요가 폭발적으로 성장했다.

주요 AI용 GPU 라인업 (NVIDIA 기준, 2026-04 기준)

| 모델 | 세대 | 특징 | |---|---|---| | H100 SXM | Hopper | FP8 기준 3,958 TFLOPS. AI 학습 최고 성능급 | | H200 | Hopper+ | HBM3e 탑재. 메모리 대역폭 H100 대비 약 1.8배 | | B200 | Blackwell | H100 대비 2.5배 성능 목표. 2025년 본격 출하 | | A100 | Ampere | H100 이전 세대. 대규모 클러스터에서 여전히 광범위 사용 | | RTX 4090 | Ada | 소비자용 최고 성능. 소규모 추론 서버·개인 연구에 활용 |

AMD는 MI300X로 AI 시장에 도전하고 있으며, Google은 TPU(Tensor Processing Unit), Apple은 Neural Engine을 자체 개발해 NVIDIA 의존도를 낮추려 한다.

HBM — GPU 메모리가 중요한 이유

AI 모델의 파라미터는 GPU 메모리(VRAM)에 올라간다. llm|LLM 대형 모델은 수백 GB의 VRAM이 필요하며, 이를 감당하려면 여러 GPU를 연결한 클러스터가 필수다.

HBM(High Bandwidth Memory)은 GPU 옆에 수직으로 적층된 메모리로, 기존 DDR보다 수십 배 빠른 대역폭을 제공한다. H100은 HBM3를 탑재해 3.35 TB/s의 메모리 대역폭을 지원한다. SK하이닉스, 삼성전자, Micron이 HBM 시장을 과점하고 있어, GPU 공급망은 HBM 수급 상황에도 크게 영향받는다.

AD

GPU 부족과 AI 인프라 경쟁

2023~2024년 생성형 AI 열풍 이후 AI용 GPU 수요가 공급을 크게 초과했다. Microsoft, Google, Amazon, Meta는 수십만 장의 GPU를 확보하기 위해 수조 원을 투자하고 있다. NVIDIA의 시가총액이 2024년 3조 달러를 돌파한 것도 이 수요가 배경이다.

스타트업은 클라우드에서 GPU를 시간 단위로 빌려 사용하는 것이 일반적이다. AWS, GCP, Azure 모두 H100 인스턴스를 제공하며, Lambda Labs, CoreWeave 같은 전문 GPU 클라우드도 빠르게 성장하고 있다.

활용 사례

  • LLM 학습: GPT-4 사전 학습에 약 25,000장의 A100이 수개월 동안 사용된 것으로 알려져 있다.
  • 이미지 생성 AI: Stable Diffusion, DALL-E 같은 diffusion-model 학습과 inference|추론 모두 GPU 의존도가 높다.
  • 자율주행 학습: Tesla는 자체 Dojo 슈퍼컴퓨터에 수만 장의 GPU를 탑재해 FSD 모델을 학습시킨다.
  • 게임·렌더링: 본래 목적인 3D 렌더링과 레이트레이싱에도 여전히 핵심 역할을 담당한다.

관련 용어

  • machine-learning — GPU로 가속화되는 AI 학습의 핵심 기술
  • inference — 학습된 모델이 GPU에서 실시간으로 출력을 생성하는 단계
  • tpu — Google이 AI 연산 전용으로 설계한 ASIC 칩
  • cuda — NVIDIA GPU의 범용 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델
  • hbm — GPU 메모리 대역폭을 수십 배 높인 고속 적층 메모리
AD