엔비디아 Groq 3 LPU 공개 — GPU+LPU 분업과 삼성 4nm 파운드리 (GTC 2026)

3월 16, 2026

▲ 엔비디아 GTC 2026 GPU+LPU 분업 시대 선언

Groq 3 LPU(Language Processing Unit)란 엔비디아가 GTC 2026에서 공개한 AI 추론 전용 칩입니다. 기존에 GPU(그래픽 처리 장치)가 AI 모델을 학습시키는 '훈련'과 실제 답변을 생성하는 '추론'을 모두 담당했다면, 이제 엔비디아는 GPU는 훈련, Groq 3 LPU는 추론이라는 분업 체제를 공식화했습니다. 이 전략은 에이전트형 AI(Agentic AI)의 부상과 깊이 연결되어 있습니다.

에이전트 AI 시대, 왜 추론 전용 칩이 필요한가?

에이전트형 AI는 사람의 명령을 받아 스스로 생각하고, 도구를 호출하고, 그 결과를 판단하는 과정을 반복합니다. 이 반복 루프에서 핵심은 '추론' 속도입니다. GPU는 대규모 병렬 연산에 뛰어나지만, 토큰(AI가 한 글자씩 답변을 만들어내는 단위)을 빠르게 생성하는 추론 작업에서는 한계가 있었습니다. 엔비디아는 2025년 12월 추론 전문 스타트업 Groq의 핵심 기술과 인력을 200억 달러(약 29조 원)에 인수하며 이 문제를 해결할 무기를 확보했습니다. GTC 2026에서는 이 인수의 첫 결과물인 Groq 3 LPU가 공개되었고, 동시에 기업용 AI 에이전트 오픈소스 플랫폼 NemoClaw도 발표되어 "추론 칩 + 에이전트 소프트웨어"라는 완성된 그림이 제시되었습니다.

▲ Groq 3 LPU 핵심 스펙 SRAM 150TB/s

Groq 3 LPU 핵심 스펙 — SRAM 150 TB/s의 의미는?

Groq 3 LPU의 가장 큰 특징은 일반 GPU가 사용하는 HBM(고대역폭 메모리) 대신 SRAM(정적 램)을 내장했다는 점입니다. 칩 하나에 500MB의 SRAM이 탑재되어 150 TB/s의 대역폭을 제공합니다. 이는 Vera Rubin GPU의 HBM4 대역폭(22 TB/s)보다 약 7배 빠른 수치입니다. LPU 256개를 하나의 LPX 랙에 집적하고, 옆에 Vera Rubin NVL72 GPU 랙을 Spectrum-X 인터커넥트로 연결하면, GPU가 사용자의 질문(프롬프트)을 처리하고 LPU가 답변(토큰)을 생성하는 분업 구조가 완성됩니다. 이 조합으로 와트당 토큰 처리량은 GPU 단독 대비 35배 향상됩니다.

▲ 삼성 4nm LPU 파운드리 AI 칩 생태계 변화

삼성전자 4nm 파운드리 — 엔비디아 서버 칩 제조의 첫 사례

Groq 3 LPU는 삼성전자 4nm 공정으로 제조됩니다. 엔비디아의 데이터센터용 서버 칩이 TSMC가 아닌 삼성 파운드리에서 만들어지는 것은 사실상 최초입니다. TrendForce에 따르면, 삼성의 Groq 웨이퍼 주문량은 약 9,000장에서 15,000장으로 약 70% 증가했으며, 2026년부터 본격적인 대량 양산에 들어갑니다. 이는 삼성 파운드리에게 중요한 의미를 갖습니다. 그동안 TSMC에 집중되어 있던 엔비디아의 AI 칩 물량 중 일부가 삼성으로 분산되는 신호이기 때문입니다.

핵심 정리

① Groq 3 LPU 성능 — 칩당 500MB SRAM, 150 TB/s 대역폭으로 Rubin GPU 대비 추론 7배 빠름

② GPU+LPU 분업 — GPU는 훈련과 프롬프트 처리, LPU는 토큰 생성을 담당하며 와트당 효율 35배 향상

③ 삼성 4nm 양산 — 엔비디아 서버 칩 최초의 삼성 파운드리 제품, 웨이퍼 주문 70% 증가

엔비디아의 GPU+LPU 분업 전략은 AI 칩 산업의 구조를 근본적으로 바꾸는 신호입니다. 훈련과 추론이 별도의 칩으로 분리되면서, AI 인프라는 더 효율적이고 전문화된 방향으로 진화하게 될 전망입니다. 삼성 파운드리의 참여는 이 변화가 반도체 공급망까지 파급되고 있음을 보여줍니다.

👉 MS Azure 루빈 NVL72 배포 — AI 슈퍼팩토리 시대와 클라우드 AI 경쟁 2026도 함께 읽어보세요.

📌 출처: The Register, Tom's Hardware, TrendForce, NVIDIA Blog (2026)

InClicks - AI·반도체·로봇 데일리 테크 뉴스