국내
(반도체) 생성형 AI는 결국 메모리 Bomb와 삼성파운드리 생태계 변화를 가져올 수 밖에 없다.
LePain
2023.07.03
※ 감수인
★★★★★ LePain님의 ‘오렌지보드 독점’ 의견은 본문 하단을 참조해 주세요 ★★★★
좋은 보고서 공유해 주셔서 감사 드립니다. 용어가 생소한 분들이 많을 듯 하여, 이해를 돕기 위해 용어를 본문 중간중간에 삽입하였습니다. 양이 많아 글의 흐름을 방해할 수도 있을 듯 합니다. (지식이 부족한 독자들을 위해) 양해 부탁 드립니다.
과하게 오른 게 아닌가 라는 생각을 했었는데, 오른 이유를 이해할 수 있게 (친절하게) 도와주는 보고서입니다. 감사 드립니다.
*앱을 설치하시면, 구독하시는 크리에이터에 대한 새글 알림을 받아보실 수 있습니다. '오렌지보드' 로 검색하셔서 설치 부탁 드립니다. Orangeboard.CT가 작성한 글에 댓글로 피드백 주시면, 고객 본인이 원하는 기능이 적용될 수 있습니다. 참여 부탁 드립니다.
생성형 AI인 GPT로 인해 AI 생태계가 급격하게 개입하게 되었다.
생성형 AI를 쉽게 설명하면 AI모델이 방대한 데이터를 훈련을 통해 쌓아놓고, 거기에 이용자가 특정 요구를 할 경우 학습을 바탕으로 추론하여 무엇인가를 생성해내는 것이다.
[1] 생성 AI 밸류체인
1. 파운데이션 모델
오픈 AI의 GPT가 파운데이션 모델이다. LLM(대규모 언어 모델)을 통해 AI 모델을 발전시키고 어플리케이션 기업들에게 API를 제공해준다. 진입 장벽이 굉장히 높고 유저가 많아질수록 비용이 증가하기 때문에 끊임없이 돈을 때려 넣어야 된다.
감수인 주) LLM(대규모 언어 모델)은 OpenAI에서 개발한 GPT-3.5 아키텍처에 기반한 대규모 언어 모델을 말합니다. "LLM"은 "Large Language Model"의 약자입니다.
2 어플리케이션
클라우드, 파운데이션 API를 활용해 서비스를 만드는 기업이다. 제공받은 API로 본인들의 서비스에 최적화되게끔 파인튜닝을 해서 사용하게 된다.
3. 클라우드 API 서비스
하드웨어 + 소프트웨어가 결합된 천문학적인 인프라를 갖춰야 제공이 가능하다. 빅테크의 영억이며 대부분의 기업들은 자체 AI 개발, LLM 개발을 꿈꾸지만 비용덕에 클라우드에 종속되게 된다.
4. 반도체
AI 모델을 구축하는데 있어 핵심 역할을 한다. GPU가 LLM을 구동하는 핵심 하드웨어이기 때문이다. LLM을 구축하기 위해서는 결국 컴퓨팅 파워가 중요하기 때문이다.
범용성을 추구하는 GPU 뿐 아니라 AI에만 특화되어 있는 ASIC 기반의 반도체도 많다.
그리고 결국 GPU를 도와주는 메모리 반도체 또한 핵심 역할을 담당하게 될 것이다.
감수인 주) GPU(Graphics Processing Unit)는 그래픽 처리에 특화된 프로세서로, 병렬 처리 능력이 뛰어나고 많은 수의 연산을 동시에 처리할 수 있습니다. 이러한 특성은 대규모 언어 모델의 학습과 추론 작업에 매우 유용합니다. 일반적으로 딥 러닝 작업을 위해 GPU를 사용하는 데에는 NVIDIA의 GPU가 널리 사용됩니다. NVIDIA는 딥 러닝을 위한 GPU 아키텍처인 CUDA를 개발하였습니다.
감수인 주) ASIC은 "Application-Specific Integrated Circuit"의 약어로, 특정 응용 분야에 특화된 반도체입니다. ASIC은 특정 기능을 수행하는데 최적화된 하드웨어 솔루션을 제공합니다. 이는 일반적인 목적의 프로세서나 GPU와는 달리, 특정 응용 분야에서 높은 성능과 효율성을 제공합니다. ASIC은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어, 통신 분야에서는 디지털 신호 처리, 부호화 및 복호화, 네트워크 프로토콜 처리 등을 위한 ASIC이 개발됩니다. 자동차 산업에서는 차량 제어 시스템, ADAS(Advanced Driver Assistance Systems), 자율 주행 등을 위한 ASIC을 사용합니다. 그리고 AI 분야에서는 딥 러닝 작업에 특화된 ASIC인 TPU(Tensor Processing Unit)가 활용되고 있습니다.
[2] GPU는 갑자기 왜 뜬거?
인공지능이 만들어낸 특이점이다. AI Training Set의 성장에서 강력하게 매년 10배의 속도로 증가하고 있다. 그리고 이렇게 AI 시장의 성장은 곧 GPU의 성장이라고 할 수 있다.
지난 수십년간 AI 성장에 제약을 만든 것은 미세선폭으로 만들어지는 CPU나 GPU가 아닌 의외로 메모리 성능의 한계였다. CPU는 매년 60%씩 성능향상이 나오는데 디램의 반응속도는 10%정도 상승하다보니 병목현상이 생기기 시작.
이러한 문제를 해결하기 위해 CPU 내부에 초고속 메모리 '캐시 메모리'를 탑재했다. (일반 디램의 10배 속도)
CPU는 프로그래밍된 순서도에 따라 만들어져 순서도를 빨리 돌리기 위해서는 CPU를 미세화시켜 트랜지스터를 많이 박는 식으로 진화가 되었다. CPU가 빨라져서 연산을 빨리 하게끔.
하지만 AI의 발전 형태가 단어를 순차적으로 입력하는 방식이 아닌 단어를 넣고 그 안에서 맥락을 찾아 관계성을 확보하는 방식으로 서로간에 수많은 연결이 생기게 되면서 방대한 양의 데이터를 훈련해야 하는 인공지능의 경우 직렬구조로 연산을 하는 CPU보다 GPU 방식이 유리해졌다. (트랜스포머 아케텍쳐)
GPU가 CPU보다 상대적으로 더 많은 ALU를 가지고 있어 더 많은 데이터 처리 및 학습이 가능했고, 이와 같은 강점은 대량의 데이터를 학습하는 머신러닝 서버에서 더 중요도가 높아졌다.
감수인 주) ALU는 "Arithmetic Logic Unit"의 약어로, 컴퓨터의 중앙 처리 장치(CPU)에 있는 하드웨어 유닛입니다. ALU는 산술 연산과 논리 연산을 수행하는데 사용되며, 데이터 처리와 계산 작업을 담당합니다. 산술 연산은 덧셈, 뺄셈, 곱셈, 나눗셈과 같은 연산을 포함합니다. 논리 연산은 논리적인 판단과 비트 수준의 연산을 수행하는 것을 의미합니다. 이는 AND, OR, XOR, NOT과 같은 논리 연산자를 사용하여 데이터의 비트 단위 조작을 수행하는 것을 포함합니다.
인공지능의 경우 프로그램에 순서도도 없고 수없이 연결된 인공적인 인공신경망을 만들었다.
이렇게 산술 연산과 메모리 접근이 압도적으로 많은 특징은 수억번의 연산을 거쳐야 결과값이 출력되는 형태가 되었고 당연히 일을 병렬로 처리하는 GPU가 CPU대비 이점을 가져가게 되었다.
인공 신경망의 크기는 기존 CPU 기반 프로그램보다 매우 거대했고, 인공신경망은 어딘가에 저장돼 있어야 하므로 매우 큰 메모리가 필요하다.
결론적으로 이번 AI가 만들어낸 인공지능의 반도체 트렌드는 AI 가속기로 대변되는 GPU와 메모리의 콜라보라고 할 수 있다.
AMD CEO인 리사 수의 경우 AI 가속기 시장이 23년 300억 달러에서 27년 1500억 달러로 CAGR 50%의 성장을 예상하고 있다.
지금은 챗GPT의 시대이지만 구글의 Bard와 그리고 아직 겉으로 드러나지 않는 여러 AI모델이 계속해서 출몰할 것이다.
https://www.similarweb.com/blog/insights/ai-news/chatgpt-bard/
[3] HBM은 갑자기 왜 뜬거?
위에서 말했듯, 폰노이만 구조가 가지는 한계로 인해 근원적으로 계층간에 병목현상이 생기게 된다.
감수인 주) 폰 노이만 구조는 컴퓨터의 설계 방식 중 하나로, 프로그램이 메모리에 저장되고 CPU가 메모리에서 명령어를 읽어 실행하는 방식입니다. 폰 노이만 구조는 1945년 존 폰 노이만이 제안하였으며, 현재 사용되는 대부분의 컴퓨터가 폰 노이만 구조를 기반으로 합니다. 단일 버스 구조, 중앙처리장치, 메모리, 저장 장치, 명령어 순차 처리가 특징입니다.
출처: https://www.youtube.com/watch?v=HndwJaR_Zpw
CPU와 GPU는 하나로 묶어서 어느정도 병목현상을 해결할 수 있지만, CPU와 이 CPU에 데이터를 전달하는 메모리 계층간에 대역폭과 속도차이로 인한 병목현상은 피할수가 없게 된다.
출처: https://www.youtube.com/watch?v=HndwJaR_Zpw
폰노이만 구조에서 메인 메모리는 디램이 맡고 있다. 상부로는 캐시와 레지스터로, 아래로는 SSD와 같은 저장장치로 연결되면서 필요한 데이터를 위아래로 뿌려주는 역할을 한다.
CPU에 비해서 메인 메모리의 속도가 너무 느리다보니 길목에서 병목현상이 생긴다.
출처: https://www.youtube.com/watch?v=HndwJaR_Zpw
이렇게 메모리와 SoC간 데이터의 이동통로를 채널버스라고 하는데, 이것이 너무 좁은 것이다.
감수인 주) SoC는 "System on a Chip"의 약어로, 컴퓨터 시스템의 다양한 구성 요소를 하나의 칩에 통합한 집적 회로입니다. SoC는 일반적으로 CPU(중앙 처리 장치), 메모리 컨트롤러, 그래픽 처리 장치, I/O 컨트롤러, 네트워크 컨트롤러 등 다양한 하드웨어 컴포넌트를 포함합니다.
GPU 자체는 원래 그래픽 처리를 위해 고안되었다. 수백만개의 픽셀을 계산해야 되므로 GDDR 형태의 고대역폭의 메모리로 해결을 했다. 채널 버스를 지나가는 데이터의 전송 속도를 올려 해결했던 것이다. 물론 클럭을 높이면 발열과 전력소모가 심해지게 된다.
출처: Rambus
왼쪽 그림처럼 디램이 기판에 나란히 연결된 현재 구조로는 이 채널 버스를 늘리기가 어렵다. 그래서 오른쪽의 HBM이라는 개념이 나왔다. 채널버스 32비트가 HBM에서는 1024비트까지 넓어졌다.
감수인 주) GDDR은 Graphics Double Data Rate의 약자로, 그래픽 처리에 최적화된 메모리입니다. GDDR은 DDR(Double Data Rate) 메모리와 동일한 방식으로 작동하지만, 그래픽 처리에 필요한 특수 기능을 추가로 지원합니다. 예를 들어, GDDR은 DDR 메모리보다 더 높은 클럭 속도를 지원하고, 더 많은 대역폭을 제공합니다. 이러한 특성 덕분에 GDDR은 그래픽 처리에 필요한 데이터를 빠르게 전송할 수 있으며, 고해상도 그래픽을 생성할 수 있습니다. GDDR은 주로 그래픽 카드에 사용됩니다.
감수인 주) HBM은 High Bandwidth Memory의 약자로, 고대역폭 메모리의 한 종류입니다. HBM은 3D 스택 방식의 DRAM을 사용하여, 기존의 DRAM보다 더 높은 대역폭과 더 낮은 전력 소모를 제공합니다. HBM은 주로 고성능 그래픽스 가속기와 네트워크 장치에 사용됩니다.
채널 버스가 넓어지면서 클록스피드는 낮아지고 볼티지도 낮아지면서 저전력을 구현해냈다.
전송속도를 낮춘대신 채널버스의 Width를 넓혀 고대역폭을 만들어낸 것이다.
GDDR6를 12개를 붙인 것이 HBM3 1개로 퉁쳐진다.
더구나 HBM의 경우 실리콘 인터포저를 활용하기 때문에 더욱 더 SoC와 가까이 위치할 수 있다.
그리고 채널 버스 폭 뿐 아니라 I/O수도 GDDR6대비 압도적으로 많기 때문에 더 많은 데이터를 더 빠르게 처리할 수 있다.
감수인 주) 인터포저(Interposer)는 칩과 칩, 또는 칩과 기판을 연결하는 기판입니다. 인터포저는 일반적으로 실리콘으로 만들어지며, 칩과 칩, 또는 칩과 기판 사이의 전기적/열적 연결을 제공합니다.
출처: 강해령의 테크인사이트
결론적으로 현재 반도체의 씬을 장악하고 있는 것은 과거처럼 얼마나 미세한 폭으로 (미세나노) 몇 개의 트랜지스터를 때려박느냐가 아니라, 얼마나 많은 HBM을 탑재할 수 있고 Chiplet 등의 기술을 활용해 얼마나 Near하게 메모리와 SoC를 배치할 수 있는냐이다. 그러므로 후공정 관련 주식의 시세가 좋은 것이다.
감수인 주) 반도체 후공정은 웨이퍼에 회로를 새기는 전공정을 마친 후, 칩을 패키징하고 테스트하는 공정입니다. 후공정은 반도체 제품의 성능과 신뢰성을 높이고, 생산성을 향상시키는 데 중요한 역할을 합니다. 패키징(칩을 기판에 장착하고, 전기적 연결을 제공), 테스트(칩의 기능을 테스트하고, 불량을 제거), 포장(칩을 포장하고, 보호)을 포함합니다.
[4] AI가 메모리에 어떤 변화를?
먼저 AI 가속기에 쓰이는 GPU가 메모리와 어떻게 커뮤니케이션을 하는지 알아보면,
1) GPU에 장착된 HBM 내 학습 데이터는 결국 외부 저장소(Storage)에서 가져와야 한다. 그리고 이 저장소는 학습에 필요한 데이터와 개발자에 의해 가공된 데이터를 가능한 한 많이 탑재할 수 있어야 하므로 용량이 크로 빠를수록 유리하다.
2) 현재 GPT 3.5 모델에서는 텍스트 기반이지만 추후 멀티모달(음성, 이미지, 동영상)등의 데이터를 모아두고 처리애햐 하므로 더욱 더 큰 용량이 필요해진다.
3) 학습 서버 내 저장소(Storage)와 GPU 간의 데이터 전송속도 대비 외부 저장소(Storage)와 학습 서버 내 저장소(Storage) 간의 데이터 전송 속도가 느려 GPU가 학습할 데이터가 부족해지는 문제가 생길 수 있다. 그러므로 데이터를 더 빠르게 처리하고 원활한 데이터 수급을 위해서는 낸드플래시 기반의 고성능, 고용량의 저장소가 필요하다.
4) 서버 컴퓨터의 메모리 용량이 클수록 서버에 더 많은 프로그램을 탑재해 다양한 작업 수행이 가능해진다. 따라서 여전히 HBM뿐 아니라 서버에 들어가는 메모리도 중요하다.
위 도표는 AWS의 인공지능 학습용 컴퓨터 스펙인데 보면 더 많은 HBM를 달아놨지만 CPU가 별도로 1.1TB의 메모리를 사용하고 있다는 것이다. (CPU 및 A100 8개가 장착된 HPC)
반도체 업계 관계자들이 챗GPT를 시작으로 많은 기업들이 AI 개발에 뛰어들면서 데이터센터의 DDR5에 대한 수요가 폭증할 것으로 예상하는 이유가 바로 이와 같다.
감수인 주) DDR5는 2021년에 출시된 DDR4의 후속 제품으로, DDR4에 비해 향상된 성능과 효율성을 제공합니다. DDR5의 주요 특징은 다음과 같습니다. 최대 6400 MT/s의 대역폭, 1.1V의 낮은 전력 소비를 제공합니다.
클라우드 서비스를 이용하지 않고 직접 GPU 서버를 구성하는 고객의 경우에는 보통 엔비디아의 DGX Staion을 이용하는데, 아래와 같은 괴물 사양으로 구성이 되어 있다.
감수인 주) NVIDIA DGX Station은 AI 연구와 개발을 위한 고성능 워크스테이션입니다. DGX Station은 AI 연구와 개발을 위한 강력한 도구입니다. 가격은 미화 199,000 달러부터 시작합니다. (Bard 참조)
엔비디아의 최신 H100을 보면 HBM3를 80GB 넣을수 있게 되어 있다. 반면 AMD의 경우 HBM3를 192GB까지 탑재하게 함으로써 메모리 반도체 회사에게 좀 더 좋은 포지션을 제공한다. 엔비디아는 시장의 압도적인 지위와 CUDA와 같은 생태계를 이용해 GPU를 더 많이 써서 성능을 올리는 접근을 하고 있고, 2등인 AMD는 HBM 채택을 늘려 가격 우위를 가져가려고 하는 것이다.
감수인 주) CUDA는 "Compute Unified Device Architecture"의 약어로, NVIDIA에서 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델입니다. CUDA는 NVIDIA의 GPU(Graphical Processing Unit)를 활용하여 병렬 컴퓨팅 작업을 수행하는 데 사용됩니다. CUDA는 GPU를 활용하여 병렬 컴퓨팅 작업을 가속화할 수 있는 다양한 라이브러리와 도구를 제공합니다. 개발자는 C, C++, Python 등의 프로그래밍 언어를 사용하여 GPU에서 실행되는 커널(kernel)이라는 작은 코드 조각을 작성할 수 있습니다.
현재에도 AI 모델을 갖추기 위해서는 천문학적 금액이 들어가는 만큼(특히 BOM에서 GPU가 대부분을 차지) GPU에서 HBM을 비롯한 메모리를 활용하는 방향으로 갈 것으로 생각이 된다.
감수인 주) BOM(Bill of Materials)은 제품을 구성하는 모든 부품과 소재, 구성품들을 목록화한 문서입니다. 제조업체나 제품 개발자는 BOM을 사용하여 제품의 구성 요소와 그들의 속성, 수량, 설치 위치 등을 정의합니다. 각종 산업에서 사용하는 일반 용어입니다.
다음으로 AI 모델링을 구축하는 방법에는 2가지가 있다.
1. 학습(Training)
2. 추론(Inference)
학습은 학습 인프라를 깔아두고 학습데이터와 AI 알고리즘을 통해 AI 모델을 학습시키는 것이다.
추론은 학습된 AI 모델이 사용자의 질문을 받으면 인공신경망이 실제로 문제를 푸는 행위를 말한다.
추론이 안되면 그냥 백과사전이라고 할 수 있다.
따라서 추론이 앞으로는 더 비용도 많이들고 성장의 기울기가 가파를 것으로 예상된다.
이용자가 많아질수록 기하급수로 로드가 걸리는 쪽은 추론쪽이다. 아무리 똑똑한 모델을 가지고 있다고 해도 응답속도가 느리다면 시장에서 외면 받을 것이다.
현재시점에서 LLM은 학습비용보다 추론비용이 더 큰 문제이다.
기존 출시된 모델들 대부분은 파라미터를 늘려 학습 성능에만 초점을 맞췄기 때문에 추론 서비스가 상대적으로 약하다. 이 말은 성능을 높이는데는 성공했지만 Budget의 한계로 현실적으로 추론서비스가 불가능한 반쪽짜리 모델이라는 것이다.
GPT 같은 AI모델을 활용한 어플리케이션이 많아지면 많아질수록 데이터센터 내의 추론시장이 커질 것으로 예상한다. 또한 학습용 칩은 개발용 칩이다보니 성능과 처리량에 중점을 두고 추론용 칩은 저비용, 저전력, 초저지연 등에 초점을 맞춘다.
HBM과 DDR5 관련 PHY IP 회사인 Rambus의 경우, 비용효율성을 위해 학습쪽에서는 HBM / 추론쪽에서는 GDDR6가 주축이 될 것이라고 한다. 물론 HBM을 탑재한 하이엔드 GPU인 A100, H100이 추론쪽에서도 훨씬 좋은 효율을 나타내지만 비용을 따져보았을 때, 만만치 않은 가격이다.
감수인 주) PHY IP(Physical Layer Intellectual Property)는 디지털 통신 시스템에서 신호를 변환하고 전송하는 데 사용되는 물리적 레이어의 인텔리전스 소유권을 가진 회사를 말합니다. PHY IP 회사는 주로 통신 시스템에 필요한 인터페이스 및 프로토콜에 대한 IP 솔루션을 개발하고 판매합니다. 예를 들면, 이더넷, USB, HDMI, PCI Express 등의 다양한 표준 인터페이스에 대한 PHY IP를 개발하고 제공합니다.
현재 유력한 스킴은 고성능 AI 학습에는 A100/H100 with HBM, AI 추론에는 A30/T4/L5 with GDDR6로 발전할 것으로 예상하고 있다.
[5] 그래서 어디에 투자해야 되나?
1. 기판 (+소켓)
생성형 AI로 인해 FC-BGA는 더욱 대면적화되고 있고, MLB 또한 대면적 + 고다층으로 트렌드가 옮겨가고 있다. 특히 이수페타시스의 경우 엔비디아향 고다층 MLB기판으로 현재 기판 시가총액 1위를 차지했다.
감수인 주) FC-BGA는 "Flip Chip Ball Grid Array"의 약어로, 칩 패키징 기술 중 하나입니다. FC-BGA는 전자 부품이 PCB(회로 기판)에 연결되는 방식 중 하나로, 기판 상에 작은 구형 납땜 구 면에 칩의 도핑된 패드를 직접 연결하는 방식입니다.
감수인 주) 고다층 MLB(Multi-Layer Printed Circuit Board) 기판은 다층 구조를 가지고 있는 인쇄회로기판입니다. 일반적인 단층 PCB나 이중층 PCB와 달리, 고다층 MLB는 여러 개의 내부 층을 가지고 있어 더 많은 신호를 전달하고 높은 신호 밀도를 지원할 수 있습니다.
GPU가 많아진다는 것은 FC-BGA 기판도 많아진다는 것이다.
현재 훈련(Training)쪽에는 GPU를 대체할 수 있는 칩이 없지만 추론(Inference)로 넘어가게 되면 TPU, NPU 등 ASIC 기반의 반도체도 커져야 한다. 이것 역시 대면적 FC-BGA에 실장이 된다.
기판이 넓어지면 당연히 러버소켓도 좋아지게 된다. 포고 핀으로 대면적을 대응하기가 쉽지 않기 때문이다.
감수인 주) TPU(Tensor Processing Unit)와 NPU(Neural Processing Unit)은 모두 ASIC(Application-Specific Integrated Circuit) 기반의 반도체입니다. TPU는 구글에서 개발한 ASIC 기반의 반도체로서, 딥 러닝 작업에 특화된 하드웨어 가속기입니다. TPU는 딥 러닝 모델의 학습과 추론을 빠르고 효율적으로 처리할 수 있는 고도로 최적화된 구조와 기능을 갖추고 있습니다. TPU는 대규모 딥 러닝 작업을 처리하기 위해 특히 강력한 행렬 연산 기능을 제공합니다. NPU는 Neural Processing Unit의 약자로, 인공 신경망 연산을 가속화하기 위해 설계된 ASIC 기반의 반도체입니다. NPU는 딥 러닝 모델의 추론 과정을 가속화하여 높은 처리 성능과 효율성을 제공합니다. NPU는 이미지 인식, 음성 처리, 자율 주행 등과 같은 인공 지능 관련 작업에 적합한 기술입니다.
TSMC의 CoWoS 캐파의 쇼티지로 TSMC도 긴급하게 Capex를 집행하고 있다.
2. HBM
현재 보틀넥은 Advanced Packaging과 HBM에서 걸리고 있다. 같은 성능의 가속기여도 메모리를 더 달면 빨라지기 때문이다. TSMC뿐 아니라 하이닉스와 삼성전자도 HBM 증설에 열을 올리고 있다.
하이닉스는 HBM 캐파 2배, 삼성전자의 경우도 TSV 캐파 2배 증설 예정이다.
하이닉스를 추격하는 메모리 1위 삼성전자의 추격이 무섭다.
현재 학습 영역에서 엔비디아/AMD의 High-end GPU가 차지하고 앞으로 급격하게 커진 추론시장에서의 TPU, NPU 등을 생각한다면 AI 반도체 붐의 진정한 곡괭이는 HBM이라고 생각한다.
3. 일반 메모리 (GDDR, LPDDR, DDR5)
엔비디아의 추론용 AI인 T4, L4는 GDDR6를 탑재하고 있고, AI 학습과 추론용 HBM과 GDDR 수요증가로 인해 Graphic Dram이 니치제품에서 매스제품으로 성장할 수 있다.
Rambus社의 AI 시장 전망을 잠시 가져와보면,
=> AI 트레이닝 관점에서 HBM이 좋은 선택지다. 면적을 줄일 수 있고 전력 소비도 아낄 수 있다.
=> AI/ML 훈련 모델의 복잡성은 매년 10배씩 증가 중이고 슬로우 신호가 없다.
감수인 주) ML은 Machine Learning을 의미함
=> 추론 과정에서는 메모리 처리 속도와 낮은 지연시간이 중요하다.
=> 추론이 점점 AI 기반의 엣지 디바이스와 엔드 포인트로 이동함에 따라 GDDR6 메모리가 탁월한 선택이 될 것이다. (HBM보다 가격이 싸기 때문, 엣지 단에서의 AI모델 구현은 비용에 민감)
=> 결론은 훈련은 매년 10배씩 훈련세트가 늘어난다.
=> 추론은 엣지 디바이스와 AI 가속기에서 퍼져나가고 있다.
=> HBM3는 훈련 / GDDR6는 추론에 적합하다.
아래는 AI 가속기가 훈련뿐 아니라 추론도 중요한 역할을 하는데 당장 훈련에만 집중하는 AI칩 시장을 꼬집는 기사.
GPU를 제외하면 사실상 메모리가 가장 큰 수혜이다.
2024~2025년 Graphic DRAM 수요 성장률을 각각 62%, 65%로 추정하며 Graphic DRAM 수요가 메모리반도체 중장기 시장 성장을 견인할 것으로 전망된다.
슈퍼컴퓨터와 같은 HPC 시장은 하이엔드 GPU + HBM이 장악하지만 엣지 디바이스와 같은 엔드포인트 단에서는 (AR, VR, Automotive, Phone 등) 단에서는 GDDR 수요 증가가 반드시 수반된다.
감수인 주) HPC(High Performance Computing)는 복잡한 과학적, 공학적 계산을 수행하기 위해 고성능 컴퓨터 시스템을 사용하는 것을 말합니다. HPC는 기후 모델링, 재료 과학, 생명 과학, 금융, 국방 등 다양한 분야에서 사용되고 있습니다. HPC 시장은 빠르게 성장하고 있습니다. IDC에 따르면, 글로벌 HPC 시장은 2022년 402억 달러에서 2027년 553억 달러로 연평균 5.3% 성장할 것으로 예상됩니다.
추가로 Grace Hopper를 보면 단순 HBM의 문제가 아니라 LPDDR5를 추가적인 메모리 리소스로 활용하고 있고 위에서 이미 언급했듯, HBM뿐 아니라 전체적인 메모리(SSD 포함)의 탑재량이 늘어난다고 할 수 있다.
감수인 주) 호퍼(Hopper)는 엔비디아가 출시 예정인 GPU(HBM3 사용)이고 하며, 그레이스(Grace)는 엔비디아가 출시할 CPU(DDR의 변형인 LPDDR5X 기술 사용)입니다.
4. 삼성파운드리 산하 OSAT & 디자인하우스 & IP
이번 AI의 직수혜인 GPU는 누가 뭐라해도 Advanced Packaging이 핵심이다.
그리고 아래 그림의 구조에서 빨간색 부분, 즉 GPU와 인터포저가 실장되는 부분과 파란색 부분, HBM 및 인터포저와 FC-BGA가 실장되는 부분을 나눠서 봐야한다.
파란색 박스는 TC 본더를 이용해서 대만의 ASE社에서 패키징을 한다. 현재 Amkor社가 Nvidia와 접촉 중인 것으로 판단된다.
빨간색 GPU와 인터포저를 붙이는 것은 TSMC에서 직접 인하우스로 처리를 한다. Hydrid Bonding으로 점점 피치를 줄여야 한다는 곳도 여기다. 더 미세하고 더 많은 I/O가 필요한 곳이 여기라는 소리이다. HBM쪽이 아니다.
TSMC가 CoWoS 물량을 증설하게 되면 따라서 특정 Advanced Packaging을 할 수 있는 1티어급 OSAT가 수혜를 본다.
두번째로 파운드리와 강력한 생태계를 이루며 공존하는 디자인하우스와 IP기업.
https://zdnet.co.kr/view/?no=20230627093200
디자인하우스는 팹리스가 칩을 설계하면 이를 각 파운드리 생산 공정에 적합하도록 설계도를 그리는 일을 한다.
IP기업은 팹리스에 말그대로 IP를 제공.
대만 반도체 디자인하우스 1위인 GUC (Global Unichip)은 SoC 기술력때문에 TSMC가 아예 인수를 해서 TSMC의 자회사이다.
부동의 1위를 지키면 GUC의 매출액을 또 다른 대만의 디자인하우스 Alchip이 GUC의 4~5월 매출액을 추월했다.
Alchip의 성장은 AI 반도체와 같은 북미향 최첨단 칩 수주 증가에 기인한다.
역시 TSMC가 CoWoS를 증설해 Nvidia와 AMD외 다른 고객사가 추가되면 디자인 하우스가 또 수혜를 받는다.
Nvidia보다 더 오른 대만의 디자인하우스 2社.
TSMC Capa 부족으로 삼성 파운드리가 AI칩 수주를 따낸다면 삼성파운드리향 OSAT와 디자인하우스가 수혜를 입을 수 있다.
하지만 현재 삼성파운드리는 4개의 HBM을 배치하는 아이큐브 4도 양산하지 못하고 있어 계속 지켜볼 필요가 있다. AMD의 MI300X의 경우 8개의 HBM이 들어가므로 아이큐브 8의 양산기술을 빠르게 확보해야 한다. 아이큐브는 내년 2분기, 아이큐브 8은 내년 3분기로 양산 로드맵이 잡혀있다.
AI 모멘텀의 선두에 있는 엔비디아는 서버용 GPU(A100, H100) 수요가 공급을 크게 상회해 리드타임이 6개월 이상으로 암시장에서 웃돈을 주고 GPU 구매를 서두르는 업체들이 늘어나고 있는 것으로 파악된다.
엔비디아의 GPU를 생산하는 TSMC는 급증한 수요에 대응하기 위해 CoWoS 패키징 Capa 증설을 발표했으며, 올해 생산량이 전년대비 2배 늘어날 것으로 예상하지만 그럼에도 불구하고 AI 반도체 수요가 시장 예상을 크게 상회하면서 엔비디아는 TSMC의 Capa 부족분을 채우기 위해 삼성, 인텔 등으로 공급망 다변화까지 고려 중이다.
감수인 주) CoWoS 패키징은 Chip-on-Wafer-on-Substrate의 약자로, 반도체 칩을 웨이퍼에 장착한 후, 다시 서브스트레이트 기판에 장착하는 패키징 방식입니다. CoWoS 패키징은 기존의 패키징 방식에 비해 다음과 같은 장점이 있습니다. 더 높은 성능, 더 작은 크기, 더 높은 신뢰성을 제공합니다.
감수인 주) OSAT는 Outsourced Semiconductor Assembly and Test의 약자로, 반도체 조립 및 테스트를 외주하는 것을 말합니다. OSAT 업체는 반도체 설계업체(IDM)나 파운드리 업체로부터 웨이퍼를 받아 패키징, 테스트, 조립 등의 후공정을 수행합니다.
[6] 결론
이번 국내 반도체 투자 트렌드는 HBM의 직수혜라 할 수 있는 IDM업체인 삼성전자, 하이닉스라 할 수 있고 만약 소부장을 공략한다면 전공정보다는 후공정에서 변화가 생기는 것들 기판, 패키징, 소켓, 후공정 장비 & 삼성파운드리 생태계에서 중추역할을 할 수 있는 Design Solution Partner, IP를 지닌 기업에 투자하는 것이 유리하다 생각한다.
삼성전자는 이번 포럼을 앞두고 IP 생태계 강화의 중요성을 거듭 강조한 바 있다.
지난 14일에도 회사 공식 뉴스룸을 통해 "IP 에코시스템 파트너들과의 협업으로 IP 포트폴리오를 확장할 것"이라며 "포럼에서 최첨단 IP 공정 로드맵, 전략 등을 공개할 예정"이고 밝혔다.
IP는 파운드리의 고객사인 팹리스가 반도체 회로 개발을 효율적으로 진행할 수 있도록 미리 정의된 기능 블록이다. 파운드리로서는 IP를 폭넓게 준비해야 다양한 팹리스의 요구에 대응할 수 있다.
그간 삼성전자는 주요 경쟁사인 대만 TSMC에 비해 크게 IP 확보 수가 크게 부족하다는 지적을 받아 왔다. 현재 TSMC, 삼성전자가 보유한 IP 수는 각각 4만개, 4천개 수준으로 알려져 있다.
이에 삼성전자는 시높시스·케이던스·알파웨이브세미 등 글로벌 IP 업체들은 물론, 칩스앤미디어·퀄리타스반도체·스카이칩스·오픈엣지테크놀로지 등 국내 IP 업체와도 적극적인 협업 관계를 구축하고 있다.
https://zdnet.co.kr/view/?no=20230609082231
에코시스템에 대한 구체적인 사안은 아직 결정되지 않았으나, 삼성전자 파운드리 사업부의 SAFE(Samsung Advanced Foundry Ecosystem)와 같은 모델이 될 것으로 알려졌다.
SAFE는 삼성전자 파운드리와 IP(설계자산), 팹리스, 디자인하우스 등으로 구성된 생태계다.
사안에 정통한 관계자는 "PCB(인쇄회로기판), OSAT(외주반도체패키징테스트) 등 패키징 산업에 관여하는 협력사들을 모두 포함하는 방향으로 논의되고 있다"며 "기존에도 패키징 협력사들과 협업은 활발히 하고 있었지만, 협업의 주체나 범위가 확장된다는 점에서 중요한 의미가 있다"고 설명했다.
삼성전자가 이처럼 패키징 사업에서 협력을 강조하는 이유는 높은 기술적 난이도에 있다. 현재 반도체 업계에서 주목받고 있는 3D 패키징, 하이브리드 본딩과 같은 최첨단 패키징을 구현하기 위해서는 새로운 기판과 소재, 공정 기술들이 함께 개발돼야 한다.
오렌지보드 독점:
현재 시점에서 삼성 파운드리가 AMD 등 AI 칩 관련 고객사를 확보하기 전까지는 소켓과 기판 기업에 투자하는 것이 유리하다 생각합니다. 대면적 기판 대응이 가능한 기업과 FC-BGA를 생산하는 기판 기업, 메모리 익스포져가 높은 기판 기업에 투자중 임을 밝힙니다.
추가로 어드밴스드 패키징과 HBM으로 이어지는 후공정에 사용되는 장비를 생산하고 실제 납품하고 있는 장비사도 관심을 가져볼만 합니다.
Disclaimer
- 본 보고서는 오렌지 보드에 독점 기고합니다.
- 당사의 모든 콘텐츠는 저작권법의 보호를 받은바, 무단 전재, 복사, 배포 등을 금합니다.
- 콘텐츠에 수록된 내용은 개인적인 견해로서, 당사 및 크리에이터는 그 정확성이나 완전성을 보장할 수 없습니다. 따라서 어떠한 경우에도 본 콘텐츠는 고객의 투자 결과에 대한 법적 책임소재에 대한 증빙 자료로 사용될 수 없습니다.
- 모든 콘텐츠는 외부의 부당한 압력이나 간섭없이 크리에이터의 의견이 반영되었음을 밝힙니다.
주식투자 블로그 필명 LePain으로 활동하고 있으며 에너지, 반도체쪽에 관심이 많습니다. 전방산업이 좋은 기업 중 적당한 가치를 받는 회사를 좋아합니다.
이런 글은 어떠세요?