HBM 다음은 HBF? “AI 속도 전쟁”의 진짜 승부처가 GPU가 아니라 ‘메모리’로 넘어간 이유
오늘 글에는 이런 핵심이 들어있어요.
첫째, AI가 ‘훈련(Training)’에서 ‘추론(Inference)’ 중심으로 바뀌면서 왜 메모리 병목이 성능을 결정하는지.
둘째, TTFT·TPOT처럼 사용자 체감 품질을 좌우하는 지표가 왜 메모리 대역폭/용량과 직결되는지.
셋째, HBM만으로는 부족한 이유와 ‘기억의 계층화(Hot/Warm/Cold)’가 데이터센터 표준 설계가 되는 흐름.
넷째, HBM 다음 카드로 거론되는 HBF(적층 NAND 기반 중간계층 메모리)가 시장 판도를 어떻게 흔드는지.
다섯째, (다른 뉴스에서 상대적으로 덜 말하는) “메모리 기업이 AI 컴퓨팅 설계 주도권을 가져가는 구조 변화”를 투자·산업 관점으로 재해석.
1) 뉴스 브리핑: AI 성능 경쟁, 이제는 ‘계산력’보다 ‘기억력’이 이긴다
핵심 한 줄
GPU가 아무리 빨라도, 필요한 데이터를 제때 못 가져오면 AI는 멈춘다.
왜 지금 이 얘기가 커졌나
생성형 AI가 트랜스포머(Attention) 기반으로 고도화되면서, “문장 전체 문맥”과 “이전 대화 맥락”을 계속 참조해야 합니다.
그 과정에서 KV Cache(대화 중간 메모장)가 커지고, 토큰이 길어질수록 메모리 부담이 눈덩이처럼 커집니다.
추론(Inference) 시대가 만든 변화
훈련은 병렬 처리로 GPU를 갈아 넣으면 어느 정도 스케일링이 되는데, 추론은 토큰이 순차적으로 생성됩니다.
그래서 “연산량”보다 “이전 토큰/중간 결과를 얼마나 빠르게 불러오느냐”가 체감 성능을 좌우합니다.
2) 사용자 경험을 바꾸는 새로운 KPI: TTFT와 TPOT
AI 서비스 경쟁력이 ‘정확도’에서 ‘지연시간’으로 이동
사용자는 FLOPS나 GPU 코어 수를 보지 않습니다.
“첫 글자가 언제 뜨는지”와 “그 다음부터 끊기지 않는지”를 봅니다.
TTFT(Time To First Token)
엔터 치고 첫 토큰이 화면에 찍히기까지 시간.
첫인상을 결정합니다.
TPOT(Time Per Output Token)
첫 토큰 이후, 다음 토큰들이 얼마나 매끄럽게 이어지는지.
대화가 길어질수록 체감 품질 차이가 커집니다.
정리
이 두 지표를 깎는 가장 직접적인 방법 중 하나가 “더 빠른 메모리 접근(대역폭/지연)”과 “필요 데이터를 가까이 두는 설계”입니다.
3) “GPU 더 사면 되잖아?”가 안 통하는 이유: 병목은 ‘도로’에 있다
발전 속도 비대칭(원문 요지)
AI가 요구하는 연산량은 폭증했는데, 데이터 이동(메모리 대역폭) 확장은 상대적으로 매우 더딥니다.
엔진(GPU)은 스포츠카가 됐는데, 도로(메모리/인터커넥트)는 그대로인 상황에 가깝습니다.
폰 노이만 구조의 물리 한계
연산 장치와 저장 장치가 떨어져 있고, 데이터를 가져오는 동안 연산 장치는 대기합니다.
데이터센터에서 GPU 유휴 시간이 발생한다는 문제의식은 결국 “메모리를 연산에 붙여라”로 이어집니다.
여기서 핵심 산업 키워드
결국 이건 데이터센터 투자 효율(=CAPEX 대비 성능) 싸움이고, 클라우드 컴퓨팅 비용 구조를 바꾸는 이슈입니다.
4) HBM이 뜬 이유, 그리고 HBM만으론 부족한 이유
HBM(High Bandwidth Memory)의 역할
GPU 가까이에 적층해 붙여서, 대역폭을 크게 올리고 병목을 줄이는 방식입니다.
비싸지만 “지연시간/대역폭”이 돈이 되는 구간에서 압도적입니다.
그런데도 HBM만으로 안 되는 포인트
1) 가격이 높아서 무한정 넣기 어렵습니다.
2) 용량이 제한적이라, 에이전트처럼 장기 맥락을 많이 들고 다니는 워크로드에서 한계가 빨리 옵니다.
3) 추론 규모가 커질수록 “많이+가깝게” 저장해야 하는 데이터가 폭발합니다.
결론
HBM은 ‘핫 데이터’에 최적이지만, 모든 데이터를 HBM에 담는 건 경제적으로도 물리적으로도 비효율입니다.
5) 그래서 등장한 설계 표준: ‘기억의 계층화(Hot / Warm / Cold)’
핫(뜨거운 기억)
지금 당장 연산에 필요한 데이터.
GPU 옆 HBM이 담당.
빠르지만 비싸고 공간(용량)이 제한됩니다.
콜드(차가운 기억)
자주 쓰진 않지만 보관해야 하는 방대한 데이터.
SSD/스토리지가 담당.
싸고 크지만 느립니다.
문제는 Hot과 Cold 사이의 ‘갭’
이 간극 때문에 GPU가 기다리게 되고, TTFT/TPOT가 나빠집니다.
그래서 필요한 Warm(따뜻한 기억)
“자주 꺼내는 대용량 데이터”를 상대적으로 가까운 곳에 두는 중간층.
여기서 HBF가 후보로 부상합니다.
6) HBF란 무엇인가: HBM 다음 라운드를 여는 ‘중간계층 메모리’
개념(원문 요지 재정리)
HBF는 NAND Flash를 적층(스택)해, HBM처럼 “패키징/적층 구조”로 대역폭과 집적도를 끌어올리려는 방향입니다.
왜 NAND가 갑자기 AI의 키 플레이어가 되나
NAND는 DRAM보다 훨씬 싸고 대용량 구성이 가능합니다.
HBM 대비 훨씬 큰 데이터를 담을 수 있는 “저비용 대용량 계층”이 됩니다.
트레이드오프
속도는 HBM/DRAM보다는 느립니다.
하지만 SSD처럼 멀리 있는 스토리지보다는 “가깝게, 두껍게” 구성해 병목을 줄이는 컨셉이 핵심입니다.
데이터센터 관점의 의미
AI 인프라를 설계할 때, “HBM만 증설”이 아니라 “HBM + HBF(또는 유사 중간층) + SSD”로 예산을 배분하는 최적화 문제가 됩니다.
이건 곧 반도체 공급망과 가격 결정력이 어디로 이동하느냐의 문제로 연결됩니다.
7) 시장 판도: ‘메모리 센트릭’으로 무게중심 이동
이전
GPU/가속기 기업이 AI 컴퓨팅 스펙을 정하고, 메모리는 그에 맞춰 따라가는 구조.
이후
추론 중심 워크로드 확대 + KV Cache 확대 + 에이전트화로 인해 “메모리 구조가 시스템 성능을 결정”합니다.
즉, 메모리 기술/패키징/계층 설계가 AI 시스템 설계의 주도권을 가져오는 흐름입니다.
산업적으로 어디가 커지나
HBM을 중심으로 한 AI 반도체 경쟁이 계속되면서, 메모리 반도체 기업들의 협상력과 프리미엄 제품 비중이 올라갈 수 있습니다.
중간계층(HBF 등)이 커지면 NAND 진영(예: 샌디스크, 키오시아 등)도 ‘단순 저장’에서 ‘AI 성능 구성요소’로 재평가될 여지가 생깁니다.
거시적으로 중요한 포인트
이 흐름은 특정 기업 이슈가 아니라, AI 인프라 투자 사이클 자체를 바꾸는 이야기입니다.
AI 투자 확대 → 데이터센터 증설 → 메모리 계층 재설계 → 고부가 메모리 비중 확대 → 업황 변동성이 커지는 구조로 이어질 수 있습니다.
8) 다른 유튜브/뉴스에서 상대적으로 덜 말하는 “진짜 중요한 내용”
1) HBF는 ‘제품’이라기보다 ‘예산 배분 방식’의 변화 신호다
시장에선 “HBM 다음 신제품”으로만 소비되기 쉬운데, 본질은 데이터센터 메모리 비용 구조를 다시 짜는 흐름입니다.
즉, CAPEX 최적화의 답이 “GPU 추가”에서 “메모리 계층 설계”로 이동합니다.
2) 추론 경제학이 메모리 슈퍼사이클을 ‘메가사이클’로 바꾼다
훈련은 일부 빅테크 중심으로 집중될 수 있지만, 추론은 서비스가 늘수록 전 산업으로 퍼집니다.
추론 워크로드가 확대될수록, “비싼 HBM만으로는 감당 불가 → 중간층 필수”가 됩니다.
이 구조가 자리 잡으면 메모리 수요의 바닥이 높아지고, 사이클이 길어질 수 있습니다.
3) “AI 에이전트”가 확산될수록 메모리는 ‘용량’이 먼저 터진다
에이전트는 긴 문맥, 개인화 히스토리, 툴 사용 로그, 벡터 검색 등 참조 데이터가 폭증합니다.
결국 많은 서비스에서 병목은 연산보다 “가까운 대용량 메모리/스토리지 계층”에서 먼저 터질 가능성이 큽니다.
4) 메모리 기업의 협상력이 ‘패키징/표준’에서 나온다
HBM도 그렇지만, 앞으로는 “어떤 형태로 시스템에 붙을 수 있냐”가 더 중요해집니다.
칩 성능뿐 아니라 패키징·인터페이스·소프트웨어 스택(메모리 관리)까지 같이 묶어야 주도권이 생깁니다.
9) 경제·산업 전망(블로그용 정리): 2026~2028 관전 포인트
관전 포인트 A: 추론 트래픽 증가 속도
모델 성능 경쟁보다 “서비스로 얼마나 깔리느냐”가 메모리 수요를 결정합니다.
기업용 에이전트/컨택센터/커머스/검색이 본격화될수록 수요는 더 구조적으로 커집니다.
관전 포인트 B: 메모리 계층 표준이 어디로 정리되는가
HBM만 확대될지, HBF 같은 중간층이 표준으로 자리 잡을지에 따라 승자가 갈립니다.
이 과정에서 공급망(소재·장비·패키징)까지 연쇄적으로 수혜가 갈 수 있습니다.
관전 포인트 C: 인플레이션/금리 환경과 데이터센터 투자
데이터센터는 자본집약 산업이라 금리/자금조달 비용에 민감합니다.
다만 AI는 비용 절감(자동화)과 매출 확대(신서비스)를 동시에 자극해, 경기 둔화 국면에서도 투자가 유지되는 형태가 나올 수 있습니다.
이 글에 자연스럽게 포함한 SEO 핵심 키워드
글로벌 경제 전망, 금리 인하, 인플레이션, 반도체 공급망, 데이터센터 투자
< Summary >
AI는 훈련보다 추론이 중요해지면서, GPU 연산력보다 메모리 대역폭·용량·지연시간이 체감 성능(TTFT/TPOT)을 좌우하는 구조로 바뀌고 있습니다.
HBM은 핫 데이터를 해결하지만 비싸고 용량이 제한적이라, Hot/Warm/Cold로 나누는 ‘기억의 계층화’가 데이터센터 설계의 핵심이 됩니다.
HBF는 NAND 기반 적층으로 중간계층(Warm)을 채우려는 시도이며, 이는 메모리 기업이 AI 컴퓨팅 설계 주도권을 가져갈 수 있다는 신호입니다.



