“구글 AI 칩, 훈련 성능 4배↑…카카오도 ‘카나나’ 훈련에 활용”

임유경 기자I 2025.01.16 15:47:25

AI칩부터 SW까지 함께 개발해 성능 극대화
6세대 TPU 트릴리움 활용해 제미나이 2.0 학습
"카카오, 3세대 TPU부터 트릴리움까지 사용 중"

[이데일리 임유경 기자] “인공지능(AI) 가속기 ‘TPU’를 연구하는 리서치 조직과 구글클라우드플랫폼(GCP) 조직이 하나의 체계에 포함돼 있어, 구글 내부의 혁신적인 연구 결과가 구글 클라우드 고객에게도 빠르게 제공될 수 있습니다.”

모한 피치카 구글 클라우드 그룹 프로덕트 매니저는 16일 국내 미디어와 진행한 온라인 미디어라운드 테이블에서 GCP의 강점 중 하나로 자체 AI 칩 TPU 활용을 꼽으며 이같이 말했다.

순다르 피차이 구글 최고경영자(CEO)가 작년 5월 미국 캘리포니아주 마운틴뷰 쇼어라인 엠피씨어터에서 열린 ‘구글 연례 개발자 회의(I/O)’에서 6세대 TPU 트릴리움을 소개하고 있다.(사진=구글)
TPU는 구글이 자체 개발한 AI 칩으로 신경망 연산 처리에 특화해 설계됐다. 그는 “TPU는 중앙처리장치(CPU) 같은 범용 프로세서와 달리 AI 고유의 수학 연산인 ‘행렬 곱셈’을 아주 빠른 속도로 처리할 수 있는 능력을 가졌다”며 “그래픽 처리 장치(GPU)가 병렬 연산으로 대량의 데이터 처리에 적합해 AI 분야에서 많이 쓰이지만, TPU는 신경망 연산 처리 전용이라 거대언어모델(LLM) 학습과 추론에 있어 가장 적합하다”고 설명했다. 구글은 TPU를 구글 검색, 구글 포토, 구글 지도 같은 인기 서비스뿐만 아니라 지난해 노벨상을 수상한 알파폴드 2와 같은 과학적 연구에도 활용하고 있다.

이날 피치카는 AI 가속기의 성능은 하드웨어적인 개선뿐아니라 아니라 소프트웨어(SW) 결합됐을 때 극대화된다는 점을 강조했다. 그는 “구글클라우드는 TPU 역량이 하드웨어 인프라뿐 아니라 SW 영역에서도 함께 시너지를 낸다는 점이 장점”이라면서 “AI 워크로드 처리 성능 개선을 위해 실리콘부터 SW에 이르는 AI의 모든 영역을 함께 개발하고 설계해 나가는 데서 이루어낼 수 있는 장점이 크다”고 강조했다.

구글은 작년 말 6세대 TPU 트릴리움(Trillium)을 선보였다. 트릴리움은 이전 5세대 TPU와 비교해 학습 성능은 4배 이상, 추론 처리량은 최대 3배 향상됐다. 에너지 효율성도 67% 개선됐다. 또 트릴리움은 HBM의 용량이나 대역폭이 전작 대비 두 배 늘어나, 256개의 칩이 탑재된 ‘포드’ 내에서도 메모리 병목이 거의 없이 하나의 칩처럼 병렬 연산이 가능해졌다.

구글 제미나이 2.0도 트릴리움을 활용해 학습 효율을 높였다. 피치카는 “구글 클라우드는 구글의 가장 강력한 AI 모델인 제미나이 2.0의 학습에도 트릴리움을 활용했다”며 “수 십억 개의 파라미터를 가진 고밀도 LLM을 학습시키기 위해서는 방대한 연산 능력과 공동 설계된 소프트웨어 최적화가 필요한데, 트릴리움을 활용하면 이전 세대인 클라우드 TPU v5e보다 제미나이뿐 아니라 라마, GPT 같은 고밀도 LLM을 최대 4배 더 빠르게 훈련할 수 있다”고 소개했다.

트릴리움이 지금까지 출시된 TPU 중 가장 뛰어난 가격 대비 성능(가성비)을 자랑한다는 점도 강조했다. 전 세대 대비 트릴리움은 달러당 학습 성능은 최대 2.5배, 추론 성능은 최대 1.4배 향상됐다는 설명이다.

국내 기업 중엔 카카오가 구글 TPU를 적극 활용하고 있다고 있다. 구글클라우드에 따르면 카카오는 카카오는 3세대 TPU부터 사용하기 시작했다. 카카오브레인(현, 카카오) 시절부터 TPU를 이용해 KoGPT 언어 모델을 개발했고, 현재 트릴리움까지 활용하는 중이다. 카카오는 지난 10월 통합 AI 브랜드 ‘카나나(Kanana)’를 새롭게 선보이며, 생성형 AI를 비롯한 다양한 AI 서비스와 모델을 개발하고 있다. 대규모 모델을 학습시키기 위해서는 굉장한 자원이 필요한데, 오픈 모델과 TPU 트릴리움을 통해 높은 수준의 한국어 대응이 가능한 모델을 빠르게 확보할 수 있었다고 한다.

피치카는 “AI 환경이 계속해서 진화하는 가운데, 구글 클라우드는 기업이 AI 잠재력을 최대한 발휘할 수 있도록 트릴리움과 같은 최첨단 인프라를 제공하기 위해 지속적으로 노력하고 있다”며 “전 세계 고객이 트릴리움과 AI 하이퍼컴퓨터를 활용해 AI 혁신의 한계를 뛰어넘을 수 있기를 기대한다”고 말했다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지