구글이 이날 공개한 모델은 중형 멀티모달 모델인 ‘제미나이 프로 1.0’을 업그레이드한 ‘제미나이 프로 1.5’이다. 기존의 1.0 프로에 비해 동시에 정보를 처리할 수 있는 능력이 크게 향상돼 긴 문맥을 이해하는 역량이 뛰어나다는 것이 구글의 설명이다. 구글은 내부 테스트 결과 제미나이 1.5 프로가 기존 제미나이 1.0 프로 대비 87% 더 향상된 성능을 보였다고 밝혔다.
구글은 중형 모델인 제미나이 프로 1.5가 최상위 모델 제미나이 울트라 1.0과 유사한 성능을 발휘한다고 설명했다. 순다 피차이(Sundar Pichai) 구글 및 알파벳 CEO는 이날 “제미나이 1.5 프로는 다양한 부문에서 놀라운 발전을 이뤘다”며 “더 적은 컴퓨팅 자원으로 (최상위 모델인) 제미나이 1.0 울트라에 필적하는 성능을 갖추고 있다”고 밝혔다.
◇음성 11시간·단어 70만개도 단숨 처리 가능
모델이 한 번에 처리할 수 있는 정보의 양을 ‘콘텍스트 윈도(context window)’라고 하는데, 이는 정보를 처리하는 구성 요소인 ‘토큰(token)’으로 이뤄진다. 토큰은 단어, 사진, 영상, 음성 및 코드 등으로 구성될 수 있다. 제미나이 1.5 프로의 토큰 처리 규모는 기존 1.0 프로의 3만2000개 토큰을 넘어 최대 100만까지 가능하다.
오픈AI의 GPT-4 터보의 12만8000개를 훌쩍 뛰어넘는 규모라는 것이 구글의 설명이다. 이 같은 처리 규모는 제미나이 1.5 프로가 △영상 1시간 △음성 11시간△코드 3만줄 △단어 70만개 등의 방대한 정보를 한 번에 처리할 수 있다는 것이다.
|
구글은 제미나이 1.5 프로가 영상 등 다양한 모달리티에서도 고도로 정교화된 이해 능력과 추론 능력을 보인다고 전했다. 예를 들어 44분 분량의 미국 배우 버스터 키튼 주연의 무성 영화가 입력되면 제미나이 1.5 프로가 정확하게 주요 줄거리 포인트와 사건들을 분석하고 영화 내 사소한 디테일까지도 추론해 낼 수 있다는 설명이다.
◇기존에 본 적이 없던 정보도 빠르게 학습 가능
제미나이 1.5 프로는 더 긴 코드 블록에서도 연관성이 더 높은 문제 해결 작업을 수행할 수 있다. 일례로 10만줄 이상의 코드가 포함된 프롬프트가 주어져도 예시를 통해 더 잘 추론하고 유용한 수정 사항을 제안하며 코드의 여러 부분들이 어떻게 작동하는지에 대해 설명을 제공한다.
특정 사실이나 진술이 포함된 작은 텍스트 조각을 긴 텍스트 블록 안에 의도적으로 배치하는 NIAH(Needle In A Haystack) 평가에서도 100만 토큰 길이의 데이터 블록에서 99%의 정확도로 해당 문구가 포함된 텍스트를 찾아냈다는 것이 구글의 설명이다.
|
구글은 기존에 본 적이 없던 정보도 얼마나 잘 학습하는지 테스트한 결과에서도 뛰어는 성능을 보였다고 설명했다. 일례로 전 세계적으로 사용하는 사람이 200명이 채 안되는 칼라망(Kalamang)어 문법 매뉴얼이 주어졌을 때도 동일한 내용을 사람이 학습하는 것과 비슷한 수준으로 영어를 칼라망어로 번역하는 방법을 학습했다.
제미나이 1.5 프로는 개발자를 위한 AI 개발 도구인 ‘구글 AI스튜디오’와 기업들이 AI 모델을 활용할 수 있는 플랫폼 ‘버텍스 AI’를 통해 프리뷰 버전으로 100만개의 토큰 콘텍스트 윈도를 제공할 예정이다. 다만 실제 출시될 경우엔 기본 12만8000개 토큰 콘텍스트 윈도를 기준으로 추가 요금을 받는 식으로 서비스를 할 예정이다.