이 콘텐츠는 어떠셨나요?
자연이 이끌도록: Sakana AI가 모델 구축을 혁신하는 방식
생성형 인공 지능(AI)의 폭발적인 증가는 천문학적인 속도로 변화를 일으키고 있습니다. 오늘날 기업들은 더 높은 성능의 모델을 내놓는 데 집중하고, 새롭게 업그레이드된 대규모 언어 모델(LLM)이 매일 엄청나게 많이 등장하고 있습니다. 검증된 트랜스포머 모델이 생성형 AI 붐의 핵심이 된 덕분에, 창업자들은 새로운 LLM을 빠르게 확장하고 출시할 수 있습니다.
그러나 이러한 업그레이드에는 새 버전이 나올 때마다 더 많은 처리 능력과 리소스가 필요로 하는 대가가 따릅니다. 한편, 이전 LLM 버전은 더 크고 컴퓨팅 집약적인 모델에 금세 가려질 수 있습니다. 전 세계적인 GPU 부족으로 인해 모델 훈련의 실질적인 확장에 상한선이 걸린 상황에서 공동 창립자인 David Ha와 Llion Jones는 AI의 한계를 뛰어넘을 더 효율적인 방법을 찾고 있었습니다. 이들은 다른 동력, 즉 자연의 힘에서 영감을 받아 파운데이션 모델(FM)을 개발하기 위한 창의적인 기법을 탐구하는 연구 여정을 시작했습니다.
도쿄에 본사를 둔 스타트업 Sakana AI는 현재 기존 방식에 기반한 첨단 LLM을 만들어 AI 모델 훈련의 새로운 트렌드를 주도하고 있습니다. 2023년에 회사를 설립한 이래, 간과하기 쉬운 리소스 사용을 극대화하는 이들의 연구는 이미 새로운 지평을 열고 있습니다. 진화론과 자연 선택 같은 오래된 아이디어에 바탕을 둔 이 비즈니스는 FM이 이전 모델들의 가장 강력한 형질을 자동으로 계승하는 방식으로 미래를 향해 도약하고 있습니다. 이들의 비전은 모델이 끊임없이 진화하고, 변화하는 환경에 적응하는 훈련 방법입니다.
새로운 세대의 AI 수용
진정한 기업가 정신으로 무장한 이 스타트업은 생성형 AI의 다음 변화를 무작정 기다리는 것이 아니라 미지의 세계를 포용하여 그 다음을 찾아내고 있습니다. Sakana AI의 최고 기술 책임자 Jones는 Sakana AI를 시작하기 위해 유력 기술 회사를 그만둔 이유를 이렇게 설명합니다. “David와 저는 우리가 원했던 장기 추측 연구(speculative research) 분야를 탐색하지 않았기 때문에 독자적으로 출발해야 한다는 걸 알았습니다.” 기술 개발의 역사적 패턴에 주목한 공동 창업자들은 의미 있는 발견의 기회를 포착했습니다.
Jones는 덧붙입니다. “제 생각에 AI 연구는 탐색과 활용 단계로 이루어집니다. 사람들은 잘 맞는 것을 찾을 때까지 다양한 접근법을 시도하고, 그 다음에는 모두가 그 기술을 활용하는 데 집중합니다. 하지만 트랜스포머 모델이 생성형 AI를 훈련하는 방식에 화제가 집중되는 동안 그 외 것들은 탐색하고 있지 않다는 뜻이죠.”
트랜스포머 모델은 2017년 딥 러닝 아키텍처에서 획기적인 발전을 이룩했으며 그 이후로 전 세계를 사로잡았습니다. 이전에 나온 모델들과 달리 트랜스포머는 훨씬 더 큰 데이터세트를 기반으로 훈련할 수 있고 다양한 작업에 사용할 수 있으며, 읽고 쓰는 텍스트를 더 정확하게 이해할 수 있습니다. 하지만 확장성이 훨씬 커짐에 따라 더 많은 컴퓨팅이 필요하기 때문에 하드웨어 제조업체는 수요에 따라 빠른 속도로 AI 칩을 생산할 수 없었습니다.
Sakana AI는 더 지속 가능한 대안적 모델 훈련 방법을 모색하고 있습니다. Sakana AI의 연구 과학자 Takuya Akiba는 이렇게 설명합니다. “모델을 훈련할 때 모두가 비슷한 목표를 향해 융합하고 있습니다. 이 때문에 결과에 큰 차이가 없습니다. Sakana AI에서는 자연에서 영감을 받은 새로운 패러다임을 만들고 있으며 이를 통해 확장만으로는 불가능했던 새로운 애플리케이션을 찾을 수 있었습니다.”
자연의 지혜 활용하기
물고기를 뜻하는 일본어 단어 'Sakana'는 자연에서 영감을 받은 기법과 진화적 영향을 암시합니다. 로고는 그들의 선구적인 방법을 적절하게 표현하는데, 한 방향으로 헤엄치는 물고기 무리와 반대 방향으로 힘겹게 헤엄치는 붉은 물고기 한 마리가 보입니다. 이 그래픽은 그들의 생각에 영감을 주는 집단 지성의 아이디어도 담고 있습니다. 즉, 많은 정보를 전달하는 크고 조밀한 모델보다 작은 모델들이 적은 정보와 리소스로 더 효율적으로 상호 작용할 수 있다는 개념입니다.
기술이 변곡점에 도달하면서 Sakana AI는 진화 연산이라는 아이디어를 FM에서 테스트하고 있습니다. 모델을 훈련하고 최적화하기 위해 정립된 확실한 기법은 경사 하강법이라고 알려져 있지만, 트랜스포머 모델과 마찬가지로 이 방법에는 연산 비용이 많이 소요됩니다. 하지만 리소스 효율성이 단순히 스타트업 여정의 필수 요소라는 가정은 잘못된 생각입니다. Sakana AI 팀은 리소스 효율성을 고정관념에서 벗어나 사고하고, 가용 리소스를 극대화하고, 혁신을 촉진할 수 있는 전략적 이점으로 보고 있습니다. Jones는 이렇게 말합니다. “제약이 있으면 좀 더 흥미로운 것들을 생각해낼 수 있다고 봅니다.”
“우리의 철학은 '배움은 항상 승리한다'입니다. 그리고 무언가를 배우기 위해 가장 대중적인 알고리즘만 사용할 수는 없습니다. 이러한 공간을 탐색하려면 진화 연산과 같은 다양한 기법을 사용해야 합니다.”라고 그는 덧붙입니다. AWS의 전략적 기술 지원을 통해 Sakana AI는 자연에서 얻은 아이디어를 기술 영역에 심었고 이미 노력의 결실을 보고 있습니다.
병합 진화 모델의 새로운 물결
현재까지 주요 혁신은 모델 병합에 대한 Sakana AI의 새로운 접근 방식입니다. 팀은 현재 모델에서 얻을 수 있는 가치가 엄청나지만, 새 버전으로 대체될 경우 수십만 개의 모델이 사용되지 않거나 폐기된다는 사실을 알게 되었습니다. Akiba는 “이미 수많은 고유한 오픈 소스 LLM이 출시되어 있습니다.”라고 말합니다.
처음부터 새로 훈련하는 대신 여러 모델을 병합함으로써 각 모델에서 최상의 특성을 취하여 새롭고 더 강력한 모델을 만들 수 있습니다. 모델 병합 자체는 새로운 개념이 아닙니다. 사람들은 이미 모델을 '해킹'하여 특화된 LLM을 만드는 기술을 실험해 왔지만, 새로운 점은 Sakana AI가 자연에서 영감을 받은 알고리즘을 적용하여 프로세스를 자동화하는 방식입니다.
자연 선택 과정을 생각해 보세요. 종은 환경에 적응하고 번성하는 데 도움이 되는 유전자를 전달하도록 장기간에 걸쳐 진화합니다. 한편, 종의 생존을 위협하는 형질들은 결국 사라집니다. 마찬가지로 Sakana AI의 진화 알고리즘은 FM의 여러 부분을 최적으로 조합하여 특정 응용 분야에서 잘 작동하도록 자연스럽게 선택된 새로운 FM을 생산할 수 있습니다. 이 새로운 모델은 사용자가 지정한 대로 이전 모델들의 우세한 형질을 계승합니다. 서로 다른 모델 요소들을 하나로 묶는 프랑켄슈타인 스타일의 접근 방식과는 거리가 멉니다.
이전의 모델 병합 기법은 인간의 경험, 각 분야 지식, 직관에 의존했지만 모두 한계가 있었습니다. “알고리즘을 병합하는 다양한 방법을 발전시켜 결국 사람이 손으로 설계하는 것보다 더 나은 병합 모델을 만들어 냈습니다.”라고 Llion은 설명합니다. “솔루션 공간을 대신 찾아줄 컴퓨터만 있다면 언제나 성공할 수 있습니다. 컴퓨터가 더 빠르게, 더 많은 것을 시도하고, 더 참을성 있기 때문에 사람이 수동으로 시도하는 것보다 낫습니다.”
FM 적자 생존
개방형 모델과 생성형 AI 작업의 다양성은 계속 급증하고 있으며, 이는 모델 병합에 대한 Sakana AI의 훨씬 더 체계적인 접근 방식이 더 중요해질 것임을 의미합니다. Akiba는 이렇게 말합니다. “여러 모델을 결합하는 방법은 거의 무한하기 때문에 이러한 휴리스틱 최적화 모델이 필요합니다.” Sakana AI는 수백 세대에 걸친 진화 과정 실험을 통해 가장 높은 점수를 받은 모델이 생존하여 다음 세대가 되도록 했습니다.
병합 진화 모델 접근 방식은 종종 직관적이지 않지만 매우 효과적인 방식으로 FM을 발전시키는 것으로 이미 입증되었습니다. 예를 들어 일본에는 수많은 오픈 소스 모델이 있지만 일본어 수학 데이터 세트가 없기 때문에 이전에는 수학을 처리할 모델이 없었습니다. Sakana AI는 처음부터 새 모델을 훈련하기 시작하는 대신, 일본어에 능통한 한 모델과 수학은 잘하지만 일본어를 구사하지 못하는 영어 모델을 병합했습니다.
그 결과, 향상된 일본어 추론과 강력한 수학 능력을 모두 갖춘 첨단 LLM이 탄생했으며 두 분야의 벤치마크 대비 뛰어난 성과를 거두었습니다. 이러한 모델을 수동으로 결합하는 것은 매우 어려웠을 것입니다. 특히 이렇게 서로 다른 영역을 다룰 때는 더욱 그렇습니다. 이 스타트업은 프로세스를 자동화하여 기존 FM을 빠르게 혁신하고 고유한 특성을 다양한 문화에 적용합니다.
Sakana AI는 진화 알고리즘이 텍스트 LLM만 지원하는 것이 아니라는 사실을 발견했습니다. LLM을 일본의 비전 언어 모델과도 성공적으로 병합했기 때문입니다. 실제로 이렇게 탄생한 모델은 이미지 관련 질문에 대한 정확도가 높았으며 일본에 대한 뉘앙스와 구체적인 문화적 지식도 학습할 수 있었습니다. 또한 팀은 동일한 방법을 다양한 이미지 생성 확산 모델에 적용하여 유망한 결과를 달성했습니다.
적응과 학습의 힘
생성형 AI의 새로운 지평을 열기 위해서는 유연하고 비용 효율적인 솔루션으로 구성된 견고한 기술 기반과 전문 지식을 결합해야 합니다. AWS는 AWS Activate 프로그램을 통한 전략적 지침과 크레딧 뿐만 아니라 이러한 솔루션까지 Sakana AI에 제공합니다. 자금 조달 지원을 통해 초기 비용의 장벽 없이 자연에서 영감을 받은 접근 방식을 AWS 클라우드에서 실험할 수 있었습니다. 또한 AWS Startups 팀에서 제공하는 맞춤형 기술 지원을 통해 신속하게 진행하고 결과를 게시할 수 있었습니다.
최적의 Amazon EC2 인스턴스를 선택하는 것은 연구를 지원하는 방법 중 하나일 뿐입니다. 온디맨드 또는 용량 블록으로 인스턴스를 임대하면 민첩성을 유지하고 언제든 최상의 인스턴스를 선택할 수 있습니다. 이러한 컴퓨팅 파워 방식은 경사 하강법에 비해 필요한 비용을 절감하고 메모리 사용량을 훨씬 줄이는 효과가 있습니다. Akiba는 이렇게 말했습니다. “AWS는 우리의 워크로드와 달성하려는 목표를 깊이 이해합니다. 덕분에 용량 문제와 같은 어려움을 빠르게 극복할 수 있었습니다.”
Sakana AI의 야심과 인텔리전스에 영감을 받은 AWS는 시작부터 지원을 제공해 왔습니다. AWS의 Solutions Architect인 Yoshitaka Haribara는 말합니다. “최고의 능력을 갖춘 팀과 함께 일할 수 있어 기쁩니다. 연구 전반에서 놀라운 결과를 성취할 생각에 기대가 크고 AWS가 리소스, 전문 지식, 창의적 사고를 통해 이러한 노력을 계속 지원할 수 있기를 바랍니다.”
Akiba는 회사가 어떻게 AWS의 파트너십과 서비스 덕분에 사업을 시작할 수 있었는지 알려주었습니다. “우리 팀은 규모가 작아서 클러스터를 구성할 플랫폼 엔지니어가 없었습니다. AWS 서비스는 사용하기 정말 쉬웠기 때문에 연구를 쉽게 탐색할 수 있었습니다.”
새로운 AI 개척지 탐색
생성형 AI 분야의 경쟁이 치열하고 빠르게 진화하는 가운데, Sakana AI의 연구는 더욱 빠르게 발전할 것으로 예상됩니다. “현재 독점 모델과 오픈 소스 모델 사이에 경쟁이 벌어지고 있으며, 많은 사람들은 독점 모델이 앞선다고 생각합니다. 하지만 우리 연구가 오픈 소스 모델 개발을 가속화하고 업계에 새로운 기술을 선보일 게임 체인저가 될 수 있다고 생각합니다.” Akiba는 말합니다.
Sakana AI는 신기술이 어떻게 혁신 주기를 단축하는지 계속해서 열심히 연구하고 있습니다. 하지만 Jones가 지적하듯이, 빠른 보상을 바라고 뛰어든 것은 아닙니다. “장기적이고 탐구적인 접근 방식 때문에 미래를 예측하기 훨씬 어렵습니다. 하지만 흥미로운 주제를 탐구하는 것이 매우 흥미롭기 때문에 이런 위험은 감수할 수 있습니다.”
Sakana AI는 여러 프로젝트를 추진하는 한편, Amazon Bedrock을 사용하여 Anthropic의 Claude 같은 파운데이션 모델 사용을 확장하는 경우처럼 다른 AWS 서비스가 개념 증명을 지원하는 방식을 살펴보고 있습니다. 이 회사는 모델 병합 기법 외에 에이전트 기반 지능형 시스템을 발전시키는 방법도 연구하고 있으며, AWS는 이 흥미로운 분야에서 이들의 비전을 지지하고 있습니다.
Jones는 현재의 기술 발전 속도에 큰 기대를 품고 있습니다. “모델을 훈련하는 데 사용되는 컴퓨팅 용량이 6개월마다 두 배로 증가하고 있기 때문에 학습 알고리즘을 계속 개선하고 에이전트에 적용하는 방식을 최적화한다면 인간 수준의 지능에 도달할 수 있을 것입니다. 그러면 문제 해결을 위해 10,000개의 AI 에이전트를 가동할 경우 몇 년 분량의 과학 연구를 일주일 안에 해낼 수 있을 것입니다.” 신약 개발 자동화부터 컴퓨터 과학의 핵심 운영 개선에 이르기까지, 이 연구는 세계에서 가장 어려운 몇 가지 문제를 해결할 수 있습니다.
AWS와 같은 파트너와의 협력은 Sakana AI의 여정에서 매우 중요했습니다. 그리고 이제 막 장기적인 가치가 실현되기 시작하고 있습니다. 생성형 AI의 잠재력을 확장하려는 다른 스타트업을 위한 조언은 무엇일까요? Jones는 다른 창업자들도 기술을 더 깊이 연구하여 자유를 누리기를 기원합니다. “본인의 아이디어에 야심을 가지세요. 금광을 향해 달리거나 최초라는 수식어를 위해 최초의 앱 개발에 매진하기 보다는 탐구에 시간을 투자하세요.”
Kan Kato
Kan Kato는 AWS의 Startup Business Development Manager로, 벤처 캐피탈리스트, 액셀러레이터 및 비즈니스 개발 이니셔티브와의 전략적 파트너십을 통해 스타트업의 성공과 혁신을 촉진하려고 노력합니다. Kan Kato는 스타트업을 위해 일하는 것 외에도 축구와 트라이애슬론 훈련을 즐깁니다.
Arata Yanase
Arata Yanase는 AWS Japan의 Startup Account Manager입니다. 핀테크 스타트업의 영업 및 비즈니스 개발 부서에서 경력을 쌓았으며 사용자 확보를 위한 가맹점 개발 및 서비스 성장을 위한 조치를 주도했습니다.
Yoshitaka Haribara
Yoshitaka Haribara는 AWS Japan의 Senior Startup ML Solutions Architect입니다. Yoshitaka는 스타트업 고객이 AWS 기반 생성형 AI를 혁신하도록 지원하는 역할을 맡습니다. Yoshitaka는 여가 시간에 드럼 연주를 즐깁니다.
이 콘텐츠는 어떠셨나요?