이 콘텐츠는 어떠셨나요?
스포트라이트: Datagen, 인간 중심의 문제를 해결하기 위한 충실도 높은 합성 데이터 생성
Gil Elbaz와 Ofir Zuk이 2018년 Datagen을 설립할 당시, 고객이 컴퓨터 비전 네트워크 훈련을 위한 데이터를 얻는 단절된 프로세스를 혁신하는 것이 창업의 목적이었습니다. 구체적으로 말하자면, 모든 컴퓨터 비전 팀에 지속적이고 확장 가능한 방식으로 데이터 시뮬레이션을 제공하고자 했습니다.
AI 모델 성능은 모델의 품질과 모델을 훈련하는 데 사용되는 데이터의 품질에 좌우되기 때문에 양질의 데이터를 대량으로 보유하는 것이 필수적이며, 필요한 만큼 충분히 데이터를 수집하기가 어려운 경우가 많습니다. 실제 데이터는 수집 속도, 정밀도, 비용 및 편향 측면에서도 문제가 있는 경우가 많습니다. Datagen의 Senior Product Marketing Manager Shay Navon은 “얼굴 등 다양한 [실제] 신원 데이터를 수집하면서, 특정 민족, 연령 또는 성별에 대한 정보는 충분히 수집하지 않을 수 있습니다. 그러면 이런 편향이 생깁니다”라고 설명합니다.
Datagen은 컴퓨터 비전 팀이 편향 문제를 해결할 수 있도록 컴퓨터 알고리즘을 사용하여 데이터를 생성하는 독특한 방법을 제공합니다. 합성 데이터는 통계학적, 수학적으로 실제 데이터와 유사하지만, 적은 비용으로 신속하게 생성할 수 있고 인적 오류가 발생하지 않습니다. 얼굴 사진을 촬영한 다음 직접 특성에 레이블링하는 등 수작업으로 데이터를 수집하고 주석을 다는 번거로운 작업을 사람에게 맡기는 대신 합성 데이터가 대규모로 생성되며, 인간의 판단으로는 불가능한 실측 주석(예: 눈 방향)이 기본적으로 내장됩니다. 따라서 수동 태깅의 어렴움 없이 더 정확하고 상세한 데이터 주석을 작성할 수 있습니다.
Datagen의 VP of Marketing인 Karine Regev는 “저희는 AI를 프로덕션 환경에 빨리 적용하기 위해 전 세계를 시뮬레이션하고 있습니다. AI를 프로덕션 환경에 도입하는 것 자체만으로도 대부분의 기업이 해결할 수 없는 과제입니다. 그래서 저희는 더 전문적이고 정확한 AI를 구현하고, 프라이버시와 같은 문제를 해결하며, 현대적 AI에서 가장 큰 병목 문제를 일으키는 데이터의 편향과 같은 문제를 해결하고 있습니다”라고 말합니다.
Datagen은 3D 시뮬레이션을 사용하여 알고리즘을 훈련하는 셀프 서비스 플랫폼을 고객에게 제공합니다. Regev는 “모델을 훈련하려면 수백만 개의 서로 다른 이미지가 필요합니다. 그리고 저희는 바로 이 부분을 지원합니다. [Datagen 고객은] 장면을 제어할 수 있고, 배경, 다양한 양식, 필요한 다양한 레이블, 조명, 성별, 출신 민족 등 모든 것을 제어할 수 있습니다”라고 말합니다.
Datagen은 실감 나고 크기가 크며 픽셀 단위까지 완벽하게 구현된 다양한 데이터를 생성하는 것 외에, 고객에게 완벽한 기밀 유지를 보장하기도 합니다. 합성 데이터에 대해 Shay Navon은 “데이터에 개인 식별 정보(PII)가 전혀 포함되어 있지 않기 때문에 프라이버시가 완벽하게 보장됩니다. 누구도 '이 사람은 우리가 사용하는 사람인데 프라이버시에 문제가 있다'고 말하지 않을 것입니다. 저희의 인간 중심 전문기술과 데이터는 얼굴 특징 감지, 시선 추정 및 표정 분석부터 전체 신체 자세, 눈, 손 등과 같은 신체 부위에 이르기까지 여러 영역에 초점을 맞추고 있습니다”라고 말합니다.
가까운 미래에는 실제 소스에서 수집하는 것보다 합성 데이터로 모델을 훈련하는 것이 더 보편화될 것으로 예상됩니다. 그러한 흐름에서 Datagen의 직원 수는 지난 9개월 동안 약 40명에서 100명에 육박하는 규모로 급속히 성장했습니다. Regev는 “저희는 다양한 업종에 걸쳐 세계 최대 기술 회사 중 몇몇 곳과 협력하고 있습니다. AR/VR/메타버스부터 실내 차량 내 운전자 모니터링, 주택 보안 및 스마트 오피스에 이르기까지 다양한 사용 사례를 해결하고 있습니다”라고 말합니다.
이러한 새로운 수요를 충족하기 위해 Datagen은 클라우드 아키텍처로 전환하기로 결정했습니다. 이 회사의 최우선 과제는 최신 GPU 모델을 사용하여 확장하는 것이었습니다. 클라우드 제공업체를 심층적으로 분석한 후, 이 회사는 Kubernetes를 기반으로 시스템을 개발하기로 결정하고 AWS로 눈을 돌렸습니다. Datagen은 Elastic Kubernetes Service(Amazon EKS)와 통합되고 Kubernetes Auto Scaling 및 AWS Auto Scaling Groups를 사용하는 Agni라는 맞춤형 스케줄링 소프트웨어 시스템을 설계했습니다.
Agni와 전체 Datagen 데이터 생성 플랫폼은 이제 CPU 및 GPU 스팟 인스턴스를 사용하므로, 비용을 절감하고 더 효율적인 시스템을 구축할 수 있게 되었습니다. 또한 수십만 건의 동시 작업을 처리하도록 동적으로 확장하고 필요에 따라 축소할 수 있는 비교적 작은 규모의 시스템을 유지할 수 있으므로, AWS에서 호스팅하는 셀프 서비스 플랫폼이 구축됩니다.
Datagen 팀은 앞으로 합성 데이터의 필요성이 계속 증가할 것으로 예상합니다. Regev는 “추진력과 전망의 측면 모두에서 사고 리더십의 필요성, 기술의 필요성, 합성 데이터에 관한 대화를 실제로 주도할 수 있는 저희 같은 솔루션에 대한 요구가 커지고 있습니다”라고 말합니다.
AWS Editorial Team
AWS Startups Content Marketing 팀은 규모와 업종을 불문하고 모든 스타트업과 협력하여 교육하고, 환대하고, 영감을 주는 뛰어난 콘텐츠를 제공합니다.
이 콘텐츠는 어떠셨나요?