Patronus AI를 통해 기업이 생성형 AI에 대한 자신감을 높이는 방법(How Patronus AI helps enterprises boost their confidence in generative AI)

이 콘텐츠는 어떠셨나요?

지난 몇 년 동안, 그리고 특히 2022년에 ChatGPT가 출시된 이래로 모든 규모의 조직과 광범위한 산업 전반에서 생성형 인공 지능의 혁신적인 잠재력은 부인할 수 없는 역량이 되었습니다. 많은 기업이 효율성을 높이고 고객 경험을 개선하기 위해 생성형 AI 도구를 서둘러 도입하면서, 새로운 도입의 물결은 이미 시작되었습니다. 2023년 McKinsey 보고서에 따르면 생성형 AI는 매년 2조 6천억 달러에서 4조 4천억 달러에 해당하는 가치를 글로벌 경제에 더할 수 있을 것으로 추정됩니다. 이 경우 AI가 경제에 미치는 전반적인 영향력은 약 15~40% 증가합니다. 한편, IBM의 최근 CEO 설문조사에 따르면 응답자의 50%가 이미 생성형 AI를 제품 및 서비스에 통합하고 있는 것으로 나타났습니다.

생성형 AI가 주류로 떠오르고 있지만, 고객과 기업은 생성형 AI의 신뢰성과 안정성에 대해 점점 더 우려를 표하고 있습니다. 그리고 어떤 데이터를 입력했을 때 특정한 내용이 출력되는 이유가 명확하지 않을 수 있으므로, 기업이 생성형 AI의 결과를 평가하기가 어렵습니다. 기계 학습(ML) 전문가인 Anand Kannappan과 Rebecca Qian이 설립한 회사 Patronus AI에서는 이 문제를 해결하는 데 착수했습니다. Patronus에서는 AI 기반 자동 평가 및 보안 플랫폼을 통해 오류 발생 위험을 최소화하면서, 고객이 대규모 언어 모델(LLM)을 자신 있고 책임감 있게 사용할 수 있도록 지원합니다. 이 스타트업의 목표는 더 신뢰할 수 있고 더 유용한 AI 모델을 만드는 것입니다. Anand는 다음과 같이 설명합니다. “이는 지난 한 해 동안 가장 중요한 의문점이 되었습니다. 모든 기업이 언어 모델을 사용하고 싶어 하지만, 언어 모델의 위험과 작동 방식의 신뢰성, 그 중에서도 특히 아주 특정한 사용 사례에 대한 신뢰성도 우려하고 있습니다. 우리의 사명은 생성형 AI에 대한 기업의 신뢰도를 높이는 것입니다.”

생성형 AI의 이점 활용 및 위험 관리

생성형 AI는 ML을 사용하여 학습된 데이터와 유사한 새로운 데이터를 생성하는 AI의 한 유형입니다. 생성형 AI는 입력 데이터세트의 패턴과 구조를 학습하여 이미지, 텍스트, 코드 같은 독창적인 콘텐츠를 생성합니다. 생성형 AI 애플리케이션은 방대한 양의 데이터에 대해 사전 학습된 ML 모델을 기반으로 하는데, 특히 다양한 자연어 작업 전반에 걸쳐 몇 조에 달하는 단어를 학습한 LLM이 대표적입니다.

잠재적인 비즈니스 이점은 무궁무진합니다. 기업은 LLM을 사용하여 검색을 통해 자체 내부 데이터를 활용하고, 메모와 프레젠테이션을 생성하고, 자동 채팅 지원을 개선하고, 소프트웨어 개발 시 코드 생성을 자동 완성하는 데 관심이 있습니다. 또한 Anand는 아직 실현되지 않은 전체적인 다른 사용 사례를 지적합니다. “생성형 AI가 아직 혁신하지 못한 다양한 산업이 있습니다. 지금까지 우리가 목격한 모든 것은 이제 초기 단계에 불과합니다.”

많은 조직이 생성형 AI 사용을 확대하는 방안을 고려하고 있으므로, 신뢰성 문제가 더욱 중요해지고 있습니다. 그리고 사용자는 안전하지 않거나 불법적인 결과를 방지하면서 회사 규정과 정책을 준수하고자 합니다. Anand는 이렇게 설명합니다. “특히 규제 산업에 속한 대기업의 경우, 생성형 AI를 사용하고자 하는 미션 크리티컬 시나리오가 많습니다. 하지만 실수가 발생할 경우 회사의 평판이 위험해지거나 고객까지 위험에 빠트리게 될까 봐 우려하고 있습니다.”

Patronus는 해당 모델의 성능을 측정, 분석, 실험할 수 있는 기능을 개선하여 고객이 이러한 위험을 관리하고 생성형 AI의 신뢰도를 높일 수 있도록 지원합니다. Anand는 다음과 같이 이야기합니다. “시스템 개발 방식과 관계없이, 모든 것에 대한 전반적인 테스트와 평가를 매우 견고하게 표준화하는 것이 정말 중요합니다. 지금 당장 놓치고 있는 부분이 바로 이 점입니다. 누구나 언어 모델을 사용하고 싶어 하지만, 훨씬 더 과학적인 방법으로 언어 모델을 제대로 테스트할 수 있는 체계가 정립되거나 표준화되지 않았습니다.”

신뢰성 및 성능 향상

자동화된 Patronus 플랫폼을 통해 고객은 실제 시나리오에서 다양한 LLM의 성능을 평가하고 비교할 수 있으므로, 원치 않는 출력이 발생할 위험을 줄일 수 있습니다. Patronus에서는 새로운 ML 기술을 사용하여 고객이 자동으로 대립 테스트 스위트를 생성하고, Patronus의 독자적인 기준 분류 체계를 기반으로 언어 모델 성능을 평가 및 벤치마킹할 수 있도록 지원합니다. 예를 들어, FinanceBench 데이터세트는 금융 관련 문제에 대한 LLM 성능을 알아볼 수 있는 업계 최초의 벤치마크입니다.

Anand는 다음과 같이 이야기합니다. “Patronus의 모든 업무는 기업이 훨씬 더 확장 가능하고 자동화된 방식으로 언어 모델의 오류를 찾아낼 수 있도록 돕는 데 중점을 두고 있습니다.” 현재 많은 대기업이 내부 품질 보증 팀과 외부 컨설턴트에게 막대한 비용을 지출하고 있으나, 이들은 수동으로 테스트 사례를 생성하고 스프레드시트 형식으로 LLM 결과를 평가하고 있습니다. 하지만 Patronus의 AI 기반 접근 방식은 이렇게 느리고 많은 비용이 드는 프로세스의 필요성을 줄여줍니다.

Anand는 다음과 같이 설명합니다. “자연어 처리(NLP)는 매우 경험적이므로, 궁극적으로 어떤 평가 기술이 가장 효과적인지 파악하려면 많은 실험을 거쳐야 합니다. 어떻게 하면 우리가 알아낸 이러한 기술을 제품에 적용해서 사용자가 그 가치를 매우 쉽고 빠르게 활용하도록 할 수 있을까요? 그리고 어떻게 하면 사용자가 자체 시스템의 성능뿐만 아니라, 해당 시스템의 평가에 대한 성능도 개선할 수 있을까요? 참고로 이제 Patronus의 기술 덕분에 이러한 평가가 가능해졌거든요.”

결과는 선순환입니다. 기업이 제품을 더 많이 사용하고, 좋아요 또는 싫어요 기능을 통해 피드백을 제공할수록 평가가 더욱 개선되며 결과적으로 회사의 자체 시스템도 한층 더 개선됩니다.

개선된 결과 및 이해력을 통한 자신감 강화

생성형 AI의 잠재력을 활용하려면 안정성과 신뢰성을 개선하는 것이 필수입니다. 다양한 산업 및 사용 사례에서 잠재적인 기술 도입 담당자들이 주저하는 경우가 많습니다. 그 이유는 AI 애플리케이션에서 간혹 오류가 발생한다는 사실뿐만 아니라, 문제가 어떻게 또는 왜 발생했는지, 그리고 향후 이러한 일이 발생하지 않도록 방지하는 방법을 파악하기가 어렵기 때문이기도 합니다.

Anand는 이렇게 이야기합니다. “모두에게 정말 필요한 건 무언가를 프로덕션 단계로 출시할 때 더 굳건한 자신감을 가질 수 있는 개선된 방법입니다. 이러한 과정을 직원뿐만 아니라, 최종 고객에게도 적용한다면 그 대상은 수백, 수천, 수만 명에 달합니다. 따라서 이러한 문제를 가능한 한 최소화해야 합니다. 그리고 이런 일이 발생한다면 언제, 왜 이런 일이 일어나는지 알아야 합니다.”

Patronus의 주요 목표 중 하나는 생성형 AI 모델의 이해력 또는 설명력을 향상하는 것입니다. 이는 LLM의 특정한 출력 결과가 현재와 같이 나타나는 이유가 무엇인지, 그리고 고객이 이러한 출력 결과의 신뢰성을 더욱 잘 제어할 수 있는 방법을 정확히 찾아내는 능력을 의미합니다.

Patronus에서는 주로 고객에게 특정한 테스트 사례가 통과 또는 실패한 이유에 대한 직접적인 인사이트를 제공하여 설명 가능성을 목표로 한 기능을 통합하고 있습니다. Anand는 다음과 같이 설명합니다. “우리는 자연어 설명을 활용한 기술을 개발하며, 고객은 이러한 방식이 마음에 든다고 이야기합니다. 그 이유는 무언가가 실패한 원인을 파악할 수 있는 신속한 인사이트를 제공하기 때문입니다. 이러한 인사이트는 프롬프트 또는 생성 파라미터 값을 반복할 수 있는 방법에 대한 개선 사항을 제안하거나, 미세 조정을 위한 제안을 할 수도 있습니다. Patronus에서 다루는 설명력은 실제 평가 자체에 큰 중점을 둡니다.”

AWS를 통한 생성형 AI의 미래 전망

Patronus는 클라우드 기반 애플리케이션을 구축하기 위해 처음부터 AWS와 협력해 왔습니다. Patronus는 대기열 인프라를 위한 Amazon Simple Queue Service(Amazon SQS)와 Kubernetes 환경을 위한 Amazon Elastic Compute Cloud(Amazon EC2) 등 다양한 클라우드 기반 서비스를 사용하며, Amazon Elastic Kubernetes Service(Amazon EKS)에서 제공하는 사용자 지정 기능 및 유연성을 활용합니다.

Patronus를 설립하기 전 수년간 AWS에서 일한 경험이 있는 Anand와 그의 팀은 AWS에 대한 숙련도와 경험을 활용하여 제품과 인프라를 신속하게 개발할 수 있었습니다. 또한 Patronus는 연결 및 대화를 설정하는 데 ‘중요한’ 역할을 해 온 AWS의 스타트업 중심 솔루션 팀과도 긴밀하게 협력해 왔습니다. “AWS의 고객 중심적인 관점은 항상 훌륭한 요소이며, 우리는 이를 당연하게 여기지 않습니다”라고 Anand는 이야기합니다.

Patronus는 이제 낙관적인 전망을 하고 있습니다. Lightspeed Venture Par tners가 주도하는 3백만 달러의 시드 펀딩을 받은 것과 더불어, 최근에 제품을 공식 출시하면서 많은 관심과 수요의 대상이 되었기 때문입니다. 또한 이 팀은 최근 금융 관련 문제에 대한 LLM 성능에 대한 첫 번째 벤치마크를 발표했으며, 이 벤치마크는 15명의 금융 업계 분야 전문가와 공동 설계했습니다.

Anand는 다음과 같이 이야기합니다. “앞으로 우리가 무엇을 할 수 있을지 정말 기대됩니다. 우리는 AI 평가 및 테스트에 계속 집중할 것입니다. 이를 통해 기업이 언어 모델의 격차를 파악하고, 성능을 정량화할 수 있는 방법을 이해하며, 궁극적으로 미래에 더 굳건한 신뢰도를 구축할 수 있는 개선된 제품을 이용할 수 있도록 도울 것입니다.”

확실하고 신뢰할 수 있는 생성형 AI의 이점을 활용할 준비가 되셨나요? 지침 계획, 실행 지원, 생성형 AI 사용 사례 또는 원하는 기타 솔루션을 알아보려면 AWS 생성형 AI 혁신 센터를 방문하세요.

Aditya Shahani

Aditya Shahani is a Startup Solutions Architect focused on accelerating early stage startups throughout their journey building on AWS. He is passionate about leveraging the latest technologies to streamline business problems at scale while reducing overhead and cost.

Bonnie McClure

Bonnie는 모든 대상자와 플랫폼을 위해 접근하기 쉽고 매력적인 콘텐츠를 만드는 전문 편집자입니다. 그녀는 원활한 사용자 경험을 제공하기 위해 포괄적인 편집 지침을 제공하는 데 전념하고 있습니다. 그녀가 일하지 않을 때는 큰 개 두 마리와 함께 시간을 보내고, 바느질 기술을 연습하거나 주방에서 새로운 요리법을 시험해 보는 모습을 볼 수 있습니다.

이 콘텐츠는 어떠셨나요?