LAM : AI, 이제 행동으로 보여주다

ChatGPT, Gemini, Claude와 같은 AI 서비스들이 우리 일상에 자연스럽게 스며들면서 LLM(Large Language Model)은 이제 더 이상 낯선 기술이 아닙니다. 우리가 AI에게 질문을 하고 텍스트 형태의 답변을 받는 것은 당연한 일상이 되었죠.

하지만 AI 기술은 여기서 한 걸음 더 나아가고 있습니다. 사용자들은 이제 단순한 텍스트 응답을 넘어, AI가 실제 행동으로 요청에 응답하기를 기대하고 있죠. 가령 “서울 삼성동 아파트 시세”를 물어보면, 텍스트로 된 답변 대신 실제 부동산 플랫폼에 접속해 실시간 시세 정보를 조회하는 것처럼요.

1.LLM의 한계와 LAM의 등장

LLM은 방대한 데이터를 기반으로 텍스트를 이해하고 생성하는 능력이 뛰어나지만, 실제 세상과 상호 작용하는 데는 한계가 있습니다. 예를 들어, LLM은 “오늘 점심 메뉴 추천해줘”라는 요청에 텍스트로 메뉴를 추천할 수는 있지만, 직접 앱을 실행하여 음식을 주문하거나 예약을 진행하지는 못합니다. 마찬가지로, 로봇에게 물건을 집는 방법을 텍스트로 설명할 수는 있지만, 로봇을 직접 제어하여 물건을 집게 할 수는 없습니다.

즉, LLM은 ‘무엇을 해야 하는지’는 알지만, ‘직접 실행하는 것’은 불가능합니다.

이러한 한계를 넘어서기 위해 LAM(Large Action Model)이라는 새로운 AI 모델이 등장했습니다. LAM은 사용자의 요청을 실제 행동으로 옮기는 AI 모델입니다. 단순히 텍스트로 답변하는 것이 아니라, 사용자의 의도를 파악하고 이를 달성하기 위한 구체적인 계획을 세워 필요한 작업들을 직접 실행합니다

LAM의 핵심 특징

그렇다면 LAM은 어떻게 이런 복잡한 작업들을 처리할 수 있는 걸까요? LAM의 핵심 특징들을 자세히 살펴보겠습니다.

첫째, LAM은 실행 가능한 모든 행동들을 이해하고 관리할 수 있습니다. 마치 체스 게임에서 각 말의 이동 가능한 위치를 아는 것처럼, LAM은 주어진 환경에서 수행할 수 있는 모든 행동들을 파악합니다. 예를 들어 웹사이트에서는 클릭, 텍스트 입력, 스크롤 등의 기본 행동부터 예약, 결제, 검색과 같은 복잡한 행동들까지 모두 이해하고 실행할 수 있습니다.

둘째, LAM은 자신이 처한 환경을 정확히 인식하고 이해합니다. 사용자의 모호한 요청도 환경에 맞게 구체적인 행동으로 해석할 수 있죠. “맛집 예약 좀 해줘”라는 요청을 받으면, 현재 시간, 위치, 가능한 예약 시스템 등을 고려해 가장 적절한 행동을 선택합니다. 또한 특정 환경에 특화되어 있어 해당 분야에서 더 정확하고 효율적인 작업 수행이 가능합니다.

셋째, 상황에 따라 유연하게 대응할 수 있습니다. LAM은 복잡한 작업을 여러 단계로 나누고, 각 단계마다 결과를 확인하며 계획을 조정합니다. 예를 들어 식당 예약 과정에서 첫 번째 선택한 식당이 예약이 불가능하다면, 자동으로 대안을 찾아 사용자의 최종 목표를 달성하려 합니다.

이러한 특징들이 결합되어 LAM은 단순히 ‘무엇을 해야 하는지 아는’ 수준을 넘어, 실제로 ‘그것을 해낼 수 있는’ AI로 발전했습니다.

LAM의 기술적 구현

그렇다면 이러한 LAM은 어떻게 구현될까요?

1단계 : 데이터 준비와 학습

LAM 개발의 첫 단계는 양질의 데이터를 확보하는 것입니다. 여기서 말하는 데이터는 단순한 텍스트를 넘어, 실제 환경에서의 작업 수행 기록, 사용자의 행동 패턴, 환경 상태 정보 등을 포함합니다. 예를 들어, 웹 자동화를 위한 LAM을 개발한다면 실제 사용자들의 웹 탐색 기록, 클릭 패턴, 작업 완료 과정 등의 데이터가 필요합니다.

2단계 : 모델 개발과 검증

준비된 데이터를 바탕으로 LAM을 학습시키는 과정에서는 두 가지 중요한 접근이 필요합니다. 첫째는 기본적인 행동 패턴을 학습하는 지도 학습이고, 둘째는 실제 환경에서의 시행착오를 통해 성능을 개선하는 강화 학습입니다. 이를 바탕으로 다음과 같은 단계적인 발전과정을 거치게 됩니다.

기본 작업 계획 학습

첫 단계에서 LAM은 다양한 작업들을 단계별로 계획하는 방법을 학습합니다. 예를 들어 “음식점 예약하기”라는 작업을 “메뉴 검색 → 예약 가능 시간 확인 → 예약 정보 입력 → 예약 완료”와 같이 구체적인 단계들로 나누는 능력을 기르는 것입니다.

전문가 행동 모방

두 번째 단계에서는 실제 전문가들의 작업 수행 과정을 학습합니다. 실제 사용자들이 웹사이트에서 예약을 완료하거나, 문서를 작성하는 등의 과정을 관찰하고 모방하면서 실행 가능한 구체적인 행동들을 익힙니다.

자가 학습 단계

세 번째 단계는 LAM이 스스로 새로운 문제 해결 방법을 찾아내는 과정입니다. 기존에 학습하지 않은 상황에서도 시행착오를 통해 해결책을 찾아내고, 이를 자신의 지식에 추가합니다.

보상 기반 최적화

마지막 단계에서는 성공과 실패 경험을 통해 더 나은 의사결정을 하는 법을 배웁니다. 예를 들어 특정 예약 시도가 실패했을 때 왜 실패했는지를 분석하고, 다음에는 더 나은 방법을 선택할 수 있게 됩니다.

3단계 : 실제 환경 통합

마지막으로 LAM을 실제 환경에 통합하는 과정을 거칩니다. 이는 마치 로봇에게 팔과 다리를 달아주는 것과 같은 작업입니다. LAM이 웹 브라우저, API, 물리적 기기 등과 상호작용할 수 있도록 인터페이스를 구축하고, 작업 수행 결과를 지속적으로 모니터링하고 피드백을 수집하는 시스템을 구축합니다.

LAM의 현재와 미래

지금까지 LAM의 특징과 구현 방식을 살펴보았습니다. 그렇다면 현재 LAM 기술은 어떻게 구현 되어있는지, 주목할 만한 세 가지 사례를 통해 LAM의 현주소를 살펴보겠습니다.

Salesforce의 xLAM-1B : Salesforce의 xLAM-1B는 API 함수 호출에 특화된 AI 모델입니다. 영업 담당자가 “이 주문을 취소해줘”라고 요청하면, xLAM은 자동으로 주문 관리 시스템에 접속해 필요한 취소 절차를 실행합니다. 이처럼 xLAM은 복잡한 업무 프로세스를 단순화하고 자동화하는 데 탁월한 성능을 보여줍니다.
Rabbit의 R1 : CES 2024에서 화제를 모은 Rabbit의 R1은 LAM을 탑재한 혁신적인 포켓 디바이스입니다. 사용자의 PC 작업을 직접 학습하고 이를 재현할 수 있으며, 음성 명령 하나로 음악 재생, 음식 주문, 여행 계획 수립 등 복잡한 작업을 자동으로 처리합니다.
Adept의 ‘ACT-1’ : 오픈AI 출신 데이비드 루안이 설립한 Adept의 ‘ACT-1’은 웹 브라우저 자동화의 새로운 지평을 열었습니다. 크롬 확장 프로그램 형태로 제공되는 ACT-1은 클릭, 입력, 스크롤 등 브라우저 동작을 자동화할 수 있으며, 특히 부동산 매물 검색이나 스프레드시트 작업과 같은 복잡한 태스크를 단일 문장 입력만으로 처리할 수 있습니다.

이러한 사례들은 LAM이 더 이상 이론적 개념이 아닌, 실제로 구현되고 활용되고 있는 기술임을 보여줍니다. 기업의 업무 자동화부터 개인의 일상적인 작업까지, LAM은 이미 다양한 형태로 우리 삶에 스며들기 시작했습니다. 이는 AI가 단순히 대화하고 답하는 것을 넘어, 실제 행동으로 이어지는 새로운 단계로 접어들고 있음을 보여줍니다. 따라서 앞으로 다양한 분야에서 새로운 가능성이 제시될 것으로 기대됩니다.

[참고자료]