얼마 전 샘 알트먼 오픈AI CEO가 인공지능(AI) 추론 비용이 일년 동안 10배나 떨어진다고 주장하며, 자신의 블로그를 통해 ‘세가지 관찰(Three Observations)’이라는 글을 게재했습니다. 전 세계 AI 트렌드를 이끌어가고 있는 샘 알트먼이 발견한 3가지 포인트는 무엇에 관한 내용일까요?

https://blog.samaltman.com/three-observations
‘AI 추론’ 이란 학습을 마친 AI 모델이 새로운 데이터를 만났을 때 결과를 도출해내는 과정입니다. 쉽게 말해, ChatGPT가 우리의 질문을 이해하고 답변을 생성하거나, DALL-E가 프롬프트에 따라 이미지를 만들어내는 그 순간에 일어나는 과정이죠.
보통 이런 추론 과정에서는 상당한 컴퓨팅 자원을 필요로 합니다. GPT-4와 같은 대규모 모델은 수천억 개의 파라미터를 가지고 있어 한 번의 응답을 생성하는 데도 많은 GPU 연산이 필요하고, 서비스 사용자가 늘어날수록 이런 비용은 급격히 증가합니다.
그런데 알트먼은 이 추론 비용이 무어의 법칙보다 훨씬 더 빠른 속도로 변화하고 있다고 얘기했습니다. 참고로 무어의 법칙이란 “컴퓨터 칩의 성능이 약 18개월마다 두 배로 향상된다”는 내용으로, 산업 혁명 이후 가장 빠른 기술 발전 속도를 대표하던 법칙입니다.
그렇다면 이러한 혁신적인 비용 감소를 가능하게 한 요인은 무엇일까요?
1.비용 감소를 가능하게 한 기술적 혁신
알트먼의 주장 뒤에는 여러 중요한 기술적 혁신이 존재합니다. 이는 단일 기술의 발전이 아닌, 하드웨어, 소프트웨어, 알고리즘, 시스템 설계 등 다양한 영역에서의 발전이 복합적으로 작용한 결과입니다.
1.1.하드웨어의 발전
AI 추론 비용 감소의 가장 큰 원동력 중 하나는 바로 하드웨어의 발전입니다.
NVIDIA는 최신 B100, B200 GPU가 이전 세대인 H100보다 추론 성능이 최대 30배 향상되었다고 발표했습니다. Google은 행렬 연산에 최적화된 독자적인 TPU 칩 시리즈를 지속적으로 발전시키고 있으며, AWS는 클라우드 환경에 특화된 추론용 프로세서 Inferentia를, AMD는 MI300 시리즈를 출시하고 있습니다.
이렇게 다양한 AI 특화 칩들의 경쟁적 개발로 추론 성능은 높아지고 이에 따른 전력 소비는 줄어들며, 전체 추론 비용 감소에 중요한 역할을 하고 있습니다.
1.2.모델 아키텍처 최적화와 양자화 기술
하드웨어 발전과 함께 모델 자체의 효율성을 높이는 기술적 혁신도 중요한 역할을 했습니다.

첫째, 대규모 언어 모델(Large Language Model) 아키텍처의 최적화입니다. ChatGPT와 같은 대화형 AI의 핵심 기술인 트랜스포머 아키텍처가 FlashAttention, GQA(grouped-query attention) 등의 기술로 개선되었습니다.
둘째, 모델 양자화(Quantization) 기술의 급속한 발전입니다. 양자화를 통해 32비트 정밀도의 모델을 16비트, 8비트로 줄일 수 있게 되었으며, 이는 모델의 가중치(weight)를 저장하고 계산하는 방식을 근본적으로 변화시켜 모델의 성능 저하는 최소화하되, 메모리 사용량을 줄이고 계산 속도를 높일 수 있게 되었습니다.
셋째, 지식 증류(Knowledge Distillation) 기술의 발전입니다. 대형 모델(교사 모델)의 지식을 소형 모델(학생 모델)에 효과적으로 전달하는 방법이 개선되어, 작은 모델로도 대형 모델에 근접한 성능을 달성할 수 있게 되었습니다.
2.비용 감소에도 증가하는 인프라 투자의 역설
하지만 흥미로운 점은 단위당 추론 비용이 감소함에도 불구하고, AI 인프라에 대한 총 투자는 오히려 증가하고 있다는 것입니다.
이는 경제학에서 말하는 ‘리바운드 효과’ 또는 ‘제본스 역설’과 유사합니다. 자원 효율성이 향상되면 해당 자원의 사용이 오히려 증가하는 현상입니다.
비용 감소로 인해 AI 사용량이 폭발적으로 증가하면서 전체 인프라 수요는 계속해서 증가하게 됩니다.
이런 상황은 AI 칩 제조업체, 데이터센터 제공업체, 클라우드 서비스 제공업체들이 새로운 비즈니스 기회를 적극적으로 창출해 나가는 계기가 되고 있습니다. 주요 기술 기업들은 AI 특화 칩을 연이어 출시하며 시장을 선도하고 있고, 클라우드 서비스 제공업체들은 AI에 최적화된 인프라 서비스를 확대하고 있습니다.
이와 함께 대규모언어모델(LLM)을 효율적으로 관리하고 운영하기 위한 LLMOps(LLM Operations)플랫폼들도 출시되면서 국내 기업들은 막대한 인프라 투자보다는 이런 AI 서비스를 잘 활용하는 비용 효율적인 방식으로 AI 기술에 접근하고 있습니다.
3. AI 추론의 미래 전망
인프라 투자의 증가와 추론 비용 감소, 이 두 가지 추세가 계속된다면 앞으로 몇 가지 중요한 변화를 예상해볼 수 있을 것 같습니다.
첫째, AI 활용의 보편화입니다. 추론 비용이 계속 감소하면 더 많은 산업과 기업이 고급 AI 기술을 도입할 수 있게 될 것입니다. 과거에는 대기업이나 테크 기업만 활용할 수 있었던 대규모 AI 모델이 중소기업과 스타트업에게도 접근 가능해질 것입니다.
둘째, 엣지 컴퓨팅의 발전입니다. 모델 최적화 기술의 발전으로 고성능 AI가 모바일 기기나 IoT 장치와 같은 엣지 디바이스에서도 구동 가능해지고 있습니다. 이는 네트워크 지연 없이 실시간으로 AI를 활용할 수 있게 하며, 개인정보 보호 측면에서도 장점을 제공합니다.
셋째, AI 사용 사례의 확장입니다. 추론 비용이 낮아지면 기존에는 비용 때문에 시도하지 못했던 다양한 AI 활용 사례가 등장할 것입니다. 24시간 실시간 분석, 대용량 데이터에 대한 지속적인 처리, 더 복잡하고 정교한 AI 모델의 활용 등이 가능해질 것입니다.
이러한 변화 속에서 기업들은 기술 트렌드를 단순히 따라가는 것이 아니라, 비즈니스 목표와 연계한 AI 전략을 세워야 합니다. 추론 비용이 감소한다고 해서 무조건 가장 큰 모델을 사용하는 것보다 비즈니스 요구사항에 가장 적합한 모델과 인프라를 선택하는 것이 중요합니다.
맺음말
결국 AI 추론 비용의 감소는 기술 발전의 한 지표일 뿐, 진정한 변화는 이를 통해 우리가 어떤 혁신을 창조하고 어떤 문제를 해결할 수 있느냐에 달려 있습니다.
AI 기술은 끊임없이 진화하고 있습니다. 검증된 기술을 기반으로 하면서도 새로운 시도들을 통해 그 한계를 뛰어넘으려 노력하고 있죠. 기술적 효율성과 비즈니스 창의성이 만나는 지점에서, AI의 새로운 미래가 열릴 것으로 기대됩니다.
출처)
파이토치 – https://pytorch.kr/blog/2024/flashattention-3/
Google Research – https://arxiv.org/abs/2305.13245
데이터브릭스 – https://www.databricks.com/kr/blog/llm-inference-performance-engineering-best-practices
