2024년 하반기 AI 업계 변화

24년 하반기부터 휴직을 하게 되면서, AI 업계의 변화의 흐름을 잠시 떨어져서 바라볼 기회를 얻게 되었다.
휴직은 6개월의 짧은 기간이었지만, 돌아보니 OpenAI-O 시리즈, Agent 시대의 개막, 로봇(Phisical) AI의 재조명 등 눈여겨 볼만한 많은 변화가 있었다고 생각하여 그 내용들을 얕고 넓게 정리해보고자 함.

Overview

LLMs

24년 하반기에도 역시나 많은 Opensource LLM들이 등장하였다. 그 중에서 눈여겨볼 만한 LLM들을 정리하면 다음과 같다.

1. QWEN 2.5(10월)

알리바바에서 공개한 opensource LLM
한국어 포함 29개 언어 지원
32K~128K context length
QWEN 72B 모델은 Llama-3-405B, Mixtral8-22B을 뛰어넘는 성능
유료 플래그쉽 모델도 공개, GPT4-O mini에 필적할만 함

2. Llama 3.3-70B-instruction(12월)

70B중 최고 성능, Llama 3.1 405B와 유사하거나 이상의 성능
Tool-use, Multilinguality(8개 언어, 한글 X) 특화
여러 벤치마크에서 GPT4-O 와 유사한 성능

3. Phi-4(12월)

MS, 14B 소형 언어 모델
소형 임에도 수학과 같은 complex reasoning task에서 대형 언어 모델을 능가하는 성능을 보임
Context length: 16k tokens
💡핵심 기술 및 혁신:
- Pivotal Token Search: 중요 토큰만 처리해 최대 3배 속도 향상, 메모리 사용량 40-60% 감소.
- Multi-Agent Prompting & Self-Revision: 다양한 시나리오와 고품질 합성 데이터를 생성.
- Direct Preference Optimization: 2단계로 출력 품질을 최적화.
- Instruction Reversal: 새로운 학습 관점 제공으로 모델 다양성 증대.

4. Titans(12월)

구글에서 공개한 긴 문맥 처리에 특화된 Transformer의 대체자
2M context length 제공(Gemini는 1M이었고 아키텍처가 Transformer & MOE 구조였듯..?)
self-attention을 통해 단기 기억을 처리하고, 신경망 메모리 모듈을 통해 장기 기억을 관리하는 듀얼 메모리 시스템
"surprise" 개념 도입
- 입력 시퀀스에서 예상치 못한 또는 놀라운 토큰을 우선적으로 기억 -> 인간의 기억 시스템에서 영감을 얻음
- gradient가 클수록 입력 데이터가 과거 데이터와 다르다는 것을 나타내고 이것을 'surprise' 점수로 사용해서 메모리 업데이트 -> surprise 점수가 높을 수록 토큰을 잘 기억하도록 유도
- BABILong benchmark
- Agent나 DNA Sequence 처리 같이 초장문 Context가 필요한 영역에서 크게 활용될 것으로 기대

LLM Reasoning

LLM이 상대적으로 취약했던 Reasoning(추론) 능력을 향상시키기 위해, OpenAI O 시리즈를 필두로 많은 모델들이 쏟아지기 시작함.

OpenAI O 시리즈의 등장

OpenAI O 시리즈는 최초의 "응답하기 전에 생각하는 모델"이며, 과학, 수학, 코딩 등 복잡한 작업에 중점을 두고 설계된 모델
O1-preview는 GPQA(물리학, 화학, 생물학) 벤치마크에서 인간 박사 과정 수준의 점수 획득
o1은 ‘추론 토큰’을 사용하여 문제를 내부적으로 처리하고 분석한 후, 이를 기반으로 최종적인 응답을 생성(따라서 입력 Prompt에 CoT를 임의로 추가하면 안됨)

OpenAI는 12월에 '12 days of OpenAI' 세션을 통해 12일 연속으로 새로운 기능, 모델 출시
마지막날 공개한 O3는 AGI 평가 벤치마크에서 87.5점 기록(이전 모델인 GPT4-o 는 5점)
-> AGI를 달성한 것은 아니나 이제 진짜 AGI가 멀지 않았다는 것을 증명

O Series가 제시하는 새로운 패러다임

'빠른 사고'에서 '느린 사고'로의 전환
사전 학습된 본능적 반응("시스템 1")에서 더 깊고 신중한 추론("시스템 2")으로의 도약
모델이 단순히 무언가를 아는 것에서 넘어서, 결정을 내리기 위해 잠시 멈추고, 평가하고, 추론 -> Agent 추론의 시대
https://www.sequoiacap.com/article/generative-ais-act-o1/
Test-time(inference) Scaling Law
- O-Series는 그간의 Training time Scaling Law(Chinchilla law 등등)과는 다른 Test-time(infrence) Scaling Law를 새롭게 제시했다는 점에서 큰 의의가 있음.
- Test-time(inference)에 더 많은 자원을 투입할 수록 성능이 증가
- 마치 알파고가 MCTS 전략을 통해 바둑의 다양한 경우의 수를 생각했던 것처럼, O1은 다양한 추론의 경우의 수를 내부적으로 탐색하기 때문에 추론 컴퓨팅 리소스가 많이 필요하고, 그에 비례해서 성능이 향상됨.
- CES 2025, 젠슨 황 키노트 중 Test-Time Scaling 에 관한 설명

DeepSeek-R1: 강화학습 기반 추론 모델

중국 스타트업 DeepSeek이 1세대 추론모델인 DeepSeek-R1-Zero와 DeepSeek-R1 모델을 공개
DeepSeek-R1-Zero는 대규모 강화학습(RL)만으로 학습되었고, 스스로 다양한 추론 능력을 습득했음
DeepSeek-R1은 수학, 코드, 추론 작업에서 OpenAI-o1 수준의 성능을 달성함
DeepSeek-R1-Zero, DeepSeek-R1, distillation 모델들을 오픈소스로 공개

특히 DeepSeek-R1-Distill-Qwen-32B 모델은 OpenAI-o1-mini를 능가하는 성능을 달성했음

DeepSeek-R1의 강화학습 알고리즘의 특징

Group Relative Policy Optimization (GRPO)
- GRPO는 PPO(Proximal Policy Optimization)와 달리 별도의 가치 함수 모델을 사용하는 대신 같은 질문에 대한 여러 출력 샘플의 평균 보상 사용
- 가치 함수를 사용하지 않기 때문에 학습 리소스 효율적이면서, 그룹 내의 상대적 보상으로 학습되므로 Advantage라는 상대적 보상을 통해 학습되는 RL의 특성과도 잘 부합됨

Reward Modeling
- Accuracy rewards: 수학에서의 정답처럼 Rule based의 reward 사용.
- Format rewards: <think>, <answer>과 같이 형식에 맞게 답변을 할 경우 reward를 줌. <think> token을 사용함으로써 추론을 강제하는 효과
'aha moment'
- 'aha moment'는 모델이 기존의 접근 방식을 재평가하고 새로운 방식으로 문제를 해결하기로 결정하는 순간을 의미
- Supervised Signal 없이 오로지 Reward Signal만으로 모델이 스스로 고급 문제 해결 전략을 개발하도록 유도
  -> 강화 학습이 모델의 추론 능력 향상에 얼마나 효과적인지를 보여주는 사례라고 주장

rStar-Math

MS에서 25.1월에 공개한 연구
소규모 언어 모델(SLM)이 Monte Carlo Tree Search (MCTS)를 활용한 "심층적 사고(deep thinking)"를 통해 OpenAI-o1 이상의 수학적 추론 능력을 달성할 수 있음을 보여줌

핵심 알고리즘

심층적 사고 (Deep Thinking) 메커니즘
- rStar-Math는 MCTS를 활용하여 수학 문제 해결을 여러 단계의 추론 과정으로 분해
- 정책 SLM은 추론 단계를 생성하고, 보상 모델은 각 단계를 평가하여 최종적으로 정확한 답을 도출
코드 증강 CoT (Code-Augmented CoT) 데이터 합성: 각 추론 단계에 대한 자연어 CoT(Chain-of-Thought)와 실행 가능한 파이썬 코드를 함께 생성함. 이 때, 파이썬 코드가 성공적으로 실행된 단계만 유효한 데이터로 간주하여 추론 단계의 정확도를 높임

성능 요약

7B SLM으로 OpenAI의 o1과 비등하거나 능가하는 수준의 수학적 추론 능력을 보여줌.

LLM Reasoning 발전의 시사점

Generative AI’s Act o1

The Agentic Reasoning Era Begins.

www.sequoiacap.com

AI 경쟁에서 살아남으려면?
- 인프라 계층에서 경쟁하려면 NVIDIA와 하이퍼스케일러를 이겨야 함
- 모델 계층에서 경쟁하려면 OpenAI와 Mark Zuckerberg를 이겨야 함
- 애플리케이션 계층에서 경쟁하려면 기업 IT와 글로벌 SI 업체를 이겨야 함
- 애플리케이션 계층에서의 경쟁이 가장 실현 가능해 보임
생성 AI의 다음 단계에서는 추론 연구개발(R&D) 의 영향이 애플리케이션 계층에 빠르고 깊게 확산될 것으로 예상됨
연구실에서는 Reasoning과 Inference-Time의 계산이 계속 중요한 주제로 남을 것이며, 새로운 스케일링 법칙이 등장한 지금, 다음 경쟁이 시작됨
많은 사람들이 기대하는 순간은 생성 AI의 ‘Move 37’ 로, 이는 AlphaGo가 이세돌과의 대국에서 보여준 것처럼 일반 AI 시스템이 예상치 못한 초인적인 행동을 보이는 순간을 의미함
이 순간이 온다고 해서 AI가 “의식을 가지는” 것은 아니지만, AI가 지각, 추론, 행동의 과정을 시뮬레이션하여 독창적이고 유용한 방식으로 탐색할 수 있는 능력을 가질 수 있음
이는 AGI(인공지능의 완전한 자율성) 일 가능성이 있으며, 이는 단일한 사건이 아니라 기술의 다음 단계로 이어질 것임

Agentic AI

Agent 시대의 도래

ChatGPT 등장 이후 AI Agent에 대한 관심이 폭발함(사실 이전에는 강화학습 필드에서만 Agent라는 용어를 사용..)
NeurIPS 2024에 제출된 논문 중 106개의 논문이 AI Agent 를 다루었음

더욱 최근에 와서, Agent보다 더 높은 자율성과 상황 인식, 적응력을 갖춘 AI 모델을 Agentic AI라고 부르기 시작

Agentic AI(보다 복잡, 상황이 계속 변함)
- 환경에 따라 주행을 조정하는 자율주행 자동차
- 의료 데이터를 분석하고, 패턴을 식별하며, 의사가 더 정보에 입각한 결정을 내릴 수 있도록 돕는 헬스케어 시스템
AI Agent
- 알림을 설정하고, 날씨를 확인하고, 좋아하는 음악을 틀어주는 개인 비서 앱
- 코드 작성을 돕는 Copilot

Agent 시장을 향한 기업들의 움직임

자사의 Agent를 공개하는 것을 넘어, Agent Platform을 만들고 싶어하는 기업들
- MS, 에이전트를 고객이 직접 개발할 수 있는 기능인 코파일럿 스튜디오 공개
- NVIDIA 젠슨 황, 2025 CES에서 AI 에이전트 시대의 도래를 선언하며, NeMo와 NEM 마이크로서비스를 통해 기업들이 맞춤형 AI 에이전트를 구축할 수 있는 플랫폼 공개
Antropic은 지난해 10월 챗봇 '클로드3.5 소네트' 모델에 클릭과 스크롤, 타이핑 처럼 컴퓨터를 사용할 수 있는 기능을 장착한 AI Agent 모델 발표
AWS, 트랜스포머 창업자가 만든 Agentic AI 개발 스타트업 'Adept' 인수
타임지, 올해 AI의 트렌드는 'AI 에이전트'
자체 RPA를 솔루션을 가지고 있는 삼성SDS의 경우, Agent AI를 개발 안 할 이유가 없지 않을까 하는 개인적인 생각..

Robot(Physical) AI의 ChatGPT 모먼트

젠슨 황, 2025 CES 기조 연설에서 물리 세계를 완벽히 시뮬레이션 할 수 있는 디지털 트윈 플랫폼 '코스모스' 공개
--> 로봇 AI에서의 ChatGPT 모먼트가 도래했다고 말함
Cosmos는 물리적 세계의 데이터를 이해하고 시뮬레이션하는 'World Foundation Model'의 일종
- 물리적 세계에서 발생하는 데이터와 현상을 AI 모델이 학습하고 활용하도록 지원
- 로봇, 자율주행차, 산업용 AI 등 다양한 물리적 AI 응용 분야에서 사용
'프롬프트'를 입력하면 가상 3D 환경으로 구현된 영상을 생성 -> 생성된 영상 데이터를 통해 로봇과 자율 주행차 훈련 효율성을 극대화

엔비디아의 "원숭이 꽃신 전략"
- 무상 제공→소비자 노예화→유료 전환
- 엔비디아 없이는 AI를 개발할 수 없게 만드는 ‘원숭이 꽃신 전략’을 로봇에도 구현
- https://www.youtube.com/watch?v=eJedH3s0lUE&t=608s