AI연구회
경남ICT협회 AI 연구 모임
본 내용은 NVIDIA Developer Site 자료(LLM 아키텍처에 Mixture of Experts(MoE)를 활용하기)를 요약한 내용입니다. (https://developer.nvidia.com/ko-kr/blog/applying-mixture-of-experts-in-llm-architectures/)
LLM 아키텍처에 Mixture of Experts(MoE)를 활용하기
Mixture of Experts(MoE) 아키텍처는 최근 GPT-4나 Mixtral 8x7B와 같은 대규모 인공지능 모델(LLM)들이 사용하는 특별한 신경망 작동 방식이라고 생각하시면 됩니다. 쉽게 설명하자면, 하나의 큰 문제를 풀 때 모든 것을 혼자서 다 처리하는 대신, 여러 명의 '전문가'들에게 일을 나눠 맡기는 방식입니다.
핵심 내용은 다음과 같습니다:
MoE가 뭔가요?
◦인공지능 모델이 어떤 계산을 할 때, 그 계산을 여러 개의 작은 '전문가'들로 쪼개서 처리하게 합니다1. 각 전문가는 독립적으로 일을 수행하고, 그 결과들을 모아서 최종 결과물을 만듭니다.
◦이때 모든 전문가를 다 쓰는 방식(고밀도)도 있지만, LLM에서는 주로 필요한 전문가의 '일부분'만 선택해서 사용하는 방식(스파스)이 쓰입니다.
• MoE를 왜 사용하나요? (MoE의 중요성 및 장점)
◦모델의 '뇌'를 더 크게 만들 수 있습니다: MoE는 기존 모델의 레이어를 전문가들로 대체하여 모델의 매개변수(모델이 이해하거나 표현할 수 있는 복잡성의 수준)를 효과적으로 늘릴 수 있게 합니다. 이는 모델이 더 많은 정보나 복잡한 개념을 이해하고 표현할 수 있게 돕습니다.
◦비용을 절약하고 훈련을 효율적으로 합니다:
▪스파스 MoE는 매개변수 대비 컴퓨터 계산량(FLOP) 효율이 더 높습니다. 이는 같은 시간과 비용으로 더 많은 데이터를 처리하고 모델을 더 많이 훈련할 수 있다는 의미입니다.
▪아주 큰 모델을 훈련하는 데 막대한 시간과 비용이 드는데 (예: Llama 2 모델은 수십억 원어치 GPU 시간 사용), MoE는 주어진 예산 내에서 더 크고 성능 좋은 모델을 훈련할 수 있도록 돕습니다.
◦응답 속도가 빨라집니다 (지연 시간 단축): 계산이 많이 필요한 큰 질문이나 많은 질문을 한꺼번에 처리할 때, 답변의 첫 부분이 나오는 시간을 줄여줄 수 있습니다. 이는 특히 RAG(검색 증강 생성)나 자율 에이전트처럼 인공지능 모델이 여러 번 호출되어야 하는 경우에 매우 중요합니다.
• MoE 아키텍처는 어떻게 작동하나요?
◦주요 구성 요소는 실제로 계산을 수행하는 '전문가' 하위 네트워크와, 어떤 전문가가 어떤 질문(토큰)을 처리할지 똑똑하게 결정해주는 '라우터' 알고리즘입니다.
◦MoE는 주로 트랜스포머 모델의 'MLP(다층 퍼셉트론)'라는 부분에 적용되지만, 어텐션(Attention) 부분에도 적용될 수 있습니다.
◦'라우터'는 전문가들이 골고루 일을 할 수 있도록 균형을 맞추려 노력하지만, 동시에 모델의 정확도를 최대한 높이려고 합니다.
•Mixtral 8x7B 모델 실험 결과 (실제 작동 모습)
◦Mixtral 8x7B 모델은 32개의 트랜스포머 블록을 가지고 있으며, 각 'MLP' 레이어는 8명의 전문가 중 각 토큰(질문의 작은 단위)마다 딱 2명의 전문가만 활성화되는 방식으로 작동합니다8. 이 모델은 전체적으로 470억 개의 매개변수를 가지고 있지만, 실제로는 각 토큰이 처리될 때 약 129억 개의 매개변수만 사용됩니다.
◦전문가들의 일 분배: '라우터'가 일을 균형 있게 분배하려 노력함에도 불구하고, 어떤 전문가는 다른 전문가보다 최대 40~60% 더 많은 토큰을 처리하는 불균형이 관찰되었습니다.
◦'전문 분야'가 생깁니다: 특정 주제(예: 추상 대수학)는 특정 전문가에게 더 많이 보내지고, 다른 주제(예: 전문 법률)는 또 다른 전문가에게 주로 보내지는 경향이 있습니다. 심지어 ':'와 같은 특정 토큰(단어 조각)도 레이어마다 선호하는 전문가 세트가 있는 것으로 나타났습니다 (예: 레이어 1에서는 전문가 1과 7, 레이어 32에서는 전문가 3과 8)5.
• 결론적으로: MoE 모델은 인공지능 모델을 더 크게, 더 효율적으로, 그리고 더 빠르게 만들 수 있는 강력한 방법입니다. 하지만 전문가들 사이에 작업량을 골고루 분배하는 문제 등은 여전히 활발히 연구되고 있는 중요한 분야입니다.
기업 홍보를 위한 확실한 방법협회 홈페이지에 회사정보를 보강해 보세요.