AI연구회
경남ICT협회 AI 연구 모임
ChatGPT가 처음 등장했을 때 많은 사람들이 놀란 이유는 단순히 AI가 사람처럼 답변한다는 것 때문만은 아니었습니다. 그보다는 이전의 AI와는 차원이 다른 능력을 보여주었기 때문이었죠. 번역을 가르치지 않았는데 번역을 하고, 코딩을 직접 학습시키지 않았는데 프로그램을 작성하며, 창작을 훈련하지 않았는데 시와 소설을 써내는 모습에 모든 사람이 경악했습니다.
이런 놀라운 변화의 핵심에는 하나의 단순한 원리가 숨어있습니다. 바로 "더 큰 것이 더 효율적이다"라는 자연의 오래된 법칙이죠. 이 법칙은 1932년 한 생물학자의 발견에서 시작되어, 90년이 지난 지금 AI 시대의 가장 중요한 원리가 되었습니다.
스위스의 생물학자 막스 클라이버는 다양한 동물들의 체중과 대사율을 연구하던 중 흥미로운 패턴을 발견했습니다. 동물이 클수록 단위 체중당 필요한 에너지가 줄어든다는 것이었죠. 이를 수식으로 표현하면 '대사율은 체중의 3/4제곱에 비례한다'가 됩니다.
구체적인 예를 들어보겠습니다. 30그램짜리 생쥐는 하루에 자신의 체중 25%에 해당하는 음식을 먹어야 생존할 수 있습니다. 반면 3톤짜리 코끼리는 체중의 4%만 먹으면 충분합니다. 코끼리가 생쥐보다 10만 배 무겁지만, 실제로는 6분의 1 수준의 에너지 효율성을 보이는 것이죠.
이런 현상이 일어나는 이유는 생물체의 기본 구조와 관련이 있습니다. 동물의 부피는 크기의 세제곱으로 증가하지만, 표면적은 제곱으로만 증가합니다. 열 손실은 주로 표면을 통해 일어나므로, 큰 동물일수록 상대적으로 열을 덜 잃게 되어 에너지 효율이 좋아지는 것입니다. 또한 큰 동물의 심혈관계는 더 효율적으로 설계되어 있어 혈액 순환에 드는 에너지도 상대적으로 적게 듭니다.
클라이버가 발견한 이 법칙은 지난 90년간 수많은 동물종에서 검증되어 왔습니다. 박테리아부터 고래까지, 지구상의 거의 모든 생물이 이 법칙을 따르고 있음이 확인되었죠. 자연은 "큰 것이 효율적이다"라는 원리를 생명체 설계의 기본 원칙으로 사용하고 있었던 것입니다.
2020년, OpenAI의 연구진들은 인공신경망에서도 클라이버 법칙과 유사한 현상을 발견했다고 발표했습니다. AI 모델의 크기가 커질수록 성능이 예측 가능한 방식으로 향상된다는 것이었습니다. 이를 '신경망 스케일링 법칙'이라고 명명했죠.
이 법칙에 따르면, AI 모델의 성능은 모델 크기의 거듭제곱에 비례합니다. 매개변수 수가 10배 증가하면 성능도 일정한 비율로 향상되는 것이죠. 이는 단순히 선형적인 개선이 아니라, 마치 클라이버 법칙처럼 '규모의 경제' 효과를 보여주는 것입니다.
GPT 시리즈의 발전 과정을 보면 이 법칙이 얼마나 정확한지 알 수 있습니다. GPT-1은 1억 개의 매개변수로 기본적인 문장 완성 수준이었습니다. GPT-2는 15억 개로 늘어나면서 일관성 있는 단락을 쓸 수 있게 되었고, GPT-3는 1,750억 개로 급격히 증가하면서 추론과 번역, 기초적인 코딩까지 가능해졌습니다. 그리고 GPT-4는 추정 1조 8천억 개의 매개변수로 복잡한 문제 해결과 창작까지 해내고 있습니다.
여기서 주목할 점은 각 단계마다 단순히 기존 능력이 향상되는 것이 아니라, 완전히 새로운 능력이 갑자기 나타난다는 것입니다. 이를 '창발성'이라고 부르는데, 마치 개별 뉴런들이 모여 의식을 만들어내는 것처럼, 수많은 매개변수들이 모여 예상치 못한 지능을 창발시키는 현상입니다.
창발성은 신경망 스케일링에서 가장 흥미로운 현상입니다. GPT-3가 처음 공개되었을 때, 연구자들조차 놀란 이유가 바로 이 때문이었습니다. 번역 데이터를 충분히 학습시키지 않았는데도 번역을 하고, 수학 문제 풀이를 직접 가르치지 않았는데도 산술 연산을 수행했습니다.
특히 'Few-shot 학습' 능력은 모든 사람을 놀라게 했습니다. 몇 개의 예시만 보여주면 새로운 작업을 즉시 수행하는 능력이었죠. 예를 들어 "사과는 빨갛다, 바나나는 노랗다, 하늘은?"이라고 물으면 "파랗다"라고 답하는 식으로, 패턴을 즉시 파악하여 적용하는 놀라운 능력을 보여주었습니다.
이런 창발성은 생물학에서도 관찰되는 현상입니다. 개별 뉴런은 의식이 없지만, 1000억 개의 뉴런이 복잡하게 연결되면 의식이 창발됩니다. 개별 개미는 단순하지만, 수만 마리가 모이면 복잡한 사회 시스템이 창발되죠. AI에서도 마찬가지로 개별 매개변수는 의미가 없지만, 수천억 개가 모이면 지능이 창발되는 것입니다.
두 법칙은 본질적으로 유사하지만 중요한 차이점들이 있습니다. 먼저 클라이버 법칙은 지수가 정확히 3/4로 고정되어 있고, 90년 넘게 검증되어 온 안정적인 법칙입니다. 반면 신경망 스케일링 법칙의 지수는 모델 구조나 학습 방법에 따라 달라질 수 있고, 아직 5년 정도밖에 관찰되지 않은 비교적 새로운 현상입니다.
또한 클라이버 법칙은 물리적 한계가 명확합니다. 동물이 무한정 클 수는 없으며, 중력이나 골격 구조의 한계 때문에 일정 크기 이상에서는 다른 제약이 나타납니다. 하지만 신경망 스케일링 법칙의 한계는 아직 명확하지 않습니다. 일부에서는 무한정 확장 가능하다고 보기도 하고, 다른 이들은 곧 한계에 부딪힐 것이라고 예측하기도 합니다.
현재까지의 관찰로는 신경망 스케일링이 계속되고 있습니다. 매개변수 수를 늘릴수록, 더 많은 데이터로 학습할수록, 더 많은 연산력을 투입할수록 성능이 예측 가능한 방식으로 향상되고 있죠. 하지만 이것이 언제까지 지속될지는 아직 아무도 모릅니다.
신경망 스케일링에도 현실적인 제약이 있습니다. 가장 큰 문제는 비용입니다. GPT-3를 학습시키는 데 약 460만 달러가 들었고, GPT-4는 그보다 훨씬 많은 비용이 투입되었을 것으로 추정됩니다. ChatGPT를 하루 운영하는 데만 약 70만 달러가 든다는 분석도 있습니다.
에너지 소비도 큰 문제입니다. 초거대 AI 모델을 학습시키고 운영하는 데 드는 전력은 소규모 도시 하나가 쓰는 전력량에 맞먹습니다. 전 세계적으로 AI 모델이 점점 커지고 많아지면서 데이터센터의 전력 소비가 급격히 증가하고 있죠. 이는 환경 문제와도 직결됩니다.
하드웨어 제약도 있습니다. 더 큰 모델을 돌리려면 더 많은 GPU와 메모리가 필요한데, 현재 AI용 GPU는 엔비디아가 거의 독점하고 있어 공급이 부족한 상황입니다. SK 하이닉스가 개발한 HBM 메모리도 생산량이 한정되어 있어 AI 개발의 병목 지점이 되고 있습니다.
이런 제약들 때문에 많은 연구자들이 효율성을 높이는 방법을 찾고 있습니다. 같은 성능을 더 적은 매개변수로 달성하거나, 더 효율적인 학습 방법을 개발하는 것이죠.
최근 중국의 딥시크가 발표한 딥시크 R1 모델이 주목받는 이유도 여기에 있습니다. 상대적으로 적은 자원으로도 최고 수준의 성능을 달성했다고 주장하면서, 하드웨어 제약을 소프트웨어 최적화로 극복할 수 있음을 보여주었습니다.
트랜스포머를 뛰어넘는 새로운 아키텍처 연구도 활발합니다. 현재의 트랜스포머 구조는 문장이 길어질수록 계산량이 제곱으로 증가하는 문제가 있어, 이를 해결하는 새로운 구조들이 제안되고 있습니다. 또한 양자화나 가지치기 같은 기법으로 모델 크기를 줄이면서도 성능을 유지하는 연구도 진행되고 있죠.
신경망 스케일링 법칙이 앞으로도 계속 적용될지는 아직 미지수입니다. 일부 연구자들은 현재의 트렌드가 계속되어 AGI(인공일반지능)에 도달할 것이라고 보지만, 다른 이들은 곧 한계에 부딪힐 것이라고 예측합니다.
클라이버 법칙과 비교해보면 흥미로운 통찰을 얻을 수 있습니다. 생물학에서도 클라이버 법칙이 모든 크기에서 적용되는 것은 아닙니다. 너무 작은 생물체나 너무 큰 생물체에서는 다른 요인들이 더 중요해지죠. 신경망에서도 마찬가지로 특정 크기를 넘어서면 다른 법칙이 적용될 수 있습니다.
하지만 한 가지 확실한 것은 현재까지의 패턴이 매우 일관성 있게 나타나고 있다는 것입니다. 그리고 이 패턴을 이해하는 것이 AI의 현재와 미래를 파악하는 열쇠라는 점입니다.
클라이버 법칙과 신경망 스케일링 법칙을 통해 우리는 중요한 깨달음을 얻을 수 있습니다. 자연은 수억 년에 걸쳐 "큰 것이 효율적이다"라는 원리를 생명체 설계에 적용해왔고, 지금 AI도 같은 원리를 따르고 있다는 것입니다.
이는 AI 발전이 단순한 기술적 진보가 아니라, 자연의 근본 원리를 따르는 현상일 수 있음을 시사합니다. 코끼리가 생쥐보다 에너지 효율적인 것처럼, 큰 AI 모델이 작은 모델보다 놀라운 능력을 보이는 것은 자연스러운 일일지도 모릅니다.
동시에 이는 AI의 한계를 예측하는 데도 도움이 됩니다. 생물학에서 클라이버 법칙에 한계가 있듯이, AI에서도 언젠가는 스케일링의 한계에 부딪힐 것입니다. 그 한계가 언제 어떤 형태로 나타날지를 예측하고 준비하는 것이 중요합니다.
결국 클라이버 법칙과 신경망 스케일링 법칙을 이해하는 것은 단순히 AI 기술을 이해하는 것을 넘어서, 자연의 원리와 인공지능의 본질을 깊이 있게 탐구하는 일입니다. 이런 이해를 바탕으로 우리는 AI가 만들어갈 미래를 더 명확하게 전망하고, 그 변화에 더 현명하게 대응할 수 있을 것입니다.
기업 홍보를 위한 확실한 방법협회 홈페이지에 회사정보를 보강해 보세요.