학습

LLM(Large Lanuage Model)에 대해

박종영 전문위원(AI연구회 회장) / 데이터링크 주식회사

2023년 3월 14일 · 3,710 ·

ChatGPT는 RLHF(Reinforcement Learning from Human Feedback)"라는 특정 유형의 강화 학습을 사용하지만 높은 수준에서 LLM(Large Language Model)의 예입니다. 따라서
대규모 언어모델(LLM)에 대한 이해를 위한 내용과 이를 활용하여 새로운 Business를 고려 합니다.

LLM(대형 언어 모델)이란 무엇입니까?

대규모 언어 모델은 대화 또는 기타 자연 언어 입력에 대해 인간과 유사한 응답을 생성하기 위해 방대한 양의 텍스트 데이터(읽기: ChatGPT의 경우 전체 인터넷)에 대해 훈련된 인공 지능의 하위 집합입니다. 이러한 자연어 응답을 생성하기 위해 LLM은 다층 신경망을 사용하여 복잡한 데이터를 처리, 분석 및 예측하는 심층 학습 모델을 사용합니다.

- LLM은 종종 인간의 텍스트와 구별할 수 없는 고품질의 일관된 텍스트를 생성하는 능력이 독특합니다.

이 최첨단 성능은 인간 언어의 뉘앙스를 학습할 수 있도록 일반적으로 최소 수십억 단어에 달하는 방대한 텍스트 코퍼스에서 LLM을 교육함으로써 달성됩니다. 언급했듯이 가장 잘 알려진 LLM 중 하나는 OpenAI에서 개발한 Generative Pretrained Transformer 3의 약자인 GPT-3입니다. 1,750억 개의 매개변수가 있는 GPT-3는 현재까지 가장 크고 강력한 LLM중 하나이며 번역, 요약 및 시 쓰기를 포함한 광범위한 자연어 작업을 처리할 수 있습니다.

## ChatGPT: GPT에서 1,750억 개의 매개변수란 무엇입니까?

➢ GPT는 "Generative Pre-trained Transformer"의 약자로, 인공지능 언어 모델 중 하나입니다. 매개변수란 모델을 구성하는 가중치(weight)와 편향(bias) 등의 파라미터(parameter)를 의미합니다. GPT 모델은 Transformer 구조를 사용하여 구성되며, 이 구조는 매개변수의 크기가 매우 큽니다.

➢ 2021년 6월 기준, GPT-3 모델의 매개변수는 175 billion 개였습니다. 이는 이전 모델인 GPT-2 모델의 매개변수인 1.5 billion 개보다 약 116배 큽니다. 이 많은 매개변수를 가진 모델은 매우 복잡한 언어 처리 작업을 수행할 수 있으며, 대규모 데이터셋을 이용한 사전학습(pre-training)을 통해 일반적인 자연어 이해 능력을 가지고 있습니다.

➢ GPT-3 모델의 1750억 개의 매개변수를 이해하는 한 가지 예시는, 이 매개변수 수가 인간 뇌의 뉴런 수와 비슷하다는 것입니다. 인간 뇌의 뉴런 수는 약 1000억 개에서 100조 개 정도로 추정됩니다. 따라서, GPT-3 모델의 매개변수 수는 인간 뇌의 뉴런 수와 비슷하거나 그보다 큰 것으로 추정됩니다.

➢또 다른 예시로는, GPT-3 모델의 매개변수 수가 인터넷에서 사용되는 모든 웹사이트의 데이터 크기보다도 크다는 것입니다. 이는 매우 큰 규모의 데이터셋을 사용하여 훈련된 모델이라는 것을 보여줍니다.

➢ 이러한 큰 규모의 매개변수를 가진 모델은 매우 정교한 자연어 처리 작업을 수행할 수 있으며, 다양한 응용 분야에서 사용될 수 있습니다.

(이상 CharGPT Answer)

첨부 파일

LLM(대형 언어 모델)이란.pdf

다운로드

멀티모달로 진화하는 언어모델

AI 연구회_2.28