austin-distel-rxpThOwuVgE-unsplash.jpg

AI연구회

경남ICT협회 AI 연구 모임

자료실

GPT-4, 이전과 달라진 점 5가지는

AI타임스

이미지 인식이 우선...정확도·저장능력·다국어·사용자 정의 등 특징

GPT-4가 이미지와 텍스트로 된 프롬프트에 대답하는 기능 시연 (사진=오픈AI)
GPT-4가 이미지와 텍스트로 된 프롬프트에 대답하는 기능 시연 (사진=오픈AI)

오픈AI가 14일(현지시간) 발표한 GPT-4는 직전 모델인 GPT-3.5와 어떻게 다를까. 미 기술매체 테크크런치와 뉴욕타임스 등 외신들은 이미지 인식 기능을 먼저 꼽았다. 

정확도가 개선된 점, 기억력(저장능력)이 향상된 점, 다국어 기능이 추가된 점, 사용자 정의가 가능해진 점도 지목했다. 농담을 더 잘하게 됐다는 평가도 나왔다. 오픈AI의 블로그와 외신을 종합해 5가지 달라진 점들을 정리한다.

■ 멀티모달
오픈AI의 대형언어모델(LLM)인 GPT-4는 텍스트만 인식하던 이전 모델과는 달리 이미지를 인식한다. 냉장고 안을 찍은 사진과 함께 '이 사진에서 보이는 재료들로 할 수 있는 요리를 알려줘'라고 명령하면 몇 가지 요리를 추천한다.

오픈AI는 이런 이미지 인식 기능이 추가된 데 따라 새 모델을 멀티모달(Multimodal)으로 규정했다. 멀티모달은 텍스트, 이미지, 오디오, 비디오 등 여러 양식(mode)에 반응하는 기능을 말한다. 

그러나 GPT-4는 이미지를 인식할 뿐 새로운 이미지를 생성해 내지는 못한다. 텍스트로만 답할 뿐이다. 냉장고 사진과 요리를 추천하라는 프롬프트에 대해 가능한 요리들을 이미지로 만들어 보여주지 못한다. 

따라서 멀티모달로 입력하고 출력하는, 완전한 의미의 멀티모달 모델은 아니다. 기대에는 못 미쳤지만, 언어 모델이 이미지를 인식하게 된 것은 주목할만한 진화다. GPT-4는 텍스트와 이미지를 섞어서 프롬프트로 입력해야 반응한다. 

프롬프트를 이미지로만 입력하는 방안은 현재 연구 중이며 일반에 공개하지 않는다고 오픈AI는 블로그에서 밝혔다. 또 이 연구는 시각 장애인을 위한 인공지능(AI) 앱인 ‘비 마이 아이(Be My Eye)’를 개발한 회사와 진행 중이라고 소개했다.

GPT-4, 이전과 달라진 점 5가지는 < 뉴테크 < 기술 < 기사본문 - AI타임스 (aitimes.com)

AI타임스

기업 홍보를 위한 확실한 방법
협회 홈페이지에 회사정보를 보강해 보세요.