OpenAI GPT-4o 소개와 지식 기반 봇으로의 활용
최근 한두달 사이에 Claude 3부터 Llama 3까지, 계속해서 새로운 대형 언어 모델(LLM)들이 출시되고 있습니다. 이들 모두 뛰어난 개선점들을 선보여 다음 OpenAI의 행보에 대해 관심이 집중되고 있었는데요. 2024년 5월 13일, OpenAI가 GPT-4o를 발표했습니다. 많은 이들이 혁신적인 변화라며 열광하고 있습니다. 이번 글에서는 GPT-4o가 이전 모델과 비교하여 어떤 차이가 있었는지 자세하게 살펴보고, 지식 기반 봇에 있어서는 어떤 의미를 가지는지 확인해 보겠습니다.
GPT-4o 소개
2024년 5월 13일, OpenAI는 최신 고급 언어 모델인 GPT-4o를 공개했습니다. 여기서 "o"는 "omni"를 의미하는데요, 이는 "모든" 또는 "전체의"라는 뜻을 가지고 있습니다. GPT-4o는 텍스트, 오디오, 이미지 입력 및 출력을 모두 처리할 수 있는 능력을 갖추고 있습니다. OpenAI가 데모 영상을 통해 공개한 GPT-4o의 개선점과 기능들을 정리해 봤습니다.
GPT-4o의 주요 개선 사항
GPT-4o의 이전 모델은 GPT-4-turbo-2024-04-09 인데요, 4월 9일에 릴리즈된 모델이니 GPT-4o는 약 한달만의 새로운 모델입니다. 다음은 OpenAI가 소개한 이전 모델과 비교한 개선점입니다.
기존 GPT-4 대비 2배 빠른 속도
비용 50% 절감
GPT-4 Turbo와 비교해 5배 높은 rate limit
실시간 비디오 및 오디오 지원
기존 음성 대화와의 주요 차이점
ChatGPT 앱에서는 Voice mode라고 불리는 목소리로만 소통할 수 있는 인터페이스를 제공하고 있는데요. 이전에는 Voice mode에서 음성을 입력하고 응답을 기다려야 했지만, 이제는 실시간으로 느껴질 정도로 곧바로 응답을 제공합니다. OpenAI에 따르면 평균 응답 시간이 320밀리초로, 실제 인간의 반응 시간과 비슷하다고 합니다. 또한 GPT가 응답을 전부 말할때까지 기다리지 않고, 대화 중간에 끼어들 수도 있습니다. 감정을 표현하고 다양한 음성을 생성할 수도 있습니다. 데모에서는 "더 극적으로 얘기해줘", "로봇 톤으로 얘기해줘" 등의 예시를 보여줬습니다.
비디오 기능
데모에서는 GPT-4o가 종이에 적은 수학 문제를 풀고 있는 과정을 실시간으로 보며 도움을 주는 것을 선보였습니다. 또한, 컴퓨터 화면을 실시간으로 보고 코드 분석을 제공하는 기능도 시연되었습니다.
GPT-4o API 출시
OpenAI의 API에서도 GPT-4o를 지원한다는 공지도 커뮤니티에 공개되었는데요. 위에서 언급하였던 2배 빠른 속도, 비용 50% 절감, 5배 높은 rate limit 의 장점이 그대로 적용됩니다. 일반 사용자들에게도 물론 좋은 개선점들이지만, 상대적으로 사용량이 많을 API 사용자들에게는 정말 체감이 큰 개선점입니다.
또 하나 큰 변화는 audio input을 지원한다는 점입니다. 기존에는 챗봇과 목소리로 대화하기 위해서는, STT(Speech-to-Text) 기능을 활용하여 텍스트를 API에 보내야만 했습니다. 이제는 audio를 직접 API에 보낼 수 있으니, 훨씬 효율적이고 텍스트로 변환되기 어려운 소리들도 전달할 수 있을 것입니다. 몇 주 내에 지원하는 것을 목표로 하고 있다는데, 기대가 되는 API중에 하나입니다.
GPT-4o 소개의 결론 및 요약
GPT-4o는 기존 모델에 비해 다양한 면에서 큰 개선을 이루었습니다. 아직 출시되지 않은 기능들이 있어 주목해야 하겠지만, 데모 영상에서 보여준 기능들이 그대로 동작한다면 혁신적인 변화라는 것은 분명합니다. 새로운 모델들이 우후죽순으로 나오는 과정에서 OpenAI의 입지가 위협받을 것 같았지만, 이번 혁신을 통해 화제성과 기능성 면에서 다시 한번 선두를 지킬 것으로 보입니다.
특히 오디오 입력 및 실시간 대화 기능이 인상적입니다. GPT-4o의 음성 대화 기능은 잘 구현되었는데, 이는 우수한 사용자 인터페이스의 영향이 큽니다. 샘 알트먼은 블로그에서 새로운 음성 모드를 그가 사용해 본 인터페이스 중 최고라고 언급했습니다. 이는 유저 인터페이스가 AI 기술에서도 매우 중요하다는 점을 강조합니다.
채팅이나 챗봇과 같은 기능을 서비스에 도입할 때, 유저 인터페이스는 종종 간과되는 부분입니다. 단순히 AI 모델의 API를 사용해 메시지를 전달하는 것으로 생각할 수 있지만, 훌륭한 채팅 인터페이스를 구성하기 위해선 상당한 리소스가 필요합니다. 센드버드는 이 중요성을 잘 알고 있으며, 우수한 채팅 인터페이스를 지속적으로 제공하고 있습니다. GPT-4o, Llama 3, Claude 3 등 뛰어난 최신 모델을 빠르게 지원하는 것은 덤입니다.
GPT-4o가 지식 기반 봇에 쓰인다면?
LLM들은 특정 날짜까지의 지식만 가지고 있고, 개인적인 정보에는 접근할 수 없다는 한계가 있습니다. 이러한 한계를 극복하기 위해 지식 기반 봇이 개발되었습니다. 사용자는 웹 사이트, PDF, CSV 등 다양한 형태로 특정 정보를 이러한 봇에 주입할 수 있습니다.
Claude, GPT 및 Llama 간의 성능을 비교한 이전 기사에서는 GPT-4-turbo를 포함하여 어떤 LLM이 지식 기반 봇을 구성하는데 적합한지를 살펴보았습니다. 해당 글에서도 정확도, 간결성 등의 면에서는 GPT-4-turbo가 가장 좋은 성능을 보여주었다고 결론을 내었는데요.
GPT-4o는 GPT-4-turbo보다 발전된 모델이므로, 이 역시 지식 기반 봇의 탁월한 성능을 보여줄 것이라 생각했습니다. 기존에 테스트했던 질문들을 그대로 적용해보니, 예상대로 우수한 질답 능력을 보여주었습니다.
예시를 한번 살펴보겠습니다. 미국 인구조사국에서 작성한 “2022년 미국의 출퇴근” 보고서 PDF 파일을 센드버드 대시보드를 이용해 챗봇에 등록해놓고, 여러가지 질문을 해 보았습니다.
상당히 좋은 퀄리티의 답변을 해주는것을 보실 수 있습니다. 한국어에 있어서도 전혀 어색하지 않게 답변을 하는 것을 확인할 수 있습니다. 제 Github에서 전체 질문/답변 목록을 확인하실 수 있습니다.
직접 챗봇을 생성해서 테스트해보는 것도 좋은 방법입니다. 센드버드를 통해서 단 몇 분만에 원하는 지식 기반으로 맞춤형 GPT-4o 챗봇을 생성할 수 있습니다.
속도: GPT-4-turbo vs GPT-4o
왼쪽이 GPT-4 turbo, 오른쪽이 GPT-4o 를 사용한 챗봇입니다. 동시에 같은 질문들을 여러개 해보았는데, 답변을 생성하는 속도에 큰 차이가 있는 것을 확인하실 수 있습니다.
이전에 여러가지 LLM 모델을 비교한 글에서, GPT-4의 약점이 가격과 속도라고 말씀드렸었는데, 속도 면에서는 이를 완전히 극복하였다고 생각이 듭니다.
GPT-4o를 지원하는 최초의 노코드 웹 및 모바일용 맞춤형 AI 챗봇
GPT-4o는 각 기업의 요구사항에 맞춰 정확한 답변을 쉽게 제공할 수 있는데요. 이전에 인터페이스에 대한 중요성을 언급드렸듯이, 여전히 사용자와 챗봇 사이에 적절한 상호작용 도구가 필요합니다. 이제 사용자는 챗봇과의 대화에서도 카카오톡, 라인과 같은 실제 채팅 프로그램과 유사한 채팅 경험을 기대합니다. 맞춤형 AI 챗봇을 구축할 때 GPT-4o 와 같은 최첨단 LLM 과 세계적 수준의 채팅 인터페이스를 모두 제공할 수 있는 Sendbird와 같은 챗봇을 고려하는 것이 중요합니다 .
GPT-4o의 기능을 극대화하려면 다음과 같이 트렌디하고 유용한 채팅 기능들이 필수적입니다.
상품 이미지를 표시하는 메시지 카드
추천 답변
보낸 메시지, 배달된 메시지, 읽은 메시지에 대한 메시지 상태 확인
입력 표시기
오프라인 지원
몇 분 안에 웹사이트에 GPT-4o를 연동해보세요!
Sendbird는 코드 없이 GPT-4o 기반 AI 챗봇을 구축하는 데 도움을 드릴 수 있습니다. Sendbird AI 챗봇 대시보드를 통해 URL과 파일 등의 콘텐츠로 챗봇을 학습시킬 수도 있습니다.