3. 생성형 AI 시대에 알아두면 좋은 AI 용어
2024.06.25
최근 우리 일상 속에서 화두인 키워드를 하나 꼽으라고 한다면, 아마도 '생성형 AI'가 아닐까 싶은데요.
빠르게 변화하는 AI 기술 트렌드 속에서 Chat GPT나 하이퍼클로바X와 같은 생성형 AI 기술은 꾸준히 인기를 유지하며 여전히 뜨거운 이슈가 되고 있죠.
특히 지난해는 생성형 AI가 기술적 진보를 이루는 시기였다면, 앞으로는 우리의 일상생활에 깊숙이 활용되는 시기가 될 것으로 예상하기도 하는데요. 사용자 기반이 점점 넓어지면서 우리도 이 기술에 익숙해질 필요가 있겠지요?
이 흐름에 맞추어 생성형 AI 시대를 살고 있다면 반드시 알아야 하는 용어 함께 알아볼까요?!
생성형 AI (Generative AI)
생성형 AI는 콘텐츠 생성 기능과 같이 이전에는 없던 기능을 갖추고 있습니다. 사용자가 지시하는 형상의 그림을 그려 주기도 하고, 원하는 캐릭터의 말투와 언어로 대화를 구현하는 기술 또한 생성형 AI의 예시라고 할 수 있어요.
LLM (대형 언어 모델)
LLM은 생성형 AI를 설명할 때 가장 먼저 이해해야 할 개념입니다. LLM은 말 그대로 광범위한 양의 텍스트 데이터를 학습한 모델을 뜻하는데요. 사람이 언어를 학습하는 과정을 생각해보면, 처음에는 짧은 문장 위주로 대화를 하다가, 교육과 일상생활 속에서의 대화, 독서 등을 통해 언어 능력이 자연스럽게 성장합니다. 이 과정에서 이해력과 추론 능력도 함께 높아지며 더욱 복잡하고 자연스러운 대화를 할 수 있게 되지요. 최근 챗봇 등 대부분의 텍스트 기반 생성형 AI 서비스는 이 LLM 기능을 기반으로 작동합니다.
생성형 AI 와 LLM의 차이에 대해 이해가 되시나요? 생성형AI는 콘텐츠를 생성할 수 있는 AI 모델을 지칭하는 포괄적인 의미이고, LLM은 텍스트 콘텐츠를 생성하는 생성형 AI의 한 유형이죠. 따라서, 모든 LLM 모델은 생성형 AI라고 할 수 있어요.
HyperCLOVA X (하이퍼클로바X)
네이버가 2023년에 전 세계에서 3번째로 초대규모 AI 모델, HyperCLOVA X를 세상에 내놓았습니다. 자체 데이터를 HyperCLOVA X와 결합하면 사용자의 니즈에 맞는 답변을 즉각 제공할 수 있고 일상과 비즈니스에서 새로운 기회를 만들어갈 수도 있죠.
우리의 일상과 비즈니스에서 HyperCLOVA X를 활용해 볼 수 있는 네이버의 다양한 AI 서비스도 함께 알아볼까요?
GPU
GPU는 컴퓨터 시스템에서 그래픽 연산을 빠르게 처리하여 결과값을 모니터에 출력하는 연산 장치입니다. AI 모델을 학습시키는 데에 복잡한 수학적 연산과 데이터를 빠르게 처리할 수 있는 기술이 필요했고, GPU는 AI 모델 학습에 이상적인 도구로 부상하게 되었습니다.
젠슨 황, 엔비디아 CEO / 출처: 9층 시사국. AI 반도체 골드러시
최근 펼쳐지고 있는 초대규모AI 전쟁에서 최후의 승자는 누가 이기든 돈을 버는 엔비디아가 될 것이라는 이야기를 들어 보신 적 있나요? 본래 엔비디아는 컴퓨터 그래픽 카드로 유명한 회사였는데, 이러한 이유로 AI와 함께 각광을 받으면서 주목을 받는 회사가 된 것이지요.
토큰(Token)
토큰은 LLM의 핵심 구성 요소 중 하나로 언어 데이터를 처리하는 기본 단위를 말하며 일반적으로 단어, 문자, 또는 문장의 일부를 포함합니다.
출처 : 토크나이저
우리가 토큰에 대해서 알아야 하는 이유 중 하나는 AI 모델에서 비용과 연관되어 있다는 점인데요. LLM 서비스를 사용할 때 토큰을 기준으로 사용량을 측정합니다.
위 예시처럼 Chat GPT의 경우 같은 의미의 내용을 영어로 작성할 때보다 한글로 작성할 때 더 많은 토큰이 사용된다는 특징이 있는데요. 상대적으로 더 많은 비용이 발생할 수 있다는 것을 의미합니다. 이러한 가격 정책 또한 우리가 자체적으로 한글에 특화된 초대규모AI 모델을 만들어야 하는 이유가 되기도 하는데요. 하이퍼클로바X는 한국어에 특화한 초대규모 AI 모델로 토큰을 한 번에 4,096개까지 처리할 수 있어 이러한 격차를 해소할 수 있는 요인이기도 합니다.
프롬프트(Prompt)
생성형 AI 시대가 도래하면 영어가 가장 중요한 역량이 될 것이라는 의견도 있습니다.
이는 생성형 AI 서비스의 작동 방법에서 기인한 것이에요. 생성형 AI 서비스는 사용자의 특별한 행위 없이 오로지 질문과 요청에 의해 원하는 결과를 제공하고, 이때 AI에 주어지는 입력, 즉 질문이나 명령을 프롬프트(Prompt)라고 부릅니다.
즉, 어떻게 질문을 하느냐에 따라 결과가 크게 달라질 수 있는 것이죠. 많은 기업이 이를 효과적으로 활용하여 업무 생산성을 높이기 위해 프롬프트 엔지니어라는 직업이 탄생하기도 했습니다.
프롬프트 엔지니어링에 관한 간단한 예시를 들어보겠습니다.
이와 같이 표기해야 하는 단어, 선호도를 구체적으로 명시해 주면 AI는 이를 바탕으로 사용자의 기대에 부합하는 답변을 출력할 수 있는 것을 볼 수 있습니다.
자, 그럼 실제로 클로바 스튜디오를 통해 선물하기 AI 추천 메시지가 어떤 과정을 거쳐 출력이 되는지 알아볼까요?
멀티모달(Multi-Modality)
영화 ‘아이언맨’에서 ‘자비스’를 AI 기술로 표현한다면 멀티모달 AI 개인비서라고 해요. 텍스트를 넘어 음성-이미지를 넘나들며 출력이 가능한 거죠.
최초의 LLM 서비스는 텍스트 기반의 대화에 국한되어 있었어요. 사용자가 텍스트로 질문하고 답변도 오직 텍스트로만 받을 수 있다는 의미인데요. 앞으로는 텍스트로 특정 이미지를 생성해 달라고 하면 이미지를 생성해 주고, 텍스트가 아닌 음성으로 질문을 하더라도 텍스트나 이미지로 답변을 받을 수 있습니다.
이때 텍스트, 음성, 이미지 등을 모달리티라고 부르며, 향후에는 더 다양한 형태의 모달리티를 입력 및 출력할 수 있을 것이라 기대해 볼 수 있습니다. 이 역시 AI가 진화하는 과정에서 인간이 눈과 귀를 통해 정보를 습득하고 취득한 정보를 기반으로 뇌를 활용하여, 손과 발이 작업하는 것처럼 다양한 감각 기관을 갖추는 과정이라 이해할 수 있습니다.
튜닝(Tuning)
LLM 모델은 특정한 답을 하게끔 만들어져 있지 않았습니다. 예를 들어, ‘서울은 어느 나라 도시야?’라고 물으면, 기본 모델은 “대한민국의 도시야.”라고 할 수 있죠. 반면 튜닝 모델은 “서울은 대한민국의 수도로, 대한민국의 정치, 경제, 문화 중심지입니다. 한반도의 남쪽에 위치하며, 인구 밀도가 높고 교통이 발달해 있습니다.” 라고 답변할 수 있습니다.
이렇게 일반모델에 사용자가 원하는 특별한 성능을 덧붙이는 것을 파인 튜닝(Fine-tuning)이라고 합니다. 파인 튜닝의 핵심 목적은 특정 분야에 대해 더욱 정교하고 전문적인 답변을 할 수 있도록 개선하는 것입니다.
가령, 의학 분야에 대한 데이터로 파인 튜닝을 하면, 의학적 상황에 대한 더 정확한 답변이 가능해집니다. “피부가 빨갛게 부어올랐어.”라고 입력하면 기본 모델은 “여드름 혹은 두드러기”이라고 답할 수 있지만 의학 데이터로 파인 튜닝을 거치면 “알레르기를 일으키는 음식, 화장품, 동물 털 등에 노출되거나 세균, 바이러스 등의 감염, 또는 피부 아래의 혈관이 확장되어 발생하는 혈관부종 등이 원인일 수 있습니다. 만약 부어오름과 함께 통증, 발열 등의 증상이 동반된다면, 즉시 의료기관을 방문하여 전문가의 진료를 받는 것이 좋습니다.“와 같은 의견을 제시할 수 있어요.
AI 기술의 올바른 활용을 위해 사용자들의 AI 윤리에 대한 이해와 관심이 필요한데요.
AI Safety를 이해하기 위한 관련 용어를 쉽게 소개합니다.
AI 기술은 예전보다 사람의 언어를 훨씬 잘 이해하고 있습니다. 맥락을 이해하고 대화하며 알맞은 대답을 해주죠. 또 AI는 우리가 지시하는 대로 창작을 하기 시작했습니다.
반 고흐처럼 그림을 그려 달라고 하면 반 고흐의 화풍으로 그림을 그려주기도 하죠. 현실 속에서 우리는 AI 기술을 직접 경험할 수 있게 되었습니다.
AI 기술은 전례 없는 기회를 제공하는 동시에, 이를 둘러싼 윤리적이고 안전한 AI에 대한 고민을 안겨주었습니다. 예를 들어, AI 창작물에 대해 인간의 고유한 창의성을 침해한다고 보는 이들도 있습니다. 더불어, 저작권을 누구에게 주는가에 대한 문제도 불거질 수 있습니다. AI 챗봇이 잘못된 답변을 하거나 인종, 종교, 성별 등에 대한 혐오 혹은 편향된 발언을 하지 않도록 잘 설계된 올바른 데이터로 학습을 시켜야 하며 범죄에 AI 기술을 이용하지 않도록 선제적 대응이 필요하다는 목소리가 높아지고 있습니다.
AI로 인해서 오랜 시간 동안 우리 사회에 ‘윤리'로 여겨지던 규범이나 인류 보편적 가치를 해치는 일이 일어나지 않도록 기업, 학계, 정부, 시민단체 그리고 글로벌 조직들이 함께 AI 안전성을 연구하거나 정책을 마련하는 것이 필요합니다.
네이버도 AI 안전성 연구를 전담하며, 신뢰 가능한 AI 기술을 지속적으로 연구하고 책임감 있는 AI 정책을 수립하는 Future AI Center를 설립하여 AI Safety 기술 개발에 박차를 가하고 있습니다.
이와 더불어, AI 기술을 올바르게 사용하기 위해서는 무엇보다도 이용자 여러분의 AI에 대한 윤리에 대한 이해와 관심도 꼭 필요한 상황이에요. AI 윤리에 대한 요즘 이슈, 그리고 관련 용어들도 쉽고 자세하게 소개해 드릴게요.
할루시네이션(Hallucination)
생성형 AI가 글과 같은 컨텐츠를 ‘생성’하는 과정에서 때때로 실제 데이터나 사실을 반영하지 않고, 비현실적이거나 오류를 포함한 내용을 만들어내는 경우가 있는데요. 이를 ‘환각’, ‘할루시네이션(Hallucination)’ 이라고 부릅니다. 문법적 오류도 없고 글의 흐름도 자연스럽다 보니 사실이 아닌데 마치 사실처럼 느껴져서 환각이라 불리게 되었습니다.
할루시네이션 현상의 대표적인 사례 ‘세종대왕의 맥북프로 던짐’
추가로, 비현실적인 내용을 생성하거나 역사적 사실이나 상식을 잘못 대답하는 경우, 여행 계획표를 작성해 달라고 요청했을 때 ‘여행은 참 좋은 것입니다'와 같이 질문과 무관한 답변을 생성하는 경우도 이에 해당합니다.
이러한 현상은 물론 창의력이 필요한 응용 분야에서는 유용하게 쓰일 수 있으나 사실 정보 제공이 중요한 AI 서비스에 대한 신뢰성 저하 및 의사 결정의 혼선, 윤리적/법적 문제를 유발할 수 있기 때문에 AI 서비스의 한계점으로 느껴지지만, 정확한 데이터 학습과 세밀한 학습 기준 수립 등의 꾸준한 연구와 기술 개발로 점차 해결될 것입니다.
딥페이크(Deepfake)
AI 윤리를 논하려면 딥페이크를 빼놓을 수 없어요. 딥페이크(Deepfake)는 딥러닝(Deep Learning)과 페이크(Fake)의 합성어로 기술을 활용해 진짜 같은 가짜 이미지, 영상, 음성 등을 만들어내는 것을 말하는데요. 우려와 기대를 동시에 받고 있는 딥페이크에 대해 알아보겠습니다.
딥페이크를 활용한 사례를 좀 더 자세히 들여다보면
CASE ❶
몇 년 전, 오바마 미국 전 대통령이 트럼프 전 대통령을 향해 독설을 퍼붓는 동영상이 공개되었습니다. 이는 버즈피드라는 매체가 제작한 딥페이크 영상이었는데요. 버즈피드는 “가짜 동영상의 폐해가 얼마나 심각한지를 알리기 위해 이 같은 딥페이크 영상을 만들었다"고 말했습니다. 지난 해 미국에서는, 대선을 앞두고 딥페이크 영상 게시를 금지하기로 했습니다.
*참고. [BuzzFeed] 딥페이크로 만든 오바마 전 대통령의 영상 바로보기
그러나 딥페이크에 과연 어두운 면만 존재할까요?
CASE ❷
지난 해 방송됐던 ‘AI 음악 프로젝트 다시 한 번’이라는 프로그램을 기억하시나요?
AI를 활용해 지금은 고인이 된 가수 터틀맨과 김현식의 모습을 되살리는 프로젝트였는데요. 단순히 고인의 생전 모습을 보여주는 것이 아닌, AI를 활용해 그들의 목소리와 얼굴을 복원해 새로운 무대를 선보이는 프로젝트였습니다. 그리고 이 프로젝트에 사용된 기술도 바로 딥페이크입니다. 이 영상은 ‘거북이’의 팬들은 물론, 수 많은 이들에게 감동을 전하였습니다.
위 사례에서 알 수 있듯 딥페이크 기술은 긍정적인 면과 부정적인 면을 동시에 가진 양날의 검입니다. 결국 중요한 것은 '사람이 AI 기술을 어떻게 사용하는가'일 수 있어요.
*참고. [Mnet] AI음악프로젝트 다시 한번 영상 바로보기
AI 저작권
AI의 도움을 받아 창작을 했다면, 작품의 저작권을 인정받을 수 있을까요?
세계적으로 유명한 음악 시상식 ‘GRAMMY AWARD 2024(그래미 어워드 2024)’ 를 앞두고 'AI가 만든 음악이 수상할 수 있을까'가 뜨거운 감자로 떠올랐습니다.
AI 창작물이 그래미 어워드를 받는다면 AI의 창의성을 인정한다는 의미이기 때문인데요. 결론부터 말하자면, 그래미 어워드는 주최 측에서 AI 생성 음악은 후보에 올리지 않으며 정리되긴 했답니다.
시끄러웠던 그래미 어워드 사건을 바탕으로, AI로 생성한 작업물에 대하여 저작권을 주장할 수 있을지 아직 논쟁이 계속되고 있어요. 경우에 따라 법적으로 작품의 작가나 소유자로 인정받을 경우 AI 기반 작업물의 창작자도 작품에 대한 저작권을 주장할 수도 있겠지만 AI가 만든 작품의 저작권에 대한 법률은 여전히 진화 중이기에, 인간의 창의적인 활동과 노력 구체적인 상황에 따라 지침이 달라질 수도 있는 것이 현재 상황인데요. 인간의 저작권 침해와 산업에 영향을 미칠 수 있기 때문에 저작권법, 관련 법률에 대해서도 우리가 관심을 가지고 주목할 필요가 있습니다.
프론티어 AI
프론티어 AI는 현재 시점의 가장 고도화된 AI, 또는 그보다 더 뛰어난 성능을 보여주는 AI 모델로, 강력한 성능과 능력을 제공하는 동시에 경우에 따라서 사회에 위해가 될 수도 있는 AI를 지칭합니다.
여러분들이 널리 활용하고 있는 ChatGPT나 Gemini 그리고 HyperCLOVA X 같은 생성형AI들이 여기에 해당합니다. 2023년 11월 AI 안전성 정상회의에서 사용되기 시작하여 주로 영국과 EU를 중심으로 널리 사용되고 있어요.
프론티어 AI 중에서 일부는 오픈소스 형태로 모델과 학습 코드 등이 광범위하게 공공에 배포되어 있는데요. 이렇게 배포된 프론티어 AI 기술은 누구나 쉽게 활용이 가능하고 뛰어난 성능을 가지기 때문에 때로는 안전에 민감한 분야에 사용될 가능성도 있습니다.
그래서 현재 전 세계의 AI 전문가들이 프론티어 AI를 포함한 AI의 위험성을 고려하고, 국제적 의견 조율 등을 통해 이러한 위험성을 완화할 수 있는 평가방안, 플랫폼, 정책, 법안, 가이드라인, 규제 등을 고민하고 있는데요.
네이버 또한 AI 윤리 준칙 제정과 더불어 AI Safety Summit 등에 활발하게 참여하며 국제 사회에 발맞춰 균형 잡힌 AI 접근 방식을 제시하고, 책임감 있는 AI 미래로의 도약을 준비하고 있습니다.
*참고. Global AI Safety Summit 웹사이트 바로보기
AGI(Artificial General Intelligence)
AI의 개발 끝에는 아마도 AGI(Artificial General Intelligence, 인공일반지능)이 있을 것입니다. 최근 관심을 모으는 생성형AI 모델들도 방대한 언어학습을 통해 마치 AGI에 가까운 느낌을 주지만 언어 분야에 특화되어 인간처럼 생각해내고 해답을 낼 수는 없기 때문이죠.
AI와 AGI의 차이를 예를 들어 알아볼까요?
- AI의 예로는 데이터에서 패턴을 인식하고 그 패턴을 기반으로 예측하는 머신러닝 알고리즘이 이라고 할 수 있습니다.
- 반면 AGI는 인간처럼 다양한 분야에서 범용으로 지적 작업을 수행할 수 있는 인공지능이라 생각할 수 있어요. 기존의 AI가 범용보다는 특정 목적에서 뛰어난 성능을 보였다면, 최근 생성형AI는 좀더 다양한 임무를 폭넓게, 전문가의 역량만큼 수행할 수 있습니다. AGI는 범위를 제한하지 않고 보다 자유롭게, 자체적인 학습 능력과 사고 능력을 가집니다. 그리고 스스로 문제를 정의하고 개선하는 능력으로 다양한 작업에 적용할 수 있는 것이죠.
AI가 인간의 수준에 도달할 수 없고 AGI는 지나치게 이상적이라는 시각도 있지만, 빠른 속도로 학습을 지속하고 있습니다. 이는 사회에 큰 변화를 가져올 수 있는 가능성이 있기 때문에 우려의 목소리도 역시 제기되고 있습니다. 인간의 가치, 윤리, 교육, 법률 등 여러 가지 측면에서 안전하고 인류에 유익한 AGI가 구현될 수 있을지 지켜봐야 합니다.
AI 레드팀(AI RED TEAM)
최근 국내외 AI 기업들이 AI 레드팀에 많은 공을 들이고 있다는 소식을 들으셨나요? 일반적으로 레드팀은 조직 혹은 소프트웨어(SW) 보안 강화 역할을 하는 팀을 의미합니다. 냉전 시기에 미군이 군사 훈련 과정에서 아군인 블루팀의 취약점을 파악하기 위해 편성한 가상의 적군을 레드팀이라고 지칭한 것에서 유래한 용어인데요.
AI 레드팀은 여기서 한발 더 나아갔습니다. SW 취약점을 찾는 것뿐 아니라 AI 제품에 대한 윤리성, 신뢰성 향상을 위한 연구까지 진행하는 것입니다. 바로 AI가 유해한 결과물을 생성하지 않도록 하기 위해서인데요.
최근 생성형AI가 각광을 받으며, 할루시네이션, 편향성, 비윤리적 답변 등의 부작용을 해결하기 위한 과제로 AI레드팀의 중요성이 더 커졌습니다. Open AI, Google, 네이버 등 국내/외 AI 기업도 자체 AI 레드팀을 운영하여 AI의 신뢰성과 윤리 강화에 힘쓰고 있어요.
네이버 AI 레드팀은 AI 신뢰성과 윤리에 대한 정의를 내리는 일부터, 이를 통해 어떻게 양질의 데이터를 만들고 학습시킬 것인지 연구하고, 또 AI 문제점을 개선하는 방법에 대해 논의하고 있습니다.
2024년 4월에는 ‘생성형 AI 레드팀 챌린지(Gen AI 2024)’에 대표 파트너사로 참여하여 HyperCLOVA X의 안전성을 강화하는 것은 물론, 네이버 AI의 안전성 기술 역량과 노하우를 공유하며 국내 AI 안전성 논의에 힘을 보탤 예정입니다. AI 기능 향상과 별개로 ‘믿고 쓸 수 있는 AI’가 될 수 있도록 힘쓰고 있으니 관심을 갖고 지켜봐주세요!