[구병두의 세상읽기] 인간이 AI를 통제해야 하는 이유

AI가 인간의 윤리관 지킬 이유 없어…통제 못하면 재앙 초래

구병두 기자 2025.12.15 12:37:22

구병두 (사)한국빅데이터협회 부회장

일반적으로 사용자들이 AI를 도입하면 날씨 패턴, 지역 행사, 여행지의 일정 및 경쟁 호텔 가격의 비교를 비롯한 다양하고 복잡한 데이터를 시스템에 입력해 미래의 수요와 예측을 훨씬 더 빠르고 정확하게 해결할 수 있다.

AI 기술은 방대한 데이터를 보유한 대규모 조직에 적합하다. 예측 AI의 기술을 가장 효과적으로 활용하고 있는 사례로는 글로벌 유통기업 아마존을 들 수 있다. 아마존 창고에서 사용하고 있는 로봇 키바(Kiva)가 선반 위에 있는 주문 상품을 창고 근로자에게 운반함으로써 포장과 운송 효율성을 노동자들보다 훨씬 더 높여준다.

2017년에 구글 브레인 팀이 발표한 ⌜주의력은 네가 필요로 하는 전부다(Attention Is All You Need)⌟라는 제하의 논문이 AI 분야 중에서도, 인간의 언어를 이해하고 처리하는 방식에 중대한 변화를 불러일으키는 데 큰 영향을 미친 것으로 평가받는다.

연구진은 트랜스포머(Transformer)라는 새로운 아키텍처(Architecture)를 제안했다. 트랜스포머는 문제해결을 위해 어텐션 메커니즘(attention mechanism)을 사용했는데, 이를 통해 대화방식으로 언어를 한층 쉽게 이해하고 처리할 수 있게 된 것이다. 실제로 트랜스포머는 초기의 예측 AI와 달리 텍스트에서 관련성이 가장 높은 부분에 초점을 맞추어 맥락을 고려한 매끄러운 문장을 만들어 낸다.

거대언어모델(LLM, Large Language Model)은 텍스트 조각을 분석해서 그다음에 나올 토큰(token)인 단어나 그 일부를 예측하는 방식으로 작동하게 시스템화되어 있다. 특히 이 LLM은 챗GPT가 수행할 수 있는 기술적인 작업의 가장 핵심이라고 해도 과언이 아니다.

AI 구축에 막대한 비용이 드는 영역 중의 하나가 곧 사전 학습이다. 실제로 성능이 뛰어난 LLM을 개발하는 데 막대한 에너지와 1억 달러 이상의 엄청난 비용이 들어가는 것은 값비싼 칩을 탑재한 고성능 컴퓨터를 오랜 기간 구동해야 하기 때문이다.

양질의 학습 자료를 찾아내는 것은 AI 개발의 가장 핵심 관심사다. 대부분의 AI 학습 자료에는 책처럼 저작권이 있는 자료가 무단으로 사용됐을 가능성이 크다. 그러나 AI 시스템이 콘텐츠를 그대로 복사하는 것은 아니기에 표준 저작권법의 적용을 받지 않는다고 주장을 하는 이들이 있다. AI 학습 자료가 표준 저작권법에 적용받지 않더라도 2026년쯤에는 온라인 서적이나 학술 논문 같은 양질의 무료 콘텐츠가 고갈될 것으로 추정하는 보고서가 근래에 발표된 바도 있어, 귀추가 주목된다.

AI는 사용자가 기대하는 유형의 답변을 제대로 하지 못할 때가 더러 있다. 실제로 AI가 데이터에서 편견, 오류, 허위 정보를 학습하기도 한다. 사전 학습만 거친 AI는 아무런 판단을 내리지 않고 그저 학습한 내용을 거울처럼 반영한다. 그래서 대다수 LLM은 사전 학습 이후 미세조정(fine-tuning) 과정을 거친다. 미세조정 과정의 핵심 중의 하나는 사전 학습과 달리 진행 과정에 반드시 사람이 참여한다는 점이다. 인간의 감독하에 좋은 답변은 늘리고 오답은 줄이기 위한 추가 학습이 진행되어야 한다는 것이다. 그래서 이 과정은 ‘인간의 피드백을 통한 강화 학습(RLHF, Reinforcement Learning from Human Feedback)’이라고 불린다. AI가 RLHF를 거친 뒤에도, 미세조정이 이루어지기도 한다.

이렇게 추가로 미세조정이 이뤄지면 특정 용도에 특화된 LLM을 만들 수 있다는 것이다. 그렇지만 변화와 혁신을 주도하는 생성형 AI에 LLM만 있는 것은 아니다. 챗GPT가 획기적인 발전을 이뤘던 해에 미드저니(Midjourney)나 달리(DALL-E) 같은 이미지 생성 AI도 시장에 출시되었다.

최근에는 LLM이 이미지를 다루는 방법도 학습하여 그림을 보는 능력과 그리는 역량을 모두 갖춰 가고 있다. 이런 유형의 멀티모달 LLM은 언어모델과 이미지 생성 모델의 능력을 결합한 것이다. 2022년 연말에는 오픈AI에서 챗GPT에 이어 개선된 버전인 GPT-3.5를 선보였다. 이는 인간처럼 느껴지는 능력을 갖춘 AI의 등장이라고 높은 평가를 받기도 했다. AI가 소설, 시, 에세이, 엑스 메시지, 심지어 프로그래밍 코드까지 작성할 수 있게 된 것이다. 그리고 일반적인 시험과 검사에서도 인간과 놀라울 정도로 비슷한 실력을 나타내 보이기도 했다.

한편 가장 규모가 크고 발전된 LLM을 프런티어 모델(Frontier Model)이라고 부르는데, 사실 프런티어 모델도 예측 모델에 불과할 뿐이다. 하지만 최고의 컴퓨터 처리 능력을 이용해 최대의 데이터 세트로 학습하다 보니, 그 모델을 프로그래밍할 때 허용하지 않았을 상황, 즉 창발(emergence)이라고 불리는 전혀 새로운 것들이 나타나기도 한다는 것이다.

AI가 어떤 종류의 일을 가장 잘 수행하고, 어떤 종류의 일을 서툴게 다루는지 미리 짐작하기는 어렵다고 한다. 생성형 AI는 학습할 수 있는 능력을 갖추고 있지만 종종 중요한 정보를 잘못 기억하기도 하며, 때로는 거짓말(hallucination)을 아주 능청스럽게 한다. AI로 인해 발생하는 가장 극단적인 문제의 핵심은 지금까지 AI가 인간의 윤리관이나 도덕관을 준수해야 할 특별한 이유가 없다는 것이다. 그러기에 인간이 AI를 제대로 통제하지 못하면 위험한 존재로 돌변하여 돌이킬 수 없는 재앙을 불러올 수도 있다는 점을 심각하게 고민해야 할 것이다.

*구병두((사)한국빅데이터협회 부회장/ 전 건국대학교 교육대학원 교수/(주)테크큐 대표이사)

맨 위로