ChatGPT 이게 그렇게 핫하다고?
요즘 화제의 대상인 GPT를 사용해봤다. 나름 나도 학사 졸업연구가 자연어 처리이었기도 하고, 당장은 딥러닝쪽을 전문으로 연구를 하고 있지는 않지만, 그래도 관련해서 말은 통할 정도라고 생각하고 있고 꾸준히 관심은 있었다.
주로 챗봇에게 기술적 디테일을 물어보면서 얼마나 자연스럽게 대화를 하는지, 그리고 다른 모델들과 어떤 차이가 있는지 두마리 토끼를 한 번에 잡아보고자했다.
일단은 첫 접속부터 쉽지는 않았다. 워낙 유명하다 보니 사용자가 많이서 접속이 아예 안 되더라...
학부생 수준의 연구를 진행했던 내 지식으로는, 자연어 처리는 대부분 단어들을 word vector로 mapping을 시켜서 seq2seq와 같은 모델로 순차적 문답에 대해 학습을 시킨다는 것 이었다. 여기서 한국어 기반 자연어 처리는 일단 데이터를 확보하기 어렵다는 부분과, 단어 단위를 나누는 것이 힘들다는 문제가 있었다. 한국어는 "조사"를 많이 사용하기 때문에 띄어쓰기 단위가 아닌 형태소 단위로 단어를 나누는 것이 일반적인데, 이 조사의 사용 때문에 학습에 어려움이 있었다.
내가 알기로는 GPT는 한국어로도 채팅이 가능한 것으로 알아서 어떤 방식으로 학습이 되었는지가 궁금했다. 그리고 어찌어찌 계속 접속을 시작해서 드디어 대화를 시작했다.
일단 사용을 해보고 느낀 점은 딜레이가 꽤 크기는 했지만, 대답자체는 꽤 자연스러운 어투로 나오는 것을 확인 할 수 있었다.
챗봇에게 물어본 결과, 기본적인 매카니즘 자체는 대량의 데이터로 영어기반의 자연어 처리 모델을 학습시키고, 다른 언어의 경우는 별도로 개발된 번역기 모델로 해당 인풋을 영어로 번역해준 뒤, 영어 대답을 다시 질문이 온 언어로 번역해주는 방법을 사용하고 있었다.
이 부분에서 자연스럽게 다른 언어를 사용하면 어느 정도 성능저하가 일어날 수 밖에 없는 구조였고, 내가 느끼기에는 번역을 말투를 최대한 자연스럽게 뽑아주기 위해서 어느 정도의 data loss도 감수하는 것 같았다. 예를 들면, 조금 대답이 긴 복잡한 질문에 대해서는 이 봇이 영어로 답변하는 경우가 있는데, 이를 다시 한글로 번역해달라고 하면 약간의 디테일은 생략되고 매우 짧게 번역을 해주는 경우를 볼 수 있었다. 이를 다시 제대로 번역한게 맞냐고 물어봐도 영어와 동일하다고 답변을 하는 것으로 봐서는, 자체적으로 번역의 정확도나 퀄리티가 떨어진다고 판단되는 부분은 핵심적인 부분이 아니라면 생략을 통해 어느 정도의 data loss를 감수하는 것 같았다.
그리고 내가 한국어 자연어 처리에서 가장 큰 챌린지라고 생각했던 형태소 단위의 분석의 경우는 번역기 모델에서는 언어마다 문법이나 문장 구조 등이 많이 다르기 때문에 이를 정확히 이해하여 학습을 하는 것이 중요해서 문장 전체를 기준으로 학습을 하고 있다고 한다.
그렇다면, 이 Chat GPT의 다른 모델과의 가장 큰 차이점은 뭘까? 이에 대한 답변으로는
1. 매우 큰 데이터셋과 컴퓨팅 파워를 사용한다.
2. Transformer 모델이라는 기술을 사용한다
였다.
내가 이해한 바에 의하면, Transformer 모델의 경우 순차적인 정보를 처리하는 것이 아니라, 동시에 다수의 입력을 처리할 수 있는 멀티 헤드 어텐션 매커니즘을 기반으로 하는 특징이 있고, 이 부분에서 하나의 입력에 대해서 하나의 출력을 생성하는데 초점이 맞추어져 있는 seq2seq 모델과 Transformer 모델의 가장 큰 차이는 동시에 다수의 입력을 처리할 수 있어서 문장 특징을 더 잘 이해할 수 있다는 것이었다. 즉, 이어지는 대화의 "맥락"을 이해하는 것에 더 특화된 모델이라고 할 수 있을 것 같다.
지금은 뭐 대화도 나름 매끄럽게 잘 하지만, 가장 큰 문제점은 딜레이가 너무 길다는 것 이었다. 테스트 버젼이니 어쩔 수 없을 수도 있겠지만, 일단은 ,OpenAI의 GPT 모델들은 모두 중앙 서버에서 실행이 되다보니, 딜레이가 발생이 되고 있고, 추후에는 edge computing과 분산 학습 (distributed learning)같은 기술을 적용을 해서 이러한 부분을 해소할 계획이라고 한다.
놀라울 정도로 자연스럽게 답을 잘 해주지만, 언어가 영어가 아니면 에러율 또는 data loss가 커지는 점, 그리고 딜레이가 너무 커지는 점이 아직은 아쉬운 부분 인 것 같다. 그리고 이건 아마 예상보다 동접자 수가 너무 많아서 트래픽을 못 견디는 것 같긴 한데 중간중간 에러가 꽤 많이 떴다.
그리고 내 연구분야인 저궤도 위성에 대해서도 이것저것 물어봤는데, 생각보다 대답도 잘 하고 번역을 거쳤는데도 꽤 정확한 답변을 보여주었다.
마지막으로 한 질문은, "대한민국의 위성통신의 미래는 어떻게 생각해?"
"위성 통신은 대한민국의 통신 산업에서 중요한 역할을 하고 있습니다. 대한민국은 최신 위성 통신 기술을 적용하여 더 나은 전파 품질, 더 높은 전파 용량, 더 빠른 전파 속도를 제공하는 것을 목표로 하고 있습니다.
예를 들어, 5G 위성 통신 기술을 적용하여 대한민국의 지역적인 전파 품질 향상, 국지적인 전파 용량 향상 및 높은 전파 속도 제공 등의 목표를 향해 노력하고 있습니다.
또한, 최신 기술을 적용한 새로운 위성 출시, 위성 네트워크 업그레이드 등을 통해 대한민국의 위성 통신 산업은 더욱 발전하고 있을 것으로 기대됩니다."
AI 피셜 대한민국 위성의 미래는 밝다...!
이상 끝