챗 지피티부터 제미니, 라마 등 임상 현장 접목 활발
각 모델별 학습 능력 격차 커…챗 지피티 성능 압도적
의료 분야에서도 챗 지피티 등 거대언어모델(LLM)을 활용하기 위한 시도가 이어지고 있는 가운데 실제 임상 환경에서 각 제품별 성능을 비교한 결과가 공개돼 이목을 끌고 있다.
각 제품별로 의학 지식과 임상 정보를 학습시키고 얼마나 효과적으로 대응하는지를 확인한 것. 결과적으로 챗 지피티가 정확도 면에서 타 제품을 압도했다.
현지시각으로 27일 의료인공지능 저널(Journal of Medical Artificial Intelligence)에는 거대언어모델별 실제 임상 적용 가능성을 비교한 연구 결과가 공개됐다(10.21037/jmai-24-174).
현재 거대언어모델이 급속도로 고도화되면서 의학 분야에서도 이를 접목하기 위한 시도가 지속적으로 이어지고 있다.
특히 일부 모델은 이미 미국의사시험을 매우 높은 점수로 합격한 것은 물론 전문의보다 환자 분류나 퇴원 요약 등의 부분에서 더 우수하다는 보고가 이어지면서 기대감을 높이고 있는 상황.
하지만 현재 개발된 각 거대언어모델간에 어느 정도 성능 차이가 있는지 또한 의학 분야에서 얼마나 효과를 발휘할 수 있을지에 대한 연구는 없었다.
이탈리아 AOU 의과대학 지안루카 몬딜로(Gianluca Mondillo) 교수가 이끄는 연구진이 이에 대한 연구를 진행한 배경도 여기에 있다.
과연 거대언어모델별로 의학 지식을 학습하는데 얼마나 성능 차이가 나며 또한 정확도 면에서 어느 제품이 우수한지를 팡가하기 위해서다.
이에 따라 연구진은 오픈에이아이의 챗 지피티(Chat-GPT)와 구글의 제미니(Gemini), 미스트랄에이아이의 믹스트랄(Mixtral 8x7B), 메타의 라마(Llama2 70B)를 대상으로 비교를 시작했다.
소아과학 교과서와 최근 임상 논문들, 또한 전문의들이 작성한 의무기록을 데이터 세트로 만들어 동일하게 학습시키고 과연 이를 통해 실제 임상에서 반응할 수 있는지를 비교한 것이다.
이에 대한 비교는 총 227개로 구성된 동일한 질문을 통해 진행됐다. 동일한 데이터로 학습을 시킨 뒤 이 227개의 질문에 어떻게 답하는지를 비교한 셈이다.
그 결과 교육 전, 즉 소아과 분야에 대한 전문지식을 학습시키기 전에는 챗 지피티 4.0 버전이 정답률 77.09%로 가장 높은 정확도를 보였다.
이어서는 믹스트랄 8x7B가 71.37%로 뒤를 이었으며 제미니가 70.48%, 챗 지피티 3.5 버전이 65.20%, 라마2 70B가 47.5%의 정확도를 보였다.
그렇다면 학습 후에는 어땠을까. 소아과학 교과서와 임상 논문, 의무기록을 학습시킨 뒤 정확도를 비교하자 챗 지피티 4.0 버전이 81.62%로 압도적 성능을 보였다. 이는 10년 이상의 소아과 전문의 수준이다.
이후 순위는 학습 전과 후에 차이가 있었다. 학습 전 정확도 4위에 랭크됐던 챗 지피티 3.5가 학습 후에는 83.70%의 정확도를 보이며 2위로 올라섰고 학습 전 정확도 2위를 기록했던 믹스트랄 8x7B은 학습 후 78.86%의 정확도를 보이며 순위가 뒤바뀌었다.
학습에 따른 정확도 증가분을 봐도 챗 지피티 4.0 버전이 14.53%로 압도적으로 높았고 챗 지피티 3.5가 18.5%, 제미니가 7.93%, 믹스트랄 8x7B이 7.49%로 큰 차이를 보였다.
챗 지피티가 의학 분야에서는 학습에 따라 정확도가 큰 폭으로 증가한다는 의미가 된다.
지안루카 몬딜로 교수는 "학습 후 정확도면에서 이미 거대언어모델은 숙련된 전문의 수준으로 임상적 판단을 내릴 수 있다는 것을 보여준다"며 "제대로된 데이터 세트만 마련된다면 임상 현장에서 매우 유용한 도구가 될 수 있다는 것"이라고 설명했다.
이어 그는 "특히 챗 지피티는 자체 데이터 뿐 아니라 다른 데이터를 통한 학습 능력도 매우 뛰어나며 의학 분야에서도 전문성을 발휘할 수 있는 충분한 성능을 보여줬다"며 "특히 영어가 아닌 이탈리어로 학습했음에도 충분한 정확도를 보였다는 점은 매우 고무적인 일"이라고 밝혔다.