챗 지피티의 새로운 성능…응급실내 중증 환자 분류 성공

거대언어모델인 챗 지피티(Chat-GPT)가 응급실에 내원한 환자의 중증도를 매우 높은 정확도로 분류해 내면서 새로운 가능성을 입증했다.

의료진과 차이가 없을 정도로 응급 환자와 비응급 환자를 구분해 냈다는 점에서 향후 의사의 업무를 상당 부분 대체할 수 있는 가능성을 보여줬기 때문이다.

현지시각으로 9일 자마 네트워크 오픈(JAMA Network open)에는 챗 지피티를 활용한 응급 환자 분류 시스템에 대한 대규모 연구 결과가 게재됐다(10.1001/jamanetworkopen.2024.8895).

현재 챗 지피티는 미국 의사 면허 시험을 합격한 것은 의사보다 빠른 속도로 퇴원요약을 정확히 해내는 등의 성능을 보이면서 임상 적용 가능성을 높이고 있다.

하지만 질환별로 서로 다른 성능차를 보이면서 시기상조라는 의견과 현재로도 충분하다는 주장이 갈리고 있는 상황.

이로 인해 전 세계 의료계는 과연 챗 지피티를 어느 분야에 어떻게 적용할 수 있는지를 두고 다양한 연구를 진행하고 있다.

캘리포니아 의과대학 크리스토퍼 윌리암스(Christopher Williams) 교수가 이끄는 연구진이 응급실 환자 분류에 챗 지피티를 활용하는 연구를 진행한 배경도 여기에 있다.

국가와 지역에 관계없이 응급실은 늘 환자 과밀 구간인 만큼 만약 챗 지피티가 여기서 의사의 업무를 덜어줄 수 있다면 과밀화를 해결하는데 도움이 될 수 있다는 판단에서다.

이에 따라 연구진은 2012년 1월부터 2023년 1월까지 캘리포니아 대학병원 응급실에 내원한 환자 25만 1401명의 환자의 데이터를 기반으로 챗 지피티를 통한 응급-비응급 분류 정확도를 검증했다.

응급 중증도 지수(ESI)를 기반으로 챗 지피티에게 즉시 조치가 필요한 환자와 응급 환자, 혹은 비응급환자를 구분하도록 지시한 뒤 실제 전문의들의 판단과 비교한 것이다.

그 결과 챗 지피티는 무려 89%의 환자를 정확하게 즉시, 응급, 비응급으로 나누는데 성공했다.

전문의 등 의료진이 데이터를 통해 이를 분류한 결과의 정확도가 86%였다는 점에서 오히려 의료진보다 더 정확하게 중증도를 구분했다는 의미다.

연구진은 이러한 결과가 향후 응급실 환자 선별 시스템에 큰 기반이 될 것으로 기대하고 있다. 이미 현존하는 시스템에 거대언어모델을 적용한 것만으로 의료진보다 나은 결과를 냈기 때문이다.

윌리암스 교수는 "이번 연구는 현재 응급실의 워크플로우에 곧바로 챗 지피티를 적용해도 응급 환자 분류에 많은 도움을 받을 수 있다는 것을 보여준다"며 "일부 인종 및 성별 등에 대한 부분을 보완한다면 향후 임상 환경에 적절히 적용할 수 있을 것"이라고 밝혔다.