응급실 내원 환자 1600명 대상 의사 대 LLM 비교 연구
유효성과 안전성 모두 합격점…"충분히 활용 가능 수준"
의사와 간호사 등 의료인들에게 업무 부담 중 하나인 업무 인계 절차를 과연 챗 지피티(Chat-GPT)가 알아서 할 수 있을까?
이에 대한 답을 엿볼 수 있는 연구가 나와 주목된다. 결론적으로 유효성과 안전성 면에서 모두 합격점을 받았다.
현지시각으로 4일 미국의사협회지(JAMA)에는 챗 지피티 등 거대언어모델(LLM)을 활용한 업무 인계의 효용성에 대한 연구 결과가 공개됐다(10.1001/jamanetworkopen.2024.48723).
업무 인계(핸드오프)는 의사와 간호사 등 의료인들이 다음에 환자를 맡게 될 의료인에게 전달하는 과정 중 하나다.
교대제로 진행되는 의료기관의 업무 특성상 다음 순번의 의료인에게 맡고 있던 환자의 상태를 전달하는 것이 대부분이며 응급실 등에서 각 과의 입원 병동 등으로 환자를 보낼때도 활용한다.
환자의 상태와 주의점, 이후 진행해야 할 처치 등을 담고 있지만 24시간 쉴새 없이 돌아가는 의료기관의 근무 환경 상 의료인들에게 큰 부담이 되고 있는 것이 현실.
이로 인해 상당수 의료기관에서 문서가 아닌 구도로 전달되는 경우가 많으며 이에 따른 문제들이 속속 발생하면서 이를 의무화하는 규제 등도 생겨나고 있는 추세다.
실제로 미국에서는 미국의사협회 등은 표준화된 업무 인계 노트 및 프로세스를 마련하고 임상 현장에서 이를 활용할 것을 권장하고 있지만 여전히 지켜지지 않고 있는 것이 사실이다.
웨일 코넬 의과대학 빈스 하트먼(Vince Hartman) 교수가 이끄는 연구진이 거대언어모델을 활용해 이러한 표준화된 프로세스가 가능한지 확인에 나선 것도 이러한 배경 때문이다.
만약 챗 지피티 등 거대언어모델이 이러한 업무를 자동으로 수행해 준다면 의료인들의 부담을 크게 줄이는 것은 물론 인계 과정에서 일어날 수 있는 많은 문제를 해결할 수 있기 때문이다.
이에 따라 연구진은 의료기관의 전자의무기록(EMR) 등에서 얻어진 정보를 기반으로 거대언어모델을 통해 환자 정보를 인계하는 프레임 워크를 만들고 이에 대한 검증에 들어갔다.
1600명의 환자 기록을 대상으로 거대언어모델이 만든 업무 인계 노트와 의료인이 직접 작성한 노트를 비교해 유효성과 안전성을 검증한 것.
그 결과 거대언어모델이 만든 업무 인계 노트의 평균 유효성은 5점 만점에 4.04점을 기록했다. 의사가 직접 작성한 노트가 4.36점이었다는 점에서 상당히 높은 수준이다.
거대언어모델이 만든 업무 인계 노트의 안전성은 마찬가지로 5점 만점에 4.06점으로 집계됐다. 의사가 직접 작성할 경우 4.5점이었다는 점에서 큰 차이가 없는 수준이다.
그외 지표를 봐도 마찬가지였다. 완전성을 비교하자 거대언어모델이 4.00점, 의사가 4.16점으로 큰 차이가 나타나지 않았고 정확성 또한 4.52점 대 4.90점으로 유의미한 차이를 보이지 않았다.
추가 분석을 통해 이러한 차이가 환자 안전에 미치는 최악의 시나리오를 추정해 외삽한 결과 그 어떤 지표에서도 환자의 생명을 위협하거나 건강에 악영향을 미칠만한 요소는 없었다.
빈스 하트먼 교수는 "거대언어모델이 작성한 업무 인계 노트가 일부 지표에서 의사가 작성한 것에는 미치지 못했지만 임상에서 활용하는데 결격이 될만한 차이는 나타나지 않았다"며 "특히 최악의 시나리오를 상정해 대입해도 환자에게 악영향을 줄만한 이벤트는 없었다"고 설명했다.
그는 이어 "결국 거대언어모델이 작성한 업무 인계 노트는 충분히 임상에서 활용될 수 있다는 점을 시사한다"고 밝혔다.