X레이 사진 2364개 대상 전문의 5명과 AI 비교 연구
머신 러닝 시스템 92% 정확도 기록…전문의 77.5%
머신 러닝을 통한 의료 진단 인공지능(AI)이 전문의 5명의 교차 진단보다 더욱 우수한 정확도로 질환을 진단하는데 성공했다.
엑스레이(X레이) 사진 2364개를 대상으로 골절 유무 진단을 맡긴 결과 전문의의 교차 진단 정확도는 77.5%에 그친데 반해 AI는 92%로 무려 19%나 높게 나타난 것.
현지시각으로 13일 사이언티픽 리포트(Scientific Reports)에는 의료 AI와 전문의간 진단 정확도 비교 연구 결과가 게재됐다(doi.org/10.1038/s41598-022-06018-9).
이번 연구는 영국 베스대학교(University of Bath)에서 개발한 컨볼루션 신경망(CNN) 머신 러닝의 정확도를 검증하기 위해 진행됐다.
영국내 의료기관에서 전문의들이 X레이를 통해 분류한 고관절 골절 사례 데이터 세트를 머신 러닝으로 학습시켜 과연 얼마만큼의 정확도를 내는지 보기 위한 것.
고관절 골절이 노인 사망에 직접적인 영향을 주는데다 골절시 48시간내에 정확하게 이를 진단해 수술 등을 고려해야 하지만 여전히 이에 대한 대처가 늦어지고 있기 때문이다.
실제로 영국의 경우 X레이 등 방사선 사진의 촬영량은 1996년부터 2014년까지 연 평균 25%씩 증가하고 있지만 영상의학과 등 전문 인력은 이에 따라가지 못하고 있는 실정이다.
연구를 진행한 리체(Richie Gill) 교수는 "현재 영국내에서만 30만개 이상의 방사선 사진이 30일 이상 분류되지 못한 채 남아있는 것으로 추정하고 있다"며 "빠른 진단을 위한 AI 시스템이 필요한 이유"라고 설명했다.
이에 따라 연구진은 총 2364개의 X레이 등 방사선 사진을 기반으로 전문의의 판독 내용과 머신 러닝이 끝난 AI간에 정확도를 비교했다.
전문의의 판독은 교차, 순차적 진행 방식으로 진행됐다. 1차 전문의가 골절이냐 아니냐를 판단하고 골절이 아니라고 판단한 X레이를 2차 전문의에게 전달해 또 다시 골절인지 아닌지를 판독한 뒤 여기서도 아니라는 결과가 나오면 3차 전문의에게 또 다시 판독을 의뢰해 최대 5차까지 검증하는 방식이다.
그 결과 이렇게 최대 5명의 전문의를 거치며 판독을 마친 결과에 대한 정확도는 77.5%로 분석됐다. 10건 중 2건 정도는 실제 골절을 놓쳤다는 의미가 된다.
마찬가지로 이 데이터 세트를 머신 러닝한 의료 AI를 통해 이를 판독하게 한 결과 정확도는 92%를 기록했다. 전문의 판독 정확도보다 무려 19%나 높게 나타난 것이다.
리체 교수는 "골절 분류는 수술을 포함한 외과적 치료 여부와 사망 등에 매우 강력한 결정 요소이지만 현재 이 분류를 누가, 어떻게 결정해야 하는지에 대한 표준화된 프로세스가 없는 실정"이라며 "특히 영상의학과 의사들의 부족과 이로 인한 업무 과부하로 인해 적시에 결과를 얻지 못할 가능성도 높다"고 지적했다.
이어 그는 "특히 근골격을 정문으로 하는 영상의학과 전문의가 아니라면 골절 등을 놓칠 가능성도 존재한다"며 "그러한 면에서 이같은 연구 결과는 향후 영상의학과 부족으로 인한 병목 현상을 완화하는데 매우 큰 도움이 될 것으로 기대한다"고 밝혔다.