전문의 진단율 연전연패…AI가 바꿀 임상 환경은?

발행날짜: 2023-11-30 00:23:30
  • [초점] AI 고도화로 전문의와 직접 비교 임상 활성화
    "인공지능 만능 아냐"…대결 대신 협업으로 전환 전망

최근 몇 년 동안 인공지능(AI) 기술은 의료 분야에서 빠르게 발전하며 임상 의사들의 업무에 큰 변화를 예고하고 있다. 영상 진단 영역에서의 활용이 두드러지지만 심전도 신호를 기반으로 한 다양한 질환 예측 인공지능도 상용화 단계를 넘어선 만큼 인공지능의 보편적 활용은 예정된 미래라는 것.

초기 연구가 인공지능을 임상 영역에서 활용 가능할 정도의 신뢰성을 갖췄는지를 확인하는 탐색 연구가 주를 이뤘다면 현재는 가능성 탐구는 끝났다는 평이다. 실제 인간이 수행한 검진 데이터를 기반으로 학습 시켰을 때 비슷하거나 더 나은 수준의 진단 능력을 보이면서 연구 방향도 전문의와의 직접 대결 양상으로 흐르고 있다.

벌써부터 일부 연구에선 인공지능이 전문의를 앞선 것으로 나타난 상황. 논의의 주제는 고도화된 인공지능이 전문의를 대체할 수 있냐는 것으로 변모하고 있다. 기술 만능주의를 경계하는 목소리 역시 만만치 않다. 의료사고에 있어 책임소재가 불분명해 어디까지나 의료진 판단의 보조 수단으로 활용될 뿐 전문가를 대체한다는 건 지나친 확대해석이라는 것이다.

최근 연구 흐름은 어떨까. 인공지능이 과연 전문의들을 대체할 정도의 양질의 판단을 내놓는 것일까. 인공지능을 개발하는 의료진, 인공지능을 활용해 스마트병원을 구축한 병원장 등에게 인공지능을 둘러싼 미래에 대해 물었다.

▲가능성 탐색에서 인공지능 우월론으로

최근 인공지능의 연구 동향은 전문의와의 직접 대결 양상으로 변모하고 있다. 누적된 학습을 통해 인공지능이 고도화되면서 실제 성능을 확인하기 위해선 필드 테스트에 준하는 인간과의 직접 비교가 불가피하기 때문. 그 결과는 어떨까.

인공지능 학습이 고도화되면서 인공지능과 전문의간 진단 정확도를 직접 비교하는 연구가 활성화되고 있다(pubmed 캡쳐).

이달 20일 공개된 국내 현직 의대 교수가 만든 심전도(ECG) 분석 인공지능은 고칼륨혈증 진단 정확도와 평가자간 일치율 등에서 전문의 수준을 앞질렀다.

분당서울대병원 응급의학과 김중희 교수가 이끄는 다기관 연구진은 고칼륨혈증으로 진단된 환자 64명과 그렇지 않은 환자 61명 등 총 125명을 대상으로 ECG 버디와 응급의학과 전문의 5명간 진단과 분석 결과를 비교했다.

분석 결과 ECG 버디는 고칼륨혈증 진단에 있어 곡선하면적(AUCROC)가 0.902를 기록했다. 곡선하면적이 1에 가까울 수록 정확하다는 의미로 응급의학과 전문의 5명의 평균 곡선하면적은 0.662로 상대적으로 낮았다. 정확도 면에서 인공지능 어플리케이션에 비해 크게 떨어졌다는 의미다.

다른 지표에서도 ECG 버디는 민감도 0.797, 특이도 0.934, 음성 예측도 0.815, 양성 예측도 0.927를 보인 반면 응급의학과 전문의는 평균 민감도 0.203, 특이도 0.934, 음성 예측도 0.527, 양성 예측도 0.765로 인공지능에 비해 뒤쳐졌다.

직접 비교 연구는 해외에서도 활성화되고 있다.

이달 공개된 덴마크 방사선연구소 카밀라 판듀로 닐슨 등이 진행한 연구(DOI:10.1080/0284186X.2023.2256958)는 두경부암 환자에서 인공지능과 종양 전문의가 고위험 장기 윤곽을 얼마나 정확하게 잡아내는지 비교했다.

덴마크 두경부암 그룹(DAHANCA) 임상 35에 참여한 63명의 환자는 지역 DAHANCA 센터의 CT와 양성자 센터의 CT 데이터를 가지고 있었다.

nnU-Net을 기반으로 하는 전국 단위 신경망을 사용해 각 환자에 대한 두 스캔 모두에서 위험 장기(Organ at risk, OAR)의 윤곽을 처리했다. 일치도는 의료 영상 분석에서 분할 결과의 정확성을 평가하는 DSC 점수와 평균 표면 거리(MSD)를 사용해 계산했다.

분석 결과 인공지능의 윤곽은 종양 전문의보다 훨씬 나은 일관성을 보였다. DSC의 중앙값 및 사분위간 범위는 인공지능 및 전문의의 경우 각각 0.85 대 0.68, MSD의 중앙값 및 사분위간 범위는 각각 0.9mm 대 1.9mm였다.

10월 공개된 인공지능 대 외과의사의 응급 수술 위험도 예측 비교 연구(DOI:10.1097/TA.0000000000004030)에서도 인공지능이 대부분 항목에서 더 정확했다.

매사추세츠 종합병원 응급의학과 모하메드 모헤브 등 연구진은 스마트폰 기반의 응급 수술 위험도 예측 인공지능(Predictive Optimal Tree in Emergency Surgery Risk, POTTER)과 외과의사의 수술 위험 추정치를 비교하는 연구를 진행했다.

2018년 5월부터 2019년 5월 사이에 대형 4차 진료소에서 EGS를 받은 총 150명의 환자가 수술 후 30일 결과(사망률, 패혈성 쇼크, 인공호흡기 필요, 수혈이 필요한 출혈, 폐렴)에 대해 전향적으로 추적 관찰했다.

스마트폰 기반의 응급 수술 위험도 예측 인공지능(POTTER)의 수술 위험 추정치는 외과의사를 상회했다.

분석 결과 인공지능 POTTER는 패혈성 쇼크(AUC: 0.816 대 0.820)를 제외한 모든 결과에서 전문의를 앞질렀다.

사망률 AUC는 인공지능이 0.880, 전문의가 0.841이었고 인공호흡기 의존성은 각각 0.928 대 0.833, 출혈은 0.832 대 0.735, 폐렴은 0.837 대 0.753였다.

연구진은 "인공지능 위험도 계산기 POTTER는 응급실 환자의 수술 후 사망률과 결과를 예측하는 데 있어 외과의사의 판단을 능가했다"며 "이를 보조로 사용했을 때 외과의사 개인의 위험도 예측을 향상시켰다는 점에서 수술 전 환자를 상담할 때 진료 보조 툴로 유용할 수 있다"고 결론내렸다.

29일 종료된 북미영상의학회 연례회의(RSNA 2023)에서도 고도화된 자폐증 진단 인공지능이 이목을 집중시킨 바 있다.

24~48개월 사이 소아 226명(자폐증 진단 126명, 정상 100명)에 대한 진단 결과 인공지능은 자기공명영상(DT-MRI)만으로 자폐증을 98%의 정확도로 잡아냈다.

인공지능이 지속적으로 승전보를 울린 가운데 국내에서도 최대 규모의 인공지능 대 응급의학과 전문의의 판독 결과를 직접 비교하는 전향적 임상 연구가 진행되고 있다.

심전도 AI 분석업체 메디컬에이아이는 심전도 기반 심근경색 진단율 비교 임상 결과를 내년 상반기 내놓는다는 계획. 2022년도 3월부터 진행된 임상은 전국 18개 응급실에서 가슴 통증으로 내원한 환자에 대한 인공지능과 전문의의 진단 정확도를 비교하도록 설계됐다.

메디컬에이아이 관계자는 "기존 데이터를 가져와 후행적으로 분석한 것이 아닌 전향적 진행된 연구"라며 "국내에서 최대 규모 임상일뿐 아니라 이 정도 인원이 참여한 것은 세계에서도 AI 관련 임상으로는 유례를 찾아보기 힘들다"고 말했다.

이어 "참여 대상자 모집과 임상이 지난 달 마무리가 돼 현재 임상 결과 분석 작업에 들어간 상태"라며 "내년 1분기 쯤 연구 결과 공개가 예상되는데 최대한 연구 논문의 질을 끌어올려 유명 저널 게재를 목표로 하고 있다"고 밝혔다.

▲AI 만능 아냐…임상 설계·변수 따라 성능 편차

해외에서는 광범위한 연구가 누적되면서 여러 연구를 종합해 분석하는 메타분석의 단계까지 접어들었다.

선종 및 용종 검출을 위한 대장내시경 인공지능의 성능 연구(DOI:10.1016/j.gie.2020.06.059)는 5개 무작위 대조 연구(4354명)를 메타분석했고, 내시경 영상에서 헬리코박터 파일로리 감염 예측을 위한 인공지능 진단검사 정확도 연구(DOI:10.2196/21983)는 RCT 8개(1719명), 상부 GI 병변 검출의 정확도 연구(DOI:10.1016/j.gie.2020.06.034)는 23개의 연구(96만 9318개 이미지)를 분석했다.

이외에도 다양한 연구에서 인공지능의 진단 성능이 전문의를 앞서거나 최소한 동등한 수준으로 나왔지만 이에 대한 반론도 만만치 않다.

인공지능의 진단 정확도의 비교 잣대인 임상 전문가의 '수준'에 따라 연구 결과가 혼재되는 등 임상 설계의 변수를 감안해야 한다는 것. 게다가 연구 성과물은 주로 인공지능이 최적의 성능을 나타내는 분야에서 진행됐기 때문에 이를 일반화시켜 인공지능은 만능이라는 공식을 세울 수 없다는 것이다.

실제로 방사선 전공의와 인공지능의 흉부방사선 영상 판독 결과를 비교한 임상(DOI:10.1001/jamanetworkopen.2020.22779)에서 인공지능의 평균 이미지 기반 민감도 AUC는 0.716, 방사선 전공의는 0.720였고, 양성 예측도는 각각 0.730, 0.682, 특이도는 각각 0.980, 0.974로 평가 항목마다 다른 양상이 나타난다. 학습 데이터를 바꾼 경우 인공지능의 AUC 값은 0.807에서 0.772로 바뀌었다.

프랑스 파리 호텔듀병원 방사선학과 마티외 코헨 등 연구진은 방사선 전문의와 인공지능간 손목 골절 검출 정확도를 비교한 연구(DOI:10.1007/s00330-022-09349-3)도 조건 변경에 따른 다른 결과 가능성이 제시된다.

연구는 2017년 1월부터 2019년 12월 사이에 손목 외상을 입은 637명의 환자와 관련한 1917장의 X-ray 영상을 기반으로 아직 숙련되지 않은 초기 방사선 전문의와 인공지능이 각각 골절을 진단했다.

선임 방사선 전문의들이 보고한 골절은 247명의 환자에서 총 318건이었는데 이에 대한 인공지능의 검출 민감도는 83%였고, 초기 방사선 전문의들은 76%였다. 다만 특이도는 두 그룹 모두 96%로 같았다.

영상의학회 관계자는 "두 연구에서 인공지능의 비교 대상이 전공의나 비숙련 전문의로 설정됐지만 이를 전문의나 숙련된 전문의와의 비교로 바꾸었다면 충분히 다른 연구 결과가 나올 수도 있다"며 "적응증마다 무엇을 기준으로 판별할지, 판별의 가중치를 어떻게 할지 등 변수가 많아 단순히 인공지능과 인간 중 누가 더 뛰어나다는 식으로 말하기 어렵다"고 지적했다.

▲AI가 의료진 대체한다? "진료 효율화 도구"

인간과 인공지능의 직접 비교 임상이 활성화되면서 다른 방향의 접근도 활성화되고 있다. 바로 인공지능을 진단 보조 도구로 결합했을 때 임상 결과를 개선할 수 있는지 여부, 즉 대결이 아닌 협업의 관점이다.

피부과 전문의의 흑색종 분류 정확도에 미치는 인공지능 효과 연구(DOI:10.2196/18091)에서 평균 민감도와 정확도는 인공지원 지원으로 크게 증가했다(59.4% 대 74.6%).

이와 유사하게 CT를 통한 코뼈 골절 진단에 있어서의 인공지능 지원 연구는 인공지능 사용 시 민감도 94.00±3.17을 기록, 의료진의 독자적인 진단의 83.52±10.16을 상회했고 특이도(89.75±6.15, 77.55 ± 11.38) 및 AUC(0.92±0.04, 0.81±0.10)도 협업의 당위성을 설명했다.

연구진은 "AI의 도움으로 1~5년 저숙련 또는 6~10년의 경력을 가진 전문의에서도 민감도, 특이도 및 AUC가 유의하게 향상됐다"며 "인공지능 모델은 코뼈 골절의 위치를 파악하기 위해 경험이 부족한 의사와 방사선사가 진단 성능을 개선하는 데 도움이 될 수 있다"고 결론내렸다.

딥러닝 기반의 인공지능 알파고가 인간과의 대결에서 승리한 이후 오히려 인공지능 프로그램을 통한 기보 학습이 활발해진 것처럼 비슷한 형태의 협업 내지 학습이 임상 현장에서도 이뤄질 수 있다는 것.

딥러닝 기반의 진단 모델보다는 진단 보조와 행정 업무 효율화 측면의 인공지능이 먼저 보편화될 것으로 전망된다. 은평성모병원이 세계 최초로 도입한 인공지능 음성인식 모바일 전자간호기록 플랫폼'Vobile ENR'.

이런 인식을 반영하듯 의학한림원은 30일 의과대학 교육에 적용 가능한 인공지능 과정을 제안하기 위한 '의료 AI 교육과정 개발 가이드라인 및 모델' 공청회를 연다. 공청회 주요 논의 사항으로는 의학한림원의 연구진이 개발한 의료 인공지능 역량과 한국의과대학ㆍ의학전문대학원협회의 기본의학교육 졸업성과 연계 방안, 필수 및 선택 과목의 편성 기준 등이 포함돼 사실상 의료 영역에서의 인공지능 접목 및 활용이 필수 불가결한 요소로 자리잡았음을 시사했다.

심전도 분석 인공지능 SW를 개발한 권준명 메디컬에이아이 대표(심장학회 스마트헬스연구회 이사)는 "임상 현장에서의 인공지능 활용은 보편화되고 대중화되는 단계를 넘어 필수적인 보조 진단 기기로 자리 잡을 것으로 예상한다"며 "인공지능은 의료진의 합리적인 의사 결정을 도와주는 보조 도구이지 결코 경쟁자나 의료진의 대체자가 아니"라고 강조했다.

필름 기반의 영상 이미지 자료가 디지털 시대로 변하며 PACS 시스템으로 통합된 것처럼 인공지능 진단툴은 시간 문제일뿐 임상의사결정지원시스템(CDSS)으로 융합될 수 있다는 게 전문가들의 판단.

주로 딥러닝 기반으로 학습한 인공지능이 진단에 활용되는 반면 대규모 언어 모델 기반(LLM)의 인공지능은 자연어 처리를 통한 진단 보조와 행정 업무 효율화에 기여한다.

진단 관련 인공지능은 다양한 적응증에 대한 신뢰도 확보 및 검증에 시간이 소요되는 만큼 효율화 측면에서의 인공지능이 먼저 임상 현장의 풍경을 바꿀 것으로 예상된다.

올해 2월 은평성모병원은 세계 최초로 인공지능 음성인식 모바일 전자간호기록 플랫폼 'Vobile ENR'(Electronic Nursing Record)을 도입한 바 있다.

배시현 병원장은 "스마트병원 구축의 핵심은 인공지능으로, 업무 효율화를 중심으로 한 인공지능이 먼저 대중화될 것으로 본다"며 "실제로 인공지능 음성인식 플랫폼을 도입한 결과 많은 직원들이 환영하고 있다"고 밝혔다.

그는 "수기 입력없이 혈압과 맥박, 약 처방 확인 내역, 간호 기록 등을 말로 하면 자동으로 텍스트로 변환돼 입력이 된다"며 "이는 병원 시스템과 연결돼 있어 어디서든 말로 입력을 해도 다 기록이 되기 때문에 이제 손으로 쓰는 일은 보기 힘들어 졌다"고 말했다.

이어 "처음 2개 병동으로 시작해서 지금은 6층부터 15층까지 다 인공지능 음성인식 플랫폼을 활용한다"며 "최근에도 일산 쪽 병원에서 참관 요청이 와 시연해주고 다양한 병원들이 벤치마킹하고 있어 이런 플랫폼 보급이 더 확대될 것"이라고 전망했다.

관련기사

학술 기사

댓글

댓글운영규칙
댓글을 입력해 주세요.
더보기
약관을 동의해주세요.
닫기
댓글운영규칙
댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글