의학 용어 잘 알아듣는 음성인식시스템은?…네이버 압승

발행날짜: 2022-05-10 05:30:00
  • 국내 3차 의료기관 대상 112개 녹음 파일 정확도 비교 분석
    네이버 클로바 75.1% 기록…구글 56.3% 등 월등히 앞서

클라우드 기반 음성 인식 개방형 API(응용 프로그래밍 인터페이스)가 속속 상용화되고 있는 가운데 의학 용어를 가장 잘 알아듣는 시스템은 무엇일까.

국내 연구진에 의해 이에 대한 해답이 나왔다. 결론적으로 네이버가 만든 '클로바'가 가장 정확도가 높았고 각 엔진마다 차별화된 장점들이 존재했다.

클라우드 기반 음성인식 API에 대한 비교 분석 연구 결과가 나왔다.

9일 대한의학회 Journal of korean medical science에는 의학 용어에 대한 음성 인식 개방형 API의 정확도에 대한 비교 연구 결과가 게재됐다(doi.org/10.3346/jkms.2022.37.e144).

1980년대 상용화가 시작된 음성 인식 시스템은 인공지능(AI)의 발전과 클라우드 시스템과의 접합으로 성능이 크게 향상되고 있는 상태다.

특히 EMR(전자의무기록) 등 의료정보시스템이 현재 개별 입력 시스템으로 운용되며 상당한 로딩을 수반한다는 점에서 이를 보완하기 위한 기술로 주목받고 있는 상황.

실제로 미국의 경우 응급실과 병리과, 영상의학과 등에서 이미 음성인식에 기반한 입력 시스템을 구축하고 활용하고 있다.

서울대병원 의료정보센터 최진욱 교수가 주도하는 연구진이 현재 우리나라에서 활용되는 클라우드 기반 음성인식 API를 대상으로 비교 분석을 진행한 이유도 여기에 있다.

과연 한국어를 기반으로 하는 의학 용어도 이들 시스템이 정확하게 인식할 수 있는지를 확인하기 위한 것. 향후 이를 실제 임상 현장에서 활용할 수 있을지 가능성을 타진한 셈이다.

이에 따라 연구진은 삼성서울병원에 외래 진료를 위해 찾은 환자 112명을 대상으로 의사와 환자의 대화를 녹음한 파일을 생성하고 각 API에 대입해 정확도를 비교했다.

전 세계적으로 가장 많이 쓰이고 있는 구글의 스피치투텍스트(Speech-to-Text)와 아마존의 트랜스스크라이브(Transcribe), 국내에서 가장 많이 쓰이는 네이버 클로바가 비교 대상이었다.

비교는 철저하게 의학 용어를 대상으로만 이뤄졌다. 각각의 원본 필사본에서 의학 용어만을 추출한 뒤 단어 일부가 삭제되는 '생략'과 철자 '오류', 완전히 다른 단어 도출 등 세가지 항목이 나타났을 경우 정확도를 감산하는 방식이다.

평균 328초의 외래 진료 음성 파일을 3가지 API에 대입한 결과 전체 정확도는 네이버 클로바가 75.1%로 가장 높았다.

이어서 구글 스피치투텍스트가 57.9%로 뒤를 이었고 아마존 트랜스스크라이브가 50.9%로 가장 낮은 수준을 보였다.

하지만 구체적인 분석에 들어가면 이 세가지 API들을 각각 다른 특성을 보였다.

전체적 정확도 면에서 네이버 클로바가 가장 높았으나 각 API별로 차이점이 존재했다.

네이버 클로바는 3자 미만의 단어에서 가장 높은 정확보를 보였고 단어 길이가 증가할 수록 이러한 차이는 거의 없어졌다. 3자 이상의 단어에서는 경쟁력이 없었다는 의미다.

외국어 단어의 인식 정확도를 보면 네이버 클로바가 역시 58.6%로 가장 높게 나타났고 구글 스피치투텍스트가 35.3%, 아마존 트랜스크라이브가 30.9%로 집계됐지만 통계적으로는 미비했다.

오타 유형을 비교한 결과는 오히려 정확도와 상반되는 결과가 나왔다. 네이버 클로바가 69%로 구글 스피치투텍스트(34.2%), 아마존 트랜스크라이브(30.8%)보다 높았던 것.

반면 누락률을 보면 네이버 클로바는 13.5%에 불과한 반면 구글 스피치투텍스트는 61%, 아마존 트랜스크라이브는 55.6%로 분명한 차이가 났다.

연구진은 이번 연구를 기반으로 의학 분야에서 음성인식 API를 활용하기 위해서는 이들의 특성들을 잘 조합한 기술의 개선이 있어야 한다고 제언했다.

연구에 활용된 각 API가 단어 길이에 따라 각기 다른 장점을 보인 만큼 이러한 장점을 잘 결합할 수 있다면 의학 분야에서도 성능 향상을 기대할 수 있다는 의견이다.

연구진은 "국내 기업의 API가 모국어 데이터를 기반으로 한다는 점에서 강점을 가졌지만 의학 용엉에 있어서는 정확도가 80% 미만으로 상대적으로 낮았다"며 "실제 임상 현장에서 활용되기 위해서는 정확도를 개선해야 한다는 것을 의미한다"고 설명했다.

이어 "특히 한국어는 라틴어 기반 언어와 확실한 차이가 있는 만큼 구글이나 아마존 등 글로벌 기업들이 개발하는 음성인식 기술을 동등하게 활용하기 힘든 부분이 있다"며 "IT 강국인 만큼 이들 엔진의 장점을 잘 결합해 유망한 기술로 다듬어가야 한다"고 제언했다.

관련기사

의료기기·AI 기사

댓글

댓글운영규칙
댓글을 입력해 주세요.
더보기
약관을 동의해주세요.
닫기
댓글운영규칙
댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글