국가통합바이오빅데이터구축사업단 백롱민 단장
"1단계 77만명 모집 예상...역학 신약개발에 활용"
[메디칼타임즈=임수민 기자] 한국인 100만 명의 유전체·임상·생활습관 정보를 통합하는 국가 차원의 정밀의료 인프라 구축을 위한 국가통합바이오빅데이터구축사업(BioBigData.Korea)이 올 하반기 첫 데이터 개방을 통해 임상 연구의 새로운 전기를 마련한다.
지난해까지 확보된 데이터 중 표준화와 품질인증을 완료한 고품질 데이터가 그 대상이다. 개방 데이터는 질병의 인과관계를 규명하고 신약 개발의 핵심인 '타겟 발굴' 등 바이오 분야 연규에 폭넓게 활용될 것으로 기대된다.
메디칼타임즈는 서울대병원 성형외과 전문의 출신으로 임상 현장의 요구를 사업 설계에 직접 녹여낸 백롱민 사업단장을 만나 100만 명 바이오 데이터 구축 프로젝트의 구체적인 이행 전략을 들어봤다.

이번 프로젝트는 2032년까지 한국인 100만 명의 건강 데이터를 기증받아 국가 정밀 의료의 초석이 될 대규모 바이오 데이터를 구축하는 국가전략자산 사업이다.
백롱민 단장은 단순히 데이터를 모으는 연구를 넘어, 국내 연구자와 산업계가 즉각적으로 활용할 수 있는 '핵심 연구 기반'을 마련하는 것이 이번 사업의 본질이라고 정의했다.
백 단장은 이 과정을 배와 조선소를 만드는 작업에 비유했다. 백 단장은 "우리는 데이터를 모을 수 있는 시스템도 만들고 있고 참여자도 모으고 있다. 배도 만들고 조선소도 함께 만들고 있는 셈"이라며 "이 조선소는 올 연말 정도가 돼야 기본적인 시스템이 완성될 것"이라고 현재 상황을 설명했다.
사업단은 현재 1단계 목표인 77만 명 구축을 향해 가고 있으며, 본격적인 참여자 모집 개시 이후, 올해 4월까지 약 16만 명의 데이터를 확보하며 궤도에 올라섰다.
■ 유전체·임상·생활습관의 통합...개인별 맞춤 치료
핵심 수집 데이터는 데이터는 크게 세 가지다.
혈액 분석을 통한 '유전체 데이터', 병원 진료 기록인 '임상 데이터', 그리고 웨어러블 기기나 설문을 통한 '생활 습관 데이터(라이프로그)'가 한 사람을 중심으로 묶인다.
백 단장은 "사람마다 타고난 유전자와 평소 생활 습관을 같이 분석하면, 왜 이러한 임상 데이터가 나오는지 인과관계를 좀 더 쉽게 찾을 수 있다"며, "이것이 바로 데이터를 기반으로 한 미래 의료"라고 강조했다.
그는 특히 당뇨병을 예로 들며 데이터의 중요성을 피력했다.
백 단장은 "옛날에는 당뇨가 그냥 집안 내력이면 생기는 줄 알았지만, 지금은 많은 데이터를 분석해 생활 습관에 따라 유전자가 발현되기도 하고 아니기도 하다는 걸 알게 됐다"며 "암이나 만성 질환도 이 데이터를 통해 원인을 알고 치료 방법을 찾아 평생 관리하며 살 수 있게 될 것"이라고 말했다.
■ 현장감 있는 데이터 설계... "임상 의사의 시각으로 간극 줄여"
특히, 이 사업은 데이터를 폭넓게 확보하면서도, 바이오 산업계 및 의료계 등 현장 활용도를 높일 수 있는 방향으로 데이터를 구축하고 있으며, 이렇게 설계될 수 있었던 데에는 백롱민 단장의 전문성이 큰 역할을 했다.
백 단장은 서울대병원 출신의 성형외과 전문의로, 오랜 시간 임상 현장을 지켜온 베테랑이다.

임상과 연구 양쪽을 모두 경험한 백 단장은 현장의 의사들이 원하는 데이터와 실제 구축되는 연구용 데이터 사이의 미세한 '온도 차'를 누구보다 잘 알고 있다.
그는 사업 설계 과정에서 이러한 간극을 좁히는 데 주력했다.
백 단장은 "실제로 쌓을 수 있는 데이터와 쓰는 사람 입장에서 바라는 데이터 사이의 차이를 최소화하려고 노력했다"며 "단순히 양적으로 많은 데이터를 쌓는 것보다, 연구자나 산업계에서 가장 쓰기 좋고 편한 데이터를 만드는 것이 핵심"이라고 강조했다.
그는 이어 "첫 술에 배부를 수는 없겠지만, 끊임없이 현장의 목소리를 듣고 세밀하게 맞춰나갈 것"이라며 "의사의 시각에서 보더라도 이 데이터들이 미래 의료의 실질적인 무기가 될 수 있도록 최선을 다하고 있다"고 덧붙였다.
민감한 의료 정보를 다루는 만큼 보안에 대한 우려도 크지만, 백 단장은 데이터 설계 단계부터 이를 원천 차단했다고 밝혔다.
그는 "우리는 이름이나 주민번호 같은 개인 식별 정보는 아예 모으지 않는다. 데이터뱅크 안에서는 '(예시) 007 8 abc' 같은 뜻 없는 문자의 나열로 아이디가 부여된다"며 "해커가 들어와서 봐도 개인의 정보에 대해서는 전혀 알 수 없고, 연구자들은 개인 정보가 아닌 혈압이나 간 기능 수치 같은 데이터만 있으면 충분하다"고 설명했다.
사업단은 '바이오 코리아 2026'에서 '데이터 개방 및 활용'이라는 주제로 오는 29일 컨퍼런스를 개최하고, 데이터 활용에 대한 전문가들의 의견을 수렴하였다.
특히 올 하반기에는 구축된 데이터를 바탕으로 연구자들에게 1차 개방을 실시한다. 백 단장은 "이만한 규모로 데이터를 모은 사례가 없기에 상당히 기대가 된다"며 "구축된 데이터의 개방을 통해 우리나라 바이오 분야 연구 생태계를 활성화하려 한다"고 밝혔다.
마지막으로 그는 국민들의 관심을 당부했다.
백 단장은 "우리나라 국민은 나름의 유전적, 생활적 특성이 있어 반드시 우리 데이터가 필요하다"며 "건강하게 오래 사는 사회를 만들기 위해 많은 분이 이 사업에 참여해 주셨으면 한다"고 전했다.






