"연합학습 AI, 국산 신약 개발 효율성 강화"

"연합학습 AI, 국산 신약 개발 효율성 강화"[원문바로가기]

[출처] 데일리팜 DP인터뷰 | 작성자 노병철 기자

홍성은 인공지능신약개발지원센터 선임연구원
다기관 데이터 협력 통해 AI 신약개발 대전환 주도
기술주권 확립·플랫폼 확장성·R&D 비용 및 기간 절감

한국형 인공지능 신약개발을 통한 K-바이오의 가능성과 위상 정립이 한 단계 업그레이드될 것으로 전망된다.

그 구심축은 바로 연합학습 모델 기반 신약개발 가속화 지원사업(K-MELLODDY·Machine Learning Orchestration for Drug Discovery)이다.

K-멜로디는 EU-멜로디 사업을 벤치마킹 하면서도 한국 실정에 맞도록 개선한 한국형 인공지능 신약 플랫폼 사업이다.

홍성은 인공지능신약개발지원센터 선임연구원은 "K-멜로디 프로젝트는 국내 22개 제약기업을 비롯해 다수의 AI기업과 IT기업, 대학 및 공공기관이 참여하는 최초의 제약바이오산업 전방위적 협력 모델이며, 다기관 데이터 협력을 통해 AI 신약개발로의 대전환을 주도하는 것이 특징"이라고 설명했다.

K-멜로디 프로젝트는 국내의 다양한 신약개발 기업에 쌓여있는 데이터를 노출시키지 않으면서 인공지능기술에 활용하는 데이터의 안전한 활용 체계를 만들자는 것이 최종 목표다.

다시말해 기업의 지적 재산인 데이터를 안전하게 유지하며 인공지능에 활용하는 연합학습과 블록체인이 이 사업의 핵심 기술인 셈이다.

K-멜리디 프로젝트의 특징과 장점은 'AI 신약개발의 신뢰성 확보' '플랫폼의 높은 확장성' '데이터 활용 기술의 주권 확보' '신약개발 비용 절감' 등으로 대별된다.

업계에서는 플랫폼 완성 시, 후보물질 대사 및 독성 실험 결과의 AI 예측을 통해 실험 수를 절반만 줄여도 50% 이상의 비용절감이 가능할 것으로 전망하고 있다.

홍성은 선임연구원은 "연합학습을 통한 인공지능신약개발은 단일기업이 독립적으로 보유한 데이터만으로 AI신약개발 모델을 개발하는 것보다 일반화 성능(평균 10% 향상)과 예측 성능(ADME 평균 10% 향상) 면에서 확실한 우위를 유지하고 있다. 한국형 연합학습 기반 플랫폼을 안정적으로 구축해 국산 신약 개발의 새로운 가능성을 제시할 것"이라고 밝혔다.

다음은 홍성은 선임연구원과의 일문일답.

-K-멜로디(K-MELLODDY) 프로젝트는 어떤 사업인가

=프로젝트 설명에 앞서 연합학습에 대해서 이해할 필요가 있다. AI가 분산된 데이터에 접근해 이에 대한 정보를 추출하고, 자료값에서 추출된 정보(모델에서 가중치)만을 공유하고 취합해 AI 모델 훈련이 가능하도록 고안된 것이 연합학습이다.

오프라인과 온라인 회의의 차이와 같다. 오프라인 회의는 분산돼 있는 참석자를 물리적으로 한곳에 모아서 특정한 안건에 대해 회의를 진행하고 그들의 지식과 경험이 반영되어 안건을 해결하게 된다.

우리도 경험했지만 온라인 회의도 잘 진행되지 않는가? 물리적으로 참석자들을 모으지 않아도 회의는 잘 진행되고 안건 해결이 가능하다. 여기서 회의 참석자들을 데이터로 그들의 지식을 모델의 가중치로 안건을 모델로 도출되는 해결방안을 학습된 모델이라고 대입해보면 연합학습을 이해하는 데 도움이 될 것이다.

즉 K-멜로디 프로젝트는 한국의 신약개발과 관련된 산학연정이 가지고 있는 데이터의 힘을 합쳐 협력할 수 있는 연합학습 기반 AI 신약개발 플랫폼을 구축하고, 약물 발굴 단계의 AI 성공 사례를 도출하는 프로그램이다.

-약물 발굴단계의 ADME/T에 집중한 이유는

=사실 본 프로젝트는 2년 정도 긴 기간 동안 준비했다. 이 과정에서 연합학습에 가장 어울리고 신약개발 분야에 파급력이 높은 주제를 도출하고자 산업계 의견을 장기간 수렴했다. 신약개발 기업의 높은 수요가 확인된 분야가 약물 발굴단계의 ADME/T이다. 이 과정은 모든 신약개발 기업이 수행해야 하는 필수 단계이다. 이 과정을 반복적으로 수행해 약물을 최적화하는데, 직접적 실험 없이 실험값을 예측할 수 있는 AI 모델 개발을 통해 해당 과정의 비용과 시간을 절감시킬 수 있다. 제약바이오산업 전반에 AI가 적용되어 연구자들에게 도움을 주는 가장 보편적이고 활용성 높은 주제라고 판단한다.

-K-멜로디 프로젝트의 특징과 비전은

=이 사업은 국내 22개 제약기업을 비롯해 다수의 AI기업과 IT기업, 대학 및 공공기관이 참여하는 최초의 제약바이오산업 전방위적 협력 모델이며, 다기관 데이터 협력을 통해 AI 신약개발로의 대전환을 주도하는 것이 특징이다.

우선 3가지 비전이 있다. 첫째, AI 신약개발의 신뢰성 확보이다. 플랫폼을 통한 안전한 민간 데이터 활용으로 개별 민간 데이터의 소규모 고다양성에서 발생하는 데이터 편향과 이에 수반되는 모델의 편향 문제를 해소해 신뢰성 높은 AI 기술개발이 가능한 환경을 조성하는 것이다. 단순히 일반화 성능이 뛰어난 범용적 AI 모델을 만드는 것뿐만 아니라 전이학습(Transfer Learning), 분할학습(Split Learning) 등의 기술을 적용해 연합학습한 범용적 모델을 개별 기관에 타깃팅할 수 있도록 개선하는 수단까지도 마련한다.

둘째, 플랫폼의 높은 확장성이다. 분산된 데이터 AI 모델 학습에 초점이 맞춰져 있는 기술인 연합학습을 기반으로 한 플랫폼은 학습할 대상인 모델과 데이터의 교체가 가능한 구조이다. AI 모델 활용이 가능한 신약개발 전단계로의 확장성뿐만 아니라 도메인 종속성까지도 없는 플랫폼이다. 따라서 플랫폼 구축 시 민감한 데이터의 안전한 협력이 필요한 의료 분야까지 확장할 수 있다.

셋째, 데이터 활용 기술의 주권 확보이다. 카카오톡이나 애플의 사례로 미루어보면 IT 시장은 선점 효과가 독과점으로 연결되기 쉬운 산업이다. AI 모델 개발을 위한 데이터 안전 활용의 독창적 기술인 연합학습 시장에 소위 빅테크기업(구글, 엔비디아, 인텔 등)이 나서면서 선점 효과를 노리고 있다. 연합학습 시장이 선점되면 앞으로 기술을 사용하는데 빅테크기업의 플랫폼을 써야만하고 라이선스 비용이나 이용료를 지불해야 하는 기술 주권에서 ‘을’이 될 가능성이 높다. 따라서, 본 사업을 통해 연합학습 기술의 주권 순위 경쟁에서 밀리지 않도록 국가 차원에서의 연합학습 기술 확보가 가능하다.

-K-멜로디 프로젝트는 어떻게 진행되었는가

=2년간 2번의 기획과제를 통해 기획됐다. 2021년에는 복지부의 K-데이터 기반 가속화 프로젝트 기획연구에서 처음 연합학습을 활용해 국내 데이터의 협력을 통해 AI 신약개발을 통한 신약개발 가속화 전략을 제시했다. 2022년에는 과기부의 국내 AI 신약개발 데이터 공유 활성화 방안 마련을 위한 연구에서 K-멜로디 프로젝트가 구체화됐다.

-정부의 호응도와 시행 시점은

=K-멜로디 프로젝트는 정부의 바이오헬스 신시장 창출전략, 제약바이오산업 육성지원 종합계획, 첨단산업 글로벌 클러스터 육성방안, 생명공학육성 기본계획에 모두 반영되었으며, 2024년 복지부 과기부의 다부처 국가사업으로 본격 추진을 예상한다.

-K-멜로디는 EU-MELLODDY 사업을 벤치마킹한 것으로 안다. EU-MELLODDY에 대한 소개와 성과는

=EU-멜로디는 유럽 대형 제약기업 10개가 참여해 AI와 블록체인 기술을 기반으로 후보 물질 발굴을 지원하는 AI 예측 모델 연합학습 플랫폼 개발로 신약개발을 가속화 하고자 산학연이 함께 진행한 대규모 민관협력(Public Private Partnership, PPP) 프로젝트이다.

EU-멜로디에서는 IT 중소기업 육성(Owkin)과 경쟁적 신약개발 분야에서의 연합학습을 통한 비밀 노출없는 협업의 가능성을 증명해 연합학습의 안정성에 대한 인식을 확산하고, 기술 확보를 통해 중소기업이 비즈니스를 할 수 있도록 지원하는 것이 프로젝트의 목표였다.

최종 결과발표와 논문에 따르면 신약개발 기업이 독립적으로 보유한 데이터만으로 AI 모델을 개발하는 것보다 상호 간 협력하는 것이 일반화 성능(평균 10% 향상)과 예측 성능(ADME 평균 10% 향상)을 확인하면서 연합학습 기반 플랫폼으로 안정적이고 효율성 높은 AI 모델 개발이 가능했다는 결론을 도출했다.

-연합학습 A.I신약개발에 따른 정보 유출 우려는 없나

=다양한 외적 요인이 작용하는 현실 세계에서 완벽한 기술은 존재하기 어렵다. 특히 정보보안은 데이터의 가치가 높을수록 방화벽을 뚫으려는 전 세계의 천재적 해커들과 항상 공성전을 하는 실시간 전쟁터라고 생각한다.

연합학습 특성상 원본 데이터가 상용통신망을 거치지 않음으로써 대부분의 데이터 유출 문제를 방지할 수 있지만, 모델 학습을 거쳐 데이터에서 추출되는 정보인 가중치와 모델을 탈취할 가능성이 없다고 보긴 어렵다. 이를 위해서 여러 가지 방지 대책이 연구되면서 안전한 다자간 계산, 동형암호, 암호화와 보안강화기술(Privacy Enhancing Technology, PET)이 연합학습의 보안 강화 용도로 사용되면서 현재 수준에서 정보 유출에 대한 우려는 없다고 본다.

연합학습은 여러 참여자들이 협업하는 구조로 불순한 참여자가 정보를 유출할 문제도 존재한다. 이러한 문제는 협업 당사자들끼리의 분쟁으로 이어질 수 있고, 가장 해결하기 어려운 문제가 될 것이다. 따라서, 이를 상호 간에 추적할 수 있는 시스템인 분산 원장 기반의 블록체인 기술이 이를 방지할 수 있다고 생각한다.

하지만 시간이 지날수록 컴퓨팅 성능과 해킹 기술이 고도화되면서 유출의 가능성을 100%막을 수 있다고 장담할 수 없다. 따라서, 보안 강화와 유출 방지 대책은 지속적인 연구개발이 필요하다.

-담당 선임연구원으로서 K-멜로디 프로젝트 활성과 발전을 위한 계획과 비전은

=K-멜로디 프로젝트의 성공적 수행을 위해서는 사전에 상세한 데이터 현황 파악과 Split Federated Learning과 같은 최신기술의 활용이 필요하다. K-멜로디 프로젝트는 다양한 기관들이 데이터를 가지고 협력하는 프로젝트로 데이터가 없다면 프로젝트의 시작이 불가하다. 연구주제가 확정되면 데이터 공급자들의 상세한 데이터 현황 파악을 통한 사전 준비와 학습된 모델의 기여도와 권리관계의 정리가 필요하다. 데이터 공급 및 활용 참여자들로 구성된 운영위원회 수립이 필요하고, 기여도와 권리관계를 정량화할 수 있는 기여도 평가 지표 등을 통한 위원회의 합의를 주도할 예정이다.

연합학습과 AI 모델을 분할해 학습하는 분할학습 기법이 융합돼 두 알고리즘의 장점(다 클라이언트 병렬처리, 모델 보안성 강화)만 살린 Split Federated Learning 알고리즘의 활용을 통해 효율적이고 고성능의 모델 학습을 통해 실용성 있는 AI 신약개발 모델의 개발을 제고도 기획 중이다.

AI는 대량의 데이터 학습을 통해 퀀텀점프를 이뤄낸 전력이 있다. 예를 들어 이미지 인식 분야는 1000개 이상의 클래스를 가진 ImageNet 데이터 경진대회 ILSVRC를 통해, 기계 번역, 챗봇, 음성 인식 등 다양하게 활용되는 자연어 처리 분야는 GPT에도 사용된 Transformer 모델의 선조인 양방향 학습 방법이 특징인 BERT를 통해 인간 이상의 성능 달성에 성공했다.

K-멜로디 프로젝트 수행 결과 국내 최대의 신약개발 데이터가 학습된 AI 신약개발 모델이 탄생할 것으로 기대된다. 예시들과 달리 인간이 특정 분야의 전문가라는 부분에서 인간 이상의 성능을 달성하는 AI의 퀀텀 점프를 보장하긴 어렵다. 하지만, 전문가의 의사결정에 충분한 도움을 줄 수 있는 AI 모델 개발을 통해 신약개발 분야의 AI 신뢰도와 활용성이 높아질 것이다. 그 결과 과거부터 현재 미래까지 많은 자원을 투입할 신약개발 데이터 구축의 성과를 낼 수 있을 것으로 전망한다. 또한, 이번 사업을 통해 신약개발 데이터의 AI 활용 생태계라는 데이터 기반 신약개발의 새로운 물줄기가 생겨나길 희망한다.