[AI 의료 혁신] 스탠퍼드의 ‘SOURCECHECKUP’: 신뢰할 수 있는 정보의 미래

Thank you for reading this post, don't forget to subscribe!
AI 시대, 신뢰할 수 있는 의료 정보: 스탠퍼드 ‘SourceCheckup’ 프로젝트의 도전과 기회

첨단 인공지능(AI)이 의료 현장에 빠르게 도입되며, 환자 진단부터 건강 정보 탐색에 이르기까지 다양한 분야에서 활용되고 있습니다. 특히, 대형 언어 모델(LLMs: Large Language Models)들이 미국 의사면허시험(USMLE)에서 인간 임상의보다 높은 점수를 기록하자, 실제 진료 지원 도구로서의 가능성이 더욱 주목받고 있습니다. 하지만 이러한 AI 모델이 제공하는 정보가 충분히 신뢰할 수 없는 경우도 많다는 점은 심각한 문제로 대두되고 있습니다.

AI가 만든 ‘허위의료정보’, 그 위험성은 어디까지인가?

최근 스탠퍼드대학교가 주도한 연구에 따르면, 최신 GPT-4 같은 상위권 LLM들조차도 의료 정보를 생성할 때 신뢰 가능한 출처를 기반으로 하지 않는 경우가 많다고 합니다. 이 연구는 LLM이 생성한 의료 응답 800여 건과, 그에 따른 5만 8천 건 이상의 출처-문장 쌍을 분석했습니다. 그 결과 응답 문장의 절반 이상은 실제로 인용된 출처로부터 충분한 지지를 받지 못하는 것으로 드러났습니다.

예컨대 GPT-4는 상업적으로 탁월한 성능을 보여주지만, 전체 응답 중 약 30%는 사실상 신뢰할 수 없는 출처에서 유래했거나, 출처 자체가 없는 경우도 발견되었습니다. 웹 검색 기반 RAG(Retrieval Augmented Generation)를 활용한 경우조차, 인용이 정확한 비율은 55% 내외에 머물렀습니다. 이는 AI가 임상 의사결정 도구로 사용되기 위해 반드시 해결돼야 할 문제입니다.

‘SourceCheckup’의 탄생: AI 응답의 신뢰성 점검 도구

이러한 문제를 해결하기 위해 스탠퍼드 연구진은 새로운 도구인 ‘SourceCheckup’을 개발했습니다. 이 프레임워크는 LLM이 생성한 응답에서 각각의 진술을 분할하고, 인용된 출처와 연결시켜 사실 여부 및 근거의 신뢰성을 자동으로 검증합니다.

SourceCheckup은 Reddit의 r/AskDocs 커뮤니티에서 수집된 질문과, 메이요클리닉(MayoClinic)의 콘텐츠를 기반으로 GPT-4o가 생성한 질문을 혼합한 800개의 쿼리를 사용했습니다. 각 응답은 조각(statement) 단위로 나뉘어, 명시된 URL이 이 주장에 대한 뒷받침을 충분히 하고 있는지를 분석합니다.

인공지능 vs. 전문가 평가: 신뢰성 검증의 벽

흥미롭게도 이 검증 과정은 LLM(GPT-4)과 인간 전문가의 평정을 병행하여 비교했습니다. 결과적으로 문장 수준에서 GPT-4와 전문가 간의 의견 일치는 상당히 높게 나타났으며, 이는 LLM을 평가지표로 활용할 수 있는 가능성을 암시합니다. 그래도 전체적인 응답 레벨에서는 여전히 인간 전문가의 정밀함에는 미치지 못했습니다. 예를 들어, Llama 2 및 Meditron 같은 오픈소스 모델은 기본적인 URL 생성조차 실패하는 빈도가 높았습니다.

의료 AI, FDA 인증은 아직 요원하다

2024년 말 기준, 어떠한 상용 LLM도 미국 식품의약국(FDA)의 임상 의사결정 도구 승인을 받지 못한 상태입니다. 이는 정보의 신뢰성과 사실성 문제를 포함한 윤리적∙법제도적 장벽 때문입니다. 의료 영역에서 AI가 유효성을 인정받으려면, 사용자가 “이 정보는 어디서 온 것인가?”라는 질문에 분명히 답할 수 있어야 합니다. 이러한 배경에서 ‘출처 명시’는 단순한 포맷 문제가 아니라 안전성, 법적 책임, 신뢰도 모두와 직결되는 중요한 요소입니다.

AI의 ‘환각(Hallucination)’ 현상과 그 위험성

LLM이 허위 정보를 자신감 있게 생성하는 현상을 ‘환각(hallucination)’이라 부릅니다. 의료 분야에서 이 현상은 특히 치명적일 수 있습니다. 예를 들어, 드문 질병에 대한 가짜 증상이나 치료법을 추천할 경우, 환자의 건강을 해칠 뿐만 아니라 의료진의 의사결정을 왜곡할 수도 있습니다.

미국 텍사스 A&M 대학의 2023년 논문에 따르면, ChatGPT는 “사실인 것처럼 보이는 가짜 자료 논문”을 생성하거나, 완전히 존재하지 않는 출처를 인용하는 사례가 반복적으로 나타났습니다. 이처럼 정보에 대한 체계적 근거가 없이 생성된 답변은, 과신으로 이어질 때 큰 의료 사고로 이어질 가능성이 큽니다.

AI에 기반한 출처 검증 기술의 현재와 미래

현재 SourceCheckup 외에도, ALCE(Attribution LLM Citation Evaluator), AttributedQA, FactScore 등의 출처 정합성 평가 도구들이 공개되고 있으며, 일부는 LLM 자체가 LLM의 인용 정량평가를 진행하는 메타 접근으로 확장되고 있습니다. 이러한 기술은 자동화 가능성과 확장성 측면에서 유망하지만, 여전히 인간 전문가의 검증이 필요한 중요한 한계점도 동시에 존재합니다.

‘믿을 수 있는 AI’를 위한 방향성과 제안

스탠퍼드 연구진은 다음과 같은 개선 방향을 제안합니다: ① 모델 학습 시 정확한 인용 연습을 포함한 파인튜닝, ② 지식 검증 전용 데이터셋 활용, ③ 자동 편집 도구(SourceCleanup 등)를 통해 부정확한 진술을 수정하고 신뢰도를 높이는 구조적 개선.

또한, 의료 커뮤니티가 AI 응답을 곧이곧대로 받아들이는 것이 아니라, 출처와 근거가 검증되고 투명한 틀을 요구하는 것이 필요합니다. 이를 위해 의료 기관, 정부 정책기관(FDA, EMA 등), AI 개발자 커뮤니티가 함께 협력해야 새로운 기준 마련이 가능합니다.

결론: 신뢰, 기술, 그리고 윤리가 만나는 지점

AI는 이미 의료 현장에서 보조 역할을 넘어, 환자 진단, 치료 제안, 환자 교육에 이르기까지 다양한 역할을 수행하고 있습니다. 하지만 기술적 진보만큼이나, 사용자—특히 의료 전문가와 환자—가 이 기술을 신뢰할 수 있도록 만드는 것이 중요합니다. SourceCheckup은 이러한 변화의 출발점에 있는 시도이며, 의료 AI의 신뢰성을 확보하고 윤리적 사용을 구현하기 위한 의미 있는 실험으로 평가됩니다.

앞으로 우리가 AI에게 물어야 할 질문은 단지 “정답은 무엇인가?”가 아니라, “누가, 어디서, 왜 이렇게 말했는가?”일 것입니다.

👉 원문 논문 링크
👉 Marktechpost – LLM 뉴스 카테고리
👉 RAG 기술 심층 가이드
👉 Twitter 팔로우하기 / Reddit에서 LLM 뉴스 보기


HANSORI.AI_Blog Labs에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.