|
newsletter no.20 | 2025. 12. 1. |
|
최근, OpenAI의 전 수석 과학자 일리야 수츠케버(Ilya Sutskever)는 새 회사 SSI 설립 인터뷰에서 묵직한 화두를 던졌다. "2012년부터 2020년은 연구의 시대였고, 지난 5년은 스케일링의 시대였다. 그리고 지금, 우리는 다시 '연구의 시대'로 돌아왔다." |
|
돈과 데이터를 쏟아붓기만 하면 성능이 오르던 '무조건적 확장의 시대'가 저물고 있다는 주장이다. 스케일링 그 이후, AI가 향하는 세 가지 갈림길을 짚어본다. |
|
일리야는 현재의 거대언어모델(LLM)을 '기출문제 1만 시간을 외워서 대회 1등을 한 학생'에 비유한다. 겉보기엔 완벽해 보이지만, 낯선 오류(Bug) 앞에서는 속수무책이다. 스스로 논리를 검증할 '가치 함수(Value Function)'가 없기 때문이다. |
|
이에 2025년 하반기 AI 트렌드는 학습(Training)보다 추론(Inference)에 자원을 집중하는 방향으로 급선회했다. 올해 초 o3가 그 문을 열었다면, 최근 시장은 두 갈래로 명확히 나뉘었다. |
|
● Pro의 영역 (o3-Pro, Gemini 3): 비용이 들더라도 수많은 시뮬레이션을 통해 인간 전문가를 뛰어넘는 깊은 사고력을 보여주는 '초전문가용' 모델이다.
● Mini의 영역 (o4-mini, DeepSeek-R1 Distill): 놀랍게도 최신 넘버링(o4)이 '경량 모델'에 먼저 붙었다. 이는 거품을 걷어내고, 적은 자원으로도 o3 수준의 논리력을 구현하는 '가성비 추론'이 기술의 최전선이 되었음을 의미한다. |
|
스케일링 방식의 변화보다 더 근본적인 흐름도 있다. 바로 AI 연구의 무게 중심이 소수 기업으로 더욱 몰리고 있다는 점이다. |
|
공개 웹 데이터는 이미 포화 상태에 이르렀다. 빅테크는 폐쇄형 데이터와 합성 데이터를 결합해 자체 생태계를 구축한다. 이제 일반 연구자가 동일한 조건에서 실험하는 것은 거의 불가능하다. |
|
막대한 컴퓨팅을 활용할 수 있는 연구 환경은 극소수 기업에만 존재한다. 최신 논문이 공개되어도 정작 핵심 실험 환경은 비공개다. |
|
"논문은 공개되지만, 실험은 재현할 수 없다"는 사례가 점점 더 늘고 있다. AI 연구는 과학적 검증의 원리에서 멀어지고 있다. 스케일링 이후의 시대는 더 개방적인 시대가 아니라, 더 집중되고 폐쇄적인 구조로 이동하는 시대일 수도 있다. AI 연구가 소수의 손에 집중될 때, 그 AI가 누구의 이익과 가치를 반영할지, 우리 사회가 통제할 수 있는지에 대한 질문이 생긴다. |
|
일리야는 인간과 AI를 "100시간의 원리 이해 vs 1만 시간의 기출문제"로 비교했다. 하지만 지금 필요한 질문은 단순한 비교가 아니다. AI가 이미 평균 인간의 지적 성능을 넘어서기 시작한 시대, 교육은 무엇을 가르쳐야 하는가? AI보다 뛰어난 인간이 아니라 AI와 함께 일하며 더 큰 가치를 만들어낼 인간이 필요하다. |
|
- AI 리터러시: AI의 한계·강점을 파악하는 감각
- 비판적 검증력: AI 답안을 그대로 수용하지 않는 습관
- 문제 설정 능력: 어떤 문제를 풀 가치가 있는지 정하는 능력
- 협업 지능: Human-AI 공동 지능을 설계하는 역량 |
|
예를 들어, 학생이 AI에게 "기후변화에 대한 보고서를 써줘"라고 요청하는 것과 "기후변화가 한반도 농업에 미치는 영향을 분석할 때 어떤 데이터와 방법론이 필요할까?"라고 묻는 것은 전혀 다른 차원의 능력이다. |
|
전자는 AI를 도구로 쓰는 것이고, 후자는 AI와 협업하는 것이다. |
|
AI가 추론과 계산을 담당한다면, 인간은 방향과 의미를 설계하는 존재가 된다. |
|
AI 인프라가 지상과 우주로 동시에 확장되는 지금, 우리에게 필요한 것은 단순한 기술 이해에 그치지 않는다. 환경·경제·안보·과학·거버넌스가 서로 얽힌 복합적 문제를 분석하고 해석하며, 그 속에서 새로운 길을 설계하는 능력, 즉 기술과 사회를 함께 읽어내는 지적 역량이다. |
|
AI는 어디로 가야 하는가? 그리고 우리는 그 길에서 무엇을 선택해야 하는가? |
|
일리야의 발언은 단순한 전망이 아니라, AI 기술이 또 다른 국면으로 넘어가고 있음을 알리는 신호다. 스케일링 이후의 시대는 "더 큰 모델을 만들 것인가?"의 시대가 아니라, "어떤 지능을 만들고, 누구를 위해 만들 것인가"를 묻는 시대로 이동하고 있다. 그 질문에 답하는 것은 기술자만의 몫이 아니다. 연구자, 교육자, 정책 입안자, 그리고 AI를 사용하는 모든 사람의 몫이다. |
|
격주로 찾아오는 AI 융합연구원의 인사이트를 기대해 주세요! |
|
의과대학 교수들이 가장 많은 시간을 투자하는 업무 중 하나가 바로 평가 문항 출제다. 특히 현대 의학교육은 교과서 중심이 아닌 학습성과(learning outcomes) 중심으로 전환되고 있다.
학습성과란 교육과정을 마친 후 학생이 실제로 할 수 있어야 하는 능력을 구체적으로 명시한 것으로, 평가 문항 역시 이러한 학습성과 달성 여부를 측정하도록 설계되어야 한다. 하지만 각 학습성과에 부합하는 문항을 개발하고, 적절한 난이도를 유지하며, 임상 상황을 반영한 양질의 문제를 만드는 것은 상당한 시간과 노력을 요구한다. 이러한 현실에서 생성형 AI는 교수자의 효율적인 동반자가 될 수 있다. |
|
생성형 AI를 활용한 문항 출제의 첫 단계는 학습성과에 기반한 명확한 프롬프트 설계다. 단순히 "약리학 문제를 만들어줘"가 아니라, 평가하고자 하는 구체적인 학습성과를 제시해야 한다. 예를 들어 "학습성과: 환자의 임상 상황에 따라 적절한 고혈압 치료제를 선택하고 그 근거를 설명할 수 있다"라는 성과를 먼저 명시한 후, "이 학습성과를 평가하는 임상 시나리오 기반 문항을 블룸 택소노미의 적용(application) 수준으로 출제해줘"와 같이 요청하면 교육목표와 정확히 연계된 질 높은 문항을 얻을 수 있다. |
|
평가 문항의 질을 결정하는 중요한 요소 중 하나는 적절한 난이도 분포다. AI에게 블룸 택소노미의 각 단계(기억, 이해, 적용, 분석, 평가, 창조)를 명시하여 문항을 요청하면, 단순 암기형 문제부터 고차원적 사고를 요구하는 문제까지 체계적으로 구성할 수 있다. 특히 의학교육에서 중요한 '적용'과 '분석' 수준의 문항을 효과적으로 생성할 수 있어, 단순 지식 암기를 넘어선 임상 추론 능력을 평가하는 데 유용하다. |
|
약리학 평가에서 가장 중요한 것은 실제 임상 상황에서의 약물 적용 능력을 평가하는 것이다. AI에게 환자의 나이, 기저질환, 복용 중인 약물 등의 정보를 제공하고 "이 환자에게 적절한 약물 선택과 그 근거를 묻는 문제"를 요청하면, 현실적이고 타당한 임상 시나리오를 빠르게 생성할 수 있다. 교수자는 AI가 생성한 초안을 검토하고 의학적 정확성을 확인한 후, 필요한 부분을 수정·보완하는 역할을 한다. |
|
본 연구진은 학습성과 중심의 약리학 총괄평가 문항 출제에 생성형 AI를 체계적으로 활용하는 시스템을 개발하고 있다. 먼저 교과과정의 각 학습성과를 분석하고, 이를 평가하는 문항 개발에 AI를 적용하는 방식이다. 초기 결과, 문항 개발 시간이 기존 대비 약 40% 단축되었으며, 교수자는 절약된 시간을 문항의 질적 검토와 학습성과 연계성 확인에 집중할 수 있게 되었다. 또한 다양한 임상 시나리오를 손쉽게 생성할 수 있어 문항의 다양성도 크게 향상되었다. |
|
약리학에서 시작된 이 접근법은 다른 의학 교과목으로 확장 가능성이 크다. 병리학의 경우 다양한 질병의 진단 과정을 평가하는 문항을, 생리학에서는 인체 기능의 통합적 이해를 측정하는 문제를 생성할 수 있다. 특히 임상의학 과목인 내과, 외과, 소아과 등에서는 실제 환자 사례를 기반으로 한 문제 중심 학습(Problem-Based Learning) 평가 문항 개발에 효과적이다. 각 과목의 학습성과를 AI에게 제공하면, 해당 과목의 특성에 맞는 맞춤형 평가 문항을 생성할 수 있다. 나아가 통합교육과정에서 여러 과목을 아우르는 융합형 평가 문항 개발에도 활용 가능하다. 예를 들어 한 환자의 사례를 통해 해부학, 생리학, 약리학, 임상의학을 통합적으로 평가하는 문항을 AI의 도움으로 효율적으로 제작할 수 있다. |
|
물론 AI가 생성한 문항을 그대로 사용할 수는 없다. 의학적 정확성 검증, 문화적 맥락 확인, 윤리적 고려사항 점검 등은 반드시 교수자가 수행해야 할 몫이다. AI는 어디까지나 도구이며, 최종 판단과 책임은 교수자에게 있다. 하지만 이러한 한계를 인식하고 적절히 활용한다면, 생성형 AI는 의학교육 평가의 질을 높이고 교수자의 부담을 줄이는 강력한 파트너가 될 것이다. 우리의 연구가 의학교육 현장에서 AI를 효과적으로 활용하는 실질적인 가이드라인을 제시하고, 더 나아가 전체 의학교육과정의 평가 체계 혁신에 기여할 수 있기를 기대한다. |
|