当故宫文物“开口说话” 百年守护因AI而“声”动

来源：北京青年报2026-01-08 09:48

　　2025年，故宫博物院迎来建院百年。

　　这一百年，是实物守护的百年——从战火中南迁万里护送国宝，到一代代匠人在红墙内对《五牛图》的精心修复，守护的是文物之“身”，是文明赖以依存的有形载体。

　　这一百年，也是传承方式不断演进的百年。当时间的指针指向新的世纪，守护的命题已悄然延伸：在数字时代，如何让凝固的历史重新流动？如何让沉默的文物再度“开口”？如何让千年的文明真正走进下一代的心灵？

　　2025年12月29日，故宫博物院与火山引擎联合推出的“听宝贝说”AI互动播客，为这场百年守护提供了崭新的答案。在技术的赋能下，AI让文物“开口说话”，一场跨越时空的对话正在发生。

　　赋能

　　从“被动听讲”到“主动创造”

　　故宫的百年史，核心是守护。上世纪三四十年代那场世界文物保护史上罕见的壮举——文物南迁，保护的是民族文化的根脉免于战火。此后数十年，修复、整理、研究，无不是围绕文物本体展开。

　　然而，真正的传承，远不止于将器物安全地陈列在玻璃柜中。文化的生命力，在于它能否在不同时代的人的心中激起回响，能否被理解、被讲述、被再次创造。传统的博物馆教育，多以“关于文物”的第三方解说为主，观众与历史之间，始终隔着一层知识的“玻璃”。

　　“听宝贝说”项目的出现，正在打破这层“玻璃”。项目精选30件院藏文物，依托火山引擎豆包大模型的技术能力，创造了一种前所未有的互动模式：用户只需简单跟读，AI即可复刻其声音，生成由用户“亲自配音”的文物故事视频。孩子可以选择成为“小历史学家”或“小科普家”，用自己的声音，让金瓯永固杯诉说家国祈愿，让桐荫仕女图山子讲述匠心巧思。

　　这次创新的核心突破在于，它实现了文化传承从“教育解说”到“沉浸互动”的本质进化。过去，知识是被告知的；现在，故事是被“扮演”和“经历”的。当孩子听到自己的声音化为文物的“自述”，一种深刻的情感连接与身份代入便自然发生。技术在此刻扮演的，不再仅仅是展示工具，而是移情的桥梁，让千年之隔在声音的共鸣中消弭。

　　磨合

　　当通用AI遇见垂直文博

　　合作过程，也是技术与人文深度碰撞、互相“培养”的过程。将前沿的AI互动技术与拥有六百年宫城史、百年院史的故宫相结合，本身就是一次充满张力的挑战。最大的难点，在于如何在故宫所代表的历史严谨性与面向儿童所需的叙事趣味性之间，找到精准的平衡点。

　　对此，技术团队面临着多方面的挑战。首先，是内容生成的准确性。AI生成的每一句脚本，都必须经得起历史考据。这要求模型不仅要有强大的语言生成能力，更需在训练中深度“学习”故宫提供的权威文物资料，确保输出的故事框架扎实、细节无误。其次，是互动体验的自然度。儿童互动充满不可预测性，AI需具备强大的上下文理解和灵活应对能力，使对话流畅自然，而非机械问答。此外，团队还要考虑技术实现的普惠性。最终落地的H5产品需要足够轻量化、易操作，让任何用户都能在几分钟内完成声音复刻与故事生成，技术复杂度必须隐藏于极致简单的交互之后。

　　公开信息显示，项目背后的豆包声音复刻模型2.0，已从早期的声线模仿，进化到具备深度语义理解和情感表达的能力。而豆包角色扮演模型，则负责赋予AI不同的讲述人格。两者的协同，通过扣子平台进行智能体编排，最终实现了既生动又可控的文物叙事。

　　2025年中秋节，双方合作的AIGC视频《故宫宝贝团圆夜》已让文物在月夜下“动”了起来，完成了视觉上的活化。此次“听宝贝说”则深入听觉与交互层面，完成了从“活化”到“对话”的跃升。这两次尝试共同勾勒出一条清晰的路径：AI技术正从文物展示的外围工具，逐步走向文化阐释与传承的核心环节。

　　守护

　　让百年回响成为未来启蒙

　　从物理空间的“栉风沐雨”，到数字世界的开拓创新，故宫的百年守护，其内核始终如一：让中华文明最好的遗产，不仅存于庙堂，更活在当下，传向未来。

　　此次AI播客项目，是故宫在“AI+文化”路径上迈出的更深入一步。相比此前《故宫宝贝团圆夜》侧重节日氛围与视觉呈现，“听宝贝说”直接切入博物馆的核心职能——知识的教育与传播，探索如何将深奥的学术成果转化为青少年喜闻乐见的形式。它解决的不仅是“如何让文物活下去”的物理命题，更是“如何让文物活起来”的文化命题。

　　面向未来，故宫博物院展现出积极拥抱技术的开放姿态。从早期的文物数字化采集，到数字展厅，再到如今的AI应用，每一个技术阶段都有其探索身影。而“听宝贝说”项目不仅在内容层面探索了儿童文化教育的创新形式，更在技术层面验证了“通用人工智能大模型”与“垂直专业领域”深度融合的可能性。这个过程，是技术适应文化领域严谨要求的再训练，也是文化借助技术焕发活力的再表达。它证明了AI并非文博领域的闯入者，而是可以通过深度磨合，成为文化传承的赋能者。

　　从“让文物活起来”到“让文物会说话”，再延伸到未来可能的“让文物会交流”，这一演进过程体现了博物馆传播理念的持续升级。技术的每一次介入，都在拓展文化传承的边界，让文物从静态的展品，逐渐成为可互动、可对话、可共创的文化伙伴。这一转变的深层意义在于，它让文化传承从单向的知识传递，转变为双向的情感连接和价值观认同，让每个参与者都能在互动中找到自己的文化坐标。

　　未来

　　科技企业的文脉担当

　　火山引擎与故宫的合作，也正是科技企业以创新技术履行文化传承社会责任的生动缩影：用AIGC绘制“非遗百景图”，让传统技艺可视化；与北京大学共建“识典古籍”平台，让数万部古籍实现数字化阅览与智能整理；利用数字活化技术复原古戏楼，打造“虚拟直播间”，让传统戏剧在数字空间重焕生机……每一次尝试，都是对“技术如何赋能文化”这一时代命题的答卷。

　　而“听宝贝说”项目，则意味着这条探索之路进入了更深的层次——从对文化遗产的数字化保存，转向对其内在价值的创造性转化与传播。它试图解决的，不仅是“如何让文物活下来”，更是“如何让文物所承载的精神活进下一代心里”。它象征着在技术时代，我们有了全新的工具去完成那场跨越千年的对话；象征着文化传承，可以从单向的灌输，变为双向的互动与共创；更象征着，面向未来的儿童传统文化启蒙，可以如此自然、亲切且充满乐趣。

　　当冰冷的文物被赋予温暖的声音，当厚重的历史通过游戏般的互动轻盈触达童心，当古老文物借由最新技术，在孩童耳畔发出专属于他们的“新声”时，我们看到的，不仅是一件创新产品的诞生，更是一条传统与现代、文化与科技双向奔赴、融合新生的路径，是一根跨越百年的文化接力棒，正以一种前所未有的方式，被稳稳地传递下去。这或许就是科技赋予这个时代，最深沉也最动人的文化浪漫，是故宫的百年守护，正在AI的助力下，谱写出“让文物发声，让文明续写”的崭新篇章。（文/北京青年报记者温婧实习生赵涵萱）

[ 责编：任子薇 ]

阅读剩余全文（）