数据喂不饱AI：图书馆智能化转型中最难啃的骨头

01 先讲个真事

有图书馆花了80万买AI系统。厂商说”即插即用”。

上线第一天，读者问几点关门，AI说早9点到晚9点。读者晚上8点半到了，门锁着。

AI没骗人。它查到的数据是2022年的。

这种事不是个例。

过去一年多我跟了十几个图书馆的AI项目，发现一件事：技术不是最难的部分，数据才是。

便宜的方案、好看的demo，市面上都能找到。但真把AI接进图书馆的业务系统，面对的是什么？几十个系统各自为政的数据格式，十年八年的历史数据残缺不全，RFID标签读不出来，书目数据连ISBN都缺，各个部门的开放时间标准不一致，同一本书在不同分馆的分类号都不一样。

这不是脏活。这是基础。基础打不好，AI就是花瓶。

02 一本《三体》的三种命运

先说最基础的问题：馆藏数据不准。

中山纪念图书馆的”小图图”2025年上线之前，踩了个典型坑。

初始版本直接接了个通用大模型，没做馆藏校验。读者问有没有《三体》，AI说有，在二楼。读者跑过去，没有。回来再问，AI说可能在四楼。又去了，还是没有。

读者是来借书的，不是来爬楼梯的。

问题在哪？馆藏记录里确实有《三体》，但状态是”借出”。AI只看有没有这本书的记录，没看它在不在架上。

类似问题不止这一个。AI回答逾期罚款，报的数字比规定少了三倍。读者按AI说的去交钱，跟管理员吵了起来。

根源都一样：数据是脏的，或者数据是旧的，AI不知道。

广东省立中山图书馆的”采编图灵”系统从2019年做到2023年，四年时间，三期迭代，累计投入1483万元。为什么这么久？为什么这么贵？

因为要把图书馆几十年积累的数据”洗干净”。

随便举几个例子：

书目数据格式不统一。MARC格式、Excel格式、自建系统的自定义格式，各有各的字段定义。同一家出版社的同一本书，不同编目员录入的数据，连ISBN都可能是空白的。

馆藏位置数据缺失。很多老书在系统迁移过程中丢失了”具体在哪个书架”的信息，只知道”在二楼”。AI想告诉读者精确位置，数据不支持。

分类号打架。同一本书在总馆分类是”I247.5″，在分馆被分到了”I247.57″。AI做跨馆检索时，不知道这两个号其实说的是同一类书。

四川大学图书馆张盛强团队在2026年3月发表的论文中明确指出，RAG（检索增强生成）模式是目前图书馆最现实的AI技术路径——不是图书馆不想做大模型，是连喂给模型的知识库都是乱的，哪来的底气？

“构建、清洗、标注和维护自己的RAG知识库的基础和能力，才是决定AI项目成败的关键。”——张盛强，《生成式人工智能技术背景下图书馆创新路径评估与分析》，2026

一句话：数据不到位，AI就是空中楼阁。

03 RFID数据：每5次借还，就有1次数据是错的

RFID是图书馆智能化的基础设施。没有准确的RFID数据，自助借还、智能盘点、架位导航全是空谈。

但就是这根”地基”，很多图书馆打得不稳。

某一线城市图书馆2023年上线RFID自助借还系统，花了数百万。上线第一个月，读者投诉量暴涨300%。

为什么？串读。RFID信号覆盖范围没控制好，同时扫到了旁边几本书的标签。A书被记录成B书，B书被记录成没还。有机构做过统计，某些部署初期的RFID系统，串读率高达15%-20%。

每5次借还操作，就有1次数据是错的。

读者以为借了书，系统没记录，逾期被罚钱。读者还了书，系统没更新，书标记”在借”，别人借不了。管理员每天花2-3小时手动核对数据，比不用系统还累。

还有更隐蔽的问题：标签寿命。

市面上的RFID标签，质量好的能用5-8年，便宜的3个月就开始掉链子。很多图书馆在招标时选了最便宜的标签，因为预算有限。结果第二年就出现大量标签失灵，整架书的数据变成”黑洞”——书还在架上，系统以为丢了。

这些数据问题，最终都会传导到AI系统。AI再好，读到的数据是错的，它给出的答案也是错的。

用一句技术圈的老话：Garbage in, garbage out。

04 运营数据：8个人管127个书房的数据代价

中山市的香山书房项目经常被当作标杆——127个书房，8个人管理，人力成本降了87%。

但很少有人追问：这套系统背后的数据工程，做了多少年？

2022年第一批书房试点的时候，数据问题多得让人头大。

第一个问题：每个书房的数据标准不一样。A书房用Excel记录借阅数据，B书房用手写登记，C书房干脆没记录。要把这些数据统一到一个平台上，首先得定义一套数据标准。

第二个问题：物联网设备的数据质量参差不齐。传感器时而掉线，时而上报错误数据。有的书房大门传感器上报”门已开”，实际上是信号干扰。系统以为有人进来了，其实没人。

第三个问题：人工录入的数据误差。8个人管理127个书房，一个人管将近16个。每个书房每天要巡检、补书、处理异常，时间根本不够。有些数据（比如”某书架已补书”）是巡馆时边走边记的，记错了没人知道。

到2024年，香山书房智慧管理系统才逐步稳定下来。这中间花了整整两年，不是在搞AI模型，而是在”洗数据”——清洗历史数据、统一数据标准、建立数据校验机制。

一位参与过香山书房项目的工程师跟我说过一句话，我印象很深：

“你以为我们花时间最多的是写代码？不是。70%的时间在追着数据跑。追数据对不对、齐不齐、新不新。”

这话听起来很朴素，但恰恰是图书馆AI最真实的写照。

05 全球视角：数据是图书馆AI的头号挑战

Clarivate（科睿唯安）2025年的《图书馆脉动报告》调查了全球2000多名图书馆员，覆盖109个国家和地区。报告显示：

67%的图书馆正在探索或应用AI，但多数仍处于早期阶段
预算限制是最大挑战（62%的受访者提及）
隐私与安全位列第二（57%）
缺乏专业知识仅排第三

注意这个排序：预算和隐私安全已经超过了缺乏专业知识。

这说明什么？说明图书馆行业对AI的认知已经从”会不会做”进入到了”能不能承担风险”的阶段。而隐私安全的本质，说到底还是数据治理的问题——数据怎么存、怎么用、谁有权访问、出了事谁负责。

ARL（美国研究型图书馆协会）与CNI（网络信息联盟）在2026年联合发布的《AI未来对研究型图书馆的战略影响》报告中，同样把数据治理列为核心议题之一。

报告指出，图书馆在AI时代的核心竞争力不是算法，不是算力，而是可信赖的数据。读者愿意信任图书馆的AI，不是因为模型多先进，而是因为图书馆有责任维护数据的准确性和安全性。

刘炜（上海社科院信息研究所所长）在2026年4月的讲座中说得更直接：

“图书馆的AI能力建设，核心不是买多贵的模型，而是能不能构建一个高质量的、可持续维护的数据基础设施。”

国际图联（IFLA）2025年发布的《图书馆人工智能引入指南》，列出八大问题框架，其中”数据治理”和”隐私保护”占据了前两位。IFLA建议图书馆在引入AI之前，先完成数据审计，搞清楚三个问题：

你有哪些数据？
这些数据质量如何？
谁有权限使用这些数据？

看起来很基础，对吧？但能做到的图书馆，不到三成。

06 三个核心教训

跟了这么多案例，我总结出三个核心教训，分享给正在或准备上AI的图书馆同行。

教训一：上AI之前，先做数据审计。

这不是可选项，是前置条件。

你需要搞清楚：馆藏数据的完整度是多少？RFID标签的准确率是多少？开放时间、罚款规则这类业务数据有没有统一的来源？不同系统之间的数据格式能不能互通？

如果这些问题的答案都是”不太清楚”，先别上AI。先把数据理清楚。

一个实际可操作的建议：用一个月时间，抽调3-5个人，专门做一次数据质量摸底。不需要很复杂，关键指标就三个——完整性、准确性、时效性。

数据完整性低于80%的模块，AI做出来也是错的。

教训二：数据标准统一，比买AI系统更重要。

很多图书馆的问题不是”没有数据”，而是”数据散落在一堆系统里，互相不认”。

借阅系统用一套读者ID，活动系统用另一套，RFID系统又用一套。读者在三个系统里是三个不同的”人”。AI想做个个性化推荐，连读者是谁都串不起来。

解决办法不是什么高科技——就是做数据治理。建立统一的数据标准，打通各系统之间的数据接口，建立主数据管理机制。

听起来不性感，但这是绕不过去的基础课。

教训三：运维投入不是一次性的，是持续性的。

AI不是装上去就能一直跑的东西。

馆藏数据在变化。今天上了1000本新书，明天借走了200本，后天RFID标签坏了50个。AI系统必须持续同步这些变化，否则三天之后答案就是错的。

但很多图书馆在项目验收后，数据维护的人没了，经费停了。半年后AI系统给出的答案准确率跌到50%以下，没人管。一年后系统被弃用。

Clarivate 2025年报告显示，只有12%的图书馆有正式的AI培训或入职计划。这说明什么？说明大部分图书馆还没有建立起AI系统的长效运维机制。

数据维护不是一次性投入，是和AI系统同寿命的持续性工程。

07 比数据更难的问题

写到这里，想说一个更大的事。

数据准了，RFID稳了，系统通了——这些条件都满足了，AI就能跑好了吗？

不一定。

还有一个问题：图书馆真的准备好了吗？

我问过几个图书馆的管理者：你觉得AI能帮你做什么？

答案很杂。自动回答、智能推荐、减少人力成本。

但很少有人能说清楚：AI来了，图书馆员的角色会变成什么样？组织架构要不要调？KPI要不要改？出了责任事故谁兜底？

这些问题比数据工程难回答多了。它们是组织变革层面的问题，整个行业需要一起想。

不过那是另一篇文章了。

本文基于公开报道、学术文献及行业报告撰写。数据来源包括：广东省立中山图书馆”采编图灵”国家图书馆案例文档（2024）、四川大学张盛强团队论文（2026）、Clarivate 2025年图书馆脉动报告、中山纪念图书馆AI馆员上线报道、ARL/CNI 2026年AI影响报告、IFLA图书馆AI引入指南（2025）。

铁三角团队 · 峰哥 | write | tech
共同成长 💪

数据喂不饱AI：图书馆智能化转型中最难啃的骨头

数据喂不饱AI：图书馆智能化转型中最难啃的骨头

01 先讲个真事

02 一本《三体》的三种命运

03 RFID数据：每5次借还，就有1次数据是错的

04 运营数据：8个人管127个书房的数据代价

05 全球视角：数据是图书馆AI的头号挑战

06 三个核心教训

07 比数据更难的问题

请叫我峰子

推荐阅读

评论抢沙发

评论前必须登录！

Lastest

Member

Catelogs

切换注册登录

切换登录注册

数据喂不饱AI：图书馆智能化转型中最难啃的骨头

01 先讲个真事

02 一本《三体》的三种命运

03 RFID数据：每5次借还，就有1次数据是错的

04 运营数据：8个人管127个书房的数据代价

05 全球视角：数据是图书馆AI的头号挑战

06 三个核心教训

07 比数据更难的问题

请叫我峰子

推荐阅读

评论 抢沙发

评论前必须登录！

Lastest

Member

Catelogs

切换注册登录

切换登录注册

评论抢沙发