请叫我峰子:
感受VPS建站的乐趣。

数据喂不饱AI:图书馆智能化转型中最难啃的骨头

数据喂不饱AI:图书馆智能化转型中最难啃的骨头

01 先讲个真事

有图书馆花了80万买AI系统。厂商说”即插即用”。

上线第一天,读者问几点关门,AI说早9点到晚9点。读者晚上8点半到了,门锁着。

AI没骗人。它查到的数据是2022年的。

这种事不是个例。

过去一年多我跟了十几个图书馆的AI项目,发现一件事:技术不是最难的部分,数据才是。

便宜的方案、好看的demo,市面上都能找到。但真把AI接进图书馆的业务系统,面对的是什么?几十个系统各自为政的数据格式,十年八年的历史数据残缺不全,RFID标签读不出来,书目数据连ISBN都缺,各个部门的开放时间标准不一致,同一本书在不同分馆的分类号都不一样。

这不是脏活。这是基础。基础打不好,AI就是花瓶。

02 一本《三体》的三种命运

先说最基础的问题:馆藏数据不准。

中山纪念图书馆的”小图图”2025年上线之前,踩了个典型坑。

初始版本直接接了个通用大模型,没做馆藏校验。读者问有没有《三体》,AI说有,在二楼。读者跑过去,没有。回来再问,AI说可能在四楼。又去了,还是没有。

读者是来借书的,不是来爬楼梯的。

问题在哪?馆藏记录里确实有《三体》,但状态是”借出”。AI只看有没有这本书的记录,没看它在不在架上。

类似问题不止这一个。AI回答逾期罚款,报的数字比规定少了三倍。读者按AI说的去交钱,跟管理员吵了起来。

根源都一样:数据是脏的,或者数据是旧的,AI不知道。

广东省立中山图书馆的”采编图灵”系统从2019年做到2023年,四年时间,三期迭代,累计投入1483万元。为什么这么久?为什么这么贵?

因为要把图书馆几十年积累的数据”洗干净”。

随便举几个例子:

书目数据格式不统一。MARC格式、Excel格式、自建系统的自定义格式,各有各的字段定义。同一家出版社的同一本书,不同编目员录入的数据,连ISBN都可能是空白的。

馆藏位置数据缺失。很多老书在系统迁移过程中丢失了”具体在哪个书架”的信息,只知道”在二楼”。AI想告诉读者精确位置,数据不支持。

分类号打架。同一本书在总馆分类是”I247.5″,在分馆被分到了”I247.57″。AI做跨馆检索时,不知道这两个号其实说的是同一类书。

四川大学图书馆张盛强团队在2026年3月发表的论文中明确指出,RAG(检索增强生成)模式是目前图书馆最现实的AI技术路径——不是图书馆不想做大模型,是连喂给模型的知识库都是乱的,哪来的底气?

“构建、清洗、标注和维护自己的RAG知识库的基础和能力,才是决定AI项目成败的关键。”——张盛强,《生成式人工智能技术背景下图书馆创新路径评估与分析》,2026

一句话:数据不到位,AI就是空中楼阁。

03 RFID数据:每5次借还,就有1次数据是错的

RFID是图书馆智能化的基础设施。没有准确的RFID数据,自助借还、智能盘点、架位导航全是空谈。

但就是这根”地基”,很多图书馆打得不稳。

某一线城市图书馆2023年上线RFID自助借还系统,花了数百万。上线第一个月,读者投诉量暴涨300%。

为什么?串读。RFID信号覆盖范围没控制好,同时扫到了旁边几本书的标签。A书被记录成B书,B书被记录成没还。有机构做过统计,某些部署初期的RFID系统,串读率高达15%-20%。

每5次借还操作,就有1次数据是错的。

读者以为借了书,系统没记录,逾期被罚钱。读者还了书,系统没更新,书标记”在借”,别人借不了。管理员每天花2-3小时手动核对数据,比不用系统还累。

还有更隐蔽的问题:标签寿命。

市面上的RFID标签,质量好的能用5-8年,便宜的3个月就开始掉链子。很多图书馆在招标时选了最便宜的标签,因为预算有限。结果第二年就出现大量标签失灵,整架书的数据变成”黑洞”——书还在架上,系统以为丢了。

这些数据问题,最终都会传导到AI系统。AI再好,读到的数据是错的,它给出的答案也是错的。

用一句技术圈的老话:Garbage in, garbage out。

04 运营数据:8个人管127个书房的数据代价

中山市的香山书房项目经常被当作标杆——127个书房,8个人管理,人力成本降了87%。

但很少有人追问:这套系统背后的数据工程,做了多少年?

2022年第一批书房试点的时候,数据问题多得让人头大。

第一个问题:每个书房的数据标准不一样。A书房用Excel记录借阅数据,B书房用手写登记,C书房干脆没记录。要把这些数据统一到一个平台上,首先得定义一套数据标准。

第二个问题:物联网设备的数据质量参差不齐。传感器时而掉线,时而上报错误数据。有的书房大门传感器上报”门已开”,实际上是信号干扰。系统以为有人进来了,其实没人。

第三个问题:人工录入的数据误差。8个人管理127个书房,一个人管将近16个。每个书房每天要巡检、补书、处理异常,时间根本不够。有些数据(比如”某书架已补书”)是巡馆时边走边记的,记错了没人知道。

到2024年,香山书房智慧管理系统才逐步稳定下来。这中间花了整整两年,不是在搞AI模型,而是在”洗数据”——清洗历史数据、统一数据标准、建立数据校验机制。

一位参与过香山书房项目的工程师跟我说过一句话,我印象很深:

“你以为我们花时间最多的是写代码?不是。70%的时间在追着数据跑。追数据对不对、齐不齐、新不新。”

这话听起来很朴素,但恰恰是图书馆AI最真实的写照。

05 全球视角:数据是图书馆AI的头号挑战

Clarivate(科睿唯安)2025年的《图书馆脉动报告》调查了全球2000多名图书馆员,覆盖109个国家和地区。报告显示:

  • 67%的图书馆正在探索或应用AI,但多数仍处于早期阶段
  • 预算限制是最大挑战(62%的受访者提及)
  • 隐私与安全位列第二(57%)
  • 缺乏专业知识仅排第三

注意这个排序:预算和隐私安全已经超过了缺乏专业知识。

这说明什么?说明图书馆行业对AI的认知已经从”会不会做”进入到了”能不能承担风险”的阶段。而隐私安全的本质,说到底还是数据治理的问题——数据怎么存、怎么用、谁有权访问、出了事谁负责。

ARL(美国研究型图书馆协会)与CNI(网络信息联盟)在2026年联合发布的《AI未来对研究型图书馆的战略影响》报告中,同样把数据治理列为核心议题之一。

报告指出,图书馆在AI时代的核心竞争力不是算法,不是算力,而是可信赖的数据。读者愿意信任图书馆的AI,不是因为模型多先进,而是因为图书馆有责任维护数据的准确性和安全性。

刘炜(上海社科院信息研究所所长)在2026年4月的讲座中说得更直接:

“图书馆的AI能力建设,核心不是买多贵的模型,而是能不能构建一个高质量的、可持续维护的数据基础设施。”

国际图联(IFLA)2025年发布的《图书馆人工智能引入指南》,列出八大问题框架,其中”数据治理”和”隐私保护”占据了前两位。IFLA建议图书馆在引入AI之前,先完成数据审计,搞清楚三个问题:

  1. 你有哪些数据?
  2. 这些数据质量如何?
  3. 谁有权限使用这些数据?

看起来很基础,对吧?但能做到的图书馆,不到三成。

06 三个核心教训

跟了这么多案例,我总结出三个核心教训,分享给正在或准备上AI的图书馆同行。

教训一:上AI之前,先做数据审计。

这不是可选项,是前置条件。

你需要搞清楚:馆藏数据的完整度是多少?RFID标签的准确率是多少?开放时间、罚款规则这类业务数据有没有统一的来源?不同系统之间的数据格式能不能互通?

如果这些问题的答案都是”不太清楚”,先别上AI。先把数据理清楚。

一个实际可操作的建议:用一个月时间,抽调3-5个人,专门做一次数据质量摸底。不需要很复杂,关键指标就三个——完整性、准确性、时效性。

数据完整性低于80%的模块,AI做出来也是错的。

教训二:数据标准统一,比买AI系统更重要。

很多图书馆的问题不是”没有数据”,而是”数据散落在一堆系统里,互相不认”。

借阅系统用一套读者ID,活动系统用另一套,RFID系统又用一套。读者在三个系统里是三个不同的”人”。AI想做个个性化推荐,连读者是谁都串不起来。

解决办法不是什么高科技——就是做数据治理。建立统一的数据标准,打通各系统之间的数据接口,建立主数据管理机制。

听起来不性感,但这是绕不过去的基础课。

教训三:运维投入不是一次性的,是持续性的。

AI不是装上去就能一直跑的东西。

馆藏数据在变化。今天上了1000本新书,明天借走了200本,后天RFID标签坏了50个。AI系统必须持续同步这些变化,否则三天之后答案就是错的。

但很多图书馆在项目验收后,数据维护的人没了,经费停了。半年后AI系统给出的答案准确率跌到50%以下,没人管。一年后系统被弃用。

Clarivate 2025年报告显示,只有12%的图书馆有正式的AI培训或入职计划。这说明什么?说明大部分图书馆还没有建立起AI系统的长效运维机制。

数据维护不是一次性投入,是和AI系统同寿命的持续性工程。

07 比数据更难的问题

写到这里,想说一个更大的事。

数据准了,RFID稳了,系统通了——这些条件都满足了,AI就能跑好了吗?

不一定。

还有一个问题:图书馆真的准备好了吗?

我问过几个图书馆的管理者:你觉得AI能帮你做什么?

答案很杂。自动回答、智能推荐、减少人力成本。

但很少有人能说清楚:AI来了,图书馆员的角色会变成什么样?组织架构要不要调?KPI要不要改?出了责任事故谁兜底?

这些问题比数据工程难回答多了。它们是组织变革层面的问题,整个行业需要一起想。

不过那是另一篇文章了。


本文基于公开报道、学术文献及行业报告撰写。数据来源包括:广东省立中山图书馆”采编图灵”国家图书馆案例文档(2024)、四川大学张盛强团队论文(2026)、Clarivate 2025年图书馆脉动报告、中山纪念图书馆AI馆员上线报道、ARL/CNI 2026年AI影响报告、IFLA图书馆AI引入指南(2025)。


铁三角团队 · 峰哥 | write | tech
共同成长 💪

赞(0)
转载请注明:峰网博客 » 数据喂不饱AI:图书馆智能化转型中最难啃的骨头

评论 抢沙发

评论前必须登录!

 

登录

找回密码

注册