返回首页 > 您现在的位置: 镇江 > 资讯杂谈 > 正文

从深闺走向电子屏的历史书卷-镇江历史

发布日期:2015/12/20 12:51:53 浏览:604

镇江市是三千年的历史文化名城,自南朝宋刘损《京口记》以来,相关的地方文献著作代不绝书,如唐代《丹阳集》,宋代《咸淳毗陵志》《京口耆旧集》等,均以史料翔实见称。元、明、清三朝,各类官修、私撰的府县志、山水志、寺观志、人物志、艺文志、诗文集等,更是数量众多。

可是,古籍本身是一种纸质的、易破损的文物,因此对它的任何使用、开发,对古籍本身都存在损伤的危险。于是,随着一项古籍数字化工程的全面开展,市图书馆所藏585册地方古籍得以实现数字化,既有效保护了珍贵古籍,也为爱好者、研究者的查阅提供了极大的方便。

古籍扫描精益求精

上周五,九点刚过,我市文史研究者陈老先生就来到市图书馆4楼的古籍部,希望能查阅《丹徒县志》中的有关镇江山水的古诗。“我赶个大早可是有经验的,”陈老先生说:“别看只有二三十册,说多也不算多,可是要在大量的古人诗歌中找到跟某个内容相关的几首,真是毫无头绪,只能一首一首慢慢地翻,要熬不少工夫呢。”

听到陈老先生的话,古籍部的工作人员对他说:“现在不需要这么耗时了,市图书馆正逐步实现镇江地方文献古籍数字化,您所查阅的这本古籍,目前已经完成,现在只要在电脑上打开这本书的电子档,文内搜索一下关键词,很快就能把内容找出来了。”

层层开锁,市图书馆古籍部主任彭义打开古籍书库的大门,一股浓重的樟脑丸味扑鼻而来,彭义指着一排排书架上颜色泛黄的一摞摞书籍对记者说:镇江市是历史文化名城,读书、藏书的人历来很多,因此市图书馆在近百年的历史中,积累了大量的古籍馆藏,在省内都名列前茅,还被评为国家古籍重点保护单位。可是这些古籍毕竟都有一百年甚至几百年的寿命了,作为纸质文物,它不像金银铜器那么坚固,轻轻地翻动就有可能使它破损,造成无法挽回的缺憾。因此经过几年的筹划,他们正式从2014年开始启动了镇江地方文献古籍数字化工作,两年间共对585册近80000页的古籍做了数字化,将它们扫描成图片。

“古籍扫描有着很高的要求,”工作人员向记者介绍:“我们采用的是进口的专用古籍扫描设备,这种设备扫描精度高,一张图片可达到300-600DPI,即使做成报纸两个版大小也没问题,上面的文字清晰可见。而且同一般的扫描仪相比,专用扫描仪使用的是冷光源,透明盖板也适合书籍的形状,不会对纸张、书脊等位置造成损伤。先将它们扫描成原始图片,然后再对它们进行加工调整,制作成可阅览的PDF文本。”

可是这样扫描之后,做成的图片文本,只能用于阅览,不具有查寻和检索功能。如果读者想快速查阅到某个感兴趣的知识点,还是有很大的难度。如何将图片转为文字,实现全文检索呢?

“敲友”共同识别文本

江苏奥博洋信息技术有限公司承接了这项业务,与市图书馆合作完成了识别古籍文本的工作。

周一上午,记者来到位于镇江新区的这家公司,BOP事业二部部长佴荣向记者详细介绍了这项技术:“如果对照古籍原本,利用人工打字,则需要大批人力,产生很大成本的同时也需要极其长的时间周期。古籍中油墨的质量问题,导致不少字迹断离,即使利用目前较为先进的软件字库匹配‘OCR’技术也无法处理,最终还是得依靠人眼人脑。借助互联网资源,我们发现了更好的方式:众包模式。目前,我国使用互联网人数已达到6个多亿,如果把这些图片切割碎片化后放到网上,让网友来有偿做这件事情,那可就非常高效了。我们公司开发的‘敲宝网’正是运用了这样的原理。”

佴荣用电脑演示:打开“敲宝网”(www。qiaobao88。com)-注册-身份认证-登录-进入工作室-识别汉字。佴荣说,“敲宝网”的灵感来自活字印刷,为了保证信息安全,古籍图片已被完全碎片化,绝对不会把整页内容放上去,敲友也只是对单个的字进行识别,网友是绝对收集不全古籍内容的。“这些碎片化的字,会打的就打,不会打的就跳过去”,这样难度降低,效率很高。

“我们最近处理市图书馆的这批文件,有245册,32000页,600多万字,放在‘敲宝网’上不到三个月就完成了,每天的识别录入量能达到五万字。这些字难易分层次,价格也分层次。”佴荣感慨:“我们也没想到,敲友人数如此之多。经过账号数据分析,我们发现,目前注册的近万名敲友都不是全职,只是利用碎片时间,闲时上来打打字,挣点零花钱,月收入从十几元到两千多元不等。目前,我们也在手机移动终端上开发了这个软件,这样,无论是排队、坐车,‘敲友’们利用生活中的碎片时间‘敲宝’也就更方便了。”

“敲友完成的‘作业’,并不能达到百分之百的正确率,谁来‘批改’?如何降低错误率?”对记者提出的这个问题,佴荣继续在电脑上演示:“敲宝网”使用云计算和大数据的技术,收集每一个‘敲友’的作业行为数据,这些数据包括工作量、工作精度,甚至是他们访问敲宝网时长和频率。使用这些数据自动将不同难度的工作匹配不同‘敲友’。而‘敲友’们也自然形成了一个‘虚拟社区’,在这个‘虚拟社区’里面自然演化,演化过程中我们导入了游戏的概念,根据我们的设定作业量大、而且作业精度高的‘敲友’会‘升级’,升级后又会被匹配到校检工作中去,帮助我们进行下一步的质检工作。经过我们的质量控制流程后,我们将整理好的资料送给市图书馆古籍部。”

推进古籍产品开发利用

“收到江苏奥博洋信息技术有限公司整理好的文字转换资料,我们古籍部两位专家对较难识别的生僻字、异体字以及部分草书、篆书字体进行了最终质检校对,发现这种经过再三审校之后的识别文本,差错率确实相当低,而效率和速度更是令人惊喜。此外,古籍的作者多半已经去世50年以上,其个人版权和知识产权已进入公共领域,不存在版权争议。”

那么,古籍地方文献的数字化可以达到什么样的成果呢?彭义说:“2014-2015年,我们共加工古籍585册70000余页,内容广泛涉及镇江市近千年来的各种府县志、山水志以及诗文集,像《嘉定镇江志》《至顺镇江志》《康熙乾隆镇江府志》《光绪丹徒县志》《京口三山志》《京口山水志》等都包括在内,涵盖了镇江市历史文化的基本史料,也涉及了我市古籍阅览读者调阅频率最高的大部分常用古籍。从而达成了用数字化文本代替古籍实体进行阅览的目标,实现数字化阅览。我们完全可以预见,再经过几年的努力,将尽可能多的镇江市古籍地方文献,包括部分民国时期的镇江地方文献,进行全面的数字化,建立一个大型的数据库,为镇江人研究、学习镇江的历史文化提供前所未有的便利途径,是完全可以实现的。”

谈到古籍数字化的重要性,市图书馆馆长褚正东认为:“古籍承载着人类有文字以来数千年间的历史文化,是人类共有的精神财富,因此具有无法估量的珍贵价值,也应当为更多的人所享有。”褚正东对记者说:“作为国家古籍保护重点单位,市图书馆有这个责任和义务保护好这些古籍,只有保护好了,才能谈今后的开发和利用。将地方古籍数字化,也是进行一项抢救工作。古籍数字化可以制作丰富的数字资源,克服实体古籍不可轻易移动、复制的缺陷,并通过适当的方法进行复制和共享。”

“目前,已经有近600册古籍实现了数字化,但相对于我们丰富的古籍馆藏来说,这仅仅是刚刚起步。市图书馆今后每年都会安排专门经费进行古籍数字化,而目前所做的地方古籍数字化工作,既是尝试也是积累经验。”褚正东说:“这些电脑可以识别的文本文件,最终可以作为古籍产品开发利用。比如,将数字化的成果研制成光盘版或网络版的数据库,可以将大量的古籍制作成电子文本,供给广大学者、市民阅览、研究,使读者在不直接接触古籍文本的情况下,能够获取古籍中的丰富史料,从而从根本上解决古籍的‘藏’与‘用’这一历史难题;可以集结成册;可以出版与古籍有关的著作。”

最新资讯杂谈
  • 张玉书与陈廷敬05-16

    来源时间为:2024-05-16张玉书书法清代《康熙字典》图:朱昌勤提供文/朱昌勤翻开距今300多年前的《康熙字典》,可见“总阅官:文华殿大学士兼吏……

  • 外贸“质升”,折射中国经济活力满满05-16

    来源时间为:2024-05-11外贸“质升”,折射中国经济活力满满2024-05-1109:24海关总署近期发布数据:今年前4个月,我国货物贸易进出口总值13.……

  • 买房不用愁,评测帮你忙!镇江红豆和院热搜楼盘信息05-14

    买房不用愁,评测帮你忙!镇江红豆和院热搜楼盘信息新鲜出炉!房天下房大秘05/1207:03*本页涉及面积,如无特殊说明,均指建筑面积综合评分红豆和院,西津渡旁,……


欢迎咨询
返回顶部