国学三大核心技术
自动标点、自动比对和自动排印,是国学公司在《》的基础上,历经多年研发成功的三大核心技术,可谓大型古籍数据库从量变到质变的飞跃,不仅具有很高的科技含量,更具有巨大的应用价值。借助此三大技术,得以免除许多繁琐的重复劳动,将古籍整理出版的效率和质量提升数倍,这无异于延长了学者的生命。
自动标点
自动为古籍加注标点,这大约是无数古籍整理工作者梦寐以求之事,而自动标点技术让这个梦想变为现实。自动标点并非无中生有,而是以有补无。该项技术基于对大规模带标点文本的分析统计,以句型为基础,辅以语法分析和字词切分技术,通过模糊查找和分段比对,对无标点的古籍文献自动加上合适的标点符号,可用于大规模古籍整理等领域。理想状态下自动标点准确率在90%以上,机器无法完全识别的情形下会自动提示专家进行人工干预。
自动比对
校比异文同样是古籍整理最基本也是最苦恼的事情,不仅耗费大量的人力,而且无法避免失误。而运用自动比对技术,能自动进行多种版本古籍的逐字比对,完成后还可在古籍中标示出文字和符号任何差异,如此一来,既节省了宝贵的人力,而且有超人的效率和正确性。
自动排印
自动排印技术依托于国学公司研发的大型古籍全文检索数据库《》,可以将数据库中的任意文字转换为方正排版文件,可直接出片、打样、印刷。版式设计任意可选,多种格式自动排版 ,疑难僻字一次补齐,目录索引自动生成。
该技术较好地解决了古籍生僻字造字、简繁体转换、横竖版式等多项技术难点,较好地满足了出版社在信息时代对古籍整理出版项目的高水准需求,可极大地降低出版成本,提高出版效率。更为个性出版,尤其是难度较高的古籍个性出版提供了广阔的空间。
运用该技术,排印速度极快,可在一刻钟排完《红楼梦》,一小时排完《鲁迅全集》,一天排完《二十四史》,一周排完《四库全书》。
《四库全书》是中国历史上规模最大的一部丛书,收录古籍3503种、79337卷。对《四库全书》进行标点整理并最终出版,无疑是一项宏伟的工程。上世纪五十年代末,中华书局集结全国上百位文史专家整理《二十四史》,前后历二十年。《四库全书》10亿字,规模是《二十四史》的25倍,通常需用500位教授,工作 100年,而运用三大核心技术,有望在五年内便可完成。