(通讯员:蔡鑫)2022年4月23日上午,星空(中国)以“交流·发展”为主题的文学文化系列讲座第六讲“历史典籍的数字人文知识库构建:从全文检索到概念检索”于云端开讲。讲座由南京师范大学星空网页版登录入口语言科技系副教授李斌主讲。星空(中国)瞿林江副教授主持,余跃龙副教授评议。
讲座伊始,瞿林江对主讲人进行了简要的介绍:李斌主要从事计算学和数字人文方向的研究。包括词法分析、认知语义计算、语料库、语言知识库、语法理论、历史人文计算与数据库构建、数字出版等,关于语言分析和数据库构建的知识非常丰富。
李斌首先谈到当下学生学习古文的各种难处,引出古籍数字化工程的重要性。通过国内外古籍数字化的历史案例,说明数字化从字符串检索发展到概念检索的过程,不仅为古文学习提供了很大便利,而且增加了学习乐趣,是一个巨大的飞跃。传统的古籍数据库大多是基于字符串的全文检索,即能检索出包含关键词的原文;李斌副教授所说的概念检索,是指在输入一个关键词之后,能检索出与关键词概念相同的原文,例如检索嬴政,便可搜索出关于秦始皇、秦皇帝、秦王政、政、赵政、吕政、公子政的原文。与传统检索方式相比,概念检索得出的信息更加全面,也更加准确。
据李斌介绍,在建立数据库之初,团队经过了一个漫长的整理过程,包括断句、分词、加词类、专有名词编号等工作。在实践经验日益丰富的情况下,建立了“古汉语一体化词法分析平台”。
李斌副教授接下来介绍了《左传》《史记》《资治通鉴》《诗经》四个全文检索平台。首先对《左传》中出现的人物进行编号,然后对人物的别名、籍贯、活动地区等信息进行补充,从而使人物固化。同时通过整理人物关系,使人物朋友圈可视化,展现出社交群体的情况。除此之外,在对地点、诸侯国整理的基础上与人物联系,形成人物时空图。在对《史记》进行数字化的过程中,在将人物游行地图可视化的基础上融入地点和活动频次,形成热力图,直观地在地图上呈现了活动高发区域。在展示《资治通鉴》全文检索的过程中,进一步为大家展示了概念检索。如果对人名进行检索,便可得到人物的别名、性别、国别、是否出现在《左传》中、是否出现在《史记》中、与人物同现的地点、人物所在原文、人物关系图(用圆圈大小表示人物重要程度)等信息,地名检索与之类似。除此之外,根据人物和时间制作出人物风云榜单,可以瞬间获取每个时间段最具影响力的人。在四个古籍数据库中,《诗经》是最有趣的。该数据库对诗经中的动植物的数量、古今名称、出现的篇目、出现次数进行了统计,并且附有彩色图片,让大家能够通过检索立刻了解事物的模样。
李斌副教授总结到,其团队的工作方向是从传统的纸质文献转变到数字人文知识库,由文字检索发展到概念检索。还需要对古籍做各种各样的语言学标注、多媒体标注,把图片、地理信息、维基百科都结合进来,让古籍立体化。未来还有很多的工作要做,一是数据错误、二是侵权风险、三是底本的问题、四是与外部的知识库做更多的链接、五是做更多的语言以及与国外的历史数据库进行链接。
最后,余跃龙对讲座进行评议。他认为,李斌老师团队的数据库成果内容丰富、趣味性强、操作指导性高、学科前瞻性好。该项古籍数字化工作使古汉语研究、文献学研究等冷门学科变成了受年轻人喜爱的时尚之学,很有意义;从全文检索到概念检索的转变也开拓了研究思路。同时,这一工作真正实现了学科交叉,不仅使文史哲结合,还融入了植物学、动物学、地理学等学科,符合今后学科发展的方向。