中国辞书发展状况报告 (中国古籍数字化探索)

感谢您关注“永大英语”!

中国辞书发展状况报告,中国古籍数字化现状

中国辞书数字化发展三十年

吕海春

提要:以1992年中国辞书学会成立为起点,近30年来,中国辞书的数字化有两条并行的推进线路,一是辞书产品形态的数字化,一是辞书编纂编辑方式的数字化,二者逐渐交融;学术研究,尤其是对“融媒辞书”的探讨,对辞书数字化起到了很大的助推作用。在数字化发展进程中,数字商借助技术优势跨界而入,抢得先机,而传统机构却被多重矛盾制约了融合发展。融媒辞书新理论与实践尚未充分融合,复合型人才严重不足,知识产权问题多发,是当前辞书数字化发展中存在的主要问题。中国辞书数字化的高质量发展,必须依靠创新和融合,建议策略如下:推进辞书向智能化知识服务和教育服务跨越;推动辞书生产范式和营销模式的转型升级;强化数据资源建设,携手共建辞书业良性生态圈;加强学术研究和融合型人才培养。

关键词:辞书形态;编纂编辑方式;数字化;融媒辞书

近30年来,在数字浪潮的推动下,辞书编纂和出版的业态、生态发生了巨大的变化。中国辞书人转变观念,以适应新形势。学界及时推介国际的发展趋势,探讨中国辞书数字化的发展路径;业界努力转型升级,编纂和编辑方式不断更新,产品形态不断创新。中国辞书学会从1992年成立之初就关注到数字化趋势,组织专题研讨,并于2001年成立了辞书编纂现代化技术专业委员会,着力推进辞书数字化进程。知往以鉴来,值此中国辞书学会成立30周年之际,很有必要总结回顾中国辞书事业的数字化发展历程,研判当下面临的挑战与难题,思考未来的发展路径。

中国辞书发展状况报告,中国古籍数字化现状

一、探索与转型

中国辞书的数字化起步并不晚,从20世纪90年代便开启了数字化之路,其间经历了诸多曲折。总的来说,中国辞书的数字化发展有两条并行的推进线路:一是辞书产品,包括形态及阅读终端等的数字化;一是辞书编纂编辑方式的数字化。随着深度融合理念的深入,二者渐呈交融之势。

在数字化布局中,拥有强大技术背景的数字商,以其敏锐的市场洞察力,跨界而入,不仅将技术主导权抓在手中,还逐步进军内容领域,成为掌握新规则的“新闯入者”。而传统的辞书机构,既存在技术上的短板,自身又背着传统的包袱,数字化布局相对迟滞。近年来,随着深度融合战略的推进,传统机构的数字化进程步入快车道,但仍有很多问题亟待解决。

由于新技术的快速迭代,融合发展态势迅猛,30年的辞书数字化发展实难有一个非常明确而众所公认的界限分期。特别是数字化产品,有的是自身迭代,有的是相生互补,有的是竞争替代,而其出现、发展、升级乃至消亡的时间往往交织在一起,呈现此起彼伏、多点开花之态。故本文不执着于阶段上的划分,而是从产品研发和编纂编辑方式两个方面,简述30年的发展进程,并对学会组织的相关学术研究做一简要回顾。

(一)辞书数字化产品的快速迭代

从20世纪末开始,辞书人开启了辞书的数字化探索。一些科技公司和出版机构相继投入技术研发,推出早期数字化产品,如掌上电子词典、光盘电子词典、网络词典等。

进入21世纪,数字化、信息化的浪潮给辞书市场造成剧烈冲击。最明显的表现是纸质辞书的消费群体不断减少,辞书的编辑出版、经营模式面临裂变和重构。余训培等(2002)针对大学生所做的调查就已显示,50.9%的受访者认为,辞书应列为“中文工具书电子化工程的优先类别”。周致欣、白丽敬(2014)指出:“传统辞书出版物中,2012年总印刷出版数下降近10%。艾瑞‘2012年在线词典发展研究报告’数据显示,2012年网络查词、翻译服务渗透率已达73.7%,在线翻译网站、在线词典、*载下**版词典软件等市场渗透率都在50%以上。”据张恒等人在2017年所做的研究,只有4%的学生表示经常使用纸质词典,91%的学生经常使用的是电子词典(梅星星2022)。不仅是纸质辞书,连早期的数字化产品——电子词典、光盘词典等也风光不再。大量新的产品形态,如在线词典、网络词典、网络百科全书、辞书数据库、优盘版词典、词典应用程序(APP),你方唱罢我登场,各领风骚。

其中,数字商享有技术领先地位,且敢于“先开枪,后瞄准”,因此占得市场先机。以维基百科、百度百科等为代表的网络百科全书迅猛发展;在线词典快速迭代,并取得优势地位。传统机构则较为谨慎,相当一部分产品的研发是在原有品牌基础上进行结构化加工、整合、优化、改造后形成的。从市场反响看,由于终端定位不够明晰,盈利模式不够明确,其用户使用率、购买率往往不及预期。从语种类型看,双语类辞书的数字化较早,也较为成功;汉语类辞书近年来有追赶之势,已形成一定的品牌效应。聚合海量内容资源的知识服务平台受到推崇,逐渐成为主流,但还不能说已找到明晰的盈利模式。

1.掌上电子词典的发展与退出

中国最早研制并生产掌上电子词典的是香港权智国际有限公司。该公司1989年发行了第一代掌上电子词典“快译通”,拉开了中国掌上电子词典快速发展的序幕(王莉2009)。1995年,“文曲星”面世,改变了掌上电子词典的定价体系,从此一枝独秀。2004年之后,不少技术公司停止研发新品,市场进入洗牌阶段,只剩下“好记星”“快译通”“文曲星”“诺亚舟”等几个品牌。

掌上电子词典并没能形成可资遵循的电子词典编纂理论,没能引发词典编纂的革命性变革,但因其词量丰富、功能多样、使用便捷的优势,一度成为语言教育市场的主打产品,现已被新的产品替代,基本退出市场。

2.光盘电子词典的兴起与没落

20世纪90年代初,港台地区编纂或出版的光盘电子词典进入内地市场,也促使内地软件开发商快速跟进,相继推出一批产品,如《即时通英汉汉英双向词典》《朗道电脑字典》《金山词霸》等。随后,一些出版机构开发了纸质辞书的光盘版,如《汉语大词典》(光盘版)、《中国大百科全书》(光盘版)等。

从语种类型看,光盘电子词典以外语类词典或双解版本为主。这可能是由于开发主体是技术公司,他们多是基于商业目的开发产品,而外语学习又占据了学习类辞书市场的半壁江山,因此拓展外语类辞书市场更受青睐。

光盘电子词典重视多媒体的运用,检索和查询功能都比较强大,而且由于安装后计算机无需运行光盘,用户可同时调用多部光盘词典,有的还具备word的嵌入、复制词条、打印等功能,大大方便了使用。当然,早期由纸质辞书转化而来的光盘词典,与纸书相比还有内容上的差异,无法完全替代纸书(杨琳2011)。

随着技术的发展,光盘电子词典也逐步没落,被新的产品形态取代。

3.在线词典展现勃勃生机

当前,在线词典可说是数字辞书的主流形式。孟杨阳(2021)指出,在线词典可分为3类:第一类是出版社依托纸质图书开发的产品,内容专业权威,制作精良,但需付费;第二类是互联网在线词典,如金山词霸、有道词典、海词词典,内容广泛,功能强大,是翻译和语言学习的辅助参考,但用户需要有较强的辨别真伪能力;第三类是个人和小型机构提供的盗版产品,常依傍原品牌影响力获取用户,内容未经审核且常含有垃圾广告。从市场占有率看,据艾瑞在线词典市场调研,有道词典占据优势地位。

随着技术的发展,在线词典从PC端拓展到智能手机端,智能硬件也不断升级,不少机构推出了内置多种权威词典的词典笔,如有道词典笔、科大讯飞翻译笔、辞海智能词典笔等。

在线词典的发展得益于大数据与词典研发的高度融合。廖海宏(2018)指出:“在词典编纂中大量应用大数据技术,词典知识内容的组织方式和内在结构建构方式发生改变。”因此,传统机构如只是出售图书版权进行简单的数字化,将难以持续,未来收集用户使用数据、分析用户行为、保持与用户反馈及互动必须贯穿于在线词典的设计、调整、销售过程中。

4.网络百科全书快速发展

作为网络时代最广泛使用的信息源之一,网络百科全书在很多方面打破了传统辞书的限制,内容能动态更新,时效性强,检索查询功能也优于纸质辞书,更能满足用户的搜索需求。但由于紧跟流行趋势和时事消息,又提倡众源编写,这种编写主体的广泛性和不确定性,使网络百科缺乏严格的编纂机制,加之审核机制的不完善,词条撰写随意性较大,内容不够严谨和准确,难以达到辞书编纂所要求的统一性和平衡性,权威性大打折扣(彭程2012)。有的还因为商业利益、竞价排名、知识产权等问题导致纠纷不断(龚莉2019)。

比较知名的网络百科全书有维基百科、百度百科、360百科、搜狗百科、互动百科、快懂百科等。其中有部分网络百科现已停止服务。

5.对纸质辞书进行集成式开发

出版机构拥有丰富的纸质辞书资源,如何利用已有资源抢占数字市场,是出版机构面临的重要课题。王玉、张志强(2014)指出,将众多单本工具书数字化后集成为大规模数据库,使出版机构在内容上更具竞争优势,在产业链中也会拥有较大的话语权。这类的代表产品有商务印书馆的“百种精品工具书数据库”、中国大百科全书出版社的“中国大百科全书数据库”等。

除了数据库模式,自主研发电子书硬件和软件系统也是出版机构探索的一种路径。如2010年推出的辞海悦读器,整合了庞大的内容资源,除完整内置《辞海》(第六版)外,更集成了《中华文化通志》等典籍和多种权威工具书(王玉,张志强2014)。

当然,更多出版机构还是通过授权,利用商业机构的集成平台来实现辞书的数字化传播,如利用中国知网开发的《中国工具书网络出版总库》。

6.品牌纸质辞书实现数字化“蝶变”

随着像《不列颠百科全书》《牛津英语大词典》等国外辞书出版商宣布不再推出纸质版,国内机构也加快了自有品牌辞书的数字化转型步伐。如《牛津高阶英汉双解词典》《新华字典》《现代汉语词典》《辞源》《中国大百科全书》《辞海》《汉语大词典》《英汉大词典》等,都实现了数字化“蝶变”,推出了不同类型的数字化产品,如优盘版、网络版、APP、数据库产品等。

这些品牌辞书的数字化,一般先将成品的纸质辞书内容数字化、碎片化,再按新的逻辑思路和编辑思路形成新的数字化产品。孟杨阳(2021)指出,这些品牌纸质辞书的数字化研发有以下几方面的特点:第一,融合各种媒体资源,如语音、图片、动画、视频等多种方式,拓展词典呈现的内容,实现了初步的融媒化;第二,辞书出版机构往往是整合旗下多部辞书内容,甚至是购买其他机构的辞书版权,使用户可以查看关联辞书内容;第三,具有强大的搜索功能,将纸质辞书变形为不同的模块内容,针对不同主题归纳内容,甚至“重建”编写体系,以搭建交互良好的搜索平台;第四,充分考虑服务对象和使用场景,建立知识图谱,提供增值服务。

7.工具书开放数据库和知识服务平台蔚然兴起

知识服务是近年非常流行的概念,也是融媒辞书的发展方向。商务印书馆的“语言资源知识服务平台”(涵芬APP)、上海辞书出版社的“聚典数据开放平台”、中国大百科全书出版社的《中国大百科全书》(第三版网络版)、上海外语教育出版社的“词博士”APP、外语教学与研究出版社的“汉外多语言词典数据库”等都是在开放数据库和知识服务领域方面的有益尝试。

中国辞书发展状况报告,中国古籍数字化现状

(二)编纂编辑方式数字化的探索升级

20世纪90年*开代**始,辞书工作者将计算机技术引入辞书领域,从利用计算机完成辞书编辅工作,逐步深入到建设语料库、研发辞书编纂系统。当前,业界对编纂编辑方式的数字化需求更加迫切,已进入规模化使用阶段。如《中国大百科全书》(第三版)从修订伊始,就是基于编纂平台在线进行的大型工具书编纂工程。[1]

[1] 参见:《〈中国大百科全书〉第三版首批条目发布》,《人民日报》2021年7月26日第05版。

1.辞书编辅工作步入现代化

辞书编纂的辅助工作,如资料卡片、检字表、索引编制等,如单纯依靠手工完成,耗时费工,功能单一,且难免错漏。因此,一些出版社开始利用计算机完成编辅工作。如商务印书馆编纂《古今汉语字典》时运用计算机技术编制检字表;上海辞书出版社《辞海》(1999年版)也利用计算机编制索引。这些探索既提高了工作效率和精准度,也为出版社积累了相关的数字资源,为辞书自动化编制检字表等编辅工作提供了基础素材(史建桥2000;张国强1999)。如今,利用数字技术完成编辅工作,已成为常态。

2.辞书语料库的建设与深度开发

作为辞书编纂重要的资源支持和技术手段,用辞书语料库代替人工卡片库,是词典编纂方法上的重大变革。20世纪90年代,国内开始探索建设辞书语料库,并应用于辞书编纂。*京大南**学张柏然主编的《新时代英汉大词典》,利用的就是商务印书馆与*京大南**学合作共建的“商务–南大英汉语言资料库”(CONULEXID)(张淑文2001)。此外,还有西安交通大学建立的专业性科技双语语料库、同济大学德汉双语科技语料库、香港科技大学与广东外语外贸大*联学**合建立的科技英语语料库等(亢世勇,王兴隆,谢晓艳2012)。而更为普及通用、容量更大的辞书语料库,特别是汉语辞书的语料库,在这一阶段尚不多见。

21世纪以来,语料库建设更加受到关注。随着数字化进程的加快,语料库和辞书编纂系统的结合也越发紧密。业内人士纷纷呼吁抓紧建设适应辞书编写需求的语料库。当前,辞书语料库的建设重点已从单纯追求数据规模,转为更加强调语料分析,对语料库进行深加工和数据化开发。但总的来看,专门的辞书语料库建设仍不尽如人意,特别是后期维护和语料深加工仍是严峻的问题。

3.辞书编纂系统的开发与升级

作为推动辞书数字化发展的重要引擎和辞书数字化生产架构的核心,从20世纪90年*开代**始,各家机构都投入到了辞书编纂编辑系统的研发中。如上文提到的“商务–南大英汉语言资料库”(CONULEXID),本质上是辞书编纂系统。再如上海交通大学陆汝占等开发的“汉语词典编纂一体化环境”,广东外语外贸大学词典学研究中心的“基于微观数据结构的双语词典生成系统”,北京大学计算语言学研究所的“计算机辅助词典开发和管理系统”,教育部语言文字应用研究所的“基于语料库的数字化辞书编纂平台”,商务印书馆的“辞书语料库及编纂系统”,等等(亢世勇,王兴隆,谢晓艳2012)。但由于各种原因,实用性和普及性都不够。

进入21世纪,技术的发展给辞书编纂平台的建设带来利好,平台建设取得重大进展。虽然出自不同的研发机构,但编纂平台的建设思路大致相似,都是力图建设成为“一次制作、多元发布、多重利用”的全形态数字出版产品发布平台、多元化与个性化的互动社区,形成全面、专业的知识库的支撑平台。其中比较知名的有商务印书馆的“三库两平台”、上海辞书出版社的《辞海》数字出版云平台、中国大百科全书出版社的《中国大百科全书》(第三版)编纂平台、外语教学与研究出版社的辞书编纂系统、上海外语教育出版社的双语词典编纂系统、同方知网工具书协同编纂云平台等。

(三)学术研究助推辞书数字化转型升级

面对数字化的挑战,辞书业要发展突破,离不开学术研究的引领。中国辞书学会历来非常重视学术研究对实践的推动作用,积极介绍国外现状,关注本土的辞书数字化进程,推动数字化实践。同时,数字化、智能化、网络化的发展也拓展了词典学的研究疆域和研究方法(秦晓惠2015)。

1.成立辞书编纂现代化专业委员会,推进辞书事业的数字化转型

2001年4月,中国辞书学会成立辞书编纂现代化技术专业委员会。至今,该专委会已举办9届年会。每届年会都聚焦辞书的数字化发展中的成绩与问题,就辞书界当下面临的某个或某几个专题,如语料库建设、辞书编纂系统开发、印制工艺的数字化、数字化辞书的盈利模式、业内资源的共享与应用、人工智能的应用等,进行广泛深入的研讨,起到了引领作用。

2.学术期刊积极跟进,刊发相关学术成果

《辞书研究》等学术期刊、集刊紧跟时代步伐,围绕着计算机在词典编纂和出版中的应用、信息处理技术在词典编纂系统中的应用、词典语料库的建设与应用、词典数字化与数字辞书发展、统计技术在词典编纂中的应用、网络技术在词典编纂和传播中的应用等方面,不断推出新的研究成果。

3.融媒辞书理念的提出与研讨

2019年,辞书界就辞书的媒体融合发展进行了探讨,提出了“融媒辞书”的概念。之后不少学术会议都对此做了专题研讨。融媒辞书的定义、特征,融媒辞书人才应具备的素质与人才培养,融媒辞书的编写实践,融媒辞书与当代辞书生态圈,等等,是大家极为关注的问题。

作为融媒辞书概念的提出者,李宇明、王东海(2020)指出:融媒辞书改变了辞书的组织方式、表现方式和使用方式,其最大的特点是“跨界关联”,是不同媒体的融合、编纂者与用户之间的融合、辞书与相关资源的融合。由平面辞书向融媒辞书发展,也可以看作中国辞书史正在发生的第四大转变。

章宜华(2022)对融媒词典的概念、技术创新和理论方法等问题做了深入探讨。他指出,融媒体辞书的核心内涵是“融合”和“融通”,融合的三要素包括辞书制作资源的融合、辞书知识文本的融合、辞书与数字技术的融合。

针对融媒体时代的辞书传播,多位专家提出,融媒时代的出版形成了连接和跨界两个特点:连接,就是连接一切可能性;跨界,就是跳出辞书来看辞书出版与传播。融媒时代,需要建构新的融媒出版系统,形成突出内容融合、介质融合、技术融合的全域符号出版。

回望本世纪20多年的发展,辞书的数字化之路在曲折发展中不断前行。随着移动互联网的日益普及、语言智能技术的快速发展,新兴技术,如数据库、移动应用、大数据、云计算、虚拟/增强现实、人工智能、区块链等,都已进入人们的生活,也为融媒辞书的跨越发展打开了机会窗口。

中国辞书发展状况报告,中国古籍数字化现状

二、问题与挑战

从“十三五”规划提出的“推动传统媒体和新兴媒体融合发展”,到“十四五”规划提出的“推进媒体深度融合”,媒体融合开始步入高质量发展的新阶段。辞书业的生态在技术变革中得以重塑,但要高质量发展仍面临不少问题。

(一)传统机构被多重矛盾制约融合发展

作为推动辞书数字化的支撑力量,面对被打破的媒介边界,辞书出版机构的数字化探索主要建立在从“纸”到“数”的介质递进与数字手段的更新迭代上,其内容生产与范式创新能力并未本质提升(贺敏2020),大多数时候还是被数字化浪潮裹挟前进,多重矛盾制约了融合发展进程。

1.对融合发展的顶层设计仍显不足

辞书的数字化转型更多的是一场行业革命。除技术条件外,更重要的是思维的转变和一系列关系的重构。当前比较吊诡的矛盾在于:一方面,尽管纸质辞书销售不断下滑,但由于其用户群体仍相对庞大,不少机构对从根本上变革辞书内容生产方式的动力不足。刘影(2019)指出,将互联网和数字化视作纸质书出版“延长线”的数字化转型方式“还远不是能让传统出版产业焕发新生命力的转型,甚至暴露出来的矛盾、不协调,都直击传统出版业的痛点”。另一方面,媒体融合的巨变又给出版者带来了极大的焦虑和不安。于殿利(2022)指出:“仅从狭隘的产业角度来看,面对媒体融合,传统出版正处于一个在很大程度上受外力影响的不稳定的发展矛盾期。”对辞书业的数字化发展缺乏从战略高度的认识,缺少从资源层面、发展路径层面等的顶层设计,是传统机构面临的主要问题。

2.商业模式不够明晰,投入产出效率不高

有学者对市场上语文词典数字版的盈利模式做过抽样调研,发现主要有“半免费、半收费”“前期免费、后期收费”和“完全收费”3种(吕靖2020)。但无论哪种盈利模式,都被批评价格不够亲民。商务印书馆在推出《现代汉语词典》(第7版)APP后,甚至引发了一场“辞书APP是否应收费”的讨论。由于使用频率低,竞争对手多,内容无法完全满足用户需求,出版机构又不能采用全免费的方式,导致用户付费意愿不高,目前多数产品仍处于积累用户、持续“输血”阶段(梅星星,万兵2018)。

此外,数字化辞书研发周期长,投入大,尽管从国家层面给予了一定的建设投资,但后期的运营维护、迭代更新都需要持续的资金投入。如果不能找到持续性的盈利模式,数字化辞书开发的资金来源就会减少,既难以维持既有产品的更新,又难以支撑新产品的研发,从而导致恶性循环。

3.既有的技术支撑体系制约发展

媒体融合发展的过程中,内容、渠道、用户的变化,都依赖于新技术的应用和支撑。媒体融合应当是传统优势内容与先进技术共生共融的过程。但我们也看到,传统辞书机构原有的技术支撑体系难以适应当下辞书内容生产和传播的要求,急需建立新的技术支撑体系。

首先,当前多数辞书的数字化产品仍是基于纸质辞书开发的。章宜华(2022)对国内300多种网络词典或词典APP进行调查,发现大多数只是纸质词典的电子化,一些品牌辞书的APP虽然运用了多媒体技术,但还没有考虑“融”的问题。而辞书的数字化、融媒化,必须将融合发展的思维贯穿于词典编纂、出版的各个环节,利用新技术进行编纂、出版流程的再造。这对传统辞书的编纂者和编辑而言都是极大的挑战,也许还会使之产生一定的畏惧心理,不想也不敢投身其中。而且在与技术公司合作时,由于双方关注点不尽相同,难免沟通不畅,导致融合发展的全流程再造难以完善。

其次,快速迭代的新技术,给传统辞书机构带来极大的冲击和挑战。当前大多数机构仍处于跟随者的状态。以最新的大语言模型技术为例,2022年11月发布的ChatGPT,让人们看到人工智能“大算力”生成智能语言的威力。专家认为,生成式人工智能技术的发展,极大地影响着内容生产型行业的未来,可能带来颠覆性的变化。一些技术商已纷纷跟进,而传统机构尚未看到明确的跟进路径。

4.优质资源未能充分整合和共享

融媒辞书的发展不仅依赖于技术,更要融合运用各种资源,包括语料等信息资源,以及各种媒介资源、专家资源等。辞书机构拥有“大批存量纸媒词典和部分电子化词典,甚至还有汉字基本书写库和读音库、规范词表,以及词汇的语言属性库和多模态表征等资源库”(章宜华2022),但一家机构无论拥有多少资源,都有资源短板。如商务印书馆,辞书资源主要集中在语言类辞书,百科、专科类辞书资源则不够充分。此外,这些资源分散在不同的机构,从用户使用层面来看,这些资源还有待整合成大型综合数据库,才能为海量用户的海量需求提供支撑。因此,融媒辞书的跨越发展要考虑资源上的“合纵”与“连横”(孙述学2014)。

(二)新的理论与实践尚未充分融合

经过3年多的研讨,融媒辞书的理念逐渐得到业界认同,并产生了融媒词典学的概念。但无论是理论研究,还是编纂实践,都还处在探索阶段。

理论层面,章宜华(2022)提出,融媒词典学“是以数字化和多元识读为目标,运用语言认知、习得理论和媒体融合的方法,研究辞书从策划到出版各环节的资源组织、文本制作、处理和跨媒体传播的学问”。融媒辞书乃至融媒词典学的内涵与外延、辞书类型的独特性、方式的创新性、辞书编纂者和出版者的角色转变、用户需求的变化等问题都有待进一步研讨,尚未达成普遍共识。魏向清(2022)还指出,融媒时代辞书编纂的变化,催生了一系列新的术语,这些术语在定名和界定上尚存在歧义,但这个问题没有引起足够的重视。这些问题不厘清,其理论基础便不够扎实,也难以有效推动辞书的实践。

实践层面,尽管业内推出了不少相关产品,但这些产品是否已实现了融媒辞书的目标,还要通过市场得到检验印证。而且传统辞书向融媒辞书转变是一个渐进的过程。融合发展的目标是要将优质内容与技术相融,这也需要在实践中继续摸索,找到最适合传统辞书发展的新路径。

总的来说,融媒辞书要取得突破性发展,必须将理论与实践充分结合、互相推动,当前两者结合不够充分,存在两层皮的现象,这也制约融媒辞书发展。

(三)复合型人才严重不足

融媒时代对辞书人才提出了更高要求。媒介的多样化,使辞书工作者不仅要处理文本和图片等要素,还要学会处理音频、视频、交互式程序等各种要素。除了要掌握辞书学和语言学等方面的知识外,还要掌握数字化、信息化技术,具备跨学科和跨媒介的辞书策划和组织能力、产品运营能力。但这样的“多栖人才”仍十分稀缺。此外,高校在辞书人才的培养上也存在缺位,导致人才的后备力量接续不足。辞书的融合发展要取得长足发展,亟待培养出一支复合型人才队伍。

(四)知识产权保护问题亟待解决

首先,数字化辞书产品具有无损复制、易于分发等特点,因此容易被人非法利用,给辞书编纂者和出版者造成巨大损失。例如,2018 年以来,上海辞书出版社就多家网络平台未经许可使用《汉语大词典》的词条内容陆续发起侵权诉讼。这都是近年来侵犯知识产权的典型案例。

其次,随着辞书的编纂、出版与数字技术的结合越发紧密,在知识产权的权利主体和客体关系上,由单一主体变成多元主体,由单一权利变成多元权利,由单一保护变成多元保护,形成了“你中有我,我中有你”的融合状态,也引发了一系列新的法律保护问题。此外,最新的智能大语言模型所生成的内容如果应用于辞书,也可能存在侵权的问题,但对此业内还有争议。对于上述问题,从司法实践看,往往没有司法先例可循,业界在推动数字版权保护方面又尚未形成合力,也制约了辞书的数字化发展。

上述知识产权问题还未能充分解决,也成为制约辞书数字化发展的因素。相关部门应从法律法规层面上加强知识产权保护,为融合发展创造良好的生态环境。

中国辞书发展状况报告,中国古籍数字化现状

三、机遇与展望

2022年4月,*共中**中央宣传部印发了《关于推动出版深度融合发展的实施意见》,对新时代推进出版深度融合发展做出了全面战略部署和具体工作安排。中国辞书事业的高质量发展,要走数字产业化和产业数字化的发展道路,就必须依靠创新和融合。

(一)推进辞书向智能化知识服务和教育服务跨越

辞书的本质是提供知识服务和教育服务,只是传统辞书提供的服务多是单向的,内容也相对单一且碎片化,难以满足用户的需求。而大数据、人工智能等技术的发展,使得辞书研发能够突破旧有路径,实现内容文本的融通提质,向智能化的服务型产品跨越。

1.从单一文本向多模态转变

尽管技术与日俱进,但“内容为王”仍是当下辞书编纂的基础准则,融媒辞书的核心依然是“文本”。当然,文本的概念外延已经拓展。

章宜华(2021)指出:从内容资源上,融媒辞书要将各种资源进行融通,既包括既有辞书资源,也涵盖其他内容资源,以及专家资源。从表征形式上,融媒辞书从简单的文字加图形图像,向文、音、图、视等多模态转变。值得注意的是,音视频、图片、动画等不仅仅是表征形式,更应被视为辞书内容的有机组成部分,以此才能实现知识的可视化、可闻化、可触化。同时,人工智能技术也具备了多模态输入功能,这更拓展了辞书的检索方式,为辞书的多场景应用、满足用户的学习需求和知识获取需求提供了基础。

2.建设知识服务系统

张国强(2018,2019)认为,智能时代辞书的知识服务是建立在“知识服务系统”之上的,即在某一知识领域,聚集相关知识,形成知识节点,为用户提供较为系统、全面的知识。未来,数据库、多媒体资源库、辞书内容库应进一步打通,构建系统、可信的知识仓库,形成数量庞大的“知识联合体”,从平面、静态、孤立的知识点提升为立体、动态、关联的知识体系,并通过标准化的数据接口,将库藏数据嵌入各类应用,以满足在不同场景应用中的用户查检需求。

3.提供学习解决方案

纸质辞书,特别是学习型词典,尽管做了很多创新设计,但限于篇幅,难以满足个性化需求。贺敏(2020)指出,融媒辞书应充分吸收现代语言教学与语言学等领域的研究成果,通过整合各类资源,聚焦词汇的深度描述,大幅提高词目内容信息的精细度和实用性;多模态的运用,使学习的内容更为易读易记;AR等新技术的运用,可提升学习效果;定制化的学习设计,使学习者可根据自身水平,创建学习课程,分配学习时间,强化知识的学习积累。

4.满足个性使用需求

为了更好满足用户需求,辞书的“定制化”也非常重要。朱莉芝、夏德元(2017)认为,定制化辞书可分为两种情况:其一,可适应的辞书;其二,自适应的辞书。目前业界在不断探索为用户提供个性化服务,但难点在于如何恰当地呈现内容,因此应通过设计和开发高质量的工具来促进用户快速简易地获取可靠信息,从而满足其个性化的即时信息获取的需求。

(二)推动辞书生产范式和营销模式的转型升级

技术给辞书编纂和出版带来的最深层的变化是底层逻辑的改变。这就要求辞书人改变相对封闭的生产方式,从编纂方式和生产范式上实现转型。

1.辞书编纂、出版智能化

辞书创新的根本在于建构新的范式。我们要进一步挖掘数字化的优势,把数字化、智能化技术与辞书的结构和内容进行深度融合,使融媒辞书更加智能化、科技化。

当今,计算机视觉、机器学习、自然语言处理、机器人和语音识别被认为是人工智能的五大核心技术(张承兵,黄丽娟2020)。其中,自然语言处理对辞书的数字化发展尤为重要,词汇语义网和词汇语义知识库、知识图谱等技术与辞书编纂相结合,数据智能分析、用户意图识别则更多用于辞书检索(孙述学2020)。而大语言模型的兴起,将大幅提升知识内容生产的效率,以人机协同方式完成辞书的编纂、出版是大势所趋。

同时,要将辞书内容与用户多元的使用场景充分结合,增强用户对辞书内容服务的依赖。

2.编纂模式更加开放

强化语料、编者、用户之间的融合,贯通语料、编者、用户的通道,利用先进的协作式编纂平台,变封闭为开放,建立以“语料驱动、自动生成、众源参与、编者审核、专家把关”的新编纂模式(吕靖2020)。要注意的是,为保证质量,众源参与的背后,仍需要编辑和专家的严格把关。

3.盈利模式走向多元

融媒辞书的可持续发展,要依靠可持续的多元的盈利模式。其一,可以通过不同使用场景,使得用户对权威融媒辞书形成依赖;其二,可以考虑跨界融合,通过不同的场景应用,通过辞书自带的知识服务与教育服务属性,通过辞书与其他资源的整合,甚至通过辞书的周边开发等来实现间接盈利。

中国辞书发展状况报告,中国古籍数字化现状

(三)强化数据资源建设,携手共建辞书业良性生态圈

《“十四五”数字经济发展规划》中提出,要推动数据资源标准体系建设,提升数据管理水平和数据质量,探索面向业务应用的共享、交换、协作和开放。

辞书编纂和出版的数字产业链条上,不同的机构承担着不同的角色。当前,辞书业的上下游环节、传统机构与互联网企业应携手加强数据资源管理,建设辞书的数据要素市场,积极探索以数据确权为核心的数字版权治理体系,共建“正版授权、分工合作、多方共赢”的数字化内容产业链,进行可持续性的合作开发,形成良性的知识服务产业链和生态圈。

上海辞书出版社在这方面进行了有益的尝试。他们在开发“聚典数据开放平台”的过程中,打破资源藩篱,整合优质内容资源,在扩大平台数据规模和为用户提供准确内容之间寻找平衡。同时对不同角色的企业和机构重新分工,出版机构着重于专业内容的生产与维护,合作机构侧重于产品运营和用户维护。出版社与互联网企业各展所长的“数据开放平台”维护了产业链各主体的利益诉求,这为辞书融合发展提供一种参考。

(四)加强学术研究和融合型人才培养

有专家建议,在人才使用方面,应建立统一的平台,把分散的行业人才统整起来,变“单打独斗”为整个行业的统筹协调。

但更重要也更迫切的还是融合型人才培养。首先,建议进一步发挥高校人才培养的重要作用,在出版学科建设中加强融合发展理论与实践人才培养,支持重点高校与出版单位、数字出版企业合作培养急需紧缺人才。其次,建议中国辞书学会进一步聚焦于融合发展,加强学术理论研究,举办专题培训班、研修班,重点围绕融合发展新趋势、新理念、新技能,精心选配师资,打造精品课程,着力培养“一专多能”的出版融合发展人才。此外,中国辞书学会举办的年会、学术讲座、学术研讨会、辞书学员沙龙、辞书编辑高级研修班等也都可以成为提升辞书工作者能力的有效途径。

融媒时代的到来,正推动中国的辞书事业的重大变革。未来的辞书将是流行于网络空间的一个个数据库、云平台和移动应用,在保障自身知识产权的同时最大限度地实现资源共享。让我们一起期待辞书数字化发展的美好未来!

(参考文献 略)

(本文首次发表在《语言战略研究》2023年第5期)

中国辞书发展状况报告,中国古籍数字化现状