来源:BanTech智库
作者: 中国银行软件中心(西安)张鹏举 严洁 王鹏程 宋培兰 常珂凝

随着银行移动端用户迁移完成,各平台专注打造自身生态,搜索作为重要的流量入口备受关注。好的搜索功能不仅可以让用户有更好的体验,更可以促进运营转化率、用户留存等关键商业指标的提升。如百度、淘宝、*今条头日**等平台依托海量的用户以及强大的技术储备,已遥遥领先业界。
随着国内各大银行线上业务的拓展,手机银行等线上渠道运营的功能2000+、金融产品10000+,涉及用户1亿+。通过搜索做好服务对接,增加用户黏度、拓展业务推广变得越发重要。因此,急需构建移动端智能搜索引擎,以更好支持业务发展。
一、业务需求
当前,银行业运营的手机银行等多个移动端APP均有搜索需求。移动端APP、网页等渠道侧有综合搜索(如功能、产品、生活、活动等多种类型)、商城商品搜索、热门资讯搜索等需求;人工客服、客户/理财/信贷经理等在服务客户的过程中需要对功能/产品说明书、活动资讯、申请资料、合同等结构化/半结构化/非结构化信息进行检索;财会、内审、法审等场景下也有内部文件搜索需求,例如当国家政策发生改动,管理者需要调阅所有关联制度进行统一调整;国际结算方面,需要对信用证、海关单等各种申请材料与单据进行检索;业务运营过程中同样涉及关联合同的搜索,可见搜索在银行业的应用场景多,需求广泛。
然而,搜索功能存在一定的技术门槛,不同的技术实现方式导致搜索效果参差不齐。传统搜索效果是怎么样的?对文件,传统搜索使用通用的全文字符串匹配技术,例如对文件的名称使用通用分词器分词后进行倒排索引,导致较难查找到目标文件。在分词器、倒排索引排序上都有极大的提升空间;对结构化数据,结构化数据入库后,传统搜索使用通用字符串匹配,在字段中进行搜索,不具备对搜索内容进行纠错、补全、联想提示等能力,这对分词器、输入文本准确性要求高,用户体验差。
为解决以上问题,我们设计了银行移动端智能搜索引擎,健全各渠道体系化的意图识别能力,使其具备领域意图识别能力、归纳及定制意图的识别能力;健全各渠道体系化的数据整理能力,使其具备高效的关键内容抽取能力、挖掘领域词典优化分词器能力、挖掘结构化、半结构化和非结构化关联要素进行图谱关联能力等,最终支持多种不同的内容格式及不同的呈现方式,打造新一代智能搜索服务。
二、智能搜索引擎设计方案
1.设计目标
作为全行统一的智能搜索服务平台,智能搜索基于行内数据,利用先进技术,为客户打造智能、精准的搜索服务。以用户为中心进行服务聚合导航,匹配用户需求与银行服务,增加用户黏性、拓展业务广度,支持业务发展;构建企业级搜索服务,促进运营转化率、用户留存等关键商业指标。
2.设计原则
智能搜索引擎作为全行统一的搜索中心,为实现用户、服务、业务数据透明化管理(即领域服务隔离)、服务安全管理和共享,应遵循以下原则:
(1)安全与体验平衡原则。 合理考虑安全实现、响应速度和性能之间的平衡,合理规划前后台协调工作模式。
(2)用户无感原则。 服务间相互隔离,基于TokenID(密钥)自动发现用户搜索服务,做到不同服务间用户透明化管理。
(3)服务配置化接入原则。 支持通过管理端进行配置化开发,实现服务快速接入。
(4)安全服务化原则。 对服务维度进行权限隔离,对后台搜索数据进行隔离管理。
(5)运维自动化。 打通前后台数据交互闭环,通过搜索用户行为反馈,构件搜索系统自学习模式,自动持续优化搜索系统,使得搜索越来越“聪明”,越来越“懂你”。
(6)可审计原则。 通过配置管理日志,支持对相关操作记录进行跟踪审计。
3.设计要点
(1)服务安全隔离: 根据TokenID(密钥)进行用户隔离,定位用户搜索服务入口,进行内部流量分发,实现不同服务间完全隔离。
(2)数据采集: 针对业务数据,完成待检索业务原始信息自动接入,实现用户间透明化管理。
(3)索引库构建: 自动完成从原始信息表至索引库,“一键式”数据同步。
(4)智能搜索算法: 基于“语义搜索+知识图谱搜索”技术,以大数据、人工智能平台为支撑,使用Spark等计算框架,完成大数据知识计算。通过用户需求挖掘、语义标签计算,采集丰富的用户数据。从知识计算到搜索排序,通过主动学习机制,进行搜索持续自优化。
(5)检索机制: 检索机制应支持规则过滤、意图直达、文本检索、语义检索、多路召回、混合搜索等多种搜索模式,并预置搜索模板,生成特定搜索服务;支持用户通过管理端完成搜索策略调整,实现直线语义检索、智能排序、个性化排序等多种智能搜索功能。
(6)高性能服务海量客户支持: 通过分布式框架,支持多实例、无状态横向扩展、混合部署,实现搜索微服务化;通过ES、Spark、MQ等分布式技术框架实现数据的缓冲、存储、计算;基于MySQL进行索引库数据同步备份,支持不同实例间服务快速恢复、流量自动切换,达到数据备份功能。
(7)管理端维护: 实现系统以及搜索相关配置,实现租户间的有效隔离,支持用户对搜索功能、检索规则、以及知识图谱、索引项等相关参数的维护操作。
(8)搜索分析: 对搜索日志等进行分析,综合评价用户体验及搜索效果,为搜索体验及系统建设提供优化思路。
(9)系统部署: 全行一套系统,并充分利用大数据、AI算法、微服务等技术平台能力,实现多实例、服务混合部署,基于TokenID进行服务发现、业务逻辑隔离。
(10)数据生命周期: 总体是保证数据新鲜,符合业务与客户搜索要求。按照上游系统源数据更新频率,搜索组件只保留最新版本数据。个别领域根据需要保留相应历史数据(如手机银行旧版本功能名称等),管理端数据维护功能供业务紧急增删改搜索数据、设置开关确保数据服务可随时启动、停止服务。
4.总体设计思路
为构建企业级对客搜索服务,实现各渠道功能快速接入,方便用户快速定位所需信息、服务。将智能搜索引擎分为数据接入层、数据加工层、索引服务层、搜索微服务(业务逻辑层)。
数据接入层分为批量接入和联机接入两种。数据加工层将实现搜索文本预处理、历史搜索分析、共现词频统计、关键词计算、关联词计算、主题聚类、主题词挖掘、语义向量计算、领域实体识别等功能。索引服务层将为上层搜索微服务提供基础数据索引支持,主要分正排索引、倒排索引两种形式,实践中根据实际条件,组建可选项,提供合理索引构建方式以及对应部署方案;对于搜索,为提升搜索智能体验效果,利用知识图谱、语言模型等前沿技术对搜索内容语义进行进一步解析。
搜索微服务实现查询请求解析、查询语*解义**析、搜索精排服务、搜索结果查询服务、业务干预服务、结果返回等。其中,查询请求解析将解析特定查询请求,并将其映射为若干个对应索引库的召回方案,进行查询结果召回。查询请求解析核心支持两类接口:精准搜索及通用搜索。其中精准搜索支持对布尔、数值、字符串、枚举、日期等类型数据进行精确、模糊、范围、多条件组合查询;另外,通用搜索,支持对请求内容进行分词、实体识别、关键词分析、需求扩展、语义向量求解、意图识别等。为召回更多更好的结果,查询语*解义**析将支持多种语义信息提取处理。搜索精排模块主要针对搜索服务,对召回的正排结果结合业务需求、用户偏好等进行结果调优。搜索服务内置丰富相关性计算算子,主要分为文本相关性、(多模态)语义相关性,进行相关性特征提取。基于相关性特征,对召回结果进行综合排序,主要分为人工调权和ltr(机器学习)两种特征融合方式。
三、结语
本研究提出的银行服务系统智能搜索引擎支持对文本、语音、图片等不同形式结构化、半结构化、非结构化数据进行精准、模糊、范围及组合搜索,提供更精准的检索结果;支持多样化的场景构建能力;实现搜索自优化反馈闭环,支持海量数据进行实时查询,秒级响应;打造企业级搜索组件,面向全行各渠道提供可定制化的统一搜索解决方案。
未来,智能搜索引擎将继续坚持以科技创新为手段,数字化转型为驱动的发展策略,以高效、精准、全面为目标,将自身打造成配置功能更加全面、客户体验更加优良的搜索平台。
-END-
这是科技创新最好的时代,这是属于我们每个人最好的时代,关注“BanTech智库”,专注银行科技发展,探索*界无**金融生态!