法宝来签丨提升大模型在合同领域的“可控性”

供稿人：蔡治

人工智能生成内容的“可控性”是确保“可信性”的基础——总有一些原理、规则、观念、知识等底层内容是必须固定的。无论是哪种模式，本质上都需要依靠“知识”为大模型提供“可控性”。

在数字化转型的大潮中，法律行业因其庞大的数据规模、旺盛的数字化需求、强大的知识创新能力以及深远的社会影响力，成为AI大模型商业化实施的理想试验场。大模型为法律行业带来了全新的机遇，包括基础设施架构、技术应用路线、数据生态和业务场景的革新。然而，大模型的落地面临多重挑战。除数据治理、数据安全保护、科技投入成本控制及工程化能力提升等问题亟待解决的问题，具体到法律业务层面，虽然Transformer算法使大模型在基于用户指令对文本进行“理解”，尤其是泛化能力上具有优势，在处理复杂的、多层次的自然语言任务时表现出色。但是，由于大模型并非知识检索引擎，而是基于上文作出下文的概率预测，其预测结果取决于输入的文本、模型的初始化和训练数据的选择、token的限制等因素的影响，因而在知识、事实方面的反馈会出现“幻觉”问题，使得大模型在一定程度的读写工作上可“行”，但总体来说不可“信”，限制了其在专业领域的实际应用。

一、大模型，可行而不可控

对于生成式人工智能的效果来说，可信和可控是一体两面。为显得直观，我们以Sora生成的视频为例。尽管其画面在逼真度、流畅度、清晰度等各方面都让人惊艳，但Sora无法替代影视从业者或者视效工作者的根本原因在于，其生成的内容缺乏“可控性”。不久前，OpenAI邀请几位艺术家用Sora创造短片。其中，《Air Head》的作者Shy Kid点评道：“尽管Sora在生成看似逼真的事物方面非常出色，但令我们感到兴奋的是，它能制作出完全超现实的东西。”（As great as Sora is atgenerating things thatappear real -what excites usis its ability to make thingsthat are totally surreal.）也不知道这句话是夸赞还是挖苦。说到底，Sora做不到对真实世界的模拟，仍然是基于扩散模型对图像进行概率生成，因此当使用者需要对画面的某个局部细节作出微调时，这种生成式模型的调整成本就会过高。具体来说，像Sora最早放出的宣传短片，东京街头行走的女性，如果导演需要在其他内容不变的基础上，调整演员的着装、配饰，例如从银项链改成珍珠项链，并规定珍珠有多大颗，或者要求演员改变步态、步频、手臂摆角等细节时，由于生成过程的不可追及、检查，使得这些微调很难借助大模型本身的能力完美实现。

法宝来签丨提升大模型在合同领域的“可控性”

这也是为什么在CGI制作中“骨骼绑定”如此重要。为了保证角色皮肤、纹理、表情、动态的合理，需要从骨骼、肌肉等内部架构开始逐层建模，骨骼的运动必须考虑关节的可动限制，符合特定的运动轨迹。这些深层因素虽不直接呈现给观众，却是确保最终效果自然合理的根本。从这个意义上来说，人工智能生成内容的“可控性”是确保“可信性”的基础——总有一些原理、规则、观念、知识等底层内容是必须固定的。

法宝来签丨提升大模型在合同领域的“可控性”

回到法律领域，之所以说法律行业是生成式人工智能落地的理想领域，或许也是因为法律这门学科在价值取向上的兼容性、平衡性。其中，又以合同工作最为特别。合同文书在法律文书体系中占据着独特位置，一方面，它承载了交易各方对私权的意思自治，核心目的是确立各方的权利义务，为可能出现的争议提供解决依凭，因此要遵守法律规范、严肃对待。同时在长期的商事实践中，人们也逐渐打磨与总结出了许多标准模板和格式条款；另一方面，合同又是商业往来中的重要工具，商事交易的高效与创新使合同具有多样性和灵活性，相比裁判文书、行政公文等公权力文书，或者须遵循严格学术规范和源流谱系的学术论文，合同在格式和内容上无太多限制，因而在文字上有较大的可发挥空间与可解读空间。随着实践的不断发展，总有新的交易安排打破藩篱，既有交易方故意将不公平的交易结构隐匿在看似公正的对价里，也有交易方轻信复杂即严谨而觉察不到文本潜藏的漏洞。因此，合同文书呈现出一种独特的动态平衡——既有其固有的法律属性和商业属性所带来的规范性和灵活性，又有通过实践不断优化的智慧空间。这种独特性决定了对合同的理解需结合严格板正的法律规则、知识和多元活泛的业务理解。

因此，大模型在合同审查的应用，既要充分发挥NLP模型的泛化能力，又要遵循固定的规则和知识，确保可控可信。

二、依靠“知识”提升大模型的可控性

提升大模型的可控性，可以从源头和过程两方面着手。这两方面也被称为End-to-end Conversational Model和Pipline-based System，前者可以简单理解为模型训练，包括大模型的训练、调优，和小参数模型的训练；后者可以简单理解为通过优化prompt工程达成更好的模型反馈效果，例如通过在prompt里加入思维链（Chain of thought, COT）或者嵌入相关知识库，以检索增强生成（Retrieval Augmented Generation, RAG）技术辅助大模型生成更准确的内容。而无论是哪种模式，本质上都需要依靠“知识”提供“可控性”。这类“知识”属于是在人类学习的过程中，必须用记忆的方式进行固定存储、调取，即在一定精度层面，概念的搭配并不允许进行概率化地排列组合，必须进行固定搭配。

这类“知识”可能源自法律的规定——例如《中华人民共和国建筑法》第二十六条：“承包建筑工程的单位应当持有依法取得的资质证书，并在其资质等级许可的业务范围内承揽工程。禁止建筑施工企业超越本企业资质等级许可的业务范围或者以任何形式用其他建筑施工企业的名义承揽工程。禁止建筑施工企业以任何形式允许其他单位或者个人使用本企业的资质证书、营业执照，以本企业的名义承揽工程。”该条的规定决定了建设工程合同中的承包方不能是自然人。因此，如果大模型能精准识别合同中扮演承包人角色的为自然人，还需要知道相应的“承包方不能是自然人”的法律规定，才能精准提示相关风险。

这类“知识”也可能源自业务经验的累积——合同审查的本质，就是在茫茫风险情形中，筛出合同当事人最应该进行明确约定的情形，也即检查合同文书是否对风险情形约定得足够明确、详实。这些情形可以基于实践经验归纳固定，因此能够以审查清单的形式，供审查人逐一核实。因此，对于交易中可能发生的情形考虑得越多，在合同文书中反映得越详尽，越可能降低合同隐患。而相应的审查清单，不仅需要法务人员根据经验进行整理，还需要他们配合算法人员将相应的审查需求整理成可由机器执行的逻辑指令集。

此外，这种业务方面的整理既有利于在prompt工程方面的指示嵌入，又有利于在小参数模型方面的训练。事实上在法律大模型时代到来之前，部分法务工作已经通过“小模型”在各个场景中实现智能化应用，例如智能合同起草、审核和对比等。相比之下，小模型由于其训练目标的特殊性，可以更好地保证精准度和确定性。基于文本抽取与文本分类算法训练的小模型虽然缺乏大模型的理解和泛化能力，却能够避免大模型的幻觉问题。小模型通过对特定任务进行精细化的训练和优化，可以在特定领域或任务中取得令人满意的结果。

因此，无论是模型训练，还是prompt工程提升，抑或是小参数模型训练，数据占有与业务认知与是根本。在法律数据的广度、深度、精度、更新速度方面，北*法大**宝具有难以比拟的优势。北*法大**宝·法律法规数据库于1985年诞生于北京大学法律系，经过30多年的改进和完善，是目前国内成熟、专业、先进的法律法规检索系统。多年的积累奠定了北*法大**宝在数据方面的极大优势。北*法大**宝拥有10大通用数据库+19大专项数据库，其中，法律法规库收录1949年至今的430万+的数据，司法案例库收录大陆法院审理的1.4亿+的数据，法学期刊库收录286种刊物，共30万+数据，律所实务库收录律师律所4.2万+的数据，总数据量达3亿以上。

在实际产品研发过程中，北*法大**宝法律专业团队与技术专业团队通力合作，从数据、理论、知识、实务结合的角度，给出最符合合同工作者需求的审查点及其实现模式。一方面，利用大模型通用能力，由研究团队基于海量法律数据对大模型进行定向精调（包括但不限于预训练、指令微调、向量库内嵌等方式），打造可扩展、可迁移的大模型智能合同审查方案；另一方面，基于大量法律数据清洗工作，训练面向特定审查需求的算法任务，并通过明确代码承接业务逻辑，实现高准确性的小模型审查反馈。最终为用户呈现“数据+业务+模型”的可控智能合同助手——法宝来签。

法宝来签是一款由大模型驱动的智能合同 SaaS 服务平台，为用户提供合同管理、在线编辑、智能审查、智能对比、模板库、知识库等功能，并在持续迭代中。

我们诚挚邀请您立即体验法宝来签，开启您的智能合同管理之旅。

法宝来签

后台私信获取法律人专属解决方案~