论文地址:https://arxiv.org/html/2403.17411v1
提示压缩是一种创新方法,可有效压缩输入提示,同时保留基本信息。作者推出了提示压缩工具包 (PCToolkit)。 该工具包是一个统一的即插即用解决方案,用于压缩大型语言模型 (LLM) 中的提示,具有尖端的提示压缩器、多样化的数据集和用于综合性能评估的指标。 PCToolkit 采用模块化设计,可以通过便携式且用户友好的界面轻松集成新的数据集和指标。

PCToolkit 的架构:
压缩 器 模块包含5种即时压缩方法,可以通过具有可定制参数的统一界面进行访问。 数据 集 模块包括 11 个不同的数据集,度量 模块包括 用于评估各种压缩机的性能的五个主要度量。 运行 器 模块提供了一个通用接口,用于执行评估或简单地检索压缩器生成的压缩提示。
1、压缩算法:
1.1. Selective Context,测量的冗余内容来提高法学硕士在推理中的上下文效率 。
1.2. LLMLingua, 涉及一个预算控制器,用于在高压缩比下保持语义完整性。
LLMLingua-2,能在保证输出质量不变的前提下,将提示词压缩到原始长度的20%。
1.3. LongLLMLingua,增强了处理“ 迷失在中间” 问题 的固有挑战,当模型必须在长上下文中访问相关信息时,LLM 的性能可能会显着下降的现象 。
1.4. SCRL, 是一种基于强化学习的方法,旨在根据 概率删除或保留标记。
1.5. KiS, 是一种无监督文本简化方法,它学习平衡三个属性的奖励:流畅性、显着性和简单性。
2、数据集:
GSM8K,包含 8.5K 个高质量的小学数学语言多样化应用题。
BBC News、Arxiv 和 ShareGPT, BBC新闻提供来自BBC的新闻文章, Arxiv文章提供代表正式背景的科学文章。 ShareGPT 包含从人类与人工智能对话中收集的上下文.
BBH,是一个多样化的评估套件。
LongBench,是第一个双语、多任务、综合评估大型语言模型长上下文理解能力的基准。
Gigaword、BNC、DUC2004、Broadcast和 Google,Gigaword和 DUC2004包含抽象的真实摘要,其余三个数据集 具有令牌级提取的地面实况摘要。
3、指标:
BLEU、ROUGE、BERTScore、Edit distance和准确性。 前四个指标用于比较两个字符串之间的差异,而准确性则用真实答案来判断 LLM 提供的结果。
4、工具模块设计:
由Compressor、Dataset、Metrics和Runner组成。
4.1.pctoolkit.compressors包含五种专为即时优化而定制的最先进的压缩方法。
4.2.pctoolkit.datasets该模块拥有十多个数据集的多样化集合。
4.3.pctoolkit.metrics在量化不同任务的压缩方法的性能方面发挥着至关重要的作用。
4.4.pctoolkit.runners模块充当驱动评估过程的引擎,协调压缩方法、数据集和评估指标之间的交互。
5、统一接口:
对于简单的压缩任务,选择一台压缩机。 将原始提示输入到压缩器,压缩器输出目标压缩提示。 对于数据集评估,选择一个数据集和多个指标,以及选择的压缩器,这三部分部署在Runner中。 Runner将根据指标列表提供评估结果,其中包括所有期望的指标。
6、评估:
压缩率,定义为减少的上下文长度与原始上下文长度的比率。
短上下文任务,对于具有精确答案的任务(例如数学问题),通常使用准确性和编辑距离等指标。
长上下文任务,对其进行评估 LLMLingua 和 LongLLMLingua。 对于指定问题,LongLLMLingua 的表现比 LLMLingua 好得多。
结论:
PCToolkit,一个专为快速压缩和评估而设计的开源项目。 该工具包为研究人员和从业人员提供了用户友好且全面的资源,具有五种尖端压缩方法和十多个包含广泛自然语言任务的不同数据集。 通过对重建、总结、数学问题解决、问答、小样本学习等各种任务进行严格评估,我们证明了集成到 PCToolkit 中的压缩技术的有效性和多功能性。
点评:
优化压缩方法的开发可以在人工智能研究和部署中带来更加可持续和环保的实践,这个工具值得试用并结合具体场景进行有效扩展。