端到端解决方案在光学音乐识别领域带来了重大进展。这些方法直接提供乐谱给定图像的符号表示。

尽管如此，一些文档，如钢琴形式的乐谱，还不能从这些解决方案中受益，因为它们的结构复杂性不允许它们有效转录。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

本文介绍了一种神经方法，其目标是以端到端的方式转录这些乐谱。我们还介绍了GRANDSTAFF数据集，其中包含53882个采用常见西方现代记谱法的单系统钢琴乐谱。

这些源以标准数字音乐表示形式及其对当前转录技术的适应进行编码。本文中提出的方法是使用该数据集进行训练和评估的。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

结果表明，所提方法首次能够以端到端的方式有效地转录钢琴形式的符号。

介绍

将音乐文档的内容转录为结构化格式为数字人文和音乐学带来了好处，因为它支持应用依赖于符号音乐数据的算法，并使乐谱库更易于浏览。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

鉴于手动转录的价格，手动转录大型历史档案是负担不起的。在这种情况下，乐谱的阅读需要自动化，就像光学字符识别（OCR）或手写文本识别（HTR）领域的现代技术能够自动处理书面文本一样。

光学音乐识别（OMR）领域涵盖了音乐背景下这种计算读取的自动化。整体方法，也称为端到端方法，已经开始主导顺序标记领域，例如HTR或自动语音识别。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

在OMR中，这些方法在乐谱检索可以很容易地表示为序列的情况下被证明是成功的。这适用于单声道乐谱或传统音乐符号语言，其中不同的声音是单独编写的。

然而，许多作品的乐谱是使用大五线谱写成的，即两个五线谱组合在一起，例如用于钢琴的五线谱.在相关文献中，这类乐谱也被称为钢琴形式。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

然而，迄今为止，还没有试图识别此类分数内容的端到端系统。这项工作提出了第一个钢琴形式乐谱的端到端识别方法。这是将整体模型应用于所有OMR应用的第一步。

我们考虑了一种受最先进的全段HTR研究启发的神经方法，OMR问题与OMR问题分享了一些挑战。这种方法提供了基于乐谱文本编码的乐谱序列化。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

同样，由于这是解决这个问题的第一次尝试，这项工作还引入了GRANDSTAFF数据集，这是一个从真实符号数据渲染的孤立大五线谱的大型语料库。

为了引入更多的可变性，图像既以完美的状态提供，又通过计算机视觉技术进行增强，以类似于真实光学捕获过程的可能失真。

在我们的实验中，我们考虑了各种神经方案，这些方案在处理输入的顺序特征的方式方面有所不同，对输出序列进行编码的几种方法，以及根据样本的图形质量的不同场景。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

所有这些使我们的工作能够为端到端钢琴型OMR建立第一个基线，并为未来的研究提供坚实的基准。

实验设置（其中定义了所有实现和评估指标）在 Sect. 中进行了描述。而取得的结果在章节中进行分析。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

背景

鉴于其复杂性，OMR过程传统上分为几个独立处理的阶段。从根本上说，存在第一组，其中检测基本符号，例如音符头，光束或偶然符号（通常称为“基元”）。

这涉及处理输入图像以隔离和分类这些组件，由于存在人员线和复合符号等伪影，这并不简单。在第二组阶段，推断不同原语之间的句法关系，以恢复乐谱的结构。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

传统上，这些阶段是通过将图像处理技术与基于手工制定的规则的启发式策略相结合来解决的。

最近，通过使用深度学习，这些相同的阶段已经独立地接近了。这大大提高了每个单独任务的性能，但反过来并没有对研究领域本身的进步做出同等的贡献。

总的来说，多阶段解决方案已被证明是不够的。深度学习也使OMR作为一个整体的处理方式多样化：现在有替代管道，他们自己正在进行的研究，试图在一个步骤中面对整个过程。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

这种整体范式，也称为端到端公式，已经开始在其他应用中主导当前技术水平，例如识别文本、语音或数学公式。

然而，从图像推断音乐结构的复杂性使得目前很难将OMR表述为端到端可学习的优化问题。虽然OMR的端到端系统确实存在，但它们通常仅限于单音音乐符号。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

一些方法最近设法扩展了端到端的公式，以处理更复杂的分数，例如同音和单法谱复调。

然而，拥有一个通用的OMR端到端转录系统，可以处理各种符号，包括钢琴形式的乐谱，仍然是一个需要应对的挑战。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

格兰斯塔夫数据集

已经做出了一些努力来创建 OMR 的数据集。一方面，有一些语料库，如DeepScores和MUSCIMA数据集，其中包含各种各样的带注释的音乐文档，包括钢琴形式乐谱的子集。

尽管提供了有趣的样本，但它们尚未被设想用于训练端到端 OMR 解决方案，并且不包含标准数字音乐符号格式的基本事实。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

另一方面，有些语料库被专门标记为端到端OMR转录。然而，实际上它们都缺乏复调和钢琴形式的样本，因为它们主要包含单音或同音音乐摘录，这使得它们不适合本研究的目标。

鉴于这一差距，我们设计了一个专注于端到端钢琴转录任务的数据集：GRANDSTAFF语料库。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

术语“大五线谱”在乐谱中用于表示钢琴乐谱。它由两个五线谱组成，这两个五线谱在开始时用一个大括号连接，其条线与两个五线谱交叉。

这项工作中引入的数据集由53，882张单行（或系统）钢琴形式乐谱的合成图像及其数字乐谱编码组成。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

在本节中，我们将介绍此数据集中乐谱的编码表示，因为它们是本文中提出的方法的关键方面，并且我们详细介绍了语料库本身的创建方式。

单声道乐谱评价

本文提出的音乐转录方法涉及通过将输入图像与其相应的字距基本实况符号对齐，将其作为多行努力。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

这种方法不仅限于复音音乐（因为它依赖于视觉文本对齐），并且可以应用于其他KERN编码的乐谱，包括单音乐谱，这是现有端到端OMR技术的主要目标。

为了完成对这项工作中考虑的方法的分析，我们进行了额外的实验来评估其对单音乐谱转录的有效性。我们使用相机版本的“音乐五线谱打印图像”数据集训练了我们的模型，这是端到端OMR的著名基准。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

我们的实验结果比较了本文中采用最先进的整形方法（垂直坍塌）和展开方法的已实现模型的性能。

实验结果表明，展开方法能够成功地进行端到端单音转录。但是，与垂直坍塌方法相比，这种方法报告的准确性较低。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

这种性能主要归功于内部实现的卷积架构，它能够将最先进的结果提高 1% 的 SER。值得注意的是，我们还进行了一个额外的实验，使用GRANDSTAFF训练的网络直接转录单声道乐谱。

然而，这个案例的结果表明，模型无法检索到几乎不准确的预测。因此，我们所有的经验结果表明，我们的方法可以有效地执行单音和复音任务的转录，但尚未通过训练独立的任务特定模型来执行。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

结论

这项工作展示了第一个端到端OMR方法的建议，该方法用于解决钢琴形乐谱的转录。该解决方案扩展了最先进的员工级转录方法，并受到多行文档转录的启发。

我们特别利用了标准的数字音乐记谱系统，并实现了一个神经网络，该网络学习展开旋转的钢琴形式系统并将其与其相应的成绩单对齐。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

这种方法是用弱注释数据训练的，因为它只需要成对的图像及其数字文档表示，而不需要任何几何信息，例如图像中的员工位置或符号位置。

评估结果表明，所提方法以合理的错误率成功转录了钢琴形式的音乐系统。这在实现有效的端到端OMR系统方面取得了明显进展。我们的工作还为未来应对同一挑战的工作提供了基线结果。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

作为未来的工作，本文开辟了几条研究途径。在本文中，我们提出了一种用语义音乐语法构造的输出序列。但是，OMR 中的大多数结果都以基于图形的词汇表作为其系统的输出。

可以对使用这种方法或联合转录和机器翻译管道进行比较研究，如中所述。此外，所提出的方法仅限于仅同时*放播**的音乐五线谱。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

也就是说，这种方法只能扩展到包含完全同步音乐的整页，但不能扩展到顺序结构的复调五线谱，因为我们坚持在这些情况下不遵循的特定阅读顺序。

因此，未来的工作应该集中在如何扩展转录系统，以解决整页复调音乐乐谱识别主题，就像在HTR领域与整页文档一样。

钢琴视觉演奏怎么录,最好听的钢琴音乐乐谱

最后，这项工作表明，由于KERN格式，所实现的方法能够通过旋转和对齐数字音乐表示来转录复调（钢琴形式）和单音音乐图像。

但是，鉴于报告的结果，必须将网络作为单独的任务进行培训。还可以探索该方法在其他乐谱类型的一般应用，从而研究通用OMR解决方案。

钢琴音谱识别 (钢琴曲谱光遇指纹)

介绍

背景

格兰斯塔夫数据集

单声道乐谱评价

结论