游戏与众包:图书馆的数字化复兴之路

当William Brewster开始在剑桥记述鸟类和野生动物的栖息地时,他还只有14岁。在19世纪末到20世纪,他记述了他家乡50多年的自然变化情况。

Brewster的工作成果(该收藏的一部分收集于哈佛大学Ernst Mayr图书馆的比较动物学博物馆)是研究该地区自然历史的珍贵资源。然而,在将这些手写的观察卷宗转录成数字文本文件,从而可以在网上进行传播的过程中遇到了一个大问题。

针对这个问题,一项新的举措应运而生,即利用游戏和众包的形式将这项艰巨的任务交给哈佛和全世界感兴趣的人,从而可以加快文件的转录进程。

游戏与众包:图书馆的数字化复兴之路

该项目由博物馆与图书馆服务研究所资助,征募视频游戏爱好者来帮助对不容易转化成干净的文本文件的数字抄本进行校正。这样一个目的*游戏性**是由密苏里州植物园、Ernst Mayr图书馆、康奈尔大学的纽约植物园和一个叫做生物多样性历史图书馆的档案协会其他成员共同协作的成果。

「我们希望对游戏感兴趣——同时也希望做一些有意义的事情——的人发现这些游戏就是完美的答案。」 Ernst Mayr图书馆管理员Constance Rinaldo说。「那些热爱漂亮书籍,同时对于早期科学探索、自然历史和游戏非常着迷的人们可以有机会帮助发现手写笔记和其他难以自动抄录的文件中的内容。」

正在研究中的这种方法是光学字符识别技术(OCR)的一个很好的替代方法,可以将文本中的图案转换成文本文件。OCR非常适合均匀打印的文本,但是面对手写文件和特定字体时就显得捉襟见肘。

由于Ernst Mayr图书馆是该协会中第一个将现场笔记和日志进行数字化的图书馆之一,因此它也是该基金资助的合作伙伴之一。约有十二卷Brewster的日记被用来测试这样一种形式的游戏效果。

「通过光学字符识别技术来识别这些手写的笔记几乎没有任何效果,因为这种技术并不能正确识别这些字符,从而无法将这些笔记正确地转换成文本文件。」比较动物学博物馆技术服务负责人Joseph deVeer说。「简单地说,这个目的*游戏性**项目希望通过游戏(该游戏中游戏爱好者可以努力调和不同的版本并且决定哪个版本更准确)来获得多个转录版本。」

达特茅斯学院的数字设计工作室和研究实验室Tiltfactor为该项目设计了两款视频游戏。

第一个游戏是Smorball,类似于视频足球游戏。玩家可以通过在对手完成前输入显示在屏幕上的文字或者短语来得分。而Beanstalk则是一个节奏相对较慢的游戏,在该游戏中,玩家输入正确的答案后就可以让魔豆生长。

通过各种游戏,玩家可以帮助解释和转录Brewster的工作成果扫描页。对于每一个单词或者短语,在游戏软件进行匹配并对答案达成共识之前,至少有四位玩家提供解释。

「该游戏软件确定一种解释的方式是:当接收到至少4个输入,并且其中一种解释的比例超过75%时,那么就认为这个解释是合理的,因此该方法是建立在玩家对于任一单词达成共识的基础之上的。」 Patrick Randall说。Patrick Randall是该项目与哈佛生物多样性遗产图书馆的外联协调员。「当有足够的玩家认可了一种解释时,该游戏会将该单词视为完成。一旦文本一页的所有单词都完成了,该文本就会从游戏中移除。」

该游戏有众多追随者,从生物多样性遗产图书馆社区的人们到对大众科学感兴趣的人们,再到寻找新鲜挑战的游戏玩家等等不一而足。

在去年秋天,Tiltfactor将Smorball和Beanstalk带到了波士顿独立游戏节上。仅仅一天,大量的玩家就在两台笔记本电脑上校正了超过10000个单词。Smorball被评为游戏节上「最佳严肃游戏」。

Mary Flanagan是Tiltfactor实验室的创始人和负责人,同时也是达特茅斯学院数字人文领域的Sherman Fairchild杰出教授,他表示该游戏在准确性和普及度方面的成功可以说是让人大开眼界。

「鼓励公众参与支持文化遗产的游戏具有非常光明的前景。也就是说,我认为这种类型的参与和宣传推广已经成为该机构不可或缺的使命,他们也需要开辟具有这样参与机会的市场,比如可以举办展览或者作为特殊收藏。我相信这些早期项目证明了这一概念,从而使机构能飞速发展。」Flanagan说。

游戏与众包:图书馆的数字化复兴之路

哈佛大学的图书馆工作人员也看到了使用游戏和众包在拓展人们接触旧版手写文件和其他充满挑战的材料的潜力。

例如,William Brewster的记录中包含了大量关于气候、鸟类多样性和栖息地变化等方面的珍贵数据。Ernst Mayr图书馆收集了Brewster 45年的资料,包括日志、现场笔记和手稿,一卷就有450多页。训练有素的打字员也需要15分钟左右的时间才能将一页文件输入成文本文件。

「通过这个项目,不到一年的时间就完成了Brewster 12卷卷宗的输入和校正等工作。」 Randall说。「如果我们没有这些工具可以利用,如果只有图书馆的工作人员在从事这部分工作,那么我们不可能完成这样的工作;即便可以完成,这也需要花费数年的时间。」

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。