随着智能手机的普及,人们对于获取和分享图片信息的需求日益增长,手机相册成为了我们存储和整理照片的重要工具,对图片搜索也有了更高的要求。之前的搜索功能往往局限于简单的图像识别和搜索,缺乏对语言深度的理解和处理,人们很难快捷的找到需要的图片。在大模型时代,许多手机厂商通过大模型实现了自然语言搜索图片的功能,让图库搜索的使用体验更上一层楼。今天,我们就来评测一下各款手机图库的自然语言语义搜索功能,为有搜图需求的用户提供一个购买参考。
在各家厂商中,有华为、VIVO、荣耀都宣称支持使用自然语言搜图的能力。



我们从已发布正式版本中明确支持AI搜图的厂商中选出 华为Mate60 Pro、VIVO X100及荣耀Magic6 Pro 三款具有代表性的旗舰机型进行测试。本次测评旨在评估各大手机厂商旗舰机的图片搜索能力,评测从日常生活中抽取素材,总结生成相应评测维度。
1. 评测方式
在用户搜索图片的场景中,常常是照片的一些特征在脑海中,却很难在相册中直接找到那张图片,需要输入一些信息来搜索。所以在AI搜图的评测中,我们重点关注使用图片的特征,包括时间、地点等,以及各家重点宣传的通过自然语言描述图片内容,能否搜到想要的图片,将是否搜的更全作为打分的标准。
不同词汇的搜索难度不一,为了便于评价我们定义了三个评测搜索能力的层级:
初级:针对图片单一内容或某个属性的简单搜索。
中级:针对图片中多个内容、属性较初级更复杂的搜索。
高级:针对图片中表情、主题,以及抽象概念的复杂搜索。需要AI大模型具备较强的语义/图像理解能力。
三个层级的详细范围如下:
|
评测层级 |
分类 |
测试实体 |
举例 |
|
初级 |
时间 |
相对时间、绝对时间、节假日 |
相对时间:2023年8月绝对时间:去年5月节假日:春节 |
|
地点 |
地址、地标 |
地址:黑虎泉西路地标:*安门天** |
|
|
单一对象 |
常用搜索类型的简单搜索语句。类型包括风景、美食、亲子、动物、运动、往事、穿搭、文档 |
狗、草原、吃饭、小女孩、地图、游泳、牛仔裤 |
|
|
中级 |
多对象 |
多个对象如多个人、多个动物等的合照 |
丈夫背着妻子 |
|
复合对象 |
常用搜索类型的有主体+属性+行为的复杂搜索语句 |
小狗在草地上追逐着飞盘 |
|
|
高级 |
表情 |
包含笑、哭、伤心等表情识别的搜索语句 |
开心的小女孩 |
|
主题 |
需要根据画面元素识别出画面主体的搜索语句 |
城市夜景、昏暗的房间、自行车比赛 |
|
|
抽象概念 |
文字较为抽象,包括诗句、风格、成语等搜索语句 |
十面埋伏 |
确定了测试的搜索的层级和范围后,为了从整体、各个层级和分类等不同角度来分搜索结果,需要确定对应打分标准。我们本次评测围绕不同搜索语句下结果是否全进行打分,使用类似行业内召回率的概念对结果进行量化。
目标图片被搜到的比例 = 实际搜到目标图片张数 / 应该搜到目标图片张数
然后根据目标图片被搜到比例*10进行打分(0-10分)。再汇总每一类的搜索语句的平均打分,得到每个场景、每个层级和最终的评分。
2. 评测结果
1. 初级
测试初级场景中,在时间搜索中各家均表现优异,地点搜索则由于华为有地点没搜到,得分较低。而在语义搜索的部分,单一对象的结果三者有明显的差距,荣耀搜索结果明显优于VIVO和华为。
对比结果打分如下:
|
评测层级 |
分类 |
打分 |
||
|
华为 |
VIVO |
荣耀 |
||
|
初级 |
时间 ★ |
10 |
10 |
10 |
|
地点 |
4 |
9 ★ |
9 ★ |
|
|
文字 |
4 |
4 |
10 ★ |
|
|
单一对象 |
5 |
7 |
9 ★ |
|
场景一、时间的搜索
可以看到,华为、VIVO和荣耀的整体表现相当,都能搜到优质的目标图片。

场景二、地点类的搜索
华为Mate60 Pro在部分常用地点没有搜到结果,荣耀和VIVO仅有少量的照片没搜索到。

场景三、单一对象的语义搜索
下图可以看到三者搜索结果存在明显差距。在测试数据集相同的情况下,对比搜到的目标图片数量发现,荣耀手机搜索的正确照片最多,VIVO次之。

2. 中级
中级测试场景中,评测使用了一些比较复杂的语句,涉及多对象搜索和复合对象搜索,荣耀展现了更完备的大模型语义理解能力,不仅在复合对象搜索表现出优势,搜到的正确图片最全,而且在多对象搜索中表现最佳。
对比结果打分如下:
|
评测层级 |
分类 |
打分 |
||
|
华为 |
VIVO |
荣耀 |
||
|
中级 |
多对象 |
0 |
8 |
10 ★ |
|
复合对象 |
8 |
8 |
9 ★ |
|
场景一、多对象搜索
我们测试了合照场景,如“丈夫背着妻子”。在搜索结果中,荣耀和VIVO都能搜到不少图片,其中荣耀的结果最佳。华为在这个场景中直接选择了弃赛,找不到图片。

场景二、复合对象搜索
搜素结果表现仍然是荣耀搜索正确的图片数量更全,华为和VIVO都存在部分搜索语句搜不全的情况。

3. 高级
在高级的搜索能力测试中,我们进一步提高了搜索难度。注意,并不是单纯地增加属性或者延长搜索语句,那仍是中级的范围,且过长的搜索语句也脱离了真实的用户场景。这里我们要关注的是一些不能直接从图像中获取到文字内容的搜索语句,实现高级搜索,需要AI搜图大模型具有更强的语义理解能力。
结果显示,荣耀搜索能力在表情和抽象概念两项测试维度中表现十分优异,特别是在抽象概念这一项达成了明显的领先,在主题搜索中各大手机厂商表现都势均力敌。
对比结果打分如下:
|
评测层级 |
分类 |
打分 |
||
|
华为 |
VIVO |
荣耀 |
||
|
高级 |
表情 |
1 |
7 |
10 ★ |
|
主题 ★ |
9 |
9 |
9 |
|
|
抽象概念 |
5 |
4 |
9 ★ |
|
场景一、表情识别
我们对比了常见的微笑、哭、伤心等搜索语句。华为再次出现了搜不到的情况,而图片搜索正确的数量仍然是荣耀最全。

场景二、主题识别
这里我们选择了比赛场景的搜索语句,如自行车公路赛、花样滑冰。结果搜到的正确图片数量三家手机基本一致。

场景三、抽象概念识别
我们这里使用了成语、电影名作为搜索语句:十面埋伏。可以清楚看见这里只有荣耀理解到了要搜索的是《十面埋伏》并且还搜索到了相关舞剧照片,另外两家都没理解成语的语义未返回结果。

4. 综合评价
综合我们初级、中级、高级三种级别的搜图测试和评分,我们可以得知:
1、在时间、主题识别和复合对象的评估测试维度各家表现相当。
2、在单一对象、地点、多对象这些评估维度,VIVO的大模型搜图能力和荣耀旗鼓相当,而华为则稍稍有些掉队。
3、在高级的模糊语义搜索中如:表情识别和抽象概念理解,荣耀魔法大模型上交了十分优秀的搜索答卷,为我们展现了更精准的AI搜图能力;VIVO和华为则略逊一筹,还存在进步空间。
另外在测试过程中,我们发现各家的功能规格还存在一些差异。如在图片很多的时候,荣耀Magic6 Pro、华为Mate60 Pro支持返回大于50张搜索结果,而VIVO X100在有的场景最多只有50张。荣耀除了支持图片搜索,还突破性地支持用自然语言搜索视频,支持的媒体格式更全。我们还在断网场景下测试了它们的AI搜索,测试结果跟联网状态完全一致,看来三家都是端侧的大模型,都最大限度地保护了用户隐私。
上述结论不仅仅是对手机搜图能力的评价,更是对手机厂商大模型能力在图像语义理解方面表现的一次实践考核。我们相信,通过不断提升大模型能力和技术水平,手机语义搜图技术将会迎来更加美好的发展前景,为用户带来更加便捷和智能的图像搜索体验。