
szhzxw.cn/cxounion.org
2000年,作为早期万维网(World Wide Web)最受欢迎、增长最快的服务之一,雅虎处于有利地位,赢得了有史以来最大的市场机会之一。
那时的互联网还相对较新(1700万个网站,而今天有16亿),像Yahoo这样的公司还属于一个名字笨拙的类别,有时被称为“起始页”或“门户”——电子邮件、新闻、金融和体育等服务的门户。雅虎在流量上遥遥领先,因为它拥有当时最友好的界面和最好的内容,适合这种新的“网络”体验。
同年6月,Yahoo选择谷歌作为其“默认搜索引擎提供商”,Yahoo的搜索框突然被宣传为“由谷歌提供支持”。然后用户发现他们只需要去谷歌进行搜索。
如今,谷歌(又名Alphabet)拥有1.7万亿美元的市值,而Yahoo在人们的记忆中是早期商业互联网的失败者,不知为何,它未能在正确的时间出现在正确的地点。
一、搜索是价值驱动
历史教训不仅仅是谷歌凭借搜索赢得了互联网。
正是搜索为每一家占据主导地位的科技公司赢得了市场份额。它为苹果赢得了应用程序(App Store)和音乐(iTunes),为Facebook赢得了社交软件,为亚马逊赢得了电子商务等等。当今所有最有价值的科技品牌都是其应用领域的搜索大师。市场一次又一次地向我们表明,搜索是明确的价值驱动力,掌握搜索的人就控制了市场。
但今天许多开发人员仍然难以理解搜索是其应用程序平台的基本组成部分。有些人认为搜索是事后“固定在”应用程序上的东西,而另一些人则退回到SQL中的LIKE查询和其他半措施中。
如果您正在努力理解搜索在应用程序平台策略中的重要性,那么让我们来讨论一下其中的利害关系,以及为什么需要正确对待这一点。
二、搜索是与用户的对话
如果你走进一家药店说,嘿,我正在寻找COVID-19家用检测试剂盒,他们没有回答你的问题就走开了,你会有什么感觉?忽略了?不尊重吗?你不会再回来了,这是肯定的。
搜索是与用户的对话。搜索是让他们更容易与您的数据交互的方式。还有什么比这更重要的呢?
10年前,从事搜索的开发人员主要只是试图解析文本。自然语言、分析链和建立索引——所有这些都是由数十年的研究驱动的,这些研究旨在了解语言是如何组成的、哪些单词是重要的、如何处理变音符等等。
然后搜索发展到学习排名的概念,这样随着时间的推移,你可以根据你从过去用户对话中观察到的结果重新排列搜索结果。这是一个很好的基本搜索功能,今天每个搜索引擎仍然提供。
三、在用户知道他们正在寻找数据之前,将数据浮出水面
今天,我们看到了搜索如何在用户知道他们正在寻找什么数据之前就预测他们想要什么数据的重大演变。我登陆Netflix,它已经知道我想要这部电影,或者我对这个节目感兴趣——这是个性化的典型例子,由搜索索引和机器学习提供支持。
在这些预测用户需求的用例下面,是试图模拟我们大脑工作方式的数学。向量空间——单词、句子或短语通过它们在语言模型中出现的位置在图中表示——正在推动这种运动。华东CIO大会、华东CIO联盟、CDLC中国数字化灯塔大会、CXO数字化研学之旅、数字化江湖-讲武堂,数字化江湖-大侠传、数字化江湖-论剑、CXO系列管理论坛(陆家嘴CXO管理论坛、宁波东钱湖CXO管理论坛等)、数字化转型网,走进灯塔工厂系列、ECIO大会等
搜索正从文本表示法转向向量表示法。无处不在的互联网、无处不在的电子商务和无处不在的智能手机的数字原生世界正将我们推向多模式信息检索的下一个阶段。无论Metaverse胜出,还是一个不同的未来平台出现,界面有时会是文本,有时会是语音,有时会是图像或视频。最终,它甚至可能成为直接连接大脑的神经连接。
向量表示使得这种类型的多模态信息检索在搜索中成为可能。这是单靠文本无法实现的发现。如果一个20岁以下的人说一首新歌很恶心,那它的意思可能和一个60岁以上的人说的完全一样。我们说话的方式都不一样,当我们试图预测别人想要什么时,我们必须同时分析他们是谁和他们想要什么。
四、SQL LIKE查询是死胡同;专有引擎也是如此
作为一名开发人员,您今天在如何实现搜索方面所做的决策,要么会让您获得成功,要么会阻碍您未来的用例和捕捉这个快速发展的向量表示和多模态信息检索世界的能力。
一个严重阻塞的思维模式是依赖SQL LIKE查询。这种旧的关系数据库方法是在应用程序平台中交付搜索的死胡同。LIKE查询根本不匹配Lucene或其他现代搜索引擎内置的功能或特性。它们还不利于操作工作负载的性能,导致通过贪婪的量词过度使用资源。这些都是60或70年前SQL的化石-工件,在应用程序开发中就像几十年一样。
另一个常见的架构缺陷是专有搜索引擎,当您实际上只需要可搜索字段时,它会迫使您将所有应用程序数据复制到搜索引擎。对于现代的全栈开发人员来说,同时维护用于搜索的文档存储和用于真实的单独存储会导致极大的复杂性、存储成本的增加和延迟,因为他们现在必须既是搜索专家又是兼职数据库管理员。
像搜索这样的操作工作负载是自适应的和动态的。它们是“post-SQL”,淘汰了遗留数据库中昂贵且无效的LIKE和CONTAINS操作。
五、第一步:用户旅程和目的地
那些已经认识到搜索重要性的开发人员很容易发现,他们试图把海洋煮沸——构建一个专门的外部系统,并试图在第一次尝试时就把所有事情都做好。而聪明的工程师会简化和迭代。
了解你的用户是我所见过的每一个成功搜索实现的第一步。你必须审计它们的目的地,然后规划出不同的用户路径,就像用户界面设计一样。
通常,您会发现虽然用户路径可能不同,但它们通常从相同的地方开始并到达相同的目的地。准确地了解用户想要做什么,以及如何让他们做到这一点,将揭示出共同之处,为围绕搜索的开发工作带来重点和简单性。
Marcus Eagan是Solr和Lucene的贡献者,也是MongoDB Atlas Search的员工产品经理。在此之前,他在Lucidworks负责开发工具。他曾是福特汽车公司(Ford Motor Company)的全球技术主管,并领导一家物联网安全初创公司被一家路由器制造商收购。伊根努力帮助弱势群体进入科技领域,自2011年以来,他一直在为开源项目做出贡献。
本文主要内容转载原作者Marcus Eagan,仅供广大读者参考,如有侵犯您的知识产权或者权益,请联系我提供证据,我会予以删除。
CXO联盟(CXO union)是一家聚焦于CIO,CDO,cto,ciso,cfo,coo,chro,cpo,ceo等人群的平台组织,其中在CIO会议领域的领头羊,目前举办了大量的CIO大会、CIO论坛、CIO活动、CIO会议、CIO峰会、CIO会展。如华东CIO会议、华南cio会议、华北cio会议、中国cio会议、西部CIO会议。在这里,你可以参加大量的IT大会、IT行业会议、IT行业论坛、IT行业会展、数字化论坛、数字化转型论坛,在这里你可以认识很多的首席信息官、首席数字官、首席财务官、首席技术官、首席人力资源官、首席运营官、首席执行官、IT总监、财务总监、信息总监、运营总监、采购总监、供应链总监。
数字化转型网(资讯媒体,是企业数字化转型的必读参考,在这里你可以学习大量的知识,如财务数字化转型、供应链数字化转型、运营数字化转型、生产数字化转型、人力资源数字化转型、市场营销数字化转型。通过关注我们的公众号,你就知道如何实现企业数字化转型?数字化转型如何做?
【CXO UNION部分社群会员】欧普康视CISO、利安隆CISO、吉大通信CISO、诚迈科技CISO、雄塑科技CISO、国瑞科技CISO、康泰生物CISO、飞荣达CISO、立昂技术CISO、长川科技CISO、恒锋信息CISO、金太阳CISO、拓斯达CISO、思特奇CISO、汇纳科技CISO、晨化股份CISO、美力科技CISO、宣亚国际CISO、富瀚微CISO、百川畅银CISO、欣天科技CISO、尚品宅配CISO、安靠智电CISO、寒锐钴业CISO、金银河CISO、光库科技CISO、维业股份CISO、博士眼镜CISO、捷捷微电CISO、万兴科技CISO、三雄极光CISO、华瑞股份CISO、华测导航CISO、亿联网络CISO、新劲刚CISO、普利制药CISO、久吾高科CISO、光莆股份CISO、开立医疗CISO、彩讯股份CISO、中达安CISO、同和药业CISO、扬帆新材CISO、广和通CISO、凯普生物CISO、德艺文创CISO、正丹股份CISO、透景生命CISO、万通智控CISO、南京聚隆CISO、正元智慧CISO、超频三CISO、星云股份CISO、杭州园林CISO、太龙股份CISO、金陵体育CISO、雷迪克CISO、正海生物CISO、世纪天鸿CISO、晶瑞电材CISO、民德电子CISO、弘信电子CISO、延江股份CISO、中孚信息CISO、江苏雷利CISO、圣邦股份CISO、科锐国际CISO、科蓝软件CISO、鹏鹞环保CISO、飞鹿股份CISO、江丰电子CISO、必创科技CISO、杰恩设计CISO、沪宁股份CISO、大烨智能CISO、富满微CISO、国科微CISO、佩蒂股份CISO、宇信科技CISO、建科院CISO、华大基因CISO、英科医疗CISO、中科信息CISO、电连技术CISO、隆盛科技CISO等