【新智元导读】生成式搜索引擎目前还无法取代传统搜索引擎,句子出处标注太少,引用的精确率也不高。
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
ChatGPT发布后不久,微软成功上车发布「新必应」,不仅股票大涨,甚至还大有取代谷歌,开启搜索引擎新时代的架势。 不过新必应真是大型语言模型的正确玩法吗?生成的答案真的对用户有用吗?句子里标的引文可信度有多少? 最近,斯坦福的研究人员从不同的来源收集了大量的用户查询,对当下四个大火的生成性搜索引擎,新必应(【【淘密令】】),NeevaAI,perplexity.ai和 YouChat进行了人工评估。 论文链接:【【网址】】/pdf/2304.09848.pdf 实验结果发现,来自现有生成搜索引擎的回复流畅且信息量大,但经常包含没有证据的陈述和不准确的引用。 平均来说,只有51.5%的引用可以完全支撑生成的句子,只有74.5% 的引用可以作为相关句子的证据支持。 研究人员认为,对于那些可能成为信息搜寻用户主要工具的系统来说,这个结果实在是过低了,特别是考虑到有些句子只是貌似可信的话,生成式搜索引擎仍然需要进一步优化。 个人主页:https://cs.stanford.edu/~nfliu/ 第一作者Nelson Liu是斯坦福大学自然语言处理组的四年级博士生,导师为Percy Liang,本科毕业于华盛顿大学,主要研究方向为构建实用的NLP系统,尤其是用于信息查找的应用程序。 2023年3月,微软报告说「大约三分之一的每日预览用户每天都在使用[Bing]聊天」,并且Bing聊天在其公开预览的第一个月提供了4500万次聊天,也就是说,把大型语言模型融合进搜索引擎是非常有市场的,极有可能改变互联网的搜索入口。 但目前来看,现有的基于大型语言模型技术的生成式搜索引擎仍然存在准确率不高的问题,但具体的准确率仍然没有得到全面评估,进而也无法了解到新型搜索引擎的局限之处。 可验证性(【【微信】】)是提升搜索引擎可信度的关键,即为生成答案中的每一句话都提供引文的外部链接来作为证据支撑,可以使用户更容易验证答案的准确程度。 研究人员通过收集不同类型、来源的问题,在四个商业生成式搜索引擎(【【淘密令】】, NeevaAI, perplexity.ai, YouChat)上进行人工评估。 评估指标主要包括流畅性,即生成的文本是否连贯;有用性,即搜索引擎的回复对于用户来说是否有帮助,以及答案中的信息是否能够解决问题;引用召回,即生成的关于外部网站的句子中包含引用支持的比例;引用精度,即生成的引用支持其相关句子的比例。 流畅性(fluency) 同时展示用户查询、生成的回复以及声明「该回复是流畅且语义连贯的」,标注人员以五分制Likert量表对数据进行打分。 有用性(percei【【微信】】) 与流畅性类似,标注人员需要评定他们对「该回复是对用户查询来说是有用且有信息量的 」这一说法的同意程度。 引用召回(citation recall) 引用召回率是指由其相关引文完全支持的、值得验证的句子的比例,所以该指标的计算需要确定回复中值得验证的句子,以及评估每个值得验证的句子能够被相关引文支持。 在「识别值得验证的句子」过程中,研究人员认为关于外部世界的每一个生成的句子都是值得验证的,即使是那些可能看起来很明显、微不足道的常识,因为对于某些读者来说似乎是明显的「常识」,但其实可能并不正确。 使用chatgpt应注意什么 chatgpt 快捷指令怎么设置
上次教大家如何和chatgpt对话免费练英语,【图】最近呢我又教会了它帮我做思维导图,让他帮我做双语早报,来来回回拉扯的过程的当中,我就在想,其实你如何清晰地给他指令,想清楚了chatgpt才能更好的帮你工作,所以今天就给大家分享,chatgpt中英文版本地指令大全,你怎么给指令,一些超好用的AI工具。 Midjourney 绘画AI Notion 文案AI Tome 幻灯片AI Descript 剪辑AI Runway 视频AI