实测阿里版GPT“通义千问”,实力玩家现身了!
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
今天,阿里上线邀测了自己旗下的大模型,名字叫“通义千问”,据说是世界首个突破10万亿参数的AI大模型,实际效果如何呢?本文作者结合文心一言和ChatGPT,对通义千问的回答水平进行了对比分析,一起来看一下吧。
今天,阿里上线邀测了自己旗下的大模型,名字叫“通义千问”。
相信一些关注 AI 领域的读者已经在前几天看到了天猫精灵版本的阿里 GPT,据知危编辑部获悉,那其实是一个“压缩定制版”。而本次官宣的通义千问,则是阿里 GPT 的“完整版”。
由于阿里大模型号称是世界首个突破 10 万亿参数的 AI 大模型,并且阿里还牵头搭建了国内国模最大的 AI 模型服务社区 “魔搭”,所以市场一直对阿里的 GPT 抱有期待。
不过,路遥知马力,名头归名头,实际效果如何,还得试试才知道。
这次,知危编辑部也像之前百度发布文心一言时一样,想办法拿到了通义千问的测试账号,下面我们直接开始测试。
首先,我们测一个大家喜闻乐见的“弱智吧问答”问题:为什么爸妈结婚没有叫我参加婚礼?
这是一个老问题,在过去的测试中,ChatGPT 和百度的文心一言基本都是把问题引申为“父母是离婚后的二婚”这么理解才算答对。
ChatGPT-3.5的回答
而通义千问在这个问题上给出了比较符合日常逻辑的答案:
父母结婚前你还没出生呢。
不过,隔壁的百度文心一言,现在也能以同样的逻辑回答此问题,我们不能确定这是巧合还是国内厂商有根据网友们的玩梗对模型进行了“应试教育”。所以,本次测试,知危编辑部尽量不会采用市面上被提及比较多的老问题,或是将问题进行修改变种后再进行提问。
我们先测试语义理解能力:
“李四壮差点上上上上海的车”,这句话是什么意思?
通义千问的回答是:
文心一言的回答是:
ChatGPT(3.5 版本,下同)的回答是:
从这一轮来看,ChatGPT 对刁钻的中文句子理解不太行,通义千问和文心一言都能理解并且解释思路也正确。
随后,我们测试了带有场景和语气的语义理解能力:
我在七夕节晚上向一个女孩子表白,问她是否可以做我女朋友,她回答我说 “笨蛋,我今晚都出来见你了,你说呢?”,请问女孩接受我的表白了吗?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮测试中三家表现的水平比较一致。
我们继续提升问题的难度:
我想让妈妈买一个玩具给我,妈妈对我说 “你看我像不像玩具?”,请问妈妈的意思是?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮通义千问和文心一言的表现都不好,而 ChatGPT 则是理解对了意思。
综合前三个问题来看,三者之间有高有低,不分伯仲,后来者通义千问并不比前两者差。
下面我们进行逻辑、推断能力的测试,先故意问一个不合逻辑的问题:
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在这一轮测试中,通义千问和 ChatGPT 都意识到了问题是 “不合逻辑的”,而文心一言则是把 42 号混凝土说成了是 “烹饪意大利面的理想材料”。
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在这一轮测试中,通义千问与 ChatGPT 的表现都比较不错,文心一言则是推断力不是很在线。
这道题我们卖一个关子,先给出文心一言的回答:
ChatGPT 的回答:
通义千问的回答是:
它并没有像前两家一样给出数字,所以我们进行了追问:
这个回答可以说是非常优秀的,通义千问不仅完全理解了 “一千个读者眼里有一千个哈姆雷特” 这句话,并且还在推断时考虑了 “有一部分人可能理解相同” 的情况,认为不该给出一个准确的数字。
综合前三个问题来看,在逻辑、推断能力上,三家的水平也是旗鼓相当,而通义千问似乎更严谨一点,某些时候能考虑到更多因素。
下面,我们继续进行包含知识、科技类内容的问答能力。
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮问答里,三家仍然差不多是同一水平,文心一言细节稍差。
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮问答里,通义千问和 ChatGPT 都给出了混合后牛奶性状改变的现象,但文心一言未能给出。
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在这个问题的表现中,文心一言和 ChatGPT 都是直接举牌 EV 类的电动车,而通义千问则是比较谨慎地列出了潜在可能,似乎更加严谨一些,整体来看三家也是在同一水平。
综合前三个问题来看,三家都是比较智商在线的,通义千问和 ChatGPT 似乎更细一点,至于孰优孰劣我们认为可能每个人的主观判断会有不同。
下面,我们测试一下三家在文学、写作类目上的能力。
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
我们认为在这一轮问题中,各家表现都尚可,而文心一言的故事可以认为是最好,剧情饱满并且设计了反转。
通义千问的回答是:
这里有点离谱,它把孔乙己说成了是在酒肆卖唱的歌手,不知道是不是训练源出了什么问题,学习的是某种同人文。。。
文心一言的回答是:
ChatGPT 的回答是:
这个问题下,文心一言字最少,但也是最精准的,通义千问和 ChatGPT 则表现都不太如意。
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这块三家的写作能力也基本在同一水平,通义千问和 ChatGPT 似乎会相对细致全面一点。
综合前三个问题来看三家依然是旗鼓相当的对手,文心一言似乎在偏人文文学领域稍强,通义千问在偏报告文章方面稍强,ChatGPT 则是比较均衡。
好了,由于篇幅问题,本文的测试大概就到这里了,下面我们给通义千问一个整体评价:
通义千问的水平能基本与 ChatGPT( 3.5 版本 )持平或稍有一些瑕疵,与文心一言比则是有来有回。
通义千问对于回答的生成似乎比另两家更倾向于理智、严谨、富有逻辑,并且尤其擅长科学类知识,在人文文学方面稍有一些短板。
当然,它也有生成式对话 AI 偶尔说胡话、架空事实的通病,不过这样的问题等公测开启后,应该会随着用户的测试而逐渐学习得以修正。
值得注意的一个点是,我们在与通义千问的对话中,问了它开始被训练的时间:
那一年,OpenAI 已经发布 GPT-2 版本了。
似乎,阿里的通义千问,作为一个后来者,正在迅速缩小与 OpenAI 差距的路上。
可以确切地说,AI 大模型领域里,又一个能打的实力玩家诞生了。
声明:本文仅供交流,不构成任何投资建议。
作者:知危编辑部;编辑:大饼
来源公众号:知危(ID:【【微信】】),提供敏锐、独到的商业信息与参考,重点关注TMT、出海、新消费、新能源。
本文由人人都是产品经理合作媒体 @知危 授权发布,未经许可,禁止转载。
题图来自通义千问官网。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
chatgpt对于科研的影响 chatgpt科研使用教学
科研的对象点击上方“小白学视觉”,选择加"星标"或“置顶”
【导读】最近,一位开发者在GitHub上开源的「科研工作专用ChatGPT」项目大受好评。论文润色、语法检查、中英互译、代码解释等等一键搞定。
自从ChatGPT发布之后,各路大神都开始研究如何把它加入到自己的「科研工作流」当中。
比如「数学天才」陶哲轩就表示,他已经将ChatGPT纳入了自己的工作流程。
最近,一位网友也分享了自己的「ChatGPT 学术优化」项目。
没想到,在GitHub上开源没几天,就冲上了3.3k星(还在快速增长中)。
项目地址【【网址】】/binary-husky/chatgpt_academic
目前,「ChatGPT 学术优化」可以支持以下这些功能:
总之,交给ChatGPT就对了
比如,一键完成论文的润色和纠错。
如果输出中包含公式,优化版的ChatGPT则会同时以Tex和渲染形式进行展示,方便复制和阅读。
看代码太烦?不如直接把整个工程丢进去,让ChatGPT替你做分析。
不仅如此,它在剖析完之后,还能给出一份总结。
除了项目代码,Latex论文也能一键阅读理解,并生成摘要。
此外,优化版ChatGPT还支持项目的模块化设计。
以及,自动生成分析报告。
安装使用
目前,我们主要可以通过以下2种方式来体验「学术版ChatGPT」。
首先,通过git下载项目。
接着,在config.py文件里,配置Proxy和OpenAI API KEY。
最后,通过pip安装依赖,并运行项目。
前两步和上面一样,还是先下载项目并配置Proxy和OpenAI API KEY。
接下来,是在docker中安装运行。
参考资料:
https://github.com/binary-husky/chatgpt_academic
好消息!
小白学视觉知识星球
开始面向外开放啦👇👇👇