调查表明被盗的ChatGPT高级帐号在暗网上出售
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
Check Point公司表示,自从今年3月以来,暗网上与ChatGPT相关的讨论和交易有所增加。
Check Point在一篇博客文章中说:“上个月,我们观察到地下论坛上与泄露或出售受感染的ChatGPT高级帐号有关的讨论有所增加。大部分被盗帐号都被出售,一些黑客也会免费分享被盗的ChatGPT高级帐号,以宣传他们自己的服务或窃取帐号的工具。”
围绕ChatGPT的几例网络犯罪活动
在过去的一个月里,研究人员在暗网上观察到了与ChatGPT相关的各种讨论和交易。
就ChatGPT而言,暗网上最新的活动包括泄露和免费发布ChatGPT帐号的凭据,以及交易被盗的优质ChatGPT帐号。
网络犯罪分子还在用暴力强制和检查工具盗窃ChatGPT帐号。这些工具能够使网络犯罪分子通过运行大量的电子邮件地址和密码列表来入侵ChatGPT帐号,试图猜测访问现有帐号的正确组合。
Check Point公司在其博客中表示,有些网络犯罪分子还提供ChatGPT帐号即服务,这是一种专门提供ChatGPT高级帐号的服务,可能使用被盗的支付卡。
出售Sil【【微信】】配置文件
Check Point公司表示,网络犯罪分子还出售Sil【【微信】】配置文件,允许以自动方式检查OpenAI平台的一组凭据。
Sil【【微信】】是一个Web测试套件,能够使用户对目标Web应用程序执行请求。网络犯罪分子也使用同样的方法对不同的网站进行凭证填充和帐号检查攻击,从而窃取在线平台的帐户。
研究人员表示,以ChatGPT为例,这使他们能够大规模窃取帐号。这个过程是完全自动化的,每分钟可以启动50到200次检查。此外,它支持代理实现,在许多情况下,它可以绕过网站上的不同保护措施。
Check Point公司表示:“例如,有一名网络罪犯分子专注于对ChatGPT产品的滥用和欺诈,甚至称自己为‘GPT-4’。在他的帖子中,他不仅出售ChatGPT帐号,还提供另一个自动工具的配置,用于检查凭证的有效性。”
终身升级到ChatGPT Plus
Check Point公司表示,一名网络罪犯在3月20日宣称可以提供ChatGPT Plus终身帐号服务,并保证100%满意。
买家通过电子邮件提供的常规ChatGPT Plus帐号的终身升级费用为59.99美元,而OpenAI公司对这项服务的原始定价为每月20美元。
Check Point表示:“为了降低成本,这项地下服务还提供了一种选择,可以以24.99美元的价格与他人共享ChatGPT帐号的访问权限,并且终身使用。”
使用被盗的ChatGPT帐户凭据可以实现什么?
对优质ChatGPT帐号的被盗凭证有巨大的需求,因为它可以帮助网络犯罪分子超越它施加的地理围栏限制。ChatGPT具有地理围栏限制,限制在一些特定国家和地区使用。
然而,Check Point公司表示,使用ChatGPT API,网络犯罪分子可以绕过限制,也可以使用付费帐号。
网络罪犯的另一个潜在用途是获取个人信息,ChatGPT帐户存储帐户所有者的最近查询记录。
Check Point公司在博客文章中表示,“当网络犯罪分子窃取现有帐号时,他们可以从帐号的原始所有者那里获得查询记录。这可能包括个人信息、公司产品和流程的细节等等。”
今年3月,获得微软公司支持的OpenAI公司透露,Redis客户端开源库漏洞导致ChatGPT中断和数据泄露,用户可以看到其他用户的个人信息和聊天查询记录。
该公司承认,约1.2%的ChatGPT Plus用户的聊天查询和个人信息,例如用户名、电子邮件地址、支付地址和部分信用卡信息被泄露。
关于ChatGPT的隐私问题
在过去的几个月里,围绕ChatGPT出现了各种隐私和安全问题。意大利数据隐私监管机构已经禁止ChatGPT聊天机器人收集和存储个人数据,因为这涉嫌侵犯隐私。有关部门表示,如果OpenAI公司在4月30日前满足一系列数据保护要求,他们将取消对ChatGPT的临时禁令。
德国数据保护专员也警告说,由于数据安全问题,ChatGPT可能在德国面临潜在的阻碍。
与此同时,OpenAI公司日前发布了一项漏洞赏金计划,邀请全球安全研究人员、道德黑客和技术爱好者帮助该公司识别和弥补其生成人工智能系统中的漏洞。
OpenAI公司将提供现金奖励,发现漏洞的奖金从200美元到2万美元不等。
聊天机器人入门开发 十大入门聊天机器人平台
聊天机器人入口,聊天机器人入门进阶与实战,聊天机器人app,聊天机器人csdn作者 | 凌敏,核子可乐
大语言模型(LLM)的快速发展彻底颠覆了聊天机器人系统,实现了前所未有的智能水平。OpenAI 的 ChatGPT 就是其中最典型的代表。虽然 ChatGPT 的性能令人印象深刻,但目前我们并不清楚 ChatGPT 的训练和架构细节,这也阻碍了该领域的研究和开源创新。
受 Meta LLaMA 和 Stanford Aplaca 项目的启发,近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究人员们共同推出了一个开源聊天机器人 Vicuna-13B。这是一款通过 LLaMA 模型微调和 ShareGPT 用户共享对话训练而成的开源聊天机器人。以 GPT-4 作为比照对象的初步评估表明,Vicuna-13B 的质量可达 OpenAI ChatGPT 和 Google Bard 的 90% 以上,并在超过 90% 的情况下优于 LLaMA 和 Stanford Alpaca 等其他模型。
值得一提的是,Vicuna-13B 的训练成本仅为 300 美元(约合 2062 元人民币)。目前,Vicuna-13B 训练和服务代码及在线演示可向非商业用例开放。
在首个版本中,研究人员将在 GitHub repo 上共享训练、服务和评估代码: 【【网址】】/lm-sys/【【淘密令】】。
Vicuna-13B 模型的权重链接:【【网址】】/lm-sys/【【淘密令】】#【【微信】】
Vicuna-13B 演示链接:【【网址】】/
Vicuna 是如何炼成的?
工作流程概览
在一篇文章中,研究人员介绍了整体的工作流程。
首先,研究人员从 【【网址】】(一个供用户分享 ChatGPT 对话内容的网站)收集了约 7 万个对话,并增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练是在一天内通过 8 个 A100 GPU 配合 PyTOrch FSDP 完成的。为了提供演示服务,研究人员建立起一个轻量级的分布式服务系统,创建了一组 80 个不同问题,利用 GPT-4 来判断模型输出,借此对模型质量做初步评估。
为了比较两套不同模型,研究人员将各个模型的输出组合成各问题的单一提示,再将提示发送至 GPT-4,由 GPT-4 评估哪个模型做出的响应更好。LLaMA、Alpaca、ChatGPT 和 Vicuna 的具体比较如下表一所示。
表一:几大知名模型间的性能比较
前文提到,Vicuna 是通过从 【【网址】】 的公共 API 收集到的约 70K 用户共享对话对 LLaMA 基础模型微调而成。为了确保数据质量,研究人员将 HTML 转换回 markdown 并过滤掉了一些不合适或低质量的样本。此外,研究人员还将冗长的对话拆分成多个小部分,以适应模型所能支持的最大上下文长度。
训练方法以 Standford Alpaca 为基础,并做出以下改进。
内存优化:为了使 Vicuna 能够理解长上下文,研究人员将 Alpaca 的最大上下文长度从 512 扩展至 2048,但这也大大增加了 GPU 内存需求。研究人员利用梯度检查点和闪存注意力的方式来解决内存压力。
多轮对话:研究人员调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。
通过竞价实例降低成本:40 倍的大规模数据集和 4 倍的训练序列长度对训练成本提出了很大挑战。为此研究人员使用 SkyPilot 托管点来降低成本,希望使用更便宜的竞价实例并配合自动恢复以抢占 / 切换区域。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元。研究人员构建了一套服务系统,能够使用分布式工作节点为多个模型提供服务,它支持来自本地集群和云 GPU 工作节点的多种灵活插件。通过使用 SkyPilot 中的容错控制器和托管点功能,这套服务系统能够很好地与来自多种云环境的低成本竞价实例配合运作,借此降低服务成本。其目前还只是轻量级实现,研究人员正努力将更多最新研究成果集成进来。
Vicuna 的优势与局限性
研究人员展示了 Alpaca 和 Vicuna 在基准问题上的回答示例。在使用 70K 用户共享的 ChatGPT 对话对 Vicuna 进行微调之后,与 Alpaca 相比,Vicuna 能够给出更详尽、结构更合理的答案(参见下图),且质量几乎与 ChatGPT 持平。
然而,评估聊天机器人绝非易事。随着 GPT-4 的最新进展,研究人员很好奇其能力是否已经达到了与人类相仿的水平,甚至可用于实现基准生成及性能评估的自动化框架。初步调查发现,在比较聊天机器人的答案时,GPT-4 可以给出非常一致的排名和详细评估(参见上图中的 GPT-4 判断示例)。
基于 GPT-4 的初步评估(见下图),可以看到 Vicuna 的能力已经达到 Bard/ChatGPT 的 90%。虽然这套框架能在一定程度上反映聊天机器人的潜力,但方法本身并不够严格。目前为聊天机器人建立评估系统仍是一个悬而未决的难题,尚需进一步研究。
GPT-4 对相对响应质量做出的评估
与其他大语言模型类似,Vicuna 也具有一定局限性。例如,它不擅长涉及推理或数学的任务,而且在确切识别自身或确保所输出事实的准确性方面可能存在局限。此外,它并没有得到充分优化以保证安全性,或缓解潜在的毒性或偏见。为了解决安全问题,研究人员使用 OpenAI 的审核 API 来过滤掉在线演示中的不当用户输入。尽管还有问题,但研究人员预计 Vicuna 将作为未来解决这些局限的开放起点。
如何评估聊天机器人?
对 AI 聊天机器人的评估是个老大难问题,需要验证其语言理解、推理和上下文感知能力。随着 AI 聊天机器人变得越来越先进,当前的开放基准可能不足以做出准确判断。例如,Standford Alpaca 使用的评估数据集 self-instruct,在领先聊天机器人中就能得到有效解答,导致人类很难辨别各模型间的性能差异。更多限制还包括训练 / 测试数据污染及创建新基准可能带来的高昂成本。
为了解决这些问题,研究人员提出了一套基于 GPT-4 的评估框架,借此自动评估聊天机器人性能。
首先,研究人员设计了 8 种问题类型,包括费米问题、角色扮演场景及编码 / 数学任务,借此测试聊天机器人的各方面性能。通过认真设计的提示工程,GPT-4 得以生成基准模型难以解决的多样化、极具挑战的问题。研究人员为各个类别具体选择 10 个问题,并从 5 款聊天机器人处收集答案:LLaMA、Alpaca、ChatGPT、Bard 以及 Vicuna。
之后,研究人员要求 GPT-4 根据指导性、相关性、准确性和细节度秋评估答案质量。最终发现,GPT-4 不仅能够生成相对一致的评分,还能具体解释为什么给出这样的评分(详见 【【网址】】/eval)。但是,研究人员也注意到 GPT-4 似乎不太擅长判断编码 / 数学任务。
GPT-4 对各模型响应给出的比较评分
如上图所示,为各基准与 Vicuna 间的比较结果。在超过 90% 的问题中,GPT-4 更支持 Vicuna 而非其他先进开源模型(LLaMA 和 Alpaca)的答案,而且在性能上与专有模型(ChatGPT、Bard)等相差不大。在 45% 的问题中,GPT-4 都将 Vicuna 的回答评为优于或等于 ChatGPT 的回答。GPT-4 会以 10 分为满分为各个回答做出定量评分,因此研究人员将各个模型在 80 个问题上获得的分数相加以计算其与 Vicuna 之间的总分比较。
如表二所示,Vicuna 的部分为 ChatGPT 的 92%。尽管近来取得巨大进步,但这些聊天机器人仍有自己的局限,例如难以解决基本的数学问题且编码能力有限。
表二:GPT-4 给出的评估总分
虽然这套评估框架确实具有一定的聊天机器人评估潜力,但尚不足以作为严格或成熟的评判方法,特别是无法处理大语言模型容易产生的幻觉问题。为聊天机器人开发一套全面、标准化的评估系统,仍是一个悬而未决、有待进一步研究的问题。
参考链接:【【网址】】/