visual chatgpt鏈湴閮ㄧ讲 visual chatgpt 瀹夎浣跨敤

互联资讯 2023-05-14 17:00:04 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

visual basic,visual studio code怎么运行代码,visual c++2010,visual studio怎么运行程序
觉得内容不错的话，欢迎点赞收藏加关注😊😊😊，后续会继续输入更多优质内容 👉有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博相关......）👈 （封面图由ERNIE-ViLG AI 作画大模型生成）

微软德国公司的首席技术官Andreas Braun在一场名为“AI in Focus - Digital Kickoff”的活动中活动中透露了这一消息，并表示下周将展示GPT的下一次迭代，它将是一个多模态模型，会提供完全不同的可能性――例如视频，这将允许用户创建新型的AI生成内容。他还表示，这项技术已经发展到基本上“适用于所有语言”，因此用户可以用一种语言提问，然后用另一种语言得到答案。这个消息迅速引起了全球科技界、投资者和普通用户的关注，他们都迫不及待地想知道新的GPT有多强大。

当前版本的ChatGPT仅限于基于文本的答案，并使用GPT-3.5。然而，在下一次迭代中，这个限制将被消除。据称，GPT-4将是一项重大更新，具备多模态模型能力，这将显着提升其能力，支持AI生成的视频和其他内容。

此外，就在昨天微软官方在Github开源了一个重量级的ChatGPT AI交互应用Visual ChatGPT。该应用短短一天在Github就达到了7000星。Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像，以及动态对图像进行处理。下面让我们一起来看看Visual ChatGPT有多强大吧。

具体内容参见：【【微信】】alking, Drawing and Editing with Visual Foundation Models https【【网址】】/abs/2303.04671

下面是本人的一些理解：

近年来，大型语言模型（LLM）的发展取得了惊人的进展，如T5，BLOOM和GPT-3。其中最重要的突破之一是ChatGPT，它建立在Instruct-GPT的基础上，专门训练用于与用户进行真正对话，从而使其能够维持当前对话的上下文，处理后续问题，并纠正其自身产生的答案。

然而，由于ChatGPT是单一语言模态训练的，因此在处理视觉信息方面存在局限性，而视觉基础模型（VFMs）在计算机视觉方面具有巨大的潜力，具有理解和生成复杂图像的能力。因此，该文章提出了一个名为Visual ChatGPT的系统，通过将ChatGPT与不同的VFMs集成，使用户能够通过除了语言格式之外的其他方式与ChatGPT进行交互，以解决复杂的视觉问题。Prompt Manager是该系统的关键组成部分，用于协调ChatGPT和VFMs之间的交互，并支持不同视觉格式之间的转换。

通过大量的实验和案例，文章证明了Visual ChatGPT在不同任务中的巨大潜力和能力。同时，该系统也存在一些局限性和问题，如VFMs的不稳定性和自我纠正模块对推理时间的影响，但作者表示将在未来解决这些问题。

虽然ChatGPT在处理自然语言上具有出色的对话能力和推理能力，但它无法处理或生成来自视觉世界的图像。同时，Visual Foundation Models（例如【【微信】】或Stable Diffusion）虽然在视觉理解和生成方面表现出色，但它们只是特定任务的专家，并且只能接受一次固定输入和输出。为此，作者们创建了一个名为Visual ChatGPT的系统，结合了不同的Visual Foundation Models，使用户能够通过1）发送和接收语言和图像；2）提供需要多个AI模型协作多个步骤的复杂视觉问题或视觉编辑指令；3）提供反馈并要求纠正结果。作者们设计了一系列提示，将视觉模型信息注入ChatGPT，考虑到多个输入/输出模型和需要视觉反馈的模型。实验表明，Visual ChatGPT为研究ChatGPT在视觉角色方面的作用打开了大门。

如图所示，用户上传了一张黄色花朵的图像，并输入了一个复杂的语言指令“请根据预测的深度生成一朵红色花朵，并将其变成卡通风格逐步完成”。在Prompt Manager的帮助下，Visual ChatGPT开始执行相关的Visual Foundation Models。在这种情况下，它首先应用深度估计模型来检测深度信息，然后利用深度到图像模型生成具有深度信息的红花图像，最后利用基于Stable Diffusion模型的风格转移VFM将该图像的样式改变为卡通形式。在上述管道过程中，Prompt Manager通过提供视觉格式的类型并记录信息转换的过程，作为ChatGPT的调度程序。最后，当Visual ChatGPT从Prompt Manager获得“卡通”提示时，它将结束执行管道并显示最终结果。

这篇文章的贡献如下：

提出了Visual ChatGPT，打开了将ChatGPT和视觉基础模型相结合的大门，使ChatGPT能够处理复杂的视觉任务；
设计了Prompt Manager，在其中涉及了22个不同的VFMs，并定义了它们之间的内部相关性，以更好地进行交互和组合；
进行了大量的零样本实验，并展示了Visual ChatGPT的理解和生成能力。

Visual ChatGPT架构由用户查询部分（User Query）、交互管理部分（Prompt Manger）、视觉基础模型（Visual Foundation Models，VFM）、调用【【微信】】和迭代交互部分（Iterati【【微信】】），最后是用户输出（Outputs）部分。

整个系统流程是：

明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式；
将不同的视觉信息，例如pngimages，深度图像和mask矩阵，转换为语言格式以帮助ChatGPT理解；
处理不同视觉基础模型的历史、优先级和冲突。

在交互管理器的帮助下，ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈，直到它满足用户的要求或达到结束条件。

Ubuntu环境下运行以下命令下载安装git git简介及常用命令介绍

运行以下代码下载官方源码：

进入【【微信】】目录

然后运行下面命令安装运行环境：

注意，安装运行环境的时候如果需要GPU的话需要手动安装PyTorch的GPU版本。

然后运行下面命令设置密钥

把Your_Pri【【微信】】替换成你的OpenAI账号里面生成的密钥就可以。可以在这个网址获取【【网址】】/account/api-keys

这块一定要注意，官方给的说明里面Your_Pri【【微信】】带有{}，这个不要放到命令里面，只需要按照我的说明替换一下即可。

创建一个文件夹接收图像文件：

在【【微信】】.py文件中，修改以下内容：

GPU的序号： 在【【微信】】.py中，用到了8个GPU，ID分别是0,1,2,3,4,5,6,7：本人亲测并不需要这么多显卡，3个GPU已经非常富裕了。官方给的每个模型的GPU占用情况：我按照顺序分别将GPU占用修改成0,1,2,这样只需要三个GPU就能完成部署。 部署的IP 修改最后一行的ser【【微信】】和server_port为自己想要设定的即可，本地部署的话可以将ser【【微信】】设定为127.0.0.1。

最后，运行下面的脚本运行程序

如果出现：

则运行下面脚本解决：

如果在docker环境中部署，在import cv2的时候会出现如下错误：

使用下面命令解决：

[1] 【【微信】】alking, Drawing and Editing with Visual Foundation Models https【【网址】】/abs/2303.04671 [2] 【【微信】】【【网址】】/microsoft/【【微信】】

觉得内容不错的话，欢迎点赞收藏加关注😊😊😊，后续会继续输入更多优质内容 👉有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博相关......）👈

有香味的荧光笔的香味有毒吗香味荧光笔与正品荧光笔的区别

有香味的荧光笔的香味有毒性吗,有香味的荧光笔可以用吗,香味荧光笔对身体的影响,香味荧光笔对身体有害处吗

华尔街新闻网

香味荧光笔的介绍是什么?香味荧光笔的特点有哪些?

香味荧光笔的介绍是什么?

荧光笔是近几年新出的做记号用的笔，用较粗、较淡的墨水覆盖关键部位来做记号，做上记号后，不遮挡住文字一目了然。荧光笔有荧光剂，它遇到紫外线(太阳光、日光灯、水银灯比较多)时会产生荧光效应，发出白光，从而使颜色看起来有刺眼的荧光感觉。而香味荧光笔就是其中加入合成香料而产生的，其中极有可能含有苯环、醛类等物质。

紫外荧光油墨的原理是在油墨中加入具有紫外线激发的可见荧光化(络)合物。通过吸收的光能，产生原子的能级跃迁，再释放吸收的额外能量。

香味荧光笔的特点有哪些?

荧光笔有荧光剂，它遇到紫外线(太阳光、日光灯、水银灯比较多)时会产生荧光效应，发出白光，从而使颜色看起来有刺眼的荧光感觉。荧光笔在一定有紫外线的情况下才会发出荧光，这一点你只要把荧光笔的笔迹靠近捕蚊灯、验钞机就可以看得非常清楚。还可以散发很浓的香味。

本文地址： https://www.528683.com//show-408719.html