庆云古诗词

庆云古诗词

ai技术中文关键词提取 ai关键字检索

互联资讯 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

ai技术的详细介绍,ai技术含义,ai技术 英文,ai技术百度百科
我们报告了GPT-4的发展,这是一个大规模的多模态模型,它可以接受图像和 文本输入并产生文本输出。虽然在许多现实场景中,GPT-4的能力不如人类, 但在各种专业和学术基准上表现出了人类水平的表现,包括通过模拟律师资格 考试,成绩在前10%左右。GPT-4是一个预先训练过的基于转换器的模型,用于 预测文档中的下一个令牌。训练后的对齐过程提高了事实性测量和对期望行为 的坚持。该项目的一个核心组件是开发基础设施和优化方法,可预测的范围。 这使我们能够准确地预测GPT-4的某些方面 基于计算不超过GPT-4的1/1000的模型。 1介绍 本技术报告介绍了GPT-4,一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这 些模型是一个重要的研究领域,因为它们有潜力被用于广泛的应用中,如对话系统、文本摘要 和机器翻译。因此,它们一直是近年来[1–28]的重大兴趣和进展的主题。 开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和 更微妙的场景中。为了在这种情况下测试它的能力,GPT-4在最初为人类设计的各种测试中进行 了评估。在这些评估中,它的表现表现得相当好,

aigc底层是什么代码 aigc爆发的底层逻辑是什么

ai底层技术,afn底层,ioc的底层,gc底层原理

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

最近大家热议的ChatGPT和AI绘画工具的底层技术原理是什么?又是如何发展到现在的?除了这些热门的工具,作为普通用户,我们还能接触哪些应用AI技术打造的商业解决方案?

MidjourneyAI绘画工具社区作品

最近我对上面这些问题也非常感兴趣,于是查阅了AIGC相关相关的调研报告和各类资料,按照优化后的目录框架对内容进行了摘录和编排,希望能够帮助大家也能更快了解和入门。

内容主要来自:《2023年AIGC发展趋势报告:迎接人工智能的下一个时代-腾讯研究院.pdf》和《AIGC/AI生成内容产业展望报告-量子位.pdf》这两篇行业报告,以及各类平台的相关文章、视频,文末我也会对参考内容的来源进行标注,想要深度了解的话可以留意下。

就先嗦这么多吧,文章比较长,大概需要1-2个小时才能完整阅读,可以找个安静的地方一口气读完。里面的专业词汇如果不懂,可以先忽略,对于普通人来说,我们只需要了解大概的历程和应用场景以及代表工具即可。

AIGC全称为AI-Generated Content,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数 据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Synthetic media,合成式媒 体,主要指基于AI生成的文字、图像、音频等。

从字面意思上看,AIGC是相对于过去的 PCG、UCG 而提出的。因此,AIGC的狭义概念是利用Al自动生成内容的生产方式。但是 AIGC已经代表了AI技术发展的新趋势。

过去传统的人工智能偏向于分析能力,即通过分析一组数据,发现其中的规律和模式并用于其他多种用途,比如应用最为广泛的个性化推荐算法。而现在人工智能正在生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。

因此,从这个意义上来看,广义的 AIGC 可以看作是像人类一样具备生成创造能力的 AI技术,即生成式 AL它可以基于训练数据和生成算法模型,自主生成创造新的文本,图像、音乐、视频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据,以及包括开启科学新发现,创造新的价值和意义等。"因此,AIGC已经加速成为了Al 领域的新疆域,推动人工智能迎来下一个时代。

MIT 科技评论也将A1 合成数据列为 2022 年十大突破性技术之一,甚至将生成性 Al(Generative AI)称为是AI领域过去十年最具前景的进展。Gartner 将生成性 A1 列为 2022 年5大影响力技术之一。

Gartner 也提出了相似概念Generative AI,也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC,这一概念的范围较狭窄。

一方面,这一概念忽略了跨模 态生成(如基 于文 本生成图 像或 基于文本 生成 视频)这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面,在结合现有技术能力和落地场景进行分析后,我们认为“生 成”和“内容”都应该采取更为广泛的概念。

例如,生成中可以包含基于线索的部分生成、完全自主生成和基于底 稿的 优化 生成。内容方面,不仅包括常见的图像、文本、音频等外显 性内 容,同样也包括策略、剧情、训练数据等?内在 逻辑 内容

从特定角度来看,AI内容生成意味着AI开始在现实内容中承担新的角色,从“观察、预测”拓展到“直接生成、决 策”。

从商业模式来看,我们认为,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广 泛服务于各类内容的相关场景及生产者。因此,我们不会将其定义为PGC\UGC之后 的新内容创作模式,而是认为其在商业模式上会有大量其他交叉。

未来,兼具大模型和多模态模型的 AIGC模型有望成为新的技术平台。如果说 Al 推荐算法是内容分发的强大引整,AIGC则是数据与内容生产的强大引整。

AIGC朝着效率和品质更高、成本更低的方向发展,在某些情况下,它比人类创造的东西更好。包括从社交媒休到游戏,从广告到建筑,从编码到平面设计、从产品设计到法律,从营销到销售等各个需要人类知识创造的行业都可能被 AIGC 所影响和变革。数字经济和人工智能发展所需的海量数据也能通过 AIGC技术生成、合成出来,即合成数据(synthetic data)。

未来,人类的某些创造性的工作可能会被生成性 AI 完全取代,也有一些创造性工作会加速进入人机协同时代--人类与 AIGC技术共同创造比过去单纯人的创造之下更高效、更优质。

在本质上AIGC 技术的最大影响在于,AIGC技术将会把创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。换句话说,正如互联网实现了信息的零成本传播、复制。未来AIGC 的关键影响在于,将实现低成本甚至零成本的自动化内容生产,这一内容生产的范式转变,将升级甚至重塑内容生产供给,进而给依赖于内容生产供给的行业和领域带来巨大影响。

虽然从严格意义上来说,1957 年莱杰伦・希勒(Lejaren Hiller)和伦纳德・艾萨克森(Leon-ard saacson)完成了人类历史上第一支由计算机创作的音乐作品就可以看作是 AIGC的开端,距今已有 65 年,这期间也不断有各种形式的生成模型、Al 生成作品出现。

但是 2022年才真正算是 AIGC 的爆发之年,人们看到了 AIGC无限的创造潜力和未来应用可能性。目前,AIGC 技术沉淀、产业生态已初步形成,保持强劲发展和创新势头。

生成算法、预训练模型、多模态等AI技术累积融合,催生了AIGC 的大爆发。

2014年,伊恩・古德费洛(lan Goodfellow)提出的生成对抗网络(Generati【【微信】】,GAN)成为早期最为著名的生成模型。

GAN 使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种,如DCGAN,StyleGAN,BigGAN,StackGAN.Pix2pix,Age-cGAN,CycleGAN、对抗自编码器(Ad【【微信】】s,AAE)、对抗推断学习(Ad【【微信】】ference,ALI)等。

随后,Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。其中,Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按照输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(NLP)、计算机视觉(CV)领域应用。后来出现的 BERT、GPT-3、LaMDA等预训练模型都是基于Transformer 模型建立的。

而扩散模型(Diffusion Mode)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为唯一输入生成逼直的图片。

然而,从最优化模型性能的角度出发,扩散模型相对 GAN 来说具有更加灵活的模型架构和精确的对数似然计算,已经取代 GAN 成为最先进的图像生成器。2021年6月,OpenAl 发表论文已经明确了这个结论和发展趋势。

虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了 AIGC技术能力的质变,以上的诸多落地问题得到了解决。

随着 2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。AI预训练模型,又称为大模型、基础模型(foundation mode),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。”鉴于这种潜力,预训练模型成为 AI技术发展的范式变革,许多跨领域的Al系统将直接建立在预训练模型上。具体到 AIGC 领域,AI 预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括:(1)自然语言处理(NLP)预训练模型,如谷歌的 LaMDA和 PaLM、Open AI的 GPT 系列:(2)计算机视觉(CV)预训练模型,如微软的 Florence:(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。

预训练模型更具通用性,成为多才多艺、多面手的 Al模型,主要得益于多模型技术(multimodal technol-ogy)的使用,即多模态表示图像、声音、语言等融合的机器学习。

2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrasti【【微信】】Training,以下简称“CLIP")进行开源。CLIP 模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP 模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP 模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为 CLIP 天然的训练样本。

据统计,CLIP 模型搜集了网络上超过 40 亿个“文本-图像”训练数据,这为后续 AIGC 尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下,目前预训练模型已经从早期单一的 NLP或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。

2021年3月OpenAl发布Al绘画产品DALL・E,只需要输入一句文字,DALL・E 就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DALL・E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL・E、DALL・E2.0、Stable Diffusion 等突破性 AIGC成果的基石。总的来看,AIGC 在 2022 年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC模型成为了自动化内容生产的“工厂”和“流水线”。

AIGC 产业生态加速形成和发展,走向模型即服务(MaaS)的未来,目前,AIGC 产业生态体系的雏形已现,呈现为上中下三层架构:

第一层,为上游基础层,也就是由预训练模型为基础搭建的 AIGC技术基础设施层。由于预训练模型的高成本和技术投入,因此具有较高的进入门槛。

以 2020 年推出的 GPT-3 模型为例Alchemy APl 创始人 Elliot Turner 推测训练 GPT-3 的成本可能接近 1200 万美元。

因此,目前进入预训练模型的主要机构为头部科技企业、科研机构等。目前在AIGC领域,美国的基础设施型公司(处于上游生态位)有OpenAl、Stability.ai等。

OpenAl的商业模式为对受控的 api调用进行收费。Stabilitv.ai以基础版完全开源为主,然后通过开发和销售专业版和定制版实现商业获利,目前估值已经超过 10 亿美金。因为有了基础层的技术支撑,下游行业才能如雨后春笋般发展,形成了目前美国的 AIGC 商业流。

第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。

预训练的大模型是基础设施,在此基础上可以快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态模型的AIGC模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,预计将对商业领域产生巨大影响。Stable Diffusion 开源之后,有很多基于开源模型的二次开发,训练特定风格的垂直领域模型开始流行,比如著名的二次元画风生成的 Novel-Al,还有各种风格的角色生成器等。

第三层,为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。

在应用层,侧重满足用户的需求,将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。以 Stable Diffusion 开源为例,它开放的不仅仅是程序,还有其已经训练好的模型,后继创业者能更好的借助这一开源工具,以 C端消费级显卡的算力门槛,挖掘出更丰富的内容生态,为 AIGC 在更广泛的C端用户中的普及起到至关重要的作用。

现在贴近C端用户的工具越发丰富多样,包括网页、本地安装的程序、移动端小程序、群聊机器人等,甚至还有利用 AIGC工具定制代出图的内容消费服务。

目前,从提供预训练模型的基础设施层公司到专注打造 AIGC产品和应用工具的应用层公司,美国围绕 AIGC 生长出繁荣的生态,技术创新引发的应用创新浪潮迭起:中国也有望凭借领先的 AIGC 技术赋能千行百业。

随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。

AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。市场潜力逐渐显现。与此同时,在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。

从现有的落地场景来看,我们将其划分为应用型文本和创作型文本生成,前者的进展明显优于后者。此外,从应用推广的角度来说,辅助文本创作是目前落地最为广泛的场景。

应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrati【【微信】】 创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。

在结构化写作场景下,代表性垂直公司包括Automated Insights(美联社Wordsmith)、Narrati【【微信】】、textenaine.io、AX Semantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。

创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。

我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确,在篇章上连贯通顺的要求,长文本写作对干

议论文写作、公文写作等等具有重要意义。未来四到五年,可能会出现比较好的千字内容。

除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基干事实的,创作型文本还需要特别关注情感和语言表达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。

在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Con【【微信】】.ai、Snazzy Al、Rasa.io、LongShot.Al、彩云小梦等。

除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。尽管目前能够提升生产力,但我们认为相对于实现技术意义上的AI生成,能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。

这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。

长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基干GPT 3开发的文本探索类游戏Aldungeon均已获得了不错的消费者反馈。

随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛,集中在精神心理领域的聆心智能、开发了AIdungeon的Latitude.io等。

整体而言,此类技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐,语音克隆以及心理安抚等功能性音乐的自动生成。

TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。

目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习》。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、【【微信】】及Tacotron等。

目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、Readspeaker、DeepZen和Sonantic。

随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基干文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、【【微信】】、剪映等。

在TTS领域,语音克隆值得特别关注。语音克隆是本质上属于指定了目标语音(如特定发言人)的TTS。技术流程如下:

该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、o【【微信】】、replika、Replica Studios、Lovo、【【微信】】.Resemble Ai、Respeecher、DeepZen、Sonantic、【【微信】】、Descript。

AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。

其中,AI作曲可以简单理解为“以语言模型(目前以Transformer为代表,如谷歌Megenta、OpenAlJukebox、AIVA等)为中介,对音乐数据进行双向转化(通过MIDI等转化路径)”。此方面代表性的模型包括MelodyRNN、Music Transformer。据Deepmusic介绍,为提升整体效率,在这一过程中,由于相关数据巨大往往需要对段落,调性等高维度的乐理知识进行专业提取,而节奏、音高、音长等低维度乐理信息由AI自动完成提取。

通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。

Al编曲则指对AI基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等),完成整体编配。在这部分中,各乐器模型将通过无监督模型,在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系,从而基于主旋律生成自身所需和弦。对于人工而言,要达到乐曲编配的职业标准,需要7-10年的学习实践。

人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆)&