ChatGPT能做翻译吗 chatgpt 翻译能力

互联资讯 2023-04-09 21:24:03 0

chatgpt是什么意思,chatgpt国内能用吗,chatgpt怎么用,chatgpt怎么读

近期，ChatGPT引爆科技领域，引发了学界与业界人士对于其在教育领域的应用探讨，OpenAI趁热打铁推出GPT-4，再次强势出圈...

强大的自然语言处理能力和超高效率的工作模型，逐步形成ChatGPT时代雏形。站在技术更新的十字路口，我们不得不思考，AI影响下的职业路径该何去何从？是取代还是加持？ChatGPT现世后的研究视角该如何开辟？是静观其变还是紧跟潮流？GPT和AIGC对语言服务行业会产生怎样的冲击？未来我们又该如何主动应变？

为协助高校师生、行业从业者熟悉和掌握ChatGPT在翻译流程中的实践应用，上海外语音像出版社、北京博硕星睿教育科技有限公司联合推出“ChatGPT时代翻译技术能力提升研修班”，将ChatGPT与机器翻译译后编辑、语料库和术语库建设、计算机辅助翻译、口译技术等前沿热点话题深度融合，助力您实现学术研究和翻译实践的新突破！

本次研修班线下举办，为您提供与专家、同行更多的互动交流机会，在观点碰撞中激发新的学术灵感！期待您的到来！一、主办单位

上海外语音像出版社北京博硕星睿教育科技有限公司二、研修目标

了解ChatGPT发展趋势
加强翻译技术数字素养
提升个人翻译技术能力
熟练使用主流技术工具
促进翻译技术最佳实践

三、研修对象

从事英语教学和科技翻译的教师
相关专业高年级本科生及研究生
各大高校语言专业教学管理人员
翻译公司及翻译团队的主管人员

四、研修内容及日程安排

五、研修日期

2023年4月30日-5月2日

六、研修收获

全面掌握主流CAT工具关键操作
熟练使用ChatGPT进行译后编辑
深入了解ChatGPT口译实战应用
高效运用ChatGPT进行语料处理
主办方联合颁发的研修结业证书

备注：本次研修班证书由上海外语音像出版社和博硕星睿教育科技有限公司联合盖章。

七、研修地点

北京（具体位置见二号通知）

八、嘉宾介绍

崔启亮

对外经济贸易大学英语学院副教授、工学博士、中国翻译协会本地化服务委员会副主任，兼任北京大学、南开大学、西安外国语大学等多所高校翻译专业硕士研究生导师。先后在北京传思科技公司、北京保捷环球公司、北京莱博智科技公司、北京昱达环球公司从事翻译技术与本地化工作，多次为国内翻译公司、跨国公司、行业协会与高校老师提供翻译技术培训。

朱华

天津外国语大学高级翻译学院硕士生导师，天外英语翻译理论与实践、美国蒙特雷高级翻译学院翻译及本地化项目管理双硕士，美国翻译协会北加州分会会员。除教学外，还担任WITTA翻译技术教育研究会（TTES）副秘书长、国际事务沟通专员，美国翻译公益联盟Translation Commons中国区沟通经理。曾兼任中国翻译协会暑期翻译技术师资培训、WITTA翻译技术研究会翻译技术师资培训、北京第二外国语学院、南开大学外国语学院《翻译技术》和《术语管理及影视字幕翻译》授课教师。

韩林涛

北京语言大学外国语学部高级翻译学院硕士生导师，担任国家级和北京市级一流本科专业翻译（本地化方向）专业负责人。在校主讲本科阶段和研究生阶段术语学、翻译项目管理、计算机辅助翻译、数据库原理、翻译与本地化实践、翻译项目管理等课程，长期致力于探索“翻译”与“技术”的深度融合之道。著有《译者编程入门指南》，由北京市教委评为北京高校优质本科教材。在语料库研究方面，韩林涛担任冬奥术语平台项目负责人，参与设计研发支持八个语种的在线术语检索和管理平台；新冠疫情爆发后，研制了在线多语种疫情平行句库【【网址】】，并将该平台的核心代码开源发布，可以实现多语种平行句库的上传、审核、管理、发布和查询查询；二十大之后，研制了二十大报告双语查询网站政译（【【网址】】）。

李长栓

北京外国语大学高级翻译学院教授、副院长，1996年毕业于北京外国语大学高级翻译学院，取得硕士学位；是联合国兼职译审和活跃的口译员，有数百万字的笔译经验和上千次会议的口译经验。主要著作有：《非文学翻译理论与实践》（中译公司）、《非文学翻译》（外研社）、《理解与表达：汉英翻译案例讲评》（外文社，与施晓菁合著）、《理解与表达：英汉口译案例讲评》（外研社）、《联合国文件翻译教程》（中译公司，与陈达遵合著）、《汉英翻译译注评》（清华大学出版社）、《联合国文件翻译译注评》（清华大学出版社，2020）《北外高翻笔译课》(中译出版社，2020)、《法律术语翻译二十讲》(商务印书馆，2020)、《如何撰写翻译实践报告》(中译，2020)。

王华树

翻译学博士，副教授，北京外国语大学高级翻译学院硕士研究生导师，兼任中国外文局翻译院智能翻译实验室执行主任，中国翻译协会翻译技术委员会秘书长，中国英汉语比较研究会外语教育技术专业委员会副秘书长，国际翻译家联盟技术委员会成员，世界翻译教育联盟翻译技术教育研究会会长，《中国科技术语》编委等。多年来致力于推动翻译技术产学研的生态融合，在《中国翻译》《外语界》《外语电化教学》《上海翻译》以及The Interpreter and Translator Trainer等期刊发表论文七十余篇，主持国家级、省部级及校级科研项目十多项，出版《翻译搜索指南》《人工智能时代翻译技术研究》《计算机辅助翻译概论》《应用程序本地化》《翻译与本地化项目管理》等十多部著作。研究领域：翻译与本地化技术、外语教育技术、语言服务管理。

李俊

博士，北京大学医学人文学院医学语言文化系医学英语教研室副主任，副教授，北京大学医学社会学博士、北京外国语大学翻译学院硕士。世界翻译教育联盟医学翻译与教学研究会副秘书长、常务理事，中国中医药研究促进会传统文化翻译与国际传播专委会常务理事，中国中医药研究促进会中医药翻译与国际传播专委会专家委员、常务理事、《英国医学杂志中文版》第四届、第五届编委、Social Science & Medicine及Applied Research of 【【微信】】，Health Data Science等杂志审稿人。曾任《医院管理论坛》（北京大学主办）英文编辑。发表中英文论文30余篇，发表医学人文译文40余篇，为国家部委、国际组织、医药公司等机构完成医疗卫生、教育、社会学、生物科技等领域笔译70余万字，并为诸多国际会议承担同声传译、交替传译或字幕翻译任务，主持和参与省部级研究课题10项。研究领域：应用语言学、翻译学、医学社会学、区域与国别研究。

本次采取线上线下同时开展的形式，更多内容欢迎给我们留言或者关注“语言服务行业”，我们在北京等你！

ChatGPT原理及应用 ChatGPT功能及应用前景研讨会

tspot原理,tcspc原理

ChatGPT中文性能测评与风险应对

张华平李林翰李春锦

摘要

【目的】简要介绍ChatGPT的主要技术创新，使用9个数据集在4个任务上测评ChatGPT的中文性能，分析ChatGPT潜在的风险以及中国应对策略建议。【方法】使用ChnSentiCorp数据集测试ChatGPT和WeLM模型，EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan，发现ChatGPT在情感分析任务上与国产大模型差距不大；使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型，ChatGPT均优于WeLM；使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解，C3数据集进行常识性的机器阅读理解，发现ERNIE 3.0 Titan在该任务中优于ChatGPT；使用WebQA和CKBQA数据集进行中文闭卷问答测试，发现ChatGPT容易产生事实性错误，与国产模型差距较大。【结果】 ChatGPT在自然语言处理的经典任务上表现较好，在情感分析上具有85%以上的准确率，在闭卷问答上出现事实性错误的概率较高。【局限】将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT，并不清楚其在其他情况下的表现。由于后续版本的迭代更新，ChatGPT评测结果具有一定的时效性。【结论】 ChatGPT很强大但仍然存在一些缺点，研发中国化的大模型应以国家战略需求为导向，并且注意语言模型的风险和局限。

关键词：语言模型 ChatGPT 人工智能

引用本文: 张华平，李林翰，李春锦. ChatGPT中文性能测评与风险应对［J］. 数据分析与知识发现， 2023， 7（3）：16-25. (Zhang Huaping, Li Linhan, Li Chunjin. ChatGPT Performance E【【微信】】nguage and Risk Measures[J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 16-25.)

引言

大语言模型（Large Language Models，LLMs）是近年来神经自然语言处理的核心研究点之一，学术界和工业界围绕大语言模型产生了大量研究成果：GPT-3［1］、LaMDA［2］、鹏城-百度・文心（ERNIE 3.0 Titan）［3］、盘古α（PanGu-α）［4］和WeLM［5］。Kiela等［6］研究发现，大语言模型在语言理解推理、对话生成等多个任务上已经达到甚至超越了人类的平均水平。大多数研究通过语言模型在一系列具体数据集上的表现来评估模型能力，而缺乏其是否能适应复杂的应用环境的研究。对于大型语言模型能否与人类正常互动的问题，即能否正确响应人类所提出的指令、满足用户的合理请求和生成内容是否符合人类的普世价值观，这方面的研究仍然处于起步阶段。

ChatGPT[1]是由美国的人工智能创业公司OpenAI于2022年11月公开发布的聊天机器人，它以多轮对话的形式，通过用户的提示引导进行内容创作。ChatGPT在日常使用情境下具有主题创作、知识问答与编程计算等功能，在与人类的交互过程中，通过追踪对话进程并回答问题、承认错误并纠正和拒绝不合理请求等表现，展现出令人印象深刻的语言能力。

ChatGPT对学术以及教育等产业的影响已有一些研究，目前普遍认为ChatGPT可以在多种领域的实践中提升工作效率，但它需要被合理使用，而不能在科学研究、考试竞赛中滥用。对于文献管理和学术研究而言，ChatGPT的积极影响可以改善信息服务的效率、辅助元数据生成以及内容创作，但需要考虑涉及的隐私问题和言论偏见的影响。ChatGPT能准确捕捉用户的意图，生成期望的回答，对于用户指出的错误会主动承认并改正，在诗歌散文等创作中也展现了一定的能力，然而相较于使用其他语言的用户而言，使用英语与它对话无疑是用户体验最好的方式，因此ChatGPT在尊重除了美国的其他国家的文化背景和使用习惯上仍有欠缺［7］。

针对大语言模型对科研带来的影响，【【微信】】等［8］在Nature上发文探讨了5个关键问题：坚持人类审查、制定问责制度、投资真正开放的大型语言模型、拥抱人工智能的优点和扩大辩论范围［8］。在科研进程中，科研人员的使用行为需要更加公开透明，针对大语言模型是否能作为论文作者或者AI是否能享有著作权这类问题，Thorp［9］在Science发文提出了反对的观点，认为使用AI进行创作的科学研究将构成科研不端行为，因为ChatGPT生成的文章并非原创，并且认为由AI生成的文本不能用于科研工作中，AI也不能成为论文作者。

对ChatGPT以及其他GPT-3.5系列模型进行性能测试的研究工作主要集中在使用公开数据集进行零样本以及少样本测试，并将评估结果和监督微调模型对比，已有研究表明ChatGPT在许多英文数据集上性能极好，甚至部分在数据集的一些评估指标上可以媲美监督微调模型［10］。在机器翻译、情感分析和虚假信息检测等领域，ChatGPT超过了零样本下的SOTA性能，但在开放域知识问答和任务型对话任务上表现不佳［11-12］，在低资源语言的机器翻译性能也弱于已有的翻译产品［13］。然而目前针对ChatGPT在中文数据集上的全面评测较少。

本文使用公开标注数据集对ChatGPT在中文数据集上的知识常识性能表现进行评估，并与国内的主流大模型对比，研究其在中文环境下的具体表现，并结合性能评测结果分析其带来的影响与潜在的风险，最后给出中文模型的发展建议。

ChatGPT主要技术创新

在自然语言处理领域，BERT［14］、GPT［1， 15-16］等模型是大语言模型中影响广泛的创新性研究工作，而ChatGPT是基于GPT-3.5建立起来的具有广泛影响力与开创性意义的产品。

2.1　生成式预训练模型

生成式预训练（Generati【【微信】】，GPT）是一种基于自回归解码的预训练模型，它输入当前文本的token序列并预测下一个可能出现的token。深度学习中常见的生成式模型有RNN［17］、LSTM［18］、Transformer［19］等。生成式语言模型的解码过程如图1所示。

图 1　生成式语言模型的解码过程

Fig.1　The Decoding Process of Generative Language Models

GPT系列模型的核心是Transformer模型的解码器部分。Transformer中引入多头自注意力机制，多个注意力头分别关注句子中不同方面的重点，而且随着网络层次的增加，能够提取出更高级、更抽象的语义信息，理解能力更强。基于Transformer的多种语言模型除了语义提取能力强，还能从无标注的数据中学习，而且场景迁移能力好。GPT-1［15］模型基本沿用Transformer的解码器结构。在GPT-2［16］中，层归一化放到每个子模块之前，并在最后一个模块后再增加一个层归一化。

2.2　上下文学习、代码生成与指令微调

注意到GPT-3具有微弱的代码生成能力，OpenAI进一步设计了Codex［20］，这是一个参数规模120亿且具有Python代码编写能力的GPT微调模型，其结果证明了GPT这样的自回归模型具有生成计算机程序代码的能力。

2.3　人类反馈的强化学习

基于GPT-2的开放域对话模型DialoGPT［22］的研究结果表明，利用强化学习来防止模型产生异常的响应，并很有必要控制和检测模型生成的内容。为了获得更高质量的输出，基于GPT-3微调的WebGPT［23］将人工反馈用于优化模型生成的答案质量，通过模仿学习和强化学习得到更符合人类偏好的结果。事实上，生成式语言模型需要控制生成的内容并且符合人类的偏好，遵循公序良俗，考虑到这些原则，应用人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF），InstructGPT［24］先在GPT-3上进行监督微调，再通过人类标注者对模型的输出质量进行排序来训练奖励模型［25］，最后通过强化学习的优化策略（Proximal Policy Optimization，PPO）［26］最大化奖励以训练监督微调的模型。通过这样的训练方式，模型具备了输出文本更符合人类偏好、避免输出有毒言论和拒绝响应不合理的请求的能力。

GPT-3.5与GPT-3一样，拥有1 750亿个训练参数，不同的是GPT-3.5在GPT-3的基础上进行了计算机语言代码生成的训练以及指令微调，ChatGPT是在GPT-3.5上经过监督的指令微调和RLHF后得到的语言模型，如图2所示。因此，ChatGPT生成的文本更符合人类的语言习惯，用户在和其交流时感到更加流畅。

图2　ChatGPT的开发过程

Fig.2　De【【微信】】atGPT

中文语言能力性能评测

已有的评测表明，ChatGPT在机器翻译［13］、自然语言理解和情感分析［11］等领域都取得了较好的成绩。为了量化研究中文环境下ChatGPT的表现并与国内的中文大型语言模型对比，本文使用公开的中文数据集对ChatGPT进行评估，测试了零样本（Zero-Shot）情况下ChatGPT的中文情感分析、中文文本自动摘要、中文机器阅读理解和中文知识常识问答的性能，综合测试并分析ChatGPT在中文环境下的优势与风险。

3.1　中文情感分析性能测评

情感分析是一项经典的自然语言处理任务，模型需要根据输入的上下文确定其中包含的情感类别。本文使用ChnSentiCorp[1]和EPRSTMT［27］的测试集，其中每一个样本都被标注为两种情感极性：积极或消极。评估结果如表1所示。

表1　中文情感分析任务的性能测试实验结果

Table 1　Evaluation Experiments on Sentiment Analysis Tasks

ChatGPT在情感分析任务上具有可以媲美国产大模型的良好零样本性能。ChatGPT对于上下文的理解存在偏差，例如本实验使用Prompt提示输入文本只包含积极和消极两种情感，但“中性”这一情感仍然出现在ChatGPT的输出中。ChnSentiCorp数据集中有一些特殊样本，这些样本的每个句子具有不同的情感倾向，在这种情况下， ChatGPT能自动地逐句分析情感并返回结果，示例如表2所示。

表2　情感分析任务的输入输出示例

Table 2　An Input/Output Example of Sentiment Analysis Task

3.2　中文文本自动摘要性能测评

文本自动摘要任务需要语言模型对于输入的长文本进行推理计算，进而输出简洁准确的摘要文本。文本摘要任务分为抽取式摘要与生成式摘要，在本文实验中主要关注生成式摘要，并使用了LCSTS［28］的测试集以及TTNews［29］。考虑到TTNews数据集样本数量较大，并且有部分文本过长导致ChatGPT未能返回结果，因此随机抽样了1000条小于1000个汉字的样本作为测试集进行测试，评估指标为ROUGE-1［34］。测试结果如表3所示。

表3　中文文本摘要任务的性能测试实验

Table 3　Evaluation Experiments on Text Summary Tasks

对于新闻文本的摘要以及标题生成，ChatGPT在文本摘要上具有极好的性能，但在LCSTS数据集中，如果Prompt修改为“生成30字以内的摘要：”，输出的摘要平均长度却会达到70个字，这远超过Prompt中“30字以内”的限制，推测其可能在训练过程中缺少类似生成固定字数的中文Prompts或者Instructions，导致在生成文本的字数控制上出现偏差，因此ROUGE-1评分较低。笔者将Prompt修改为“为以下新闻生成标题：”，ChatGPT生成的文本字数与标注字数更相近，因此得到较高的分数，最后的输入输出样例如表4所示。

表4　文本摘要任务的输入输出示例

Table 4　An Input/Output Example of Text Summary Task

3.3　中文机器阅读理解性能测评

机器阅读理解（Machine Reading Comprehension，MRC）是评估大型语言模型理解与推理能力的主流任务之一。

常识性MRC是指问题的答案不一定直接在上下文中显式地给出，模型需要通过上下文进行常识推理，并且在提供的多个候选答案中选择最合适的一个作为输出。本文使用C3［32］的验证集用于评测，评测指标为准确度（Accuracy）。测试结果如表5所示。

表5　中文机器阅读理解任务的性能测试实验

Table 5　Evaluation Experiments on MRC Tasks

中文阅读理解的测试结果从整体上观察到更大参数规模的ERNIE 3.0 Titan的优势更大，这里ERNIE 3.0 Titan有2 600亿的参数规模，远大于130亿的PanGu-α和100亿的WeLM，这也验证了更大的通用模型对于生成式任务通常表现更好。局部来看，ChatGPT在简体中文和繁体中文上与ERNIE 3.0 Titan的性能相近，ChatGPT仅在CMRC2018的F1指标上更好，整体上ERNIE 3.0 Titan更有优势。ChatGPT的EM指标得分低而F1指标更高的原因推测是因为其训练方式导致的。EM指标需要两个文本在字符级别完全匹配才能得分。ChatGPT在经过RLHF的训练方式生成问答文本时，会更加考虑人类用户的感受，即生成语义更加完整连贯的句子而不是直接给出答案。

表6是机器阅读理解任务的一个直观的示例，标注是直接从上下文中抽取的语段，在语法和语义上可能不构成完整的句子，因此对用户而言可能更偏爱ChatGPT的回答。

表6　机器阅读理解任务的输入输出示例

Table 6　An Input/Output Example of MRC Task

3.4　中文闭卷问答性能测评

闭卷问答测试不会在输入中给出蕴含答案的上下文，语言模型需要根据预训练数据中学习到的知识和常识进行回答。本文的实验选择WebQA［33］和CKBQA[1]的测试集，评测指标为EM/F1或准确度，测试结果如表7所示。

表7　中文闭卷问答的性能测试实验

Table 7　Evaluation Experiments on Chinese Closed Book Questions and Answers

闭卷问答要求模型对中文的知识和常识有一定储备，而ChatGPT的训练语料大多是英文。与国内的针对中文的大模型相比，在WebQA数据集上ChatGPT的性能仅有PanGu-α性能的1/50，与ERNIE 3.0 Titan差距更大，在CKBQA数据集上ChatGPT性能接近参数量更小的PanGu-α。相比之下ChatGPT更容易出现中文的常识性和知识性错误，这也印证了ChatGPT在中文环境下的事实一致性不佳。

笔者进一步分析了ChatGPT在WebQA测试集上的输出文本，发现标注的正确答案蕴含在其输出文本中的比例仅有56.96%，这意味着在大约一半的情况下ChatGPT出现错误。笔者推测可能的原因是其使用的中文训练语料规模较小，或者是中文训练语料质量不佳。表8是一个闭卷问答的示例。

表8　中文闭卷问答任务的输入输出示例

Table 8　An Input/Output Example of Chinese Closed Book 【【微信】】k

风险评测与分析

在性能测评里，发现ChatGPT在中文的知识和常识问答上很容易出现错误，并且它会使用流畅的句子对编造的虚假事实进行阐述，对于信息来源受限的群体具有一定的迷惑性。

4.1　错误混淆风险

ChatGPT不一定能正确回答学术问题和一些常识问题，可能会混淆训练数据中的不同人物实体的背景和关系，这意味着通用语言模型在专业以及垂直领域暂时无法替代专用模型。ChatGPT混淆唐三藏与黛玉葬花背景故事的示例如图3所示。

图3　ChatGPT混淆人物典故的示例

Fig.3　An Example of ChatGPT’s Confusing Character Allusions

4.2　事实不一致风险

通过功能测试以及在数据集上的性能测试发现，ChatGPT在闭卷回答问题时可能会偏离事实。如表9所示，ChatGPT可能编造虚假信息，并且其输出通常是真实信息与虚假信息的混合，可能误导信息来源受限的群体，因此在信息检索方面暂时无法替代搜索引擎。

表9　ChatGPT编造的简历与可能的信息来源

Table 9　Fabricates Profiles by ChatGPT and Possible Sources of Information

4.3　认知战风险

GPT系列模型的训练语料大多来自西方的语言价值体系，这导致了ChatGPT在价值观层面偏向于西方，生成的内容不一定符合中国的价值观。尽管RLHF的训练方式使得ChatGPT表现得更加友好，但仍然不能保证它能脱离训练语料中的偏见，也不能保证不引入标注人员的价值观。例如，在功能测试中发现，ChatGPT生成内容中存在对于中国的大量偏见言论，也不会对涉及中国的政治言论进行回避和拒绝回答，这说明训练数据的构建过程中未对这部分言论进行筛查。

4.4　信息安全风险

目前，ChatGPT没有开源且难以复现，其资源与技术均不开放，目前控制在微软及OpenAI等少数国外机构中，存在“卡脖子”风险。

ChatGPT只提供云服务和应用程序接口（API）。训练与测试过程均在美国服务器上部署，训练过程及测试过程均会收集使用者的信息，并记录使用者的反馈及使用习惯，存在严重的信息泄露与用户隐私保护风险。[1][2][3]

4.5　伦理风险

大语言模型的发展历程与应用中，会伴随着一些伦理问题。通过大语言模型生成的内容，可能导致创作者在不经意间剽窃了他人的成果，产生侵犯知识产权的风险。另一方面，大语言模型展现出的推理能力与创作能力可能被用于考试作弊等学术不端行为。

对于学术领域，研究人员可能使用ChatGPT等大语言模型辅助科研，包括起草、修改论文和演讲稿等，这可以帮助科研人员更快地产出论文，但也可能降低研究的质量和透明度，因为ChatGPT等大语言模型生成的文本可能存在事实性错误，在科研进程中不合理地使用这些模型可能导致扭曲科学事实并传播错误信息。

在教育产业则需要更加严格地限制大语言模型的使用，一方面原因是大语言模型所蕴含的价值观难以被量化分析，其生成的内容对学生的价值观影响是不可控的；另一方面，使用大语言模型帮助或者代替学生完成作业以及进行考试作弊的成

本文地址： https://www.528683.com//show-400581.html