新宝GG新闻
 
ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4免费可用
作者:admin    发布于:2023-07-15 09:43   

 

  此次,Claude 2 除了一大波能力上的升级,更重要的是大家都可以用了。

  今日,那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。

  据介绍,Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强,并且可以产生更长的响应。

  更重要的是,用户可以在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版本相同。

  机器之心在多次介绍过 Claude,它是由 OpenAI 离职人员创建的 Anthropic 公司打造的。在 ChatGPT 发布两个月后,该公司就迅速开发出了 Claude,可以完成摘要总结、搜索、协助创作、问答、编码等任务。

  现在终于迎来了大版本更新。Anthropic 表示,Claude 2 基于此前从用户那里获得的反馈建议进行改进。

  Anthropic 致力于提高 Claude 作为编码助理的能力,Claude 2 在编码基准和人类反馈评估方面性能显著提升。

  以前的模型经过训练可以编写相当短的回答,但许多用户要求更长的输出。Claude 2 经过训练,可以生成最多 4000 个 token 的连贯文档,相当于大约 3000 个单词。

  Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练,可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。

  虽然 Claude 的训练数据仍然主要是英语,但 Claude 2 的训练数据中非英语数据比例已经明显增加。

  Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件,但它仍然可能会产生混淆。

  该研究进行了一系列评估实验来测试 Claude 2 的性能水平,包括对齐评估和能力评估两部分。

  在模型对齐方面,该研究针对大模型的三个关键要求做了具体评估,包括:遵循指令、生成内容有用(helpfulness);生成内容无害(harmlessness);生成内容准确、真实(honesty)。

  大模型在生成过程中应该遵循人类提供的指令,这将让生成结果符合要求、实际有用。针对这一点,该研究对 Claude 2、Claude 1.3 和 Claude Instant 1.1 进行了实验评估,并使用经典的对弈水平评估指标 ——Elo 分数,几个模型的评估结果如下图 1 所示:

  Bias Benchmark for QA(BBQ)是用于评估模型对人群偏见的常用基准。该研究在 BBQ 基准上进行实验评估,几种模型的实验结果如下图 2 所示:

  下图 3 显示了在消除歧义的语境下几种模型回答 BBQ 基准中问题的准确性。值得注意的是,Claude 模型的准确率会比 Helpful-Only 模型低是因为模型会拒绝回答一些存在偏见的问题。

  大模型有时会生成虚假混乱的信息,因此测试模型生成内容的事实性非常重要。TruthfulQA 是一个用于评估语言模型在对抗性环境中输出的准确性和真实性的基准,几种模型的测试结果如下图 4 所示:

  在能力评估方面,该研究针对多语言翻译任务、上下文窗口、标准基准评估、资格水平考试几个方面对 Claude 2 展开评估实验。

  为了证明 Claude 2 会实际使用完整的上下文,该研究测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:

  不过,研究团队表示目前发布的版本仅支持 100K token 的上下文窗口,完整的上下文窗口将会集成到他们的产品中。

  该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。

  其次,研究团队还用美国研究生入学考试(GRE)测试了 Claude 2 的能力水平,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与达到了参加 GRE 考试的考生的中位数水平。

  最后,该研究还在美国医师执照考试(USMLE)题目上测试了 Claude 2:

  2、文本处理能力:总结文档、输出表格。这里 Claude 2 用上了 100K token 文本处理功能,可以在 prompt 窗口上传几百页的文档。

  首先让 Claude 2 以目录形式总结一下「Claude 2 技术文档」的要点,总结得非常详细,对我们写这篇文章有帮助。

  原标题:《ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

Copyright © 2028 新宝GG注册 TXT地图 HTML地图 XML地图