您现在的位置: 首页 观点 > > 正文
Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B
发布时间:2023-07-04 11:08:14 来源:站长之家

编程客栈()7月4日 消息:随着对AI工具的需求增加,对能够完成更多任务的系统的需求也越来越大。


(资料图片仅供参考)

企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。但要执行这些任务,模型需要经过大量数据的训练。而企业通常选择了更小、更具成本效益的模型,问题在于这些模型无法很好地处理这些任务。

像Meta的LLaMA、Falcon-7B和MPT-7B等开源模型,其最大序列长度约为2,000个token,使得它们难以处python理像文件这样的冗长非结构化数据。

这也是Salesforce推出的一系列大型语言模型XGen-7B的原因,XGen-7B在长达8,0编程客栈00个token的序列上进行训练,因此更容易处理冗长的文档输入,总共可处理1.5万亿个token。

Salesforce的研究人员使用Salesforce内部的库JaxFormer以及公共领域的教学数据对这一系列70亿参数的模型进行训练。

与LLaMA、Falcon和Redpajama等开源模型相比,所得到的模型在性能上达到或超过了它们。

Salesforce的AI研究人员表示,使用Google Cloud的TPU-v4云计算平台,在1万亿个token上训练这个模型只需花费15万美元。

XGen-7B基准测试亮眼

Salesforce的模型在一系列基准测试中取得了令人印象深刻的成绩,在许多方面都超过了受欢迎的开源大型语言模型。

在对“Measuring Massive Multitask Language Understanding(MMLU)”基准测试进行测试时,XGen在四个测试类别中有三个类别取得了最高分,而且在加权平均分中也是最高的。只有Meta的LLaMA在人文学科方面的MMLU测试中比XGen得分更高。

在同一基准测试的零样本测试中,XGen取得了类似的结果,但在人文学科方面仍然不及LLaMA。

就整体零样本测试而言,XGen只在“TruthfulQA”基准测试中超过了其他模型。在包括ARC_ch、Hella Swag和Winogrande在内的基准测试中,Meta的LLaMA取得了更好的结果。

然而,在代码生成任务上,XGen在评估基准测试的pass@1指标上超过了LLaMA和其他模型,得分为14.20,而LLaMA只有10.38。

在长序列任务中,Salesforce的这个新AI模型表现最出色,python在SCROLLS基准测试的QMSum和GovReport数据集上得分非常高。

不过,Salesforce的研究人员指出,由于XGen模型没有在相同的教学数据上进行训练,“它们不是严格可比较的”。

XGen-7B系列

Salesforce的研究人员创建了三个模型——XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。

XGen-7B-4K-base能够处理800android0亿个上下文token,它是在2,000个token,后来又是4,000个token上进行训练的。它以Apache-2.0许可发布,这意味着可以根据不同的许可协议分发派生作品,但所有未修改的组件必须使用Apache2.0许可。

XGen-7B-8K-base在之前提到的模型的基础上增加了3000亿个token,使其总的上下文理解能力达到了1.5万亿个token。这个模型也以Apache2.0许可发布。

XGen-7B-inst在公共领域的教学数据上进行了微调,包括databricks-dolly-15k、oasst1、Baize和与GPT相关的数据集。该模型在4,000个和8,000个token上进行了训练,仅用于研究目的。

为了训练这些模型,Salesforce的研究人员采用了两阶段的训练策略,每个阶段使用不同的数据混合。

团队解释说:“对于C4,我们使用C4流程处理了6个Common Crawl转储,并通过仅保留具有相同URL的文档中的最新时间戳,跨不同的转储去重了文档。我们训练了一个线性模型,将C4数据分类为类似于维基百科的文档和随机文档。然后,我们选择了前20%的类似于维基百科的文档。”

然后,将Salesforce和Hugging Face创建的代码生成模型Starcoder添加到支持代码生成任务。然后将Starcoder的核心数据与前一阶段的数据混合。

然后使用OpenAI的tiktoken对模型的数据进行token化,随后添加了连续空白和制表符的额外token。

虽然XGen的训练过程得到了一系列功能强大的AI模型,但也存在一些缺陷。Salesforce指出,该模型仍然存在幻觉问题。

有关XGen-7B的更多信息,Salesforce在其博客上发布了一篇详细的文章。模型的代码库可以在github上找到,模型的检查点可以在Hugging Face上找到。

上下文至关重要

能够理解更长输入的模型对企业来说可能是一个巨大的优势。

Salesforce的研究人员表示,大量的上下文“使得预训练的语言模型能够查看客户数据并对有用的信息查询做出回应”。

对于聊天机器人应用来说,更多的上下文意味着更多的对话。Salesforce并不是唯一一个研究这一概念的组织。Anthropic是由OpenAI的前员工创办的新兴AI初创公司,最近扩大了其旗舰应用Claude的上下文长度。

Claude现在可以用于从多个冗长的商业文件或书籍中获取信息,用户可以询问有关数据的问题。

目前的模型在增加上下文长度方面存在困难。当ChatGPT和Bing的AI聊天等应用开始出现时,用户发现他们在单个对话中使用模型的时间越长,模型的回应变得越来越不稳定。这是由于模型无法处理较长的上下文长度,导致混淆和产生幻觉。

XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/

标签:

Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B

编程客栈()7月4日消息:随着对AI工具的需求增加,对能够完成更多任务

提升法治素养 助力法治建设 2023年上海民办高校大学生法治素养公益广告大赛启动 实时

上海民办高校大学生法治素养公益广告大赛工作会议暨启动仪式近日在上海

多利科技(001311):MACD指标DIF线上穿0轴-技术指标上后市看多(07-04)

资金流向数据,主力资金净流入10492 08万元,占总成交额38%,其中超大

全球简讯:6月新势力车企销量成绩单公布,新能源板块依旧火热,理想汽车销量首次单月破三万

刚进入7月,各车企就纷纷亮出6月销量成绩单。从销量成绩来看,新能源汽

热头条丨本周迎“小暑”雷阵雨和高温仍是两大“主角”

最近一段时间,雨水频繁来“刷”存在感,同时也带来了短暂的清凉。7月3

世界微动态丨爱心企业为环卫工人送清凉

6月29日,爱心企业延边一口财泉商贸有限公司为延吉市环境卫生作业有限

“禁塑令”再收紧!新西兰成首个将一次性塑料食品袋纳入禁塑对象国家|环球动态

【环球时报综合报道】新西兰成为全球首个将一次性塑料食品袋纳入禁塑对

2023广东省事业单位集中招聘高校毕业生禅城区祖庙街道所属事业单位合成成绩公布公告_快播

根据《广东省事业单位2023年集中公开招聘高校毕业生公告》要求,现将广

嘉化能源(600273):7月3日北向资金减持14.83万股

7月3日北向资金减持14 83万股嘉化能源。近5个交易日中,获北向资金增持

当前通讯!建设大道41到43号

1、建设大道41到43号位于武汉市硚口宗关,由武汉市市政建设集团有限公

暖心一幕:1岁宝宝掉下轨道 女乘务员秒跳下救娃

7月3日消息,江苏常州1岁宝宝不小心掉进轨道缝隙中,女乘务员看到后,

环球最新:家境比韩雪还要厉害,但从来不屑于炒作,张翰怕是配不起她

家境比韩雪还要厉害,但从来不屑于炒作,张翰怕是配不起她,韩雪,吻戏,

如何注册qq号免费

1、注册QQ是免费的,申请方法如下:打开桌面的QQ,选择“注册帐号”;2

实时:魂师对决:现阶段各类悬赏阵容盘点解析!传说大雪要超尘心了?

大家好,我是正在喝汽水的何二维一。随着近期各类悬赏副本配件的高频率

微星「BilibiliWorld」确认参展 各位龙粉们集合啦!

2023BilibiliWorld微星确认参展了,速来集合时间:7月21日-7月23日地址

五芳斋:门店为消费者提供了更多接触公司其他节令产品的机会

新京报贝壳财经讯(记者阎侠)7月3日,五芳斋发布投资者关系活动记录表。

环球新消息丨美国财长耶伦将于7月6日至9日访华,外交部回应

2023年7月3日外交部发言人汪文斌主持例行记者会法新社记者:根据已宣布

2023武汉工业学院工商学院招生计划 武汉工业学院工商学院招生简章

高考志愿填报前,家长和考生必须要提前了解意向学校的招生计划和专业,

5座全球最大!“落户”这里→ 环球百事通

7月3日,中国海油对外宣布,随着5座全球单罐容量最大的27万立方米液化

北交所2023年上半年成绩单:42家企业上市募资82亿元 战投半年收益率12.8%-全球观速讯

北交所2023年上半年成绩单:42家企业上市募资82亿元战投半年收益率12 8

持续蝉联造车新势力冠军,理想汽车今年销量有望达到30万辆 每日速递

第一财经官方网站,7X24小时提供股市行情、经济大势、金融政策、行业动

韩剧TV怎样缓存视频?韩剧TV缓存视频的方法

想必在座的用户都在使用韩剧TV软件,不过你们晓得韩剧TV怎样缓存视频吗

考上“985”学校奖30万?学校未兑现,法院判了!

6月29日,话题 学校承诺考上985奖30万未兑现被起诉 登上热搜,引发关注

上半年中国上市企业市值500强揭晓,10家公司市值超万亿

据Wind最新发布的2023年上半年“中国上市企业市值500强”榜单,腾讯控

秋 葵的做法 秋葵做法大全家常

今天来聊聊,葵的做法,秋葵做法大全家常的文章,现在就为大家来简单介

世界动态:松铺系数是什么意思(松铺系数)

小米汽车,被绑架了 天天热闻

李尚福会见俄罗斯海军总司令

两块红斑竟然影响了她的人生 这种病为何被称为“不死的癌症”?

天天简讯:专业资源受青睐 健身机构“共享”兼职教练

港股异动 | 汽车股午后涨幅扩大 6月车市环比回暖 机构看好新能源车对传统燃油汽车加速替代

全球今亮点!贵金属板块上扬

高温天气影响早稻生长 农技服务田管忙

书记为校长撑伞16分钟火出圈,暖心“雨中情”为什么感动全网?

全球观焦点:达利欧:为什么世界正处于大混乱的边缘?

兰州市第一人民医院委托第三方环境卫生学检测服务项目成交公告

消息称部分晶圆代工厂成熟制程已变相降价_天天时讯

2023太原幼升小入学登记入口在哪里?手机端+电脑端

夏日消费迎“热”而上|每日热门

仙女虾是国家保护动物吗_仙女虾

播报:质量保证金是3%还是5%_质量保证

为什么特斯拉都喜欢开远光灯?车主:太冤枉了,我真没开 天天热讯

第31届世界大学生夏季运动会火炬传递成都站启动

新股消息 | 天津建设递表港交所 公司提供全面的工程施工服务 当前独家

方巾_关于方巾简介_世界微头条

【快播报】《收获日3》开发商:游戏旨在模仿“好莱坞大盗”之感

贵州铜仁可提供格兰仕中央空调维修服务地址在哪

环球快资讯:王帆院长答中评:美在实施台海战争边缘政策

江西崇义:党建引领防溺水 多措并举践担当_全球热讯

制动液不足图标什么样_制动液不足图标

当前速看:2023石家庄中考一分一段表汇总(含下载入口)

动态:逆水寒手游岁月神偷箱子密码 岁月神偷全流程攻略

仟源医药拟定增募资1.85亿元 两高管有望实现管理层收购 全球简讯

百分百“中国造”!国内规模最大超高压跨江输变电工程建成投运|环球即时

百事通!山师附中计划招生1450人,参与咨询的名师和奥赛专家云集

当前头条:暑运首日,复兴号列车首次亮相邯郸站

以闪亮之名领奖中心在哪

霸牛,正在补偿中!

地铁竞速:珠三角传奇 第六集——L型列车 vs L型列车 即时

性侵举报“轻拿轻放” 美国军校遮掩“家丑”挨批_快看

广州发布暴雨黄色和雷雨大风黄色预警

观天下!施晓健:帮助2063个失散家庭实现团圆

「每日一图@湖南」制造名城烟花璀璨,“厂BA”推向新一轮高潮

天涯明月刀手游一飞冲天(天涯明月刀一飞冲天礼包领取) 世界热议

川剧名家陈智林与“00后”同台,从《和亲记》看川剧青春新面孔!

全球最新:爆发!半场19分打哭韩国!世界杯第二胜!中国男篮等了整整10年

高效输出!偰李永炜首发仅19分钟 6中5贡献15分4助攻3篮板

被称为菊月的月份是多少_被称为菊月的月份是

洗衣机污垢槽怎么拆卸(洗衣机污垢槽怎么打开)

叶华路看不了视频网站可以点进去但是视频打不开 今日精选

王健林背水一战,珠海万达商管第四次冲刺IPO_焦点速递

记者亲历海南免税购物“即购即提”:30秒免税品到手,岛内即可拆开使用

技术与产品角力升级,新一轮混动高潮凸显“硬核”比拼-当前观察

美团买的电影票能不能退(美团电影票怎么退款) 世界动态

和平精英SS23赛季段位怎么继承 和平精英SS23赛季段位继承表一览

x 广告
x 广告

Copyright ©  2015-2022 东北自然网版权所有  备案号:京ICP备12018864号-9   联系邮箱:2913236@qq.com