BayLing

2年前更新 259 00

BayLing是一种具有高级语言对齐功能的指令跟踪大型语言模型，在英汉生成、指令跟踪和多轮交互方面表现出卓越的能力。BayLing可以轻松部署在具有16GB内存的消费级GPU上，并协助用户完成翻译、写作、创作、建议等任务.

所在地：

新加坡

语言：

收录时间：

2023-11-16

打开网站手机查看

训练模型

BayLing

打开网站

网站简介：（科研）

BayLing（百临，bǎi líng）是一种具有高级语言对齐功能的指令跟踪大型语言模型，在英汉生成、指令跟踪和多轮交互方面表现出卓越的能力。BayLing可以轻松部署在具有16GB内存的消费级GPU上，并协助用户完成翻译、写作、创作、建议等任务……

如果BayLing对你有帮助，欢迎star这个repo?

? 了解更多关于BayLing的信息：

?演示版：欢迎申请试用BayLing的在线演示版（测试版）。

?论文：BayLing 的综合研究论文。

?主页：BayLing 的主页。您可以在这里了解BayLing的更多信息和案例。

✍️ BayLing-80 测试集：人工注释的评估集，包含中英文多轮指令，可用于评估法学硕士的多语言和多轮交互能力。

?型号：BayLing-7B-v1.0、BayLing-13B-v1.0、BayLing-13B-v1.1（最佳版本）

? 尝试BayLing 的在线演示?

BayLing由中国科学院计算技术研究所（ ICT /CAS）NLP课题组开发
BayLing 正在不断优化? 如果您有任何建议，请联系bayling@ict.ac.cn。

? 新闻

[七月。[2023年06月06日] BayLing-13B-v1.1模型已发布，在BayLing-13B-v1.0的基础上额外注入了大量的中文知识。BayLing的在线演示也更新了。

[六月。2023 年 2 月 21 日] BayLing 的论文可用。

[六月。2023年12月15日] BayLing-7B和BayLing-13B的模型在Huggingface?中发布。

贝灵模型

BayLing-13B-v1.1（当前探索BayLing的最佳选择）
- 基于BayLing-13B-v1.0继续学习更多中文知识。
- 为了节省启动步骤，Bayling-13B-v1.1 不是 diff 版本（apply_delta.py不是必需的）。请注意，请遵守License。
BayLing-13B-v1.0（差异版本）
- 该模型可以重现BayLing论文中的结果。
- Weight-diff版本，可以通过快速获取BayLing的参数apply_delta.py。
BayLing-7B-v1.0（差异版本）
- 该模型可以重现BayLing论文中的结果。
- Weight-diff版本，可以通过快速获取BayLing的参数apply_delta.py。

概述

试试贝灵

| 环境 | 型号 | 命令交互 | 图形用户界面交互 |

环境

克隆 BayLing 的仓库。

git clone https://github.com/ictnlp/BayLing.git
cd BayLing

环境要求：Python 3.10、Pytorch 2.0、transformers 4.28.1、FastChat
```
pip install -r requirements.txt
```

模型

如果您下载BayLing-13B-v1.1，则可以直接使用，无需任何额外操作。
如果您下载BayLing-7B-v1.0或BayLing-13B-v1.0的权重差异版本，则应下载LLaMA-7B/13B的模型，并运行以下脚本以获取完整的 BayLing 参数${PATH_TO_BAYLING}。
```
python apply_delta.py --base-model-path ${PATH_TO_LLAMA} \
		--target-model-path ${PATH_TO_BAYLING} \
		--delta-path ${PATH_TO_DOWNLOAD_BAYLING_DIFF}
```

命令交互

您可以使用此脚本从命令行快速与 BayLing 交互。
GPU内存要求：BayLing-7B至少10GB，BayLing-13B至少16GB。

没有可用的 GPU？欢迎尝试BayLing的在线演示?！

export CUDA_VISIBLE_DEVICES=0
python chat.py --model-path ${PATH_TO_BAYLING} --style rich --load-8bit

图形用户界面交互

您还可以基于FastChat使用 GUI 在您的个人设备上部署 BayLing 。

python -m fastchat.serve.controller &

CUDA_VISIBLE_DEVICES=0 python model_worker.py --model-path ${PATH_TO_BAYLING} \
    --controller http://localhost:21001 --port 31005 \
    --worker http://localhost:31005 --load-8bit &
    
python web_server.py

然后，您可以在浏览器中与BayLing进行交互。

贝灵有多好？

案例

互动翻译

价值观

高考

通用的

知识

角色扮演

常识

推理

反事实

代码

写作

多语言翻译

我们在WMT22基准上评估了 BayLing 的多语言能力。我们将 BayLing-7B 和 BayLing-13B 与最先进的翻译模型进行比较，包括特定于翻译的大型模型（Google Translate、NLLB-3.3B）和通用指令跟踪 LLM（GPT-4、GPT-3.5） -turbo、ChatGLM-6B、BLOOMZ-7B1-MT、Vicuna-13B、ParroT-7B和Alpaca-7B）。
我们发布所有翻译结果。您可以将它们用作机器翻译研究的基线。


WMT22 汉译英	WMT22 英汉互译

WMT22 德语-英语	WMT22 英语-德语


WMT22 多语言基准（零样本设置）

人工评估的交互式翻译

我们邀请了几位英语专业的注释者（通过了TEM-8）与BayLing和翻译任务基线进行交互，并给出了系统在三个能力上的排名。
下图展示了在人类评估中取得第一名的5个系统的比例。在评估翻译、指令跟随和多轮交互能力方面，BayLing-13B 分别以 18%、30% 和 20% 的情况被人类评为第一，仅次于ChatGPT。


翻译质量	遵循指令	多轮互动

GPT-4 评估的一般任务

我们扩展了Vicuna-80 测试集以包含多轮交互，创建了一个名为BayLing-80的多轮指令测试集。我们要求 GPT-4 对两个比较系统在 BayLing-80 上的响应进行评分，并选择获胜者。
当用 GPT-4 评估时，BayLing-13B 在 35% 的情况下优于 GPT3.5-turbo，在 45% 的情况下不比 GPT-3.5-turbo 差。
系统响应和 GPT-4 评论可以在此处找到。


英文单转指令	中文单圈指令

英文多轮指令	中文多圈指令

BayLing-13B 与 GPT-3.5-turbo 的 9 项功能对比。


英文单转指令	中文单圈指令

英文多轮指令	中文多圈指令

高考和 SAT/GRE/GMAT/LSAT 标准化考试

我们根据AGIEval的中文和英文标准化测试对 BayLing 进行评估。
中文：高考。

系统	高考
系统	平均。	中国人	英语	数学卡	物理	化学	生物学	历史	地理	数学完形填空
GPT-3.5-涡轮	43.87	42.68	86.27	30.48	21:00	44.44	46.19	59.57	63.32	0.85
贝灵-13B	32.13	29.27	69.28	29.34	21.50	36.71	30:00	34.04	38.19	0.85
贝灵-7B	28.20	27.64	55.56	26.78	24.50	29.95	29.05	33.19	27.14	0.00
聊天GLM-6B	31.83	31.71	52.29	26.50	16:00	27.54	28.10	54.04	47.74	2.54
骆驼毛-13B	29.36	21.14	71.24	21.94	23:00	31.88	27.14	33.19	34.67	0.00
羊驼-7B	20.03	24.80	36.27	17.95	6.00	20.77	20.95	24.68	27.14	1.69

英语：SAT、LSAT、公务员考试、GRE 和 GMAT。

系统	平均。	SAT			GRE/GMAT 考试	法学院入学考试			公务员考试
系统	平均。	SAT数学	佐恩	不带通道的卫星	水鼠	阿尔卫星	卫星定位卫星	lsat-rc	洛吉卡恩	逻辑卡-zh
GPT-3.5-涡轮	49.30	42.27	82.04	55.83	30.31	28.70	54.51	66.17	42.70	41.17
贝灵-13B	35.31	27.27	55.34	38.35	22.83	22.61	38.04	42.38	35.64	31.80
贝灵-7B	28.60	25.45	42.72	29.61	21.26	19.13	26.86	33.83	29.95	23.81
聊天GLM-6B	32.79	27.73	56.31	37.86	16.54	19.57	38.04	33.09	33.18	30.57
骆驼毛-13B	35.97	27.73	62.14	36.89	20.47	20.43	41.18	45.72	33.18	28.88
羊驼-7B	24.03	21.36	28.16	29.13	18.11	19.13	22.35	26.02	27.96	21.51

局限性

尽管在某些方面表现出值得称赞的表现，BayLing 仍然表现出一些局限性。例如，当面对涉及事实知识的任务时，BayLing 有可能生成不准确的信息。此外，它缺乏解决推理、数学和编码任务的能力。此外，BayLing 还存在生成有害或带有偏见的内容的风险。

BayLing 是一个大型语言模型，与任何其他语言模型一样，无法保证生成内容的绝对准确性。请注意，本项目不承担任何与数据安全相关的风险和责任，不承担因开源模型和代码而产生的舆情风险，也不承担因模型误导、误用、传播或不当使用而产生的任何风险和责任。

执照

模型权重（增量版本）和推理代码根据 GNU 通用公共许可证 v3.0 (GPLv3) 发布。在线演示作为研究预览，仅供非商业用途，须遵守LLaMA 的模型许可证、 OpenAI 生成的数据的使用条款、 ShareGPT 的隐私惯例和WMT22 的数据许可证。

致谢

我们谨向所有为 BayLing 做出贡献的人们表示感谢。特别感谢王晓红女士对InforSuperBahn MLOps的使用提出的宝贵意见和建议，以及她在提供计算资源和展示BayLing方面的组织和资源支持。我们还要感谢刘晓东在分布式系统的构建和演示部署的总体协调中所发挥的关键作用。此外，我们还感谢南京InforSuperBahn研究所的开发团队在维护计算资源以及为BayLing的网页和演示创建显示界面方面做出的贡献。

作者

| 张少雷 | 方庆凯 | 张卓成 | 马正瑞 |

| 周彦 | 黄郎林 | 卜孟宇 | 桂尚通 |

| 陈云霁 | 陈希林 | 杨峰* |

引文

如果我们的工作对您有帮助，请引用为：

@article{bayling,
      title={BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models}, 
      author={Shaolei Zhang and Qingkai Fang and Zhuocheng Zhang and Zhengrui Ma and Yan Zhou and Langlin Huang and Mengyu Bu and Shangtong Gui and Yunji Chen and Xilin Chen and Yang Feng},
      journal={arXiv preprint arXiv:2306.10968},
      year={2023},
      url={https://arxiv.org/abs/2306.10968}
}

欢迎来到?BayLing并加入BayLing微信！

数据统计

数据评估

BayLing浏览人数已经达到259，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：BayLing的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找BayLing的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站IE网址导航号提供的BayLing都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由IE网址导航号实际控制，在2023-11-16 18:03收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，IE网址导航号不承担任何责任。

IE网址导航号致力于优质、实用的网络站点资源收集与分享！本文地址https://www.iesofts.com/sites/25551.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

BayLing

欢迎指数：

网站简介：（科研）

? 新闻

贝灵模型

概述

试试贝灵

环境

模型

命令交互

图形用户界面交互

贝灵有多好？

案例

多语言翻译

人工评估的交互式翻译

GPT-4 评估的一般任务

高考和 SAT/GRE/GMAT/LSAT 标准化考试

局限性

执照

致谢

作者

引文

数据统计

数据评估

相关导航

快意

OpenBMB

PICA（科研）

阅文集团

活字通用大模型

AgentGPT

Segment Anything

Watsonx.ai

暂无评论

网址热榜

广西工商职业技术学院

云南艺术学院

蚌埠工商学院

河南艺术职业学院

爱康国宾体检

清华大学

热门标签

加入收藏夹

设为首页