HuatuoGPT

1年前更新 144 00

欢迎来到 HuatuoGPT 的存储库，这是一个在庞大的中文医学语料库上训练的大型语言模型 (LLM)。我们与HuatuoGPT的目标是为医疗咨询场景构建一个更专业的“ChatGPT”。

收录时间：

2023-11-16

打开网站手机查看

训练模型

HuatuoGPT

打开网站

网站简介：（医学）

HuatuoGPT（华佗GPT），《驯服语言模型成为一名医生》。

✨ 最新消息

[09/26/2023]: 发布HuatuoGPT-reward-model。
[06/30/2023]：华佗GPT评测数据在eval/文件夹中发布。
[06/30/2023]：发布HuatuoGPT-7B和HuatuoGPT-13B的代码、模型权重
[05/25/2023]：发布技术报告和华拓GPT演示。

⚡ 简介

以下是已发布内容的列表：

HuatuoGPT-SFT-data：混合SFT数据，利用两者的优势，赋予模型类似医生和患者友好的特征。
HuatuoGPT 模型：HuatuoGPT 模型权重（HuatuoGPT-7B 和 HuatuoGPT-13B）和在线演示。HuatuoGPT-7B在Baichuan-7B上训练，HuatuoGPT-13B在Ziya-LLaMA-13B-Pretrain-v1上训练。
医学评估基准：用于评估医学场景下的法学硕士的评估方法。

? 动机

满足在线和医院快速医疗咨询不断增长的需求，这些咨询不一定需要深厚的医学知识。我们相信像HuatuoGPT这样的法学硕士可以有效地满足这些需求，从而为医生腾出时间和精力来处理更复杂的病例。
为培训医学法学硕士提供开放数据。为法学硕士构建高质量的教学培训数据至关重要，但也可能具有挑战性。我们使用各种方法构建了医疗指导数据并将其公开。该数据集可以与其他数据集结合来训练自己的医学“ChatGPT”。
强调在使用医学法学硕士为患者提供医疗援助之前仔细评估其能力的重要性。我们认识到法学硕士在医学领域的潜在好处，但也承认需要进行彻底的评估和测试，以确保患者的安全和准确的诊断。

? 数据

概述

为了充分利用蒸馏数据（来自 ChatGPT）和真实数据（来自 Doctors），我们首先 HuatuoGPT 使用四种类型的数据进行微调：

类型	规模	描述	例子
从 ChatGPT 提取的指令	61,400	通过自我指令生成医疗指令。种子说明由我们手动编写。	?：现在该做什么准备手术前的身体检查吗？ ?‍⚕️：在准备手术前的身体检查中，需要进行以下几个步骤： 1. 了解患者的病史：了解患者的病史，包括既往病史、手术史、药物过敏史、家族病史等，以便评估手术风险并制定手术方案。 2.进行体格检查：进行全面的体格检查，包括测量身高、体重、血糖、心率、呼吸……
医生的真实指示	69,768	真实场景下的医疗单轮医疗顾问，医生的回答更加具体，能够解决用户的医疗问题。	?：我有糖尿病血糖160-90。该吃什么降压药？空腹血糖8左右。餐后11左右。我有糖尿病血糖160-90。该吃什么降压药？?‍⚕️：阅读你的提问描述，综合分析症状，体征，糖尿病，高血压160-90.高血压略高，空腹血糖8左右。餐后11左右。血糖略高。口腔依那普利，二甲双钳片治疗，新近研究，二甲双钳片，可以循环周期，促进蠕动，预防癌症，预防心脑血管疾病，延长寿命的作用。
从 ChatGPT 提取的对话	68,888	医疗多轮对话是使用两个 ChatGPT 创建的：一个充当患者，另一个充当医生。这些对话基于真实的患者案例及其相应的治疗。	?：我想问一下大夫，我发烧三天后，第四天全身惊慌，是怎么回事呢？ ?‍⚕️：~您好！谢谢您的提问。您的症状可能与幼儿急疹有关相关。幼儿急疹是一种常见的儿童疾病，该病因人类交叉感染病毒6型或7型感染引起。其症状包括： 1.发热 n2. 全身起红色疹子 3。口腔内及咽喉部有小水泡 4．病程一般为3-5天左右… ?：谢谢大夫！除了幼儿急疹还有其他可能吗？我之前有过感冒，这和疹子有关系吗？ ?‍⚕️：除了幼儿急疹，病毒性感冒和其他病毒感染也有可能引起疹子，但这种情况很少见。在您的情况下，感冒可能是一个诱发因素，但主要还是由病毒感染引起的疹子…
与医生的真实对话	25,986	现实场景中的医疗多轮对话。对话包括医生的多轮询问和患者的持续询问。	?：额头下巴下长满痘痘。就是不知道。 ?‍⚕️：你好，有什么烦恼吗？我可以为你提供帮助。请问你平时的饮食习惯、睡眠和护肤习惯怎样？化妆品和防晒霜的使用频率如何？还有洁面的频率是怎样的呢？ ? ：平时我基本上只是用水乳霜，然后洗面奶只用一种。日常防晒只有在夏天的时候才会用，我一般用悦诗风吟的洗面奶以及AHC的护肤产品，这些都比较温和。 ? ‍⚕️：谢谢您的。首先，建议您使用特定的化妆品和普通护肤品，使用特定的药妆品牌，如雅漾和理泉的洁面泡沫或洁面乳，并避免使用热水或肥皂清洗描述的面部。外用阿达帕林面膜敷在脸部痤疮浮肿上，一般晚上使用，涂抹分钟后外用医学护肤品比如雅漾、薇资、理肤泉苏型的调节面霜，或者是维生素e乳膏……

下载

HuatuoGPT-sft-data-v1：HuatuoGPT 监督微调（SFT）阶段使用的数据。

?‍⚕️ 模特

模型访问

模型	骨干	关联
华佗GPT-13B	Ziya-LLaMA-13B-Pretrain-v1	三角洲
华佗GPT-7B	百川7B	型号重量

请注意，由于 HuatuoGPT-13B-delta 是基于 LLaMA 的模型，因此我们仅发布权重增量。您可以下载 LLaMA-13B 权重并使用 apply_delta.py 进行转换：

python apply_delta.py \
--base-model-path $LLaMA_Base_Path \
--target-model-path $Save_Path \
--delta-path $Delta_Path

部署

首先，您应该安装所有必需的软件包

pip install -r requirements.txt

请确保您已下载我们的模型权重并运行

python -m huatuo_cli_demo_stream.py --model-name $model_dir

? 演示

在https://www.huatuogpt.cn/中尝试我们的模型。请注意，它仍在进行中。

?评价

GPT-4和医生的评估

我们邀请GPT-4和医生来比较HuatuoGPT（13B版本）和其他LLM的反应。评估数据可在eval/文件夹中找到。结果如下：

单圈评估

多轮评估

基准评估

数据集	模型	BLEU-1	蓝二号	BLEU-3	BLEU-4	GLEU	胭脂-1	胭脂-2	胭脂	独特-1	独特-2
医学质量保证2	T5-微调	20.88	11.87	7.69	5.09	7.62	27.16	9.30	20.11	0.41	0.52
	华佗GPT	27.39	14.38	8.06	4.55	8.52	29.26	8.02	15.46	0.74	0.93
网络医学质量保证	T5-微调	21.42	13.79	10.06	7.38	8.94	31:00	13.85	25.78	0.37	0.46
	华佗GPT	24.85	13.42	7.72	4.51	7.50	28.30	7.72	14.50	0.73	0.93
华佗26M	T5-微调	26.63	16.74	11.77	8.46	11.38	33.21	13.26	24.85	0.51	0.68
	华佗GPT	27.42	14.84	8.54	4.96	8.01	29.16	8.29	15.84	0.74	0.93

⚒️培训

准备数据

您可以从HuatuoGPT-sft-data-v1下载 SFT 数据，也可以将 SFT 数据构建为相同的架构。

训练

您可以通过以下方式训练模型：

accelerate launch \
	--config_file scripts/sft.yaml \
	--num_processes 8 \
	--num_machines 1 \
	--machine_rank 0 \
	--deepspeed_multinode_launcher standard scripts/finetune.py \
    --experiment_name HuatuoGPT \
	--model_path /path/to/your/model \
    --gradient_accumulation_steps 8 \
    --max_ckpts 3 \
    --max_seq_len 2048 \
	--data_dir /path/to/your/data \
	--output_dir ./ckpts \
	--log_dir ./train_logs \
	--n_epochs 3 \
	--train_bsz_per_gpu 2 \
	--eval_bsz_per_gpu 2 \
	--learning_rate 5e-5 \
	--eval_step -1 \
	--save_step -1 \
    --gradient_checkpointing

? 限制

我们华拓GPT的目标是解决快速医疗咨询的需求，而不是取代医生或为患者提供全面的医疗支持。然而，我们的模型确实有一些必须考虑的局限性：

误解：与所有语言模型一样，存在误解或曲解的风险，特别是在处理医学术语或复杂情况时。在这种情况下，我们的模型可能会给出错误的答案。
幻觉：大型语言模型有时会生成没有意义或与给定输入完全无关的响应。当用户不熟悉所讨论的概念时，这些“幻觉”可能尤其成问题，因为他们可能无法轻松识别模型输出中的错误。这些“幻觉”可能很难检测和避免。
偏差：法学硕士是在大型数据集上进行训练的，这可能会无意中将偏差引入模型的响应中。此外，应注意确保该模型不会被用来延续医疗治疗中的偏见。

致谢

我们知道我们的作品受到以下作品的启发，包括但不限于

IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1：https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1
Baichuan-7B：https://huggingface.co/baichuan-inc/baichuan-7B
骆驼： https: //arxiv.org/abs/2302.13971
自指导： https: //github.com/yizhongw/self-instruct

没有这些，这个存储库中就不会发生任何事情。

引文

@article{huatuogpt-2023,
  title={HuatuoGPT, Towards Taming Language Models To Be a Doctor},
  author={Hongbo Zhang and Junying Chen and Feng Jiang and Fei Yu and Zhihong Chen and Jianquan Li and Guiming Chen and Xiangbo Wu and Zhiyi Zhang and Qingying Xiao and Xiang Wan and Benyou Wang and Haizhou Li},
  journal={arXiv preprint arXiv:2305.15075},
  year={2023}
}

我们来自香港中文大学（深圳）数据科学学院（CUHKSZ）和深圳大数据研究院（SRIBD）。

数据统计

数据评估

HuatuoGPT浏览人数已经达到144，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：HuatuoGPT的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找HuatuoGPT的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站IE网址导航号提供的HuatuoGPT都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由IE网址导航号实际控制，在2023-11-16 17:59收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，IE网址导航号不承担任何责任。

IE网址导航号致力于优质、实用的网络站点资源收集与分享！本文地址https://www.iesofts.com/sites/25567.html转载请注明

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

HuatuoGPT

欢迎指数：

网站简介：（医学）

HuatuoGPT（华佗GPT），《驯服语言模型成为一名医生》。

✨ 最新消息

⚡ 简介

? 动机

? 数据

概述

下载

?‍⚕️ 模特

模型访问

部署

? 演示

?评价

GPT-4和医生的评估

基准评估

⚒️培训

准备数据

训练

? 限制

致谢

引文

数据统计

数据评估

相关导航

序列猴子开放平台

紫东太初多模态大模型

MOSS

Lobe

OpenBMB

XVERSE-13B

Watsonx.ai

OpenI

暂无评论

网址热榜

辽宁城市建设职业技术学院

河南财经政法大学

南京工业职业技术大学

上海财经大学

湖南财政经济学院

江西应用工程职业学院

热门标签

加入收藏夹

设为首页