
网站简介:(通用)
SEEChat – 一见多模态对话模型
- “一见”取义自“百闻不如一见”,是一个侧重视觉能力的多模态对话大模型,基于单模态专家缝合路线(Single-modal Experts Efficient integration, SEEChat)。
- SEEChat项目的重点是将视觉能力与文本对话能力相集成,长期目标是赋予模型以文本/对话的方式解决视觉任务(图像理解,目标检测,跨模态,开放集)的能力
- “一见”多模态对话模型是SEEChat的开源版本,语言模型部分基于中文ChatGLM6B
能力展示
1. 多轮视觉问答、代码生成、目标分类
2. Image Captioning
- 从中文Zero数据集中随机选取1000张中文互联网图像,已排除训练集数据
- 使用ChineseCLIP计算图文相关性得分
- 上图为七种公开方法(原生的互联网文本做为其中一种)的图文相关性得分胜出情况
- SEEChat胜出率甚至大比例超过原生文本
技术方案
SEEChat基于单模态专家缝合路线,通过可学习的桥接层将视觉模态的专家模型与文本模态的专家模型进行缝合,形成具备视觉理解能力的多模态对话模型。
开源V1.0版本的SEEChat,视觉模态基于CLIP-ViT,文本模态基于ChatGLM,可学习的桥接层参考BLIP-2以及LLAVA等前期工作,进行如下的两阶段训练:
- Stage I 图文对齐: 使用360人工智能研究院开源的Zero数据集,共计2300万图文对桥接层进行训练
- Stage II 人机对齐:使用LLAVA开源的158K instruction数据经翻译后,对桥接层和语言模型部分进行微调
使用说明
硬件说明
GPU要求3090或者A100
环境安装
conda env create -f environment.yml
模型与数据
模型下载
从这里下载chatGLM所有的bin文件和ice_text.model,放于目录models/chatglm-6b中。
从百度云盘下载权重文件checkpoint_100.pth,放于目录models/chatglm-6b中。其中提取码为 qiho
运行推理脚本
进入到目录: cd code
运行启动脚本: sh demo_stage2.sh
启动后,即将开始一轮对话。当命令行显示“question”时,用户可以在终端输入问题,由seechat回答。当输入“break”时,本轮对话结束,进行下一轮对话。 实测效果如下: 
相关工作
中文
英文
数据统计
数据评估
关于一见特别声明
本站IE网址导航号提供的一见都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由IE网址导航号实际控制,在2023-11-16 17:53收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,IE网址导航号不承担任何责任。
相关导航

MiracleVision(奇想智能)是美图自研的一款懂美学的AI视觉大模型,以美图深厚的美学沉淀和长期的审美趋势研究作为基础,建立美学数据训练机制和美学评估体系,为MiracleVision大模型生成高品质的图像和稳健的图像质量提供强大的支撑
揽睿Ai
集成全网大模型,全网最优算力租赁,一键启动Stable Diffusion,支持LLM等

悟道·EMU
医学大模型提供基于LLaMA-7B、CaMA-13B和ChatGLM-6B 三个版本,用于PromptProtein的模型,法律大模型智海-录问基于Baichuan-7B,智海-三乐基于Qwen-7B

言犀
言犀,京东智能人机交互平台,懂业务更懂你,是融合京东自身十年客户服务与营销的最佳实践以及自研全链路AI能力的服务数智化平台级产品。为政务、金融、零售、教育等行业领域提供以用户为中心的客户服务、营销、流程自动化的新一代智能化解决方案,助力客户实现服务数智化转型。

火山方舟
火山方舟是一个开放的大模型生态平台,它提供了一系列功能,包括模型广场、模型体验、模型训练推理和模型应用。这个平台旨在加速大模型能力渗透到千行百业,助力模型提供方和使用...

BELLE
本项目的目标是促进中文对话大模型开源社区的发展,愿景是成为能够帮到每一个人的LLM Engine。

Auto-GPT
Auto-GPT | 爆火的实现GPT-4完全自主的实验性开源项目,GitHub超10万星 | AI训练模型

百川大模型
百川智能以帮助大众轻松、普惠地获取世界知识和专业服务为使命,致力于通过语言AI的突破,构建中国最优秀的大模型底座。百川大模型,融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。
暂无评论...





