商业日报网

滚动新闻:
·斩获颇丰!华谊兄弟率先披露 ·广州白云机场等重要口岸开启广交会专用通道 ·光伏业务快速发展,天合光能前三季度净利增超89% ·广州消费品工业兴旺化妆品工业年产值逾千亿元 ·如何看A股10月开门走势?多项数据传递出积极信号 ·汽车和汽车零部件行业周报:新势力销量高增,关注三季报优质个股-23100 ·研报掘金丨华鑫证券:天岳先进临港厂产能加速释放,在手订单充足 ·金价涨势暂歇!2023年10月8日各大金店黄金价格多少钱一克? ·物流运行迎来“金九”9月份中国物流业景气指数达到53.5% ·山东泰安公积金新政:认房不认贷,无房职工可提取公积金付房租 ·金盘科技“绿色低碳高效节能新能源装备和新材料智能制造产业园”正式开工 ·中国男篮已无优势可言,“大手术”迫在眉睫 ·达来:扎根基层的环保人 ·百家机构调研股出炉,明星基金节后建仓潜力股曝光!芯片博士“最后的爱股”曝 ·中国中免H股遭摩根大通减持A股机构持股数量大幅减少 ·10月7日-珠三角谷物行情快讯 ·终结九连跌黄金周黄金遭遇“黄金劫” ·乡村行·看振兴小酸枣大产业科技助力山西临县枣产业高质量发展 ·云南铁路中秋国庆假期发送旅客373万人次刷新单日客流纪录 ·福州机场“双节”假期出入境客流同比增长481% 

商汤科技发布多模态通用大模型“书生2.5”:拥有30亿参数,支持问答、识

来源:IT之家    发布时间:2023-03-15 13:52:31   阅读量:15073   

感谢IT之家网友 航空先生 的线索投递!

,商汤科技于今日发布了多模态多任务通用大模型“书生2.5”,拥有 30 亿参数,号称是目前全球开源模型中 ImageNet 准确度最高、规模最大,同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。

据介绍,“书生 2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于 2021 年 11 月首次共同发布,并持续联合研发。

改进方面,“书生 2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生 2.5”可辅助处理各种复杂任务。

例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除解决自动驾驶和居家机器人这类复杂问题的能力,“书生 2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务,满足各种需求。

除全图级别的以图生文,“书生 2.5”通用大模型同样可根据物体边框更精细化定位任务需求。

“书生 2.5”同时具备 AIGC“以文生图”的能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。

例如,借助“书生 2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的 Corner Case 训练数据,进而训练自动驾驶系统对 Corner Case 场景的感知能力上限。

“书生 2.5”还可根据文本快速检索出视觉内容。

例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。

即日起,“书生 2.5”多模态通用大模型已在商汤参与的通用视觉开源平台 OpenGVLab 开源,IT之家附 GitHub 仓库访问链接。

【免责声明】 凡本站未注明来源为(商业日报网)的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。

热文推荐

首页 | 焦点| 业界| 财经| 企业| 消费| 行业| 股票| 视窗| 商业| 经贸| 产业| 资讯

Copyright @ 2010- 备案号:鄂ICP备2021013412号-3 网站地图