简体中文 | English | Open-TransMind
CVPR作为计算机视觉和模式识别领域的世界级学术顶会,不仅是学者们展示前沿科技成果的学术会议,也是企业界探索前沿应用的一大平台。近年来,随着大模型技术的井喷爆发式发展,基于大模型技术的创新应用正逐步在产业界释放出巨大价值空间。作为人工智能技术领域的领军者与深耕者,百度在大模型技术领域拥有强大的技术优势和深厚技术积累,截至2022年11月,百度自主研发的产业级知识增强大模型体系文心大模型已经包含36个大模型,涵盖基础大模型、任务大模型、行业大模型三级体系,全面满足产业应用需求,构建了业界规模最大的产业大模型体系。作为文心大模型的核心之一,文心·CV大模型VIMER已广泛应用在自动驾驶、云智一体、移动生态等核心业务。
为了进一步推动视觉大模型技术的发展,今年百度将在CVPR 2023上举办首届大模型workshop,邀请大模型领域内的顶级学者和精英们共同探讨大模型技术的现状和未来,同时将在智能交通领域举办首个多任务大模型的国际比赛,提供大模型应用技术交流和切磋的平台。我们将于2023年3月28日正式启动第一届大模型技术国际竞赛,向全球开发者开放报名通道。
本次大模型技术竞赛我们瞄准智能交通方向,开源了Open-TransMind v1.0给选手作为比赛基线,为全球挑战者切磋交流前沿大模型技术提供绝佳机会。
关于Open-TransMind v1.0 百度在2022年中提出了统一特征表示优化技术(UFO:Unified FeatureOptimization),并发布了当年全球最大视觉模型VIMER-UFO 2.0(文心·CV大模型),覆盖20+ CV 基础任务,实现了28项公开数据集 SOTA,随后百度Apollo将UFO技术以及智能交通AI能力共同整合为多模态多场景多任务的文心交通大模型之【ERNIE-Traffic-TransMind】,可同时支持点云、视觉、文本三种模态,包含自动驾驶、车路协同、智慧交管、智能网联、智慧停车、智慧高速等多种场景下的百余种交通特性,并且开创式引入了文本图像对话的开放世界理解能力和文本图像模态转化能力,目前已陆续应用到了百度智能交通的各类解决方案和产品线中。
赛题背景 双赛道挑战升级 探索大模型技术革新之道
近年来,智慧汽车、人工智能等产业发展,为智能交通发展创造了良好的发展机遇。智能交通相关技术已经渗透到我们的日常生活中,但是现有大模型的多任务处理模式以及传统的感知方法(如分类、检测、分割等)无法满足我们对更广交通场景以及更高自动驾驶水平的追逐。我们从当前实际技术研究中的关键问题出发,设置了两大赛道:
赛道一:解决多任务、多数据间冲突的问题 之前主流的视觉模型生产流程,通常采用单任务“trainfrom scratch” 方案。每个任务都从零开始训练,各个任务之间也无法相互借鉴。由于单任务数据不足带来偏置问题,实际效果过分依赖任务数据分布,场景泛化效果往往不佳。近两年蓬勃发展的大数据预训练技术,通过使用大量数据学到更多的通用知识,然后迁移到下游任务当中,本质上是不同任务之间相互借鉴了各自学到的知识。基于海量数据获得的预训练模型具有较好的知识完备性,在下游任务中基于少量数据 fine-tuning 依然可以获得较好的效果。不过基于预训练+下游任务 fine-tuning 的模型生产流程,需要针对各个任务分别训练模型,存在较大的研发资源消耗。 百度提出的 VIMER-UFO All in One 多任务训练方案,通过使用多个任务的数据训练一个功能强大的通用模型,可被直接应用于处理多个任务。不仅通过跨任务的信息提升了单个任务的效果,并且免去了下游任务 fine-tuning 过程。VIMER-UFO All in One 研发模式可被广泛应用于各类多任务 AI 系统,以智慧城市场景为例,VIMER-UFO 可以用单模型实现人脸识别、人体和车辆ReID等多个任务的 SOTA 效果,同时多任务模型可获得显著优于单任务模型的效果,证明了多任务之间信息借鉴机制的有效性。
赛道二:对场景文本图像的理解与感知 在交通场景中高性能的图像检索能力对于交通执法、治安治理具有十分重要的作用,传统的图像检索方式通常使用先对图像进行属性识别再通过与期望属性的对比实现检索能力。随着多模态大模型技术的发展,文本与图像的表征统一和模态转换已有广泛应用,使用该能力可以进一步提升图像检索的精度和灵活性。
获胜队伍可以在CVPR 2023 foundation model workshop现场宣讲队伍的技术方案也可以提前录制视频。 此外,各Track 前三名会被邀请提交论文(extended abstract论文可以不通过cmt系统提交,regular论文需要通过cmt系统提交) ,论文要求详见CVPR foundation model workshop论文提交页面
参赛选手可以任意选择某个赛道或者同时参加两个赛道,报名赛道1请点击这里
时间(北京时间) | 赛程 |
---|---|
2023/3/28 12:00:00 | 正式启动比赛注册报名,开放比赛数据下载 |
2023/4/1 00:00:00 | 开放A榜评测入口 |
2023/4/8 00:00:00 | 发布官方基线 (PaddlePaddle版本) |
2023/5/17 23:59:59 | 比赛报名截止,关闭A榜评测入口,锁定比赛A榜排名榜单 |
2023/5/19 23:59:59 | 公布比赛B榜排名榜单 |
2023/5/20 00:00:00 -2022/5/22 23:59:59 | B榜榜单TOP10队伍提交代码复查材料(请提前准备,逾期视为放弃) |
2023/5/23 00:00:00-2022/6/6 23:59:59 | 飞桨比赛组委会审查作品代码及作弊情况,复现成绩 |
2023/6/7 12:00:00 | 公布比赛最终排名榜单 |
2023/6/12 23:59:59 | 被邀请参会的队伍提交演讲PPT文件,并准备演讲视频(届时会有官方人员联系各队伍) |
2023/6/19 | CVPR 2023 foundation model研讨会 |
备注:比赛分A/B榜单,比赛最终排名按照选手成绩在B榜的排名。
大赛总奖池10,000美元,本赛道总奖池5,000美元,基于飞桨PaddlePaddle的方案才可获得比赛奖金。
奖项 | 队伍数 | 奖金(含税) |
---|---|---|
一等奖 | 1 | 2500美元 |
二等奖 | 1 | 1500美元 |
三等奖 | 1 | 1000美元 |
备注: 最终排名榜单前10名队伍的模型方案,只有使用了飞桨框架并同意开源,才可获得对应奖金,且获奖名次不顺延(若不使用飞桨框架,名次不会被取消,只是无法获得奖金)。
参赛对象:
本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等均可报名参赛。百度公司员工可报名参与,但无法获奖。
参赛要求:
支持以个人或团队形式参赛,每个参赛队伍人数最多不超过10人,允许跨单位自由组队,但每人只能参加一支队伍。
(1) 所有参赛选手都必须在百度大脑AI Studio平台注册报名;
(2) 参赛选手需确保注册时提交信息准确有效,所有的比赛资格及奖金支付均以提交信息为准;
(3) 参赛选手报名后可在“我的团队”页面组队。每支队伍需指定一名队长,队伍成员总数最多不超过10人,每名参赛选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消相关队伍的参赛资格;
(4)队伍名的设定不得违反中国法律法规或社会公序良俗,且参赛队伍命名中不可出现“百度官方”,“飞桨官方”,“paddle官方”,“官方baseline”等字样。若命名违规的队伍在收到比赛主办方警告后仍未修改队伍名称,比赛主办方有权解散该队伍 ;
(5) 除主办方提供的数据集外,参赛选手不得使用任何其他渠道的标注数据;
(6) 参赛队伍可在参赛期间随时上传测试集的预测结果,每天最多评测5次,比赛管理系统会实时更新各队伍的当前最高成绩与当前最新榜单排名情况;
(1) 参与者禁止注册多账户报名,经发现将取消成绩并严肃处理。
(2) 参与者禁止在考核技术能力的范围外利用规则漏洞或技术漏洞等不良途径提高成绩排名,经发现将取消成绩并严肃处理。
(3) AI Studio将收集选手信息以及代码、模型、系统报告用于成绩评定、比赛通知等相关比赛事项。