超大规模多模态预训练模型文澜发布

智东西3月21日消息，北京智源人工智能研究院、中国人民大学和中科院计算所的研究团队在中国人民大学高瓴人工智能学院执行院长文继荣教授的带领下，合作开展了大规模中文多模态预训练模型的研究，并发布了第一代悟道·文澜，旨在发掘预训练模型在中文通用多模态数据上的理解能力。

现阶段的“文澜”已初具规模，具备强大的视觉-语言检索能力和一定的常识理解能力。在“文澜”多模态模型的基础上，团队还开发了应用《AI心情电台》，可以为图像搭配符合意境的歌曲。

文澜团队使用RUC-CAS-WenLan多源图文数据集对BriVL进行预训练。该数据集是文澜团队构建的超大规模预训练数据集，该多源图文数据集来自网页用户产生的图文数据。文澜团队的数据组从互联网获取原始数据后，对数据进行了一系列的清洗工作，从而构建了包含5500万对图文数据的RUC-CAS-WenLan通用多模态数据集。

第一代文澜使用了3000万对图文数据，训练得到的BriVL模型的初始版本有10亿参数量，此阶段的BriVL模型在RUC-CAS-WenLan测试集和AIC-ICC测试集上的性能均超过了UNITER和CLIP。在未来，文澜团队将使用5亿级别的图文数据作为预训练数据集，BriVL的参数量将达到百亿级别。

论文地址：https://arxiv.org/abs/2103.06561

多模态首页：https://model.baai.ac.cn/model/wl