智东西11月29日消息,今日,在第五届人工智能计算大会(AICC)上,智源研究院联合拓尔思、中科闻歌发布共建的“中文互联网语料库”(Chinese Corpora Internet,简称CCI),旨在为国内大数据及AI行业提供一个安全、可靠的语料资源。据介绍,中文互联网语料库CCI在数据来源上均为高质量可信、中国境内的互联网站,经过严格的数据清洗和去重,并且在内容质量、价值观等方面进行了针对性的检测与过滤,进一步提升数据质量和安全可信程度。CCI语料库首期开放的数据(CCI v1.0.0)规模为104GB,数据集总体的时间跨度为2001年1月至2023年11月。
智源开放数据仓库:
data.baai.ac.cn/details/BAAI-CCI
HuggingFace开源地址:
huggingface.co/datasets/BAAI/CCI-Data