C4 是 Common Crawl 的网络爬虫语料库的一个巨大的、干净的版本。它基于 Common Crawl 数据集:https://commoncrawl.org。它用于训练 T5 文本到文本的 Transformer 模型。可以从 allennlp 以预处理的形式下载数据集。
全部评论
相关推荐
点赞 评论 收藏
分享
10-31 10:39
哈尔滨工业大学(威海) Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
