3万亿的开放数据集AI2 Dolma发布

卡卡

作者

8月22日消息:即使有许多公开的数据集，也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标，以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据，还为人工智能的发展开辟了新的可能性。

AI2Dolma 是一个开放的预训练数据集，包含3万亿个标记。它由 Allen AI 研究所创建，用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究，并提供一个透明和开放的平台。

项目地址:https://huggingface.co/datasets/allenai/dolma

Dolma 数据集包含了来自各种来源的文本，如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。

Dolma 的创建过程包括数据处理步骤，如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比，Dolma 采取了更多的透明度，提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布，并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。

特点:

1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集，包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。

2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证，可以供其他研究人员使用和研究，促进了整个研究社区的合作和发展。

3. 代表性:AI2Dolma 的数据集与其他语言模型数据集（无论是闭源还是开源）具有相似的来源和处理方式，确保了模型在广泛领域的能力和行为与其他语言模型一致。

4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的，其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。

5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施，包括个人信息的删除、有害内容的过滤等，以最大程度地降低数据使用可能带来的风险。

6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据，但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言，从而满足不同语言背景下的研究需求。

本文来源于站长之家，如有侵权请联系删除

发布于 2023-08-22 21:33:46

海报