AI
一个案例
tokenizer 说明
加载数据集
DatasetDict 类
logits 说明
langchain(一)
关键词提取
RAG与向量检索
RAG与向量检索(二)
TF-IDF 算法
本文档使用 MrDoc 发布
-
+
首页
加载数据集
### 概述 `datasets`库是Hugging Face提供的一个用于快速、高效加载和处理数据集的Python库。它支持加载多种来源的数据集,包括Hugging Face Hub上的公共数据集、本地文件(如CSV、JSON文件),甚至是Pandas的DataFrame。下面是几种常见的加载数据集的方法: ### 1. 从Hugging Face Hub加载数据集 Hugging Face Hub提供了大量的公开数据集,可以直接通过数据集的名称加载: ``` from datasets import load_dataset # 加载一个公开的数据集,例如 "squad" dataset = load_dataset("squad") ``` `load_dataset`下载数据集以后会缓存到本地目录,缓存位置为: - Linux:`~/.cache/huggingface/datasets/` - Windows:`C:\Users\<Your-Username>\.cache\huggingface\datasets\` 修改缓存目录的方式: - 在代码中指定目录; ``` dataset = load_dataset("squad", cache_dir="/path/to/your/cache/directory") ``` - 设置环境变量 ``` export HF_HOME=/path/to/your/cache/directory ``` - 修改`huggingface`配置文件`.huggingface/config.json` ``` { "cache_dir": "/path/to/your/cache/directory" } ``` > 注意事项: 修改环境变量和配置文件会影响所有Hugging Face库(如transformers和datasets)的缓存位置。如果你使用环境变量或配置文件方法,它们会改变这些库的全局缓存设置。而cache_dir参数只影响特定的load_dataset调用。选择最适合你需求的方法来配置缓存目录。 > 随着时间的推移,缓存的数据可能会占用大量磁盘空间。如果需要,你可以手动删除这些缓存文件,或者使用datasets库提供的工具来管理缓存。 例如,你可以使用`datasets.Dataset.cleanup_cache_files()`方法删除未使用的缓存文件,以节省空间。 ### 2. 加载本地文件 如果你有本地的CSV或JSON文件,也可以很容易地加载它们: ``` # 加载CSV文件 dataset = load_dataset("csv", data_files="path/to/your/file.csv") # 加载JSON文件 dataset = load_dataset("json", data_files="path/to/your/file.json") ``` ### 3. 从Pandas DataFrame加载 如果你的数据已经在Pandas的DataFrame中,你可以直接将其转换为datasets库的格式: ``` from datasets import Dataset import pandas as pd # 假设df是你的Pandas DataFrame df = pd.DataFrame({"column1": [1, 2, 3], "column2": ["a", "b", "c"]}) # 将DataFrame转换为Dataset dataset = Dataset.from_pandas(df) ``` ### 4. 加载和处理数据集的分割 许多数据集都预定义了训练(train)、验证(validation)和测试(test)等分割,你可以在加载数据集时指定需要的分割: ``` # 加载训练集 train_dataset = load_dataset("squad", split="train") # 加载验证集 validation_dataset = load_dataset("squad", split="validation") ``` ### 5. 数据集的切分 如果需要,还可以对加载的数据集进行切分,创建自定义的数据集分割: ``` # 加载完整数据集 dataset = load_dataset("squad") # 切分为训练集和测试集 train_dataset, test_dataset = dataset["train"].train_test_split(test_size=0.1).values() ```
gaojian
2024年4月2日 15:12
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
Markdown文件
分享
链接
类型
密码
更新密码