加载数据集

### 概述
`datasets`库是Hugging Face提供的一个用于快速、高效加载和处理数据集的Python库。它支持加载多种来源的数据集，包括Hugging Face Hub上的公共数据集、本地文件（如CSV、JSON文件），甚至是Pandas的DataFrame。下面是几种常见的加载数据集的方法：

### 1. 从Hugging Face Hub加载数据集
Hugging Face Hub提供了大量的公开数据集，可以直接通过数据集的名称加载：

```
from datasets import load_dataset

# 加载一个公开的数据集，例如 "squad"
dataset = load_dataset("squad")
```

`load_dataset`下载数据集以后会缓存到本地目录，缓存位置为：
- Linux：`~/.cache/huggingface/datasets/`
- Windows：`C:\Users\<Your-Username>\.cache\huggingface\datasets\`

修改缓存目录的方式：
- 在代码中指定目录；
```
dataset = load_dataset("squad", cache_dir="/path/to/your/cache/directory")
```
- 设置环境变量
```
export HF_HOME=/path/to/your/cache/directory
```
- 修改`huggingface`配置文件`.huggingface/config.json`
```
{
    "cache_dir": "/path/to/your/cache/directory"
}
```

> 注意事项：
修改环境变量和配置文件会影响所有Hugging Face库（如transformers和datasets）的缓存位置。如果你使用环境变量或配置文件方法，它们会改变这些库的全局缓存设置。而cache_dir参数只影响特定的load_dataset调用。选择最适合你需求的方法来配置缓存目录。

> 随着时间的推移，缓存的数据可能会占用大量磁盘空间。如果需要，你可以手动删除这些缓存文件，或者使用datasets库提供的工具来管理缓存。
例如，你可以使用`datasets.Dataset.cleanup_cache_files()`方法删除未使用的缓存文件，以节省空间。

### 2. 加载本地文件
如果你有本地的CSV或JSON文件，也可以很容易地加载它们：

```
# 加载CSV文件
dataset = load_dataset("csv", data_files="path/to/your/file.csv")

# 加载JSON文件
dataset = load_dataset("json", data_files="path/to/your/file.json")
```

### 3. 从Pandas DataFrame加载
如果你的数据已经在Pandas的DataFrame中，你可以直接将其转换为datasets库的格式：

```
from datasets import Dataset
import pandas as pd

# 假设df是你的Pandas DataFrame
df = pd.DataFrame({"column1": [1, 2, 3], "column2": ["a", "b", "c"]})

# 将DataFrame转换为Dataset
dataset = Dataset.from_pandas(df)
```

### 4. 加载和处理数据集的分割
许多数据集都预定义了训练（train）、验证（validation）和测试（test）等分割，你可以在加载数据集时指定需要的分割：

```
# 加载训练集
train_dataset = load_dataset("squad", split="train")

# 加载验证集
validation_dataset = load_dataset("squad", split="validation")
```

### 5. 数据集的切分
如果需要，还可以对加载的数据集进行切分，创建自定义的数据集分割：

```
# 加载完整数据集
dataset = load_dataset("squad")

# 切分为训练集和测试集
train_dataset, test_dataset = dataset["train"].train_test_split(test_size=0.1).values()
```