3.12 Splitters
DeepChem的dc.splits.Splitter对象是分割DeepChem数据集以进行机器学习的有用工具。核心思想是 当评估机器学习模型时 从源数据产生训练集 验证集 测试集是非常有用的。训练集用于训练模型 验证集用于评价不同的模型架构。测试集最后用于评估模型的性能。
dc.splits模型包括科学的分割器。很多情况下 我们需要更多的评估科学的深度学习模型比标准的深度模型 因为我们要寻找新领域的泛化能力。这里的一些分割器是有用的。
Contents
General Splitters
– RandomSplitter
– RandomGroupSplitter
– RandomStratifiedSplitter
– SingletaskStratifiedSplitter
– IndexSplitter
– SpecifiedSplitter
– TaskSplitter
Molecule Splitters
– ScaffoldSplitter
– MolecularWeightSplitter
– MaxMinSplitter
– ButinaSplitter
– FingerprintSplitter
Base Splitter (for develop)
3.12.1 General Splitters
RandomSplitter
class RandomSplitter
随机数据分割的类。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[numpy.ndarray, numpy.ndarray, numpy.ndarray]
随机将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
seed – 使用的随机种子。
log_every_n (int, optional (default None)) – 每n个样本记录 (当前不用)。
返回训练索引、验证索引、测试索引的元组。每个索引是一个numpy数组。
返回类型Tuple[np.ndarray, np.ndarray, np.ndarray]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
RandomGroupSplitter
class RandomGroupSplitter(groups: Sequence)
基于分组进行随机分割
基于分组进行分割的分割器类。一个应用场景是分子有多个构像共享同的扩朴结构。分割器保证分割结果保存基团。
注意它不进行动态规划或试图最大化选择如frac_train, frac_valid, 或frac_test最大化。它只是排列基团。因此基团原素显著不同时需要小心使用。
__init__(groups: Sequence)
初始化对象
参数 groups (Sequence) – 指示基团的数组。长度等于len(dataset.X)。
注意: 基团的例子如下
groups : 3 2 2 0 1 1 2 4 3
dataset.X : 0 1 2 3 4 5 6 7 8
groups : a b b e q x a a r
dataset.X : 0 1 2 3 4 5 6 7 8
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[List[int], List[int], List[int]]
返回指定分割索引
参数
dataset (Dataset) – 被分割的数据集.
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default None)) – 每n个样本记录 (当前不用)。
返回不同分割的元组 (train_inds, valid_inds, test_inds of the indices (integers)。
返回类型 Tuple[List[int], List[int], List[int]]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
RandomStratifiedSplitter
class RandomStratifiedSplitter
RandomStratified分割器类
对于稀疏多任务数据集,标准的分割不能保证分割分得到有活性的化合物。
该尽量安排使得每个任务都有一定比例的活性化合物。这对于单任务有严格的保证 但对于多任务数据集通常可以为每一个任务得到很准确的活性化合物分割结果。
注意:这个分割器主要用于布尔型标签数据。它只考虑标签为零还是非零。当标签有多个非零值时 它不会给每个分割一定比例的每个值。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple
返回指定分割的索引
参数
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default None)) – 通过指定日志频率来控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是一个numpy数组。
返回类型Tuple
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
SingletaskStratifiedSplitter
class SingletaskStratifiedSplitter(task_number: int 0)
单任务分层分割类。
示例
n_samples 100
n_features 10
n_tasks 10
X np.random.rand(n_samples, n_features)
y np.random.rand(n_samples, n_tasks)
w np.ones_like(y)
dataset DiskDataset.from_numpy(np.ones((100,n_tasks)), np.ones((100,n_
?→tasks)))
splitter SingletaskStratifiedSplitter(task_number 5)
train_dataset, test_dataset splitter.train_test_split(dataset)
__init__(task_number: int 0)
创建分割器对象。
参数 task_number (int, optional (default 0)) – 分层的任务数。
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[List[str]]
None, seed: Optional[int] None, log_every_n: Optional[int] None, **kwargs)→
List[deepchem.data.datasets.Dataset]
用分层取样将化合物分割到k-folds。重载基类k_fold_split。
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default None)) – 每n个样本记录 (当前不用)。
返回 fold_datasets – dc.data.Dataset对象列表。
返回类型List[Dataset]
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[numpy.ndarray, numpy.ndarray, numpy.ndarray]
随机将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default None)) – 每n个样本记录 (当前不用)。
返回训练索引、验证索引、测试索引的元组。每个索引是一个numpy数组。
返回类型Tuple[np.ndarray, np.ndarray, np.ndarray]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
IndexSplitter
class IndexSplitter
简单的基于顺序的分割器。
当你的数据集是排序的且你希望它被有序处理时使用这个类。第一个frac_train部分用于训练 下一个frac_valid部分用于验证 最后一个frac_test部分用于测试。如你的数据集是时间排序的测这个类是合理的。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[numpy.ndarray, numpy.ndarray, numpy.ndarray]
随机将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default None)) – 每n个样本记录 (当前不用)。
返回训练索引、验证索引、测试索引的元组。每个索引是一个numpy数组。
返回类型Tuple[np.ndarray, np.ndarray, np.ndarray]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
SpecifiedSplitter
class SpecifiedSplitter(valid_indices: Optional[List[int]] None, test_indices: Optional[
List[int]] None)
以用户指定的形式分割数据。
对于某些应用 你已知如何分割数据集。这种分割器 你只简单的指明valid_indices和 test_indices以及从数据集中拉出的那些索引的数据点。注意这不同于IndexSplitter IndexSplitter只基于已存在的数据集顺序分割 而SpecifiedSplitter对任意顺序分割。
__init__(valid_indices: Optional[List[int]] None, test_indices: Optional[List[int]] None)
参数
valid_indices (List[int]) – 验证集中样本索引列表。
? test_indices (List[int]) – 测试集中样本索引列表。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[numpy.ndarray, numpy.ndarray, numpy.ndarray]
随机将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default None)) – 每n个样本记录 (当前不用)。
返回训练索引、验证索引、测试索引的元组。每个索引是一个numpy数组。
返回类型Tuple[np.ndarray, np.ndarray, np.ndarray]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
Splits self into train/test sets.
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
TaskSplitter
class TaskSplitter
提供简单的接口按任务分割数据集。
对有些学习问题 训练集和测试集有完全不同的任务。这是与一般分割器不同的 它能保证分割的数据集中不同的任务有不同的数据点。
__init__()
创建任务分割器对象。
train_valid_test_split(dataset, frac_train 0.8, frac_valid 0.1, frac_test 0.1)
为集据集的任务分割训练集/验证集/测试集。
如果分割不均衡 溢出到测试集中。
参数
dataset (Dataset) –被分割的数据集。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。舍入到整数。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。舍入到整数。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。舍入到整数。
k_fold_split(dataset, K)
为数据集的任务进行K-fold分割。
如果分割是平衡的 溢出到最后一折。
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple
返回指定分割的索引。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default None)) –通过指定频率控制日志。
返回不同分割的索引的元组 (train_inds, valid_inds, test_inds)。
返回类型Tuple
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
3.12.2 分子分割器
ScaffoldSplitter
class ScaffoldSplitter
基于小分子支架进行数据分割的类。
注意:这个类要求安装RDKit。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] 1000) →
Tuple[List[int], List[int], List[int]]
按支架将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是整数的列表。
返回类型 元组[List[int], List[int], List[int]]
generate_scaffolds(dataset: deepchem.data.datasets.Dataset, log_every_n: int 1000) →
List[List[int]]
返回来自数据集的所有的支架
参数
dataset (Dataset) – 被分割的数据集。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回 scaffold_sets – 数据集中的每个支架的索引列表。
返回类型 List[List[int]]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
Splits self into train/validation/test sets.
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
TaskSplitter
class TaskSplitter
提供简单的接口按任务分割数据集。
对有些学习问题 训练集和测试集有完全不同的任务。这是与一般分割器不同的 它能保证分割的数据集中不同的任务有不同的数据点。
__init__()
创建任务分割器对象。
train_valid_test_split(dataset, frac_train 0.8, frac_valid 0.1, frac_test 0.1)
为集据集的任务分割训练集/验证集/测试集。
如果分割不均衡 溢出到测试集中。
参数
dataset (Dataset) –被分割的数据集。
frac_train (float, optional) – 分到训练集中的数据的占比。舍入到整数。
frac_valid (float, optional) – 分到验证集中的数据的占比。舍入到整数。
frac_test (float, optional) –分到测试集中的数据的占比。舍入到整数。
k_fold_split(dataset, K)
为数据集的任务进行K-fold分割。
如果分割是平衡的 溢出到最后一折。
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集将要分割的折数。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple
返回指定分割的索引。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default None)) –通过指定频率控制日志。
返回不同分割的索引的元组 (train_inds, valid_inds, test_inds)。
返回类型Tuple
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
3.12.2 Molecule Splitters
ScaffoldSplitter
基于小分子支架进行数据分割的类。
注意:这个类要求安装RDKit。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] 1000) →
Tuple[List[int], List[int], List[int]]
按支架将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是整数的列表。
返回类型 元组[List[int], List[int], List[int]]
generate_scaffolds(dataset: deepchem.data.datasets.Dataset, log_every_n: int 1000) →
List[List[int]]
返回来自数据集的所有的支架
参数
dataset (Dataset) – 被分割的数据集。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回 scaffold_sets – 数据集中的每个支架的索引列表。
返回类型 List[List[int]]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
MolecularWeightSplitter
class MolecularWeightSplitter
按分子量进行分割的类。
注意: 该类要求安装RDKit。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[numpy.ndarray, numpy.ndarray, numpy.ndarray]
按分子量分割数据。
通过SMILES字串计算分子量将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default None)) – 每n个样本记录日志 (当前不用)。
返回训练索引、验证索引、测试索引的元组。每个索引是Numpy数组。
返回类型 元组[np.ndarray, np.ndarray, np.ndarray]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
MaxMinSplitter
class MaxMinSplitter
化学差异分割器。
基于MaxMin差异化算法进行分割的类。直观地 测试集是由整个数据集中大部分差异分子组成的。而且 验证集是测试集下的差异分子。
注意 这个类要求安装RDKit。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[List[int], List[int], List[int]]
使用最大最小差异算法将内部分子分割为训练集/验证集/测试集。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是整数的列表。
返回类型 元组[List[int], List[int], List[int]]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
butinaSplitter
class ButinaSplitter(cutoff: float 0.6)
基于bulk tanimoto矩形的butina聚类进行数据分割的类。
注意 该类要求安装RDKit。
__init__(cutoff: float 0.6)
创建ButinaSplitter.
参数 cutoff (float (default 0.6)) –tanimoto相似性的分界值。与这更相似的分子将放在同一数据集中。
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[List[int], List[int], List[int]]
基于butina 聚类算法将内部分子分割为训练集/验证集/测试集。这种算法的运行时间为O(N^2) N是数据集中的元素数。数据集是希望进行分类的。该算法设计来产生新化学类型的验证数据。设置小的分界值将产生小的 细的更高相似的聚类。设置大的分界值将产生粗的低相似的聚类。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是整数的列表。
返回类型 元组[List[int], List[int], List[int]]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
FingerprintSplitter
class FingerprintSplitter
基于ECFP4指纹的Tanimoto 相似性进行数据分割。该类试图分割数据使数据集中的分子与其它数据集中的分子不同。这是非常严格的分子测试。预测测试集和验证集需要外推训练数据到远离训练数据。该分类器的运行时间尺度为O(n^2) n为样本数。数据集越大时间越长。
注意:这个类要求安装RDKit。
__init__()
创建一个FingerprintSplitter.
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple[List[int], List[int], List[int]]
ECFP4指纹的Tanimoto 相似性将内部分子分割为训练集/验证集/测试集。
该分类算法有O(N^2)运行时间 N是数据集的元素数。
参数
dataset (Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是整数的列表。
返回类型 元组[List[int], List[int], List[int]]
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
3.12.3 Base Splitter (for develop)
dc.splits.Splitter类是所有分割器的抽象父类。该类不应直接被实例化。
class Splitter
分割器分割数据到训练集/验证集/测试集。
在机器学习应用中 通常有必要将数据集分割到训练集/验证集/测试集。或者k-fold分割数据 即分到k个相等子集 进行交叉验证。该分割器类是所有分割器的抽像超类 由分割器类捕捉共用API。
注意分割器是个抽像超类。你不能直接实例化这个类。你应用具体的子类。
k_fold_split(dataset: deepchem.data.datasets.Dataset, k: int, directories: Optional[
List[str]] None, **kwargs) → List[Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]]
参数
dataset (Dataset) – 进行k-折分割的数据集
k (int) – 数据集交要分割的折数。
directories (List[str], optional (default None)) – 长度为2*k个文件路径列表来保存生成的disk-datasets。
返回k元组 (train, cv) 长度列表 其中 train和cv均为Dataset。
返回类型列表[Tuple[Dataset, Dataset]]
train_valid_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str]
None, valid_dir: Optional[str] None, test_dir: Optional[str]
None, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n:
int 1000, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset, deepchem.data.datasets.Dataset]
分割self到train/test集
返回训练/测试的数据集对象。
参数
dataset (data like object) – 被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) –如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
seed (int, optional (default None)) – 使用的随机种子。R
返回作为dc.data.Dataset 对象的训练集和测试集的元组。
返回类型 Tuple[Dataset, Dataset]
train_test_split(dataset: deepchem.data.datasets.Dataset, train_dir: Optional[str] None,
test_dir: Optional[str] None, frac_train: float 0.8, seed: Optional[
int] None, **kwargs) → Tuple[deepchem.data.datasets.Dataset,
deepchem.data.datasets.Dataset]
将self分割为训练集/验证集/测试集。.
返回训练集/验证集/测试集的数据集对象。.
参数
dataset (Dataset) –被分割的数据集。
train_dir (str, optional (default None)) – 如指明 产生的训练数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
valid_dir (str, optional (default None)) – 如指明 产生的验证数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
test_dir (str, optional (default None)) – 如指明 产生的测试数据集贮存的地方。
只在isinstance(dataset, dc.data.DiskDataset)为真时考虑。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。?
seed (int, optional (default None)) – 使用的随机种子。
log_every_n (int, optional (default 1000)) – 能过指明记录器的输出频率来控制记录器。
返回作为 dc.data.Dataset对象的训练集、验证集、测试集的元组。
返回类型 Tuple[Dataset, Optional[Dataset], Dataset]
split(dataset: deepchem.data.datasets.Dataset, frac_train: float 0.8, frac_valid: float 0.1,
frac_test: float 0.1, seed: Optional[int] None, log_every_n: Optional[int] None) →
Tuple
返回指定分割索引
参数
dataset (dc.data.Dataset) – 被分割的数据集。
seed (int, optional (default None)) – 使用的随机种子。
frac_train (float, optional (default 0.8)) – 分到训练集中的数据的占比。
frac_valid (float, optional (default 0.1)) – 分到验证集中的数据的占比。
frac_test (float, optional (default 0.1)) – 分到测试集中的数据的占比。
log_every_n (int, optional (default 1000)) – 通过指定频率控制日志。
返回训练索引、验证索引、测试索引的元组。每个索引是整数的列表。
返回类型 元组[List[int], List[int], List[int]]
点赞 评论本文链接: http://fracchem.immuno-online.com/view-768021.html