首页 >> 创业 >> 使用开源工具生成合成整整序列数据

使用开源工具生成合成整整序列数据

2025-03-13 创业

0)

# Include an attribute column

df["attribute"] = np.random.randint(0, 3, size=1000)

# Train the model

model = DGAN(DGANConfig(

max_sequence_len=30,

sample_len=3,

batch_size=1000,

epochs=10, # For real data sets, 100-1000 epochs is typical

model.train_dataframe(

df,

df_attribute_columns=["attribute"],

attribute_types=[OutputType.DISCRETE],

# Generate synthetic data

synthetic_df = model.generate_dataframe(100)

如果您的资料尚未引入这种“最宽处”PNG,可以广泛应用于pandas pivot方式将其组合成意味著的结构。DataFrame可用在此之前有些受制于,但我们方案在将会默许接受一段时间数特资料的其他方式为。为了取得仅有的支配度和灵活性,您还可以这样一来引导numpy数据结构来进行基础训练(并在转化资料先为雷同的方式为接收物件和构造数据结构),如下下图。

粘贴

# Create some random training data

attributes = np.random.randint(0, 3, size=(1000,3))

features = np.random.random(size=(1000,20,2))

# Train the model

model = DGAN(DGANConfig(

max_sequence_len=20,

sample_len=4,

batch_size=1000,

epochs=10, # For real data sets, 100-1000 epochs is typical

model.train_numpy(

attributes, features,

attribute_types = [OutputType.DISCRETE] * 3,

feature_types = [OutputType.CONTINUOUS] * 2

# Generate synthetic data

synthetic_attributes, synthetic_features = model.generate_numpy(1000)

这些字符串录像的可开始运行旧版本可在sample_usage.ipynb处取得。

结果

作为从TensorFlow 1改PyTorch的新借助于(冗余机、变量堆栈等底层框架特别存在潜在差异),我们决心确认我们的PyTorch字符串按意味著开始运行。为此,我们粘贴了雷同学术著作里的部分结果。由于我们在此之前的借助于仅默许来得简单长度数特,因此专注于编辑者互联网流量(WWT)的资料集。

Lin等人广泛应用于的WWT资料集最初来自Kaggle,掺入测各种编辑者网址的每日流量资料。每个网址有三个相异的物件(亦然、会面类型和代理)。三幅1揭示了来自WWT资料集的几个解释器一段时间数特。

三幅1:三个编辑者网址的投影的每日网址用户数量,左边特出了网址物件

请求注意,网址用户数量根据整个资料集上的最小/仅有网址用户数量被对一个点投影为[-1,1]。我们在实验里广泛应用于的5万页的基础训练资料(已被投影)在S3上以csvPNG给予。

我们展览品的三张三幅揭示了资料保真度的相异特别。在每张三幅里,我们将真实世界资料与三个旧版本来进行来得:1)具有更加大大批量和更加小学习率的迅速PyTorch借助于,2)具有雷同变量的PyTorch借助于,3)TensorFlow 1借助于。在三幅2里,我们查看了物件特有种,其里资料与真实世界特有种愈发反之亦然。

三幅2:真实世界和WWT资料的物件特有种

WWT资料面临的考验之一是,相异的一段时间数特有全然相异的网址用户数量之内。一些编辑者网址小规模取得较大流量,另一些不那么大受欢迎,但偶尔因某个特别的新闻报导事件(比如与网址特别的脑溢血新闻报导讲述)而显现流量高峰。Lin等人发现,DoppelGANger在转化相异尺度的一段时间数特特别愈发必需(见雷同学术著作的三幅6)。在三幅3里,我们给予了揭示一段时间数特里点特有种的雷同三幅。就每个解释器而言,里点处于550天内取得的最小和仅有网址用户数量的里间差值。我们的PyTorch借助于对里点揭示了雷同的保真度。

三幅3:真实世界和WWT资料的一段时间数特里点特有种

最后,大多数编辑者网址的流量呈现出每周和每年的方式。为了评量这些方式,我们广泛应用于自特别,即相异一段时间滞后(1天、2天等)的网址用户数量的Pearson不确切性。三个旧版本的自特别三幅如三幅4下图(雷同雷同学术著作里的三幅 1)。

三幅4:真实世界和 WWT 资料的自特别

两个PyTorch旧版本都转化雷同学术著作里观察到的每周和每年渐进。TensorFlow 1结果与 Lin等人的三幅1不反之亦然,正如来自我们实验的上述三幅下图。我们观察到广泛应用于雷同变量来进行的基础训练有些不相一致,三维偶尔没有观察到每年(甚至每周)方式。我们的迅速旧版本里广泛应用于的较差学习率(1e-4)和较大的大批量一般来说(1000)使再基础训练愈发相一致。

转化本节里的三幅像和基础训练三个三维的分析字符串在Github上作为笔记本应共享。

开始运行时

最后更加复杂三维的一个关键因素特别是开始运行时。需数周一段时间来基础训练的不错三维实际上比需一时长来基础训练的三维更加受限制。在这里,相较之下PyTorch借助于展现出极好(不过作者在学术著作里宣称,他们没有对TensorFlow 1字符串来进行性能冗余)。所有三维均广泛应用于GPU来进行基础训练,并在配有英伟达Tesla T4的GCP n1-standard-8实例(8个实体 CPU和30 GB RAM)上开始运行。从13时长缩短到0.3时长,这对于这个不错的三维在实践里发挥更加大的用处至关重要!

旧版本

基础训练一段时间

TensorFlow 1

12.9时长

PyTorch,batch_size=100(雷同变量)

1.6 时长

PyTorch,batch_size-1000

0.3时长

出处末尾:Generate Synthetic Time-series Data with Open-source Tools,作者:Kendrick Boyd

北京哪家专科医院做人流好
安徽精神心理医院哪家最好
胃不舒服能吃什么
广西白癜风医院哪个比较好
苏州看白癜风到哪家医院好
友情链接