-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathoutput_params_setting.py
72 lines (62 loc) · 3.67 KB
/
output_params_setting.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
# 以下可添加绝对路径,如为空值"",则为默认导出路径output_dataset,也可添加默认路径下output_dataset的子文件夹,例如:
# 如添加子文件夹child_folder/split1,则实际路径为:../output_dataset/child_folder/split1
output_path = ""
# 导出的文件名, 如采用based_on_activation模式导出则不能携带拓展名, 否则必须携带拓展名
# 文件名不要有`.`, 以免被误识别为拓展名
output_file = "output_test.csv"
# 加载时的解码格式默认值:INPUT_ENCODE = "utf-8" 或者中文环境下常用"gbk", 如不填写, 导出默认为gb18030
output_encoding = "gb18030"
# 判断是否要拆分,如拆分,则按照导入的chunksize的大小进行拆分
if_sep = False
# 是否只是拆分出一个样例即可,默认为否,即拆分到底。如为真,则仅拆分出一个文件即停止,作为样例
only_one_chunk = False
# 导出是否覆盖,如不覆盖,则默认添加到同名文件的末尾,拆分的情况只允许OVERWRITE = True
overwrite = True
csv_output_params = {
'activation': True,
'output_sep': ',',
# 可能内容里也有该分隔符,容易导致错误,所以内容里该分隔符的部分可以替换为新的符号
'repl_to_sub_sep': ',',
# 导入数据的记录条数, 等于几就表示从几开始增加, 默认为0, 表示从0开始增加计算
'output_index_size': 0,
}
xls_output_params = {
'activation': True,
'output_sheet': 'Sheet1',
# 导入数据的记录条数, 等于几就表示从几开始增加, 默认为0, 表示从0开始增加计算
'output_index_size': 0,
}
md_output_params = {
'activation': True,
# 导入数据的记录条数, 等于几就表示从几开始增加, 默认为0, 表示从0开始增加计算
'output_index_size': 0,
}
sql_output_params = {
'activation': True,
# 导出表的基本信息 - 表名,默认值为temp_table
'table_name': 'table_for_temp_use',
# 导出表的备注
'table_comment': '临时表, 可删除',
# 导出表的基本信息 - 各字段长度,默认为空字典,导出时自动填充数据; 如填写则会和实际数据进行比较, dict[key: str, value: int]
'table_structure': {},
# 导出表的各个字段的备注, dict[str, str], key: column, value: comment for column. e.g. {'col1': 'comment1', 'col2': 'comment2'}
'column_comments': {
# 'TABLE_AFFILIATION': '归属地'
},
# 选择导出的数据库类型,请注意大小写必须严格遵循下面的可选项
'database': 'Oracle',
# DATABASE里的可选项,作用仅为提示DATABASE里可写的数据库引擎
# 注意: 这里TDSQL默认为TDSQL MYSQL, 如需使用TDSQL PostgreSQL, 请直接拷贝'PostgreSql'作为database参数的内容
'database_options': ['Oracle', 'GBase', 'MySql', 'PostgreSql', 'SqlServer', 'TdSql'],
# 如果涉及到需要将数据从字符串转为DATETIME, 或者需要pandas里数据类型为datetime64的转为合适的DATETIME的插入语句
# key: 列名, value: 导出数据的格式(基于database); 如仅填写key,而value为"",则表示将字符串转DATETIME, 默认转换类型为2023-11-09 13:23:44
# 如不填写, 则默认按照格式转换的部分来判断是否在INSERT语句中转为DATETIME的语句
# SQL SERVER 不需要填写
'to_date_formats': {
'column_name': 'yyyy-mm-dd hh24:mi:ss', # 以oracle为样例
},
# 可能内容里有半角逗号,需要判断在插入语句中是否被允许, 默认会保留逗号
'repl_to_sub_comma': ',',
# 导入数据的记录条数, 等于几就表示从几开始增加, 默认为0, 表示从0开始增加计算
'output_index_size': 0,
}