Skip to content

Commit

Permalink
update the documents of Alink 1.5.6
Browse files Browse the repository at this point in the history
  • Loading branch information
xuyang1706 committed Jun 17, 2022
1 parent b55a3ec commit fb06bd7
Show file tree
Hide file tree
Showing 68 changed files with 702 additions and 373 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -26,6 +26,8 @@ Python 类名:OnnxModelPredictor

组件使用的是 ONNX 1.11.0 版本,当有 GPU 时,自动使用 GPU 进行推理,否则使用 CPU 进行推理。

在 Windows 下运行时,如果遇到 ```UnsatisfiedLinkError```,请下载 [Visual C++ 2019 Redistributable Packages](https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads) 并重启,然后重新运行。

## 参数说明

| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,9 @@ Python 类名:TorchModelPredictor
- 输出列的数量需要与模型输出结果匹配。
- 输出类型可以是 Alink ```Tensor``` 类型或者 Alink 支持的类型,如果从模型预测输出的结果转换到指定类型失败那么将报错;暂不支持列表或字典类型。

组件使用的是 PyTorch 1.8.1 版本,当有 GPU 时,自动使用 GPU 进行推理,否则使用 CPU 进行推理。
组件使用的是 PyTorch 1.8.1 CPU 版本,如果需要使用 GPU 功能,可以自行替换插件文件。

在 Windows 下运行时,如果遇到 ```UnsatisfiedLinkError```,请下载 [Visual C++ 2015 Redistributable Packages](https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads) 并重启,然后重新运行。

## 参数说明

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -18,10 +18,9 @@ Python 类名:LookupRedis
| selectedCols | 选择的列名 | 计算列对应的列名列表 | String[] || | |
| clusterMode | Not available! | Not available! | Boolean | | | false |
| databaseIndex | Not available! | Not available! | Long | | | |
| redisIP | Not available! | Not available! | String | | | |
| pipelineSize | Not available! | Not available! | Integer | | | 1 |
| redisIPs | Not available! | Not available! | String[] | | | |
| redisPassword | Not available! | Not available! | String | | | |
| redisPort | Not available! | Not available! | Integer | | | 6379 |
| reservedCols | 算法保留列名 | 算法保留列 | String[] | | | null |
| timeout | Not available! | Not available! | Integer | | | |

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -26,6 +26,8 @@ Python 类名:OnnxModelPredictBatchOp

组件使用的是 ONNX 1.11.0 版本,当有 GPU 时,自动使用 GPU 进行推理,否则使用 CPU 进行推理。

在 Windows 下运行时,如果遇到 ```UnsatisfiedLinkError```,请下载 [Visual C++ 2019 Redistributable Packages](https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads) 并重启,然后重新运行。

## 参数说明

| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,9 @@ Python 类名:TorchModelPredictBatchOp
- 输出列的数量需要与模型输出结果匹配。
- 输出类型可以是 Alink ```Tensor``` 类型或者 Alink 支持的类型,如果从模型预测输出的结果转换到指定类型失败那么将报错;暂不支持列表或字典类型。

组件使用的是 PyTorch 1.8.1 版本,当有 GPU 时,自动使用 GPU 进行推理,否则使用 CPU 进行推理。
组件使用的是 PyTorch 1.8.1 CPU 版本,如果需要使用 GPU 功能,可以自行替换插件文件。

在 Windows 下运行时,如果遇到 ```UnsatisfiedLinkError```,请下载 [Visual C++ 2015 Redistributable Packages](https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads) 并重启,然后重新运行。

## 参数说明

Expand Down
5 changes: 3 additions & 2 deletions docs/cn/批组件/图/MetaPath游走 (MetaPathWalkBatchOp).md
Original file line number Diff line number Diff line change
Expand Up @@ -5,8 +5,9 @@ Python 类名:MetaPathWalkBatchOp


## 功能介绍
MataPathWalk是描述随机游走的一种算法。在给定的图上,每次迭代过程中,点都会按照一定的metaPath转移到它的邻居上,
转移到每个邻居的概率和连接这两个点的边的Type相关。通过这样的随机游走可以获得固定长度的随机游走序列,这可以类比自然语言中的句子。
MataPathWalk [1] 是描述随机游走的一种算法。在给定的图上,每次迭代过程中,点都会按照一定的metaPath转移到它的邻居上,转移到每个邻居的概率和连接这两个点的边的Type相关。通过这样的随机游走可以获得固定长度的随机游走序列,这可以类比自然语言中的句子。

[1] Dong et al. metapath2vec: Scalable Representation Learning for Heterogeneous Networks. KDD2017.

## 参数说明

Expand Down
4 changes: 3 additions & 1 deletion docs/cn/批组件/图/随机游走 (RandomWalkBatchOp).md
Original file line number Diff line number Diff line change
Expand Up @@ -5,10 +5,12 @@ Python 类名:RandomWalkBatchOp


## 功能介绍
RandomWalk是deepwalk中描述随机游走的一种算法
RandomWalk是deepwalk [1] 中描述随机游走的一种算法
在给定的图上,每次迭代过程中,点都会转移到它的邻居上,转移到每个邻居的概率和连接这两个点的边的权重相关。
通过这样的随机游走可以获得固定长度的随机游走序列,这可以类比自然语言中的句子。

[1] Bryan Perozzi et al. DeepWalk: online learning of social representations. KDD 2014.

## 参数说明

| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
Expand Down
5 changes: 2 additions & 3 deletions docs/cn/批组件/推荐/ItemCf训练 (ItemCfTrainBatchOp).md
Original file line number Diff line number Diff line change
Expand Up @@ -5,9 +5,8 @@ Python 类名:ItemCfTrainBatchOp


## 功能介绍
ItemCF 是一种被广泛使用的推荐算法,用给定打分数据训练一个推荐模型,
用于预测user对item的评分、对user推荐itemlist,或者对item推荐userlist。

ItemCF 是一种被广泛使用的协同过滤算法,用给定打分数据训练一个推荐模型,
用于预测user对item的评分、对user喜欢的itemlist,或者对item推荐可能的userlist等。

## 参数说明

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -93,11 +93,11 @@ public class ItemCfItemsPerUserRecommBatchOpTest {
```

### 运行结果
user|prediction_result
----|-----------------
1|{"item":"[3]","score":"[0.23533936216582085]"}
2|{"item":"[3]","score":"[0.38953648389671724]"}
2|{"item":"[3]","score":"[0.38953648389671724]"}
4|{"item":"[2]","score":"[0.17950184794838112]"}
4|{"item":"[2]","score":"[0.17950184794838112]"}
4|{"item":"[2]","score":"[0.17950184794838112]"}
user| prediction_result
----|------------------------------
1| MTable(1,2)(item,score) <br> 3 &#124; 0.2353 <br>
2| MTable(1,2)(item,score) <br> 3 &#124; 0.3895 <br>
2| MTable(1,2)(item,score) <br> 3 &#124; 0.3895 <br>
4| MTable(1,2)(item,score) <br> 2 &#124; 0.1795 <br>
4| MTable(1,2)(item,score) <br> 2 &#124; 0.1795 <br>
4| MTable(1,2)(item,score) <br> 2 &#124; 0.1795 <br>
5 changes: 2 additions & 3 deletions docs/cn/批组件/推荐/UserCf训练 (UserCfTrainBatchOp).md
Original file line number Diff line number Diff line change
Expand Up @@ -5,9 +5,8 @@ Python 类名:UserCfTrainBatchOp


## 功能介绍
UserCF 是一种被广泛使用的推荐算法,用给定打分数据训练一个推荐模型,
用于预测user对item的评分、对user推荐itemlist,或者对item推荐userlist。

UserCF 是一种被广泛使用的协同过滤算法,用给定打分数据训练一个推荐模型,
用于预测user对item的评分、对user推荐itemlist,或者对item推荐userlist等。

## 参数说明

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -5,8 +5,7 @@ Python 类名:StratifiedSampleBatchOp


## 功能介绍

本算子是对每个类别按照比例进行分层随机抽样。
分层采样组件。给定输入数据,本算法根据用户指定的不同类别的采样比例进行随机采样。

## 参数说明

Expand Down
4 changes: 0 additions & 4 deletions docs/cn/批组件/数据处理/前N个数 (FirstNBatchOp).md
Original file line number Diff line number Diff line change
Expand Up @@ -32,8 +32,6 @@ df = pd.DataFrame([
["9.1,9.1,9.1"],
["9.2,9.2,9.2"]
])



# batch source
inOp = BatchOperator.fromDataframe(df, schemaStr='Y string')
Expand Down Expand Up @@ -76,8 +74,6 @@ public class FirstNBatchOpTest {
```

### 运行结果


|Y|
|---|
|0,0,0|
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -5,8 +5,7 @@ Python 类名:WeightSampleBatchOp


## 功能介绍

- 本算子是按照数据点的权重对数据按照比例进行加权采样,权重越大的数据点被采样的可能性越大。
本算子是按照数据点的权重对数据按照比例进行加权采样,权重越大的数据点被采样的可能性越大。

## 参数说明
| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -5,8 +5,7 @@ Python 类名:StratifiedSampleWithSizeBatchOp


## 功能介绍

本算子对输入数据的每个类别进行指定个数的分层随机抽样。
固定条数分层随机采样组件。给定输入数据,本算法根据用户指定的不同类别的采样个数进行随机采样。

## 参数说明

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -60,7 +60,8 @@ public class ColumnsToCsvBatchOpTest {
@Test
public void testColumnsToCsvBatchOp() throws Exception {
List <Row> df = Arrays.asList(
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0)
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0),
Row.of("2", "{\"f0\":\"4.0\",\"f1\":\"8.0\"}", "$3$0:4.0 1:8.0", "f0:4.0,f1:8.0", "4.0,8.0", 4.0, 8.0)
);
BatchOperator <?> data = new MemSourceBatchOp(df,
"row string, json string, vec string, kv string, csv string, f0 double, f1 double");
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -56,7 +56,8 @@ public class ColumnsToJsonBatchOpTest {
@Test
public void testColumnsToJsonBatchOp() throws Exception {
List <Row> df = Arrays.asList(
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0)
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0),
Row.of("2", "{\"f0\":\"4.0\",\"f1\":\"8.0\"}", "$3$0:4.0 1:8.0", "f0:4.0,f1:8.0", "4.0,8.0", 4.0, 8.0)
);
BatchOperator <?> data = new MemSourceBatchOp(df,
"row string, json string, vec string, kv string, csv string, f0 double, f1 double");
Expand All @@ -73,6 +74,6 @@ public class ColumnsToJsonBatchOpTest {
### 运行结果

|row|json|
|---|----|
| 1 |{"f0":"1.0","f1":"2.0"}|
| 2 |{"f0":"4.0","f1":"8.0"}|
|---|----|
| 1 |{"f0":"1.0","f1":"2.0"}|
| 2 |{"f0":"4.0","f1":"8.0"}|
Original file line number Diff line number Diff line change
Expand Up @@ -58,7 +58,8 @@ public class ColumnsToKvBatchOpTest {
@Test
public void testColumnsToKvBatchOp() throws Exception {
List <Row> df = Arrays.asList(
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0)
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0),
Row.of("2", "{\"f0\":\"4.0\",\"f1\":\"8.0\"}", "$3$0:4.0 1:8.0", "f0:4.0,f1:8.0", "4.0,8.0", 4.0, 8.0)
);
BatchOperator <?> data = new MemSourceBatchOp(df,
"row string, json string, vec string, kv string, csv string, f0 double, f1 double");
Expand All @@ -75,7 +76,7 @@ public class ColumnsToKvBatchOpTest {
### 运行结果

|row|kv|
|---|---|
|1|f0:1.0,f1:2.0|
|2|f0:4.0,f1:8.0|
|---|---|
|1|f0:1.0,f1:2.0|
|2|f0:4.0,f1:8.0|

Original file line number Diff line number Diff line change
Expand Up @@ -58,7 +58,8 @@ public class ColumnsToTripleBatchOpTest {
@Test
public void testColumnsToTripleBatchOp() throws Exception {
List <Row> df = Arrays.asList(
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0)
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0),
Row.of("2", "{\"f0\":\"4.0\",\"f1\":\"8.0\"}", "$3$0:4.0 1:8.0", "f0:4.0,f1:8.0", "4.0,8.0", 4.0, 8.0)
);
BatchOperator <?> data = new MemSourceBatchOp(df,
"row string, json string, vec string, kv string, csv string, f0 double, f1 double");
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@ Python 类名:ColumnsToVectorBatchOp

## 功能介绍
将数据格式从 Columns 转成 Vector

数据格式可以为数值类型,如int,float,long,double,也可以为能够转换为数值类型的字符串。

## 参数说明

Expand Down Expand Up @@ -37,7 +37,6 @@ op = ColumnsToVectorBatchOp()\
.setSelectedCols(["f0", "f1"])\
.setReservedCols(["row"])\
.setVectorCol("vec")\
.setVectorSize(5)\
.linkFrom(data)

op.print()
Expand All @@ -58,25 +57,25 @@ public class ColumnsToVectorBatchOpTest {
@Test
public void testColumnsToVectorBatchOp() throws Exception {
List <Row> df = Arrays.asList(
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0)
Row.of("1", "{\"f0\":\"1.0\",\"f1\":\"2.0\"}", "$3$0:1.0 1:2.0", "f0:1.0,f1:2.0", "1.0,2.0", 1.0, 2.0),
Row.of("2", "{\"f0\":\"4.0\",\"f1\":\"8.0\"}", "$3$0:4.0 1:8.0", "f0:4.0,f1:8.0", "4.0,8.0", 4.0, 8.0)
);
BatchOperator <?> data = new MemSourceBatchOp(df,
"row string, json string, vec string, kv string, csv string, f0 double, f1 double");
BatchOperator <?> op = new ColumnsToVectorBatchOp()
.setSelectedCols("f0", "f1")
.setReservedCols("row")
.setVectorCol("vec")
.setVectorSize(5)
.linkFrom(data);
op.print();
}
}
```

### 运行结果
|row|vec|
|---|-----|
|1|$5$1.0 2.0|
|2|$5$4.0 8.0|

row|vec
---|---
1|1.0 2.0
1|4.0 8.0

Original file line number Diff line number Diff line change
Expand Up @@ -5,10 +5,7 @@ Python 类名:SampleBatchOp


## 功能介绍

- 本算子对数据进行随机抽样,每个样本都以相同的概率被抽到。


本算子对数据进行随机抽样,每个样本都以相同的概率被抽到。

## 参数说明

Expand Down
12 changes: 12 additions & 0 deletions docs/cn/批组件/数据导入/AK文件读入 (AkSourceBatchOp).md
Original file line number Diff line number Diff line change
Expand Up @@ -7,6 +7,18 @@ Python 类名:AkSourceBatchOp
## 功能介绍
从文件系统读Ak文件。Ak文件格式是Alink 自定义的一种文件格式,能够将数据的Schema保留输出的文件格式。

### 分区选择
Export2FileSinkStreamOp组件能将数据分区保存,AkSourceBatchOp可以选择分区读取。
分区目录名格式为"分区名=值",例如: month=06/day=17;month=06/day=18。
Alink将遍历目录下的分区名和分区值,构造分区表:

month | day
---|---
06 | 17
06 | 18

使用SQL语句查找分区,例如:AkSourceBatchOp.setPartitions("day = '17'"),分区选择语法参考[《Flink SQL 内置函数》](https://www.yuque.com/pinshu/alink_tutorial/list_sql_function),分区值为String类型。

## 参数说明

| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -6,6 +6,16 @@ Python 类名:CsvSourceBatchOp

## 功能介绍
读CSV文件。支持从本地、hdfs、http读取
### 分区选择
分区目录名格式为"分区名=值",例如: city=beijing/month=06/day=17;city=hangzhou/month=06/day=18。
Alink将遍历目录下的分区名和分区值,构造分区表:

city | month | day
---|---|---
beijing | 06 | 17
hangzhou | 06 | 18

使用SQL语句查找分区,例如:CsvSourceBatchOp.setPartitions("city = 'beijing'"),分区选择语法参考[《Flink SQL 内置函数》](https://www.yuque.com/pinshu/alink_tutorial/list_sql_function),分区值为String类型。

## 参数说明

Expand All @@ -17,6 +27,7 @@ Python 类名:CsvSourceBatchOp
| handleInvalidMethod | 处理无效值的方法 | 处理无效值的方法,可取 error, skip | String | | "ERROR", "SKIP" | "ERROR" |
| ignoreFirstLine | 是否忽略第一行数据 | 是否忽略第一行数据 | Boolean | | | false |
| lenient | 是否容错 | 若为true,当解析失败时丢弃该数据;若为false,解析失败是抛异常 | Boolean | | | false |
| partitions | 分区名 | 1)单级、单个分区示例:ds=20190729;2)多级分区之间用" / "分隔,例如:ds=20190729/dt=12; 3)多个分区之间用","分隔,例如:ds=20190729,ds=20190730 | String | | | null |
| quoteChar | 引号字符 | 引号字符 | Character | | | "\"" |
| rowDelimiter | 行分隔符 | 行分隔符 | String | | | "\n" |
| skipBlankLine | 是否忽略空行 | 是否忽略空行 | Boolean | | | true |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -12,6 +12,7 @@ Python 类名:LibSvmSourceBatchOp
| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
| --- | --- | --- | --- | --- | --- | --- |
| filePath | 文件路径 | 文件路径 | String || | |
| partitions | 分区名 | 1)单级、单个分区示例:ds=20190729;2)多级分区之间用" / "分隔,例如:ds=20190729/dt=12; 3)多个分区之间用","分隔,例如:ds=20190729,ds=20190730 | String | | | null |
| startIndex | 起始索引 | 起始索引 | Integer | | | 1 |


Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -14,6 +14,7 @@ Python 类名:TsvSourceBatchOp
| filePath | 文件路径 | 文件路径 | String || | |
| schemaStr | Schema | Schema。格式为"colname coltype[, colname2, coltype2[, ...]]",例如"f0 string, f1 bigint, f2 double" | String || | |
| ignoreFirstLine | 是否忽略第一行数据 | 是否忽略第一行数据 | Boolean | | | false |
| partitions | 分区名 | 1)单级、单个分区示例:ds=20190729;2)多级分区之间用" / "分隔,例如:ds=20190729/dt=12; 3)多个分区之间用","分隔,例如:ds=20190729,ds=20190730 | String | | | null |
| skipBlankLine | 是否忽略空行 | 是否忽略空行 | Boolean | | | true |


Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -5,15 +5,15 @@ Python 类名:TextSourceBatchOp


## 功能介绍

按行读取文件数据
按行读取文件数据。

## 参数说明

| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 取值范围 | 默认值 |
| --- | --- | --- | --- | --- | --- | --- |
| filePath | 文件路径 | 文件路径 | String || | |
| ignoreFirstLine | 是否忽略第一行数据 | 是否忽略第一行数据 | Boolean | | | false |
| partitions | 分区名 | 1)单级、单个分区示例:ds=20190729;2)多级分区之间用" / "分隔,例如:ds=20190729/dt=12; 3)多个分区之间用","分隔,例如:ds=20190729,ds=20190730 | String | | | null |
| textCol | 文本列名称 | 文本列名称 | String | | | "text" |

## 代码示例
Expand Down
Loading

0 comments on commit fb06bd7

Please sign in to comment.