Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Doc] fix links in 2.2 #35221

Merged
merged 2 commits into from
Nov 16, 2023
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion docs/en/loading/Loading_intro.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@ You can load data into StarRocks by running load jobs. Each load job has a uniqu

All the loading methods provided by StarRocks can guarantee atomicity. Atomicity means that the qualified data within a load job must be all successfully loaded or none of the qualified data is successfully loaded. It never happens that some of the qualified data is loaded while the other data is not. Note that the qualified data does not include the data that is filtered out due to quality issues such as data type conversion errors.

StarRocks supports two communication protocols that can be used to submit load jobs: MySQL and HTTP. For more information about the protocol supported by each loading method, see the "[Loading methods](/loading/Loading_intro.md#Loading methods)" section of this topic.
StarRocks supports two communication protocols that can be used to submit load jobs: MySQL and HTTP. For more information about the protocol supported by each loading method, see the [Loading methods](#loading-methods) section of this topic.

## Supported data types

Expand Down
2 changes: 1 addition & 1 deletion docs/zh/faq/Sql_faq.md
Original file line number Diff line number Diff line change
Expand Up @@ -160,7 +160,7 @@ client连接的时候加上`-A`参数,比如 `mysql -uroot -h127.0.0.1 -P8867

## BE 和 FE 日志文件太多,怎么处理?

调整日志级别和参数大小,详情参考 log 相关的参数默认值和作用说明:[参数配置](/administration/Configuration.md)。
调整日志级别和参数大小,详情参考 log 相关的参数默认值和作用说明:[参数配置](../administration/Configuration.md)。

## 更改副本数失败:table lineorder is colocate table, cannot change replicationNum

Expand Down
12 changes: 0 additions & 12 deletions docs/zh/faq/loading/Broker_load_faq.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,11 +2,7 @@

## 1. Broker Load 是否支持再次执行已经执行成功、处于 FINISHED 状态的导入作业?

<<<<<<< HEAD
Broker Load 不支持再次执行已经执行成功、处于 FINISHED 状态的导入作业。而且,为了保证导入作业的不丢不重,每个执行成功的导入作业的标签 (Label) 均不可复用。可以使用 [SHOW LOAD](/sql-reference/sql-statements/data-manipulation/SHOW_LOAD.md) 语句查看历史的导入记录,找到想要再次执行的导入作业,复制作业信息,并修改作业标签后,重新创建一个导入作业并执行。
=======
Broker Load 不支持再次执行已经执行成功、处于 FINISHED 状态的导入作业。而且,为了保证数据不丢不重,每个执行成功的导入作业的标签 (Label) 均不可复用。可以使用 [SHOW LOAD](../../sql-reference/sql-statements/data-manipulation/SHOW_LOAD.md) 语句查看历史的导入记录,找到想要再次执行的导入作业,复制作业信息,并修改作业标签后,重新创建一个导入作业并执行。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

## 2. 通过 Broker Load 导入 HDFS 数据时,为什么数据的导入日期字段会出现异常,比正确的日期时间多加了 8 小时?这种情况应该怎么处理?

Expand All @@ -22,11 +18,7 @@ Broker Load 是一种异步的导入方式,创建导入作业的语句没报

## 5. 导入报 "failed to send batch"或"TabletWriter add batch with unknown id" 错误应该如何处理?

<<<<<<< HEAD
该错误由数据写入超时而引起。需要修改系统变量 `query_timeout` 和 BE 配置项 `streaming_load_rpc_max_alive_time_sec` 的配置。具体请参考 [系统变量](/reference/System_variable.md) 和 [配置 BE 静态参数](/administration/Configuration.md#配置-be-静态参数)。
=======
该错误由数据写入超时而引起。需要修改[系统变量](../../reference/System_variable.md) `query_timeout` 和 [BE 配置项](../../administration/Configuration.md#配置-be-静态参数) `streaming_load_rpc_max_alive_time_sec` 的配置。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

## 6. 导入报 "LOAD-RUN-FAIL; msg:OrcScannerAdapter::init_include_columns. col name = xxx not found" 错误应该如何处理?

Expand All @@ -41,11 +33,7 @@ SET
)
```

<<<<<<< HEAD
上述示例,表示将 Parquet 或 ORC 文件中以 `tmp_c1` 和 `tmp_c2` 为列名的列,分别映射到 StarRocks 表中的 `name` 和 `id` 列。如果没有使用 `SET` 子句, 则以 `column_list` 参数中指定的列作为映射。具体请参见 [BROKER LOAD](/sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。
=======
上述示例,表示将 Parquet 或 ORC 文件中以 `tmp_c1` 和 `tmp_c2` 为列名的列,分别映射到 StarRocks 表中的 `name` 和 `id` 列。如果没有使用 `SET` 子句,则以 `column_list` 参数中指定的列作为映射。具体请参见 [BROKER LOAD](../../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

> **注意**
>
Expand Down
6 changes: 1 addition & 5 deletions docs/zh/faq/loading/Loading_faq.md
Original file line number Diff line number Diff line change
Expand Up @@ -74,10 +74,7 @@ StarRocks 集群中同一个数据库内已经有一个具有相同标签的导

## 4. 导入过程中,发生远端程序呼叫(Remote Procedure Call,简称 RPC)超时问题应该如何处理?

<<<<<<< HEAD
检查 BE 配置文件 **be.conf** 中 `write_buffer_size` 参数的设置。该参数用于控制 BE 上内存块的大小阈值,默认阈值为 100 MB。如果阈值过大,可能会导致远端程序呼叫(Remote Procedure Call,简称 RPC)超时,这时候需要配合 BE 配置文件中的 `tablet_writer_rpc_timeout_sec` 参数来适当地调整 `write_buffer_size` 参数的取值。请参见 [BE 配置](/loading/Loading_intro.md)。
=======
检查 BE 配置文件 **be.conf** 中 `write_buffer_size` 参数的设置。该参数用于控制 BE 上内存块的大小阈值,默认阈值为 100 MB。如果阈值过大,可能会导致远程过程调用(Remote Procedure Call,简称 RPC)超时,这时候需要配合 BE 配置文件中的 `tablet_writer_rpc_timeout_sec` 参数来适当地调整 `write_buffer_size` 参数的取值。请参见 [BE 配置](../../loading/Loading_intro.md#be-配置)。
检查 BE 配置文件 **be.conf** 中 `write_buffer_size` 参数的设置。该参数用于控制 BE 上内存块的大小阈值,默认阈值为 100 MB。如果阈值过大,可能会导致远端程序呼叫(Remote Procedure Call,简称 RPC)超时,这时候需要配合 BE 配置文件中的 `tablet_writer_rpc_timeout_sec` 参数来适当地调整 `write_buffer_size` 参数的取值。请参见 [BE 配置](../../loading/Loading_intro.md)。

## 5. 导入作业报错 "Value count does not match column count" 应该怎么处理?

Expand All @@ -92,4 +89,3 @@ Error: Value count does not match column count. Expect 3, but got 1. Row: 2023-0
发生该错误的原因是导入命令或导入语句中指定的列分隔符与源数据中的列分隔符不一致。例如上面示例中,源数据为 CSV 格式,包括三列,列分隔符为逗号 (`,`),但是导入命令或导入语句中却指定制表符 (`\t`) 作为列分隔符,最终导致源数据的三列数据解析成了一列数据。

修改导入命令或导入语句中的列分隔符为逗号 (`,`),然后再次尝试执行导入。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))
4 changes: 2 additions & 2 deletions docs/zh/faq/loading/Stream_load_faq.md
Original file line number Diff line number Diff line change
Expand Up @@ -26,11 +26,11 @@ StarRocks 支持在导入过程中进行数据转换,具体请参见[导入过

## 3. 数据质量问题报错 "ETL_QUALITY_UNSATISFIED; msg:quality not good enough to cancel" 应该怎么解决?

请参见[导入通用常见问题](/faq/loading/Loading_faq.md)。
请参见[导入通用常见问题](./Loading_faq.md)。

## 4. 导入状态为 "Label Already Exists" 应该怎么解决?

请参见[导入通用常见问题](/faq/loading/Loading_faq.md)。
请参见[导入通用常见问题](./Loading_faq.md)。

## 5. 导入出错 "body exceed max size: 10737418240, limit: 10737418240" 应该如何解决?

Expand Down
16 changes: 8 additions & 8 deletions docs/zh/introduction/StarRocks_intro.md
Original file line number Diff line number Diff line change
Expand Up @@ -28,14 +28,14 @@ StarRocks通过CBO优化器(Cost Based Optimizer)可以对复杂查询自动优

### 联邦查询

* [导入总览](/loading/Loading_intro)
* [通过 HTTP PUT 从本地文件系统或流式数据源导入](/loading/StreamLoad)
* [从 HDFS 或外部云存储系统导入](/loading/BrokerLoad)
* [从 Apache Kafka® 持续导入](/loading/RoutineLoad)
* [使用 Apache Spark™ 导入](/loading/SparkLoad)
* [使用 INSERT 语句导入](/loading/InsertInto)
* [从 MySQL 实时同步](/loading/Flink_cdc_load)
* [从 Apache Flink® 持续导入](/loading/Flink-connector-starrocks)
* [导入总览](../loading/Loading_intro)
* [通过 HTTP PUT 从本地文件系统或流式数据源导入](../loading/StreamLoad)
* [从 HDFS 或外部云存储系统导入](../loading/BrokerLoad)
* [从 Apache Kafka® 持续导入](../loading/RoutineLoad)
* [使用 Apache Spark™ 导入](../loading/SparkLoad)
* [使用 INSERT 语句导入](../loading/InsertInto)
* [从 MySQL 实时同步](../loading/Flink_cdc_load)
* [从 Apache Flink® 持续导入](../loading/Flink-connector-starrocks)

### 高效更新

Expand Down
57 changes: 10 additions & 47 deletions docs/zh/loading/BrokerLoad.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,15 +2,11 @@

StarRocks 提供基于 MySQL 协议的 Broker Load 导入方式,帮助您从 HDFS 或外部云存储系统导入几十到数百 GB 的数据量。

<<<<<<< HEAD
Broker Load 是一种异步的导入方式。您提交导入作业以后,StarRocks 会异步地执行导入作业。您需要通过 [SHOW LOAD](/sql-reference/sql-statements/data-manipulation/SHOW_LOAD.md) 语句或者 curl 命令来查看导入作业的结果。
=======
Broker Load 是一种异步的导入方式。您提交导入作业以后,StarRocks 会异步地执行导入作业。您需要通过 [SHOW LOAD](../sql-reference/sql-statements/data-manipulation/SHOW_LOAD.md) 语句或者 curl 命令来查看导入作业的结果。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

Broker Load 支持一次导入多个数据文件,并且能够保证单次导入事务的原子性,即单次导入的多个数据文件都成功或者都失败,而不会出现部分导入成功、部分导入失败的情况。

Broker Load 还支持在导入过程中做数据的转换,具体请参见[导入过程中实现数据转换](/loading/Etl_in_loading.md)。
Broker Load 还支持在导入过程中做数据的转换,具体请参见[导入过程中实现数据转换](./Etl_in_loading.md)。

## 背景信息

Expand Down Expand Up @@ -48,11 +44,8 @@ Broker Load 支持从如下外部存储系统导入数据:

确保您的 StarRocks 集群中已部署 Broker。

<<<<<<< HEAD
您可以通过 [SHOW BROKER](/sql-reference/sql-statements/Administration/SHOW_BROKER.md) 语句来查看集群中已经部署的 Broker。如果集群中没有部署 Broker,请参见[部署 Broker 节点](/quick_start/Deploy.md#部署-broker)完成 Broker 部署。
=======
您可以通过 [SHOW BROKER](../sql-reference/sql-statements/Administration/SHOW_BROKER.md) 语句来查看集群中已经部署的 Broker。如果集群中没有部署 Broker,请参见[部署 Broker 节点](../administration/deploy_broker.md)完成 Broker 部署。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))
您可以通过 [SHOW BROKER](../sql-reference/sql-statements/Administration/SHOW_BROKER.md) 语句来查看集群中已经部署的 Broker。如果集群中没有部署 Broker,请参见[部署 Broker 节点](../quick_start/Deploy.md#部署-broker)完成 Broker 部署。


本文档假设您的 StarRocks 集群中已部署一个名称为“mybroker”的 Broker。

Expand All @@ -68,11 +61,7 @@ Broker Load 支持从如下外部存储系统导入数据:

### 创建导入作业

<<<<<<< HEAD
这里以导入 CSV 格式的数据为例介绍如何创建导入作业。有关如何导入其他格式的数据、以及 Broker Load 的详细语法和参数说明,请参见 [BROKER LOAD](/sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。
=======
这里以 CSV 格式的数据为例,介绍如何导入多个数据文件至多张目标表。有关如何导入其他格式的数据、以及 Broker Load 的详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))
这里以导入 CSV 格式的数据为例介绍如何创建导入作业。有关如何导入其他格式的数据、以及 Broker Load 的详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。

#### 数据样例

Expand Down Expand Up @@ -152,11 +141,7 @@ PROPERTIES
);
```

<<<<<<< HEAD
#### 从 Amazon S3 导入
=======
有关详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

可以通过如下语句,把 Amazon S3 存储空间 `bucket_s3` 里 `input` 文件夹内的 CSV 文件 `file1.csv` 和 `file2.csv` 分别导入到 StarRocks 表 `table1` 和 `table2` 中:

Expand Down Expand Up @@ -184,13 +169,9 @@ WITH BROKER "mybroker"
> **说明**
>
> - 由于 Broker Load 只支持通过 S3A 协议访问 AWS S3,因此当从 AWS S3 导入数据时,`DATA INFILE` 中传入的目标文件的 S3 URI,前缀必须将 `s3://` 修改为 `s3a://`。
<<<<<<< HEAD
> - 如果您的 Amazon EC2 实例上绑定的 IAM 角色可以访问您的 Amazon S3 存储空间,那么您不需要提供 `fs.s3a.access.key` 和 `fs.s3a.secret.key` 配置,留空即可。
=======
> - 如果您的 AWS EC2 实例上绑定的 IAM 角色可以访问您的 AWS S3 存储空间,那么您不需要提供 `fs.s3a.access.key` 和 `fs.s3a.secret.key` 配置,留空即可。
> - 如果您的 A EC2 实例上绑定的 IAM 角色可以访问您的 AWS S3 存储空间,那么您不需要提供 `fs.s3a.access.key` 和 `fs.s3a.secret.key` 配置,留空即可。

有关详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

#### 从 Google GCS 导入

Expand Down Expand Up @@ -221,13 +202,8 @@ WITH BROKER "mybroker"
>
> 由于 Broker Load 只支持通过 S3A 协议访问 Google GCS,因此当从 Google GCS 导入数据时,`DATA INFILE` 中传入的目标文件的 GCS URI,前缀必须修改为 `s3a://`。

<<<<<<< HEAD
#### 从 阿里云 OSS 导入
=======
有关详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。

#### 从阿里云 OSS 导入
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))
#### 从 阿里云 OSS 导入

可以通过如下语句,把阿里云 OSS 存储空间 `bucket_oss` 里 `input` 文件夹内的 CSV 文件 `file1.csv` 和 `file2.csv` 分别导入到 StarRocks 表 `table1` 和 `table2` 中:

Expand All @@ -252,11 +228,8 @@ WITH BROKER "mybroker"
);
```

<<<<<<< HEAD
=======
有关详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。

>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))
#### 从腾讯云 COS 导入

可以通过如下语句,把腾讯云 COS 存储空间 `bucket_cos` 里 `input` 文件夹内的 CSV 文件 `file1.csv` 和 `file2.csv` 分别导入到 StarRocks 表 `table1` 和 `table2` 中:
Expand All @@ -282,8 +255,6 @@ WITH BROKER "mybroker"
);
```

<<<<<<< HEAD
=======
有关详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。

#### 从华为云 OBS 导入
Expand Down Expand Up @@ -317,7 +288,6 @@ WITH BROKER "mybroker"

有关详细语法和参数说明,请参见 [BROKER LOAD](../sql-reference/sql-statements/data-manipulation/BROKER_LOAD.md)。

>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))
#### 查询数据

从 HDFS、Amazon S3、Google GCS、阿里云 OSS、或者腾讯云 COS 导入完成后,您可以使用 SELECT 语句来查看 StarRocks 表的数据,验证数据已经成功导入。
Expand Down Expand Up @@ -395,11 +365,7 @@ Broker Load 支持通过 SHOW LOAD 语句和 curl 命令两种方式来查看导

#### 使用 SHOW LOAD 语句

<<<<<<< HEAD
请参见 [SHOW LOAD](/sql-reference/sql-statements/data-manipulation/SHOW_LOAD.md)。
=======
请参见 [SHOW LOAD](../sql-reference/sql-statements/data-manipulation/SHOW_LOAD.md)。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))

#### 使用 curl 命令

Expand Down Expand Up @@ -430,19 +396,16 @@ curl --location-trusted -u root: \
| dbName | 目标 StarRocks 表所在的数据库的名称。 |
| tblNames | 目标 StarRocks 表的名称。 |
| label | 导入作业的标签。 |
| state | 导入作业的状态,包括:<ul><li>`PENDING`:导入作业正在等待执行中。</li><li>`LOADING`:导入作业正在执行中。</li><li>`FINISHED`:导入作业成功。</li><li>`CANCELLED`:导入作业失败。</li></ul>请参见[异步导入](/loading/Loading_intro.md#异步导入)。 |
| state | 导入作业的状态,包括:<ul><li>`PENDING`:导入作业正在等待执行中。</li><li>`LOADING`:导入作业正在执行中。</li><li>`FINISHED`:导入作业成功。</li><li>`CANCELLED`:导入作业失败。</li></ul>请参见[异步导入](./Loading_intro.md#异步导入)。 |
| failMsg | 导入作业的失败原因。当导入作业的状态为`PENDING`,`LOADING`或`FINISHED`时,该参数值为`NULL`。当导入作业的状态为`CANCELLED`时,该参数值包括 `type` 和 `msg` 两部分:<ul><li>`type` 包括如下取值:</li><ul><li>`USER_CANCEL`:导入作业被手动取消。</li><li>`ETL_SUBMIT_FAIL`:导入任务提交失败。</li><li>`ETL-QUALITY-UNSATISFIED`:数据质量不合格,即导入作业的错误数据率超过了 `max-filter-ratio`。</li><li>`LOAD-RUN-FAIL`:导入作业在 `LOADING` 状态失败。</li><li>`TIMEOUT`:导入作业未在允许的超时时间内完成。</li><li>`UNKNOWN`:未知的导入错误。</li></ul><li>`msg` 显示有关失败原因的详细信息。</li></ul> |
| trackingUrl | 导入作业中质量不合格数据的访问地址。可以使用 `curl` 命令或 `wget` 命令访问该地址。如果导入作业中不存在质量不合格的数据,则返回空值。 |
| status | 导入请求的状态,包括 `OK` 和 `Fail`。 |
| msg | HTTP 请求的错误信息。 |

### 取消导入作业

<<<<<<< HEAD
当导入作业状态不为 **CANCELLED** 或 **FINISHED** 时,可以通过 [CANCEL LOAD](/sql-reference/sql-statements/data-manipulation/CANCEL_LOAD.md) 语句来取消该导入作业。
=======
当导入作业状态不为 **CANCELLED** 或 **FINISHED** 时,可以通过 [CANCEL LOAD](../sql-reference/sql-statements/data-manipulation/CANCEL_LOAD.md) 语句来取消该导入作业。
>>>>>>> f05ef5645 ([Doc] fix links in Branch 2.3 (#35196))


例如,可以通过以下语句,撤销 `db1` 数据库中标签为 `label1` 的导入作业:

Expand All @@ -460,7 +423,7 @@ WHERE LABEL = "label";

- 如果声明多个 `data_desc` 参数对应导入同一张表的不同分区,则每个分区数据的导入会拆分成一个子任务。

每个子任务还会拆分成一个或者多个实例,然后这些实例会均匀地被分配到 BE 上并行执行。实例的拆分由以下 [FE 配置](/administration/Configuration.md#配置-fe-动态参数)决定:
每个子任务还会拆分成一个或者多个实例,然后这些实例会均匀地被分配到 BE 上并行执行。实例的拆分由以下 [FE 配置](../administration/Configuration.md#配置-fe-动态参数)决定:

- `min_bytes_per_broker_scanner`:单个实例处理的最小数据量,默认为 64 MB。

Expand All @@ -476,4 +439,4 @@ WHERE LABEL = "label";

## 常见问题

请参见 [Broker Load 常见问题](/faq/loading/Broker_load_faq.md)。
请参见 [Broker Load 常见问题](../faq/loading/Broker_load_faq.md)。
Loading
Loading