Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Starrocks 存算分离部署测试问题反馈 #42715

Open
lllwan opened this issue Mar 18, 2024 · 3 comments
Open

Starrocks 存算分离部署测试问题反馈 #42715

lllwan opened this issue Mar 18, 2024 · 3 comments
Assignees
Labels
type/bug Something isn't working

Comments

@lllwan
Copy link

lllwan commented Mar 18, 2024

  1. 存算分离的文档缺失: 缺少存算分离特性的描述,例如,存算分离容量规划的指导、 特性说明, 最佳实践等等,很多文档语焉不详一笔带过不太不友好。
  2. 存算分离缺少原生的集群备份恢复解决方案。只能通过冷备,丢失一部分数据的代价来恢复集群, 而且村算分离架构没有相关说明文档。
  3. 存算分离没有细粒度容错:这个问题导致在CN异常或者单个计算task失败的情况下,整个计算任务失败, 很多时候计算任务的代价很大,重新发起的成本会很高。
  4. 弹性伸缩, 缩容的时候缺少判断CN节点已经没有任务在运行以及禁止向CN节点调度新任务的能力,这导致伸缩可能无法做到平滑。
  5. 性能测试是基于存算一体的,缺少存算分离架构的性能测试报告。
  6. 稳定性,在实际测试中,遇到starrocks的报错信息但是这些错误信息虽然多但是没有价值,没有明确的问题说明。例如如下:
    错误信息1:
    image
    错误信息3:
    [warn] Error from accept() call: Invalid argument
    [warn] Error from accept() call: Invalid argument
    [warn] Error from accept() call: Invalid argument
    错误信息4:
    2024-03-13 20:58:16,647 ERROR (StarMgrMetaSyncer|47) [StarMgrMetaSyncer.dropTabletAndDeleteShard():122] java.lang.RuntimeException: Unable to validate object
    错误信息5:
    [ERROR] 2024-03-13 20:53:40 db_table_operation.py[44] stream load error. table: lineitem, path: /opt/tpch-poc-1.0/data_500/lineitem.tbl.97, msg: "Message": "Cancelled because of runtime state is cancelled",, error_url: None
    [ERROR] 2024-03-13 20:53:41 db_table_operation.py[44] stream load error. table: lineitem, path: /opt/tpch-poc-1.0/data_500/lineitem.tbl.23, msg: "Message": "Cancelled because of runtime state is cancelled",, error_url: None
    错误信息建议优化,起码能从错误信息中get具体的问题, 或者通过错误码能够从官方文档中找到对应的错误和解决方案。
  7. 挺多稳定性指标不知道含义,官方文档上也没有。
  8. 对于presto的兼容存在一些指令不支持的情况。
  9. 按照理解,FE挂掉超过一半的情况下集群是只读,但是实际过程发现,三个FE,挂掉了2个还可以写入:
    image
@lllwan lllwan added the type/bug Something isn't working label Mar 18, 2024
@lllwan lllwan changed the title Starrocks 存算分离部署问题反馈 Starrocks 存算分离部署测试问题反馈 Mar 18, 2024
@kevincai kevincai self-assigned this Mar 19, 2024
@kevincai
Copy link
Contributor

kevincai commented Mar 19, 2024

  1. 存算分离缺少原生的集群备份恢复解决方案。只能通过冷备,丢失一部分数据的代价来恢复集群, 而且村算分离架构没有相关说明文档。

backup: in 2024 roadmap #39686

@kevincai
Copy link
Contributor

  1. 按照理解,FE挂掉超过一半的情况下集群是只读,但是实际过程发现,三个FE,挂掉了2个还可以写入:

@gengjun-git

@zhaohehuhu
Copy link
Contributor

zhaohehuhu commented Mar 21, 2024

image
我们做了TPC 100G SR shared-date架构的性能测试 大致情况请如图所示 @kevincai @lllwan

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
type/bug Something isn't working
Projects
None yet
Development

No branches or pull requests

3 participants