Who's using HAMi / 您在使用 HAMi 吗 ? #4

archlitchi · 2021-12-20T05:01:49Z

Sincerely thank you for using and continuing to pay attention to HAMi. In order to better build the community and attract more people to use and contribute to HAMi to strengthen the community, please comment the following information in the issue:

Your company, school or organization.
Information about your GPU cluster.
Your scenarios using HAMi.
You can refer to the following format to provide information:
Company(Organization): xxx
Website: xxx (Just to get the company logo)
GPU cluster: 8 * (T4 * 8) + 4 * (V100*2)
Scenarios: DL inference

诚挚的感谢每一位使用并持续关注 HAMi 的朋友。为了更好的建设社区并聆听社区的声音，吸引更多的人使用 HAMi 并给 HAMi 的社区贡献力量，我们期待您能够提交一条评论, 其中包括以下内容:

您所在公司、学校
您的集群规模
您在哪些业务场景中使用
您可以用这些格式来提供信息：
公司：xx
集群规模：8台8卡A100+8台8卡T4
使用场景：深度学习推理

HAMi maintainers recently launched a survey to understand the main scenarios in which the community uses HAMi, some issues and shortcomings in actual use of HAMi, expectations for future features, and suggestions for the development of the HAMi community. We hope everyone will actively fill in the survey. 🔥

https://wj.qq.com/s2/15558891/77a0/

rnyrnyrny · 2021-12-27T10:01:02Z

公司：联易融
使用场景：在线推理
感谢开发者的工作

detongz · 2021-12-28T04:38:43Z

公司：平安证券

联系方式：17319068082（微信同），张

使用场景：配合kubeflow进行使用，目前公司搭建了一套kubeflow平台，供算法同事使用。但是默认情况下一张显卡只能分配给一个notebook，并且如果notebook不停止/销毁的话，会一直独占这张显卡。我们资源有限，使用了vgpu插件之后可以使一张物理显卡同时让多个算法工程师使用，提升工作效率

遇到的问题：偶尔会遇到jupyter kernel莫名挂掉的问题，暂时还不知道是kubeflow jupyter有bug、或是显存不够用或者其他原因造成的

最后感谢贡献者的出色工作以及开源精神，希望社区能够保持活跃

summerisc · 2021-12-28T05:41:20Z

公司: Caper
使用场景: 物理显卡做切分，配合volcano调度器做自动训练pipeline
欢迎大家多多交流使用场景、和别的工具的结合使用经验

detongz · 2021-12-28T07:39:40Z

公司：平安证券

联系方式：17319068082（微信同），张

使用场景：配合kubeflow进行使用，目前公司搭建了一套kubeflow平台，供算法同事使用。但是默认情况下一张显卡只能分配给一个notebook，并且如果notebook不停止/销毁的话，会一直独占这张显卡。我们资源有限，使用了vgpu插件之后可以使一张物理显卡同时让多个算法工程师使用，提升工作效率

遇到的问题：偶尔会遇到jupyter kernel莫名挂掉的问题，暂时还不知道是kubeflow jupyter有bug、或是显存不够用或者其他原因造成的

最后感谢贡献者的出色工作以及开源精神，希望社区能够保持活跃

jupyter kernal突然挂掉是因为显存不够，算法同事调整了相关参数之后，没有问题了

AlexPei · 2022-01-05T13:33:48Z

公司：华为
联系方式：597956597
使用场景：测试多个深度学习推理服务（多容器）共享单卡资源的隔离情况，对提高稀缺资源的利用率有很大帮助
发现有几个问题点：
1：持续增大并发请求，显存持续增加，停掉压测，显存不释放；物理机上服务部署不会出现持续增加的情况
2：GPU算力单元的利用率会超过设置的值（比如单卡切分为2卡，显存是控制住了50%，但算力利用率会超过50%）
GPU利用率如何如何和具体的容器进程，pod，deployment、service对象关联起并可视化展示是个可深入探讨的点

感谢开源社区，贡献者的辛勤付出，点赞

jamie-liu · 2022-01-06T08:35:28Z

公司：平安银行
测试环境在使用这个方案，很好的解决了gpu资源不足的问题，提升了资源的利用率
报issue解决也很快，赞！

eadou · 2022-01-26T08:00:17Z

公司：北京思特奇信息技术有限公司
联系方式：18792187789
使用场景：用于测试训练AI算法

Chenyangzh · 2022-02-16T02:24:04Z

公司：北京辰安
联系方式：18132152739
使用场景：深度学习算法推理
感谢开源！加油！！

mazhaoshuo · 2022-02-16T06:16:49Z

公司：中化现代农业有限公司
使用场景：推理
非常感觉作者开源的项目，很好的解决了虚拟化问题，会一直关注，加油！！！

JJwangbilin · 2022-04-21T02:55:00Z

公司：新网银行
测试环境使用，解决了gpu算力隔离问题
为xuanzong点赞，报issue解决也很快，赞！

khw934 · 2022-05-06T10:47:57Z

公司：浩方
wx方式：khw934
使用场景：测试GPU虚拟化的一些场景，公司也有GPU机器，想充分使用GPU 资源
希望后期能增加以下功能：
1：希望支持用CPU资源替代GPU 算力
2: 希望支持这个功能，在一个node节点一张卡剩下 0.3，另外一直卡剩下 0.5，希望能还能申请 0.7 ，就是化零为整的功能

感谢开源社区，贡献者的辛勤付出，点赞

Danniez · 2022-05-12T11:02:16Z

公司：R3
使用场景：Inf Deployment
非常棒的项目 @archlitchi 解决问题非常积极高效

ssslkj123 · 2022-06-01T09:36:19Z

公司：中国移动
wx方式：Fedora_lee
使用场景：GPU资源池化，基于GPU时间分片、内存Quota控制情况下针对租户的申请进行隔离，机器学习运算、与售卖场景。
目前遇到的一些小问题：
目前在离线的情况下对于使用helm模板部署不是很友好，导致该项目部署起来异常复杂，应为主机无法通过设置内部镜像源的方式进行。能否提供有关离线部署该插件与调度器的doc文档。
非常感谢对开源社区的贡献。

archlitchi · 2022-06-08T12:26:22Z

公司：中国移动
wx方式：Fedora_lee
使用场景：GPU资源池化，基于GPU时间分片、内存Quota控制情况下针对租户的申请进行隔离，机器学习运算、与售卖场景。
目前遇到的一些小问题：
目前在离线的情况下对于使用helm模板部署不是很友好，导致该项目部署起来异常复杂，应为主机无法通过设置内部镜像源的方式进行。能否提供有关离线部署该插件与调度器的doc文档。
非常感谢对开源社区的贡献。

非常感谢您的支持，如果离线部署遇到困难的话，可以加我wx: xuanzong4493

chenxj1997 · 2022-07-18T11:42:54Z

公司：H3C
使用场景:测试环境使用，实现了gpu隔离
为xuanzong点赞，报issue解决也很快，赞！

x1y2z3456 · 2022-07-28T10:05:22Z

公司：承启科技
使用场景：测试ubuntu18的环境，搭配k8s 1.18.10的环境，可有效隔离GPU，达到高效使用的需求
为xuanzong点赞，报issue解决也很快，赞！

NoKnowKonwNo · 2022-08-02T09:14:31Z

公司：深圳某事业单位
联系方式：un8que (微信)
使用场景：ubuntu18.04 k8s1.19.4 3090 helm方式部署成功~
感谢xuanzong的答疑解惑,回复十分及时有效~
另外分享一下问题: vgpu-scheduler单个pod只能申请小于等于显卡张数的gpu单元~

15220036003 · 2022-08-12T06:49:09Z

公司：轩辕网络科技股份有限公司
联系方式：15220036003
使用场景：教学把一张物理GPU卡虚拟化多个vgpu提供给多个学生使用

遇到的问题：vgpu-device-plugin插件安装不上！！感谢社区工作人员帮助下解决了问题。

51qzpw · 2022-10-13T13:20:07Z

公司：土豆数据
背景：目前在技术预研阶段
使用场景：
预计会在模型推理,图像解译等场景使用
规模：目前在开发环境下，8GPU 节点(每个节点2张nvidia卡)

很OK的开源项目，希望一直活跃下去，加油

freemanke · 2022-11-04T00:18:43Z

公司：推想医疗
背景：目前在技术预研阶段
使用场景：模型推理
预计会在模型推理
规模：目前在开发环境下，10节点(每个节点2张nvidia卡)
很OK的开源项目，希望一直活跃下去，加油**

fangfenghuang · 2022-12-05T05:34:43Z

公司：中国东信
使用场景：UAT测试环境GPU虚拟化，解决GPU资源共享问题
集群规模：目前2个GPU 节点(每个节点2张nvidia T4卡)

感谢开源贡献者出色工作以及开源精神，希望社区能够保持活跃

18735100708 · 2022-12-05T08:43:11Z

公司：中**业
集群规模：9张卡物理卡，每张卡虚拟为4张vgpu
使用场景：深度学习推理

zqz199 · 2022-12-06T06:32:46Z

公司：上海联通产业互联网
使用场景：尝试为AI训练和推理搭建可以细粒化切分调度GPU资源的系统化平台
集群规模: 目前有一个三个节点的集群，24张T4卡

x1y2z3456 · 2022-12-06T06:41:43Z

公司：承O智慧
集群规模：1台A100 4卡机、1台V100 8卡机、50台3060 1卡机、10台3090 4卡机、30台3080 2卡機
使用场景：深度学习训练，教育科研单位

感谢xuanzong的答疑解惑,回复十分及时！解决问题快速～

nice-jiang · 2022-12-06T06:44:42Z

公司：安源汇信
集群规模
10台A100*8的GPU服务器，其中2台做VGPU
使用场景
在教育和科研以及企业内部研发场景，为了提高GPU的资源利用率，通过VGPU很好的解决了这个问题
在使用过程中遇到了一些配置和部署上的问题，也向社区进行了反馈，社区工作人员提供了相关技术支持，帮助我们解决了问题，现在我们已经在多个环境中使用VGPU

Ajexsen · 2022-12-06T16:51:54Z

學校：德國慕尼黑工業大學
集群規模：暫時只有一張物理卡
使用場景：碩士論文，聯合學習測試研發環境

niconical · 2022-12-13T04:40:35Z

学校：东南大学
集群规模：华为Taishan服务器 *5 + Nvidia Tesla T4 *4
使用场景：预研ARM64平台上Kubernetes上GPU资源利用率优化课题+满足甲方要求

louyifei8888 · 2022-12-29T02:56:04Z

公司：杭州联汇
集群规模：5-10个节点，30张a2
使用场景：gpu使用隔离，gpu资源最大化利用研究

rainbowechoes · 2023-05-04T08:03:21Z

公司：深圳伯德睿捷健康科技有限公司
集群规模：3个节点
使用场景：GPU 虚拟化推理
感谢xuanzong大佬

Dravening · 2023-05-23T05:24:25Z

公司：某工业互联网企业
集群规模：双节点物理机，每台物理机双GPU，显卡型号NVIDIA-SMI 515.86.01 Driver Version: 515.86.01 CUDA Version: 11.7
使用场景：公司有多种基于k8s调度的GPU计算任务，GPU的虚拟化对提高GPU资源的利用率有很大帮助

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢xuanzong兄弟大力支持

zeta65 · 2023-06-01T03:40:22Z

公司：https://www.ppio.cn/
集群规模：3个节点 (技术调研阶段，未大规模上量)
使用场景：AI 计算提升资源利用率

感谢 xuanzong，回复很及时也很有耐心，帮忙解决了疑惑。
非常棒的开源项目，希望能一直维护下去

jingzhe6414 · 2023-06-01T07:51:41Z

公司：北京单元格科技有限公司
集群规模：单物理节点，多GPU
使用场景： AI计算平台，细化资源分配

非常感谢大佬的开源，希望能够维持下去！

liudsl · 2023-06-08T07:47:52Z

南开大学-网络实验室
集群规模：1个GPU节点 3080Ti (实验环境，以后可能会上规模)
使用场景：预研GPU算力资源分配和隔离，用于调度算法的研究

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢xuanzong兄弟大力支持！

Crownor · 2023-06-18T10:27:06Z

您所在公司、学校

中国科学院信息工程研究所

您的集群规模

5台共计 10 X V100 | 2 X A100 | 30 X T4

您在哪些业务场景中使用

课题组科研资源整合与管理，同时支持学生科研使用与课题组工程项目落地

hellobiek · 2023-06-19T02:29:50Z

您所在公司、学校
XX基金

您的集群规模
3台共计 2 X V100 | 1 X A100

您在哪些业务场景中使用
金融场景中，智能客服，智能搜索等场景

kirakiseki · 2023-07-07T08:15:05Z

学校：东华大学
集群规模：3090 x2 + 3090Ti x1
使用场景：利用本插件运行高显存需求任务、使用k8s调度GPU资源、为学习培训等场景提供灵活资源分配支持

hyc-yuchen · 2023-07-22T06:44:39Z

学校：中国矿业大学
集群规模：1060ti5+2080ti2
使用场景：进行GPU的虚拟化并使用k8s调度GPU资源

whybeyoung · 2023-08-28T06:48:11Z

公司: 科大讯飞
集群规模: 300+
使用场景: 公有云推理，训练

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢xuanzong兄弟大力支持！

xieyyan · 2023-08-30T09:06:15Z

公司：北京东方国信科技有限公司
集群规模：3个节点
使用场景：ai Gpu限速
感谢xuanzong大佬大力支持

liuchunhui-c · 2023-10-19T10:10:18Z

公司：北京辰安科技
集群规模：3个节点
使用场景：推理训练
感谢xuanzong大佬大力支持

erganzi · 2024-01-10T09:51:06Z

公司：秒云
集群规模：单节点
使用场景：进行GPU的虚拟化并使用k8s调度GPU资源
显卡型号：NVIDIA-Quadro P2000 * 2

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢 @archlitchi

stormdragongardin · 2024-03-14T05:10:07Z

公司：重悦计算机网络科技有限公司
集群规模：4台单卡3090-24G+1台单卡A6000+1台V100-SMX-32G 八卡
使用场景：云平台开发
非常棒的开源项目，希望能一直维护下去,我也会做一些力所能及的事情

zhangQiWorr · 2024-04-29T02:42:58Z

公司：广州品高
使用场景：GPU异构资源的调度的研究
感谢开源

shown1985 · 2024-06-12T09:24:02Z

公司：上海艾莎医学科技有限公司
使用场景：内部测试
希望继续开发，支持

cuiyudong-free · 2024-10-11T08:37:35Z

公司：麒麟软件
使用场景：云底座操作系统/服务器操作系统的AI场景的HAMi功能部署
感谢开源，希望能够持续开发，也在努力加入到开发过程中~

idreamshen · 2024-10-17T06:36:07Z

集群规模：Tesla P100 * 2
使用场景：家用 HomeLab 视频监控编解码、影音编解码、本地模型运行等
感谢开发者的工作

blackjack2015 · 2024-10-18T07:57:51Z

公司：哈尔滨工业大学
使用场景：课题组GPU集群管理
GPU型号：A6000，L40，3090
感谢开源，希望能够持续开发，也在努力加入到开发过程中~

…uler-plugins detail gpu Insufficient info like

xiaoyao · 2024-12-02T02:12:38Z

公司：马上消费金融
使用场景：开发环境GPU共享，异构GPU管理
GPU型号：Tesla M40
感谢社区的共享，后期会持续参与。这是一个很棒的项目，希望能够持续推进！

devenami · 2024-12-26T11:05:49Z

公司：同程旅行
使用场景：推理服务GPU共享、提升GPU利用率
GPU型号：L40S，A800
非常感谢社区贡献，预祝社区发展越来越好，我们也会一直跟进更新...

archlitchi pinned this issue Dec 20, 2021

archlitchi changed the title ~~Who's using vGPU K8s Device Plugin / 您在使用vGPU K8s Device Plugin吗 ?~~ Who's using vGPU K8s Scheduler / 您在使用vGPU K8s Scheduler吗 ? Dec 20, 2021

Project-HAMi deleted a comment from zhuziyuan May 5, 2023

Project-HAMi deleted a comment from zhuziyuan Jul 7, 2023

Project-HAMi deleted a comment from zhuziyuan Aug 28, 2023

wawa0210 changed the title ~~Who's using vGPU K8s Scheduler / 您在使用vGPU K8s Scheduler吗 ?~~ Who's using HAMi / 您在使用 HAMi 吗 ? Apr 15, 2024

wawa0210 mentioned this issue Apr 15, 2024

[Sandbox] HAMi cncf/sandbox#97

Closed

2 tasks

wawa0210 unpinned this issue Jul 26, 2024

wawa0210 pinned this issue Aug 9, 2024

bobsongplus pushed a commit to bobsongplus/HAMi that referenced this issue Oct 21, 2024

Merge pull request Project-HAMi#4 from carolove/feature/support-sched…

5688ba9

…uler-plugins detail gpu Insufficient info like

Who's using HAMi / 您在使用 HAMi 吗 ? #4

Who's using HAMi / 您在使用 HAMi 吗 ? #4

Comments

archlitchi commented Dec 20, 2021 • edited by wawa0210 Loading

rnyrnyrny commented Dec 27, 2021

detongz commented Dec 28, 2021

summerisc commented Dec 28, 2021 • edited Loading

detongz commented Dec 28, 2021 • edited Loading

AlexPei commented Jan 5, 2022 • edited Loading

jamie-liu commented Jan 6, 2022

eadou commented Jan 26, 2022

Chenyangzh commented Feb 16, 2022

mazhaoshuo commented Feb 16, 2022 • edited Loading

JJwangbilin commented Apr 21, 2022

khw934 commented May 6, 2022 • edited Loading

Danniez commented May 12, 2022

ssslkj123 commented Jun 1, 2022

archlitchi commented Jun 8, 2022

chenxj1997 commented Jul 18, 2022

x1y2z3456 commented Jul 28, 2022

NoKnowKonwNo commented Aug 2, 2022

15220036003 commented Aug 12, 2022

51qzpw commented Oct 13, 2022

freemanke commented Nov 4, 2022

fangfenghuang commented Dec 5, 2022

18735100708 commented Dec 5, 2022 • edited by archlitchi Loading

zqz199 commented Dec 6, 2022

x1y2z3456 commented Dec 6, 2022

nice-jiang commented Dec 6, 2022 • edited Loading

Ajexsen commented Dec 6, 2022

niconical commented Dec 13, 2022

louyifei8888 commented Dec 29, 2022

rainbowechoes commented May 4, 2023

Dravening commented May 23, 2023 • edited Loading

zeta65 commented Jun 1, 2023

jingzhe6414 commented Jun 1, 2023

liudsl commented Jun 8, 2023

Crownor commented Jun 18, 2023

您所在公司、学校

您的集群规模

您在哪些业务场景中使用

hellobiek commented Jun 19, 2023 • edited Loading

kirakiseki commented Jul 7, 2023

hyc-yuchen commented Jul 22, 2023

whybeyoung commented Aug 28, 2023 • edited Loading

xieyyan commented Aug 30, 2023

liuchunhui-c commented Oct 19, 2023

erganzi commented Jan 10, 2024 • edited Loading

stormdragongardin commented Mar 14, 2024 • edited Loading

zhangQiWorr commented Apr 29, 2024

shown1985 commented Jun 12, 2024

cuiyudong-free commented Oct 11, 2024

idreamshen commented Oct 17, 2024

blackjack2015 commented Oct 18, 2024

xiaoyao commented Dec 2, 2024

devenami commented Dec 26, 2024

archlitchi commented Dec 20, 2021 •

edited by wawa0210

Loading

summerisc commented Dec 28, 2021 •

edited

Loading

detongz commented Dec 28, 2021 •

edited

Loading

AlexPei commented Jan 5, 2022 •

edited

Loading

mazhaoshuo commented Feb 16, 2022 •

edited

Loading

khw934 commented May 6, 2022 •

edited

Loading

18735100708 commented Dec 5, 2022 •

edited by archlitchi

Loading

nice-jiang commented Dec 6, 2022 •

edited

Loading

Dravening commented May 23, 2023 •

edited

Loading

hellobiek commented Jun 19, 2023 •

edited

Loading

whybeyoung commented Aug 28, 2023 •

edited

Loading

erganzi commented Jan 10, 2024 •

edited

Loading

stormdragongardin commented Mar 14, 2024 •

edited

Loading