InternLM · lvhan028 · Oct 9, 2023 · Sep 28, 2023 · Sep 28, 2023
diff --git a/src/turbomind/triton_backend/llama/LlamaTritonModel.cc b/src/turbomind/triton_backend/llama/LlamaTritonModel.cc
@@ -273,7 +273,7 @@ LlamaTritonModel<T>::createModelInstance(int
     std::shared_ptr<LlamaTritonSharedModelInstance<T>> instance;
     {
         std::lock_guard<std::mutex> lock(shared_mutexes_[device_id]);
-        instance = shared_instances_[device_id].lock();
+        instance = shared_instances_[device_id];
         if (!instance) {
             instance = createSharedModelInstance(device_id, rank, nccl_params, custom_all_reduce_comm);
             instance->llm->setFfiLock(ffi_lock_);
@@ -347,7 +347,7 @@ LlamaTritonModel<T>::createNcclParams(const int node_id, const int device_id_sta
     // create nccl group when there are non-occupied devices
     for (int i = 0; i < device_count; ++i) {
         std::lock_guard<std::mutex> lock(shared_mutexes_[i]);
-        if (shared_instances_[i].expired()) {
+        if (shared_instances_[i] == nullptr) {
             need_nccl_params = true;
             break;
         }

diff --git a/src/turbomind/triton_backend/llama/LlamaTritonModel.h b/src/turbomind/triton_backend/llama/LlamaTritonModel.h
@@ -108,9 +108,8 @@ struct LlamaTritonModel: public AbstractTransformerModel {
 
     std::shared_ptr<typename ft::LlamaV2<T>::SharedState> shared_state_;
 
-    // weak_ptr is used so that the instances get released when all strong references are gone
-    std::vector<std::weak_ptr<LlamaTritonSharedModelInstance<T>>> shared_instances_;
-    std::deque<std::mutex>                                        shared_mutexes_;  // is locking really needed?
+    std::vector<std::shared_ptr<LlamaTritonSharedModelInstance<T>>> shared_instances_;
+    std::deque<std::mutex>                                          shared_mutexes_;  // is locking really needed?
 
     bool is_fp16_;
     int  enable_custom_all_reduce_ = 0;