openvinotoolkit · iefode · Dec 16, 2024 · Dec 13, 2024 · Dec 13, 2024 · Dec 13, 2024
diff --git a/src/cpp/src/continuous_batching_impl.cpp b/src/cpp/src/continuous_batching_impl.cpp
@@ -285,9 +285,13 @@ ContinuousBatchingPipeline::ContinuousBatchingImpl::generate(const std::vector<o
         }
         if (streamer_ptr && generations.at(0)->can_read()) {
             std::unordered_map<uint64_t, GenerationOutput> token = generations.at(0).get()->back();
-            OPENVINO_ASSERT(1 == token.size());
-            OPENVINO_ASSERT(1 == token.begin()->second.generated_ids.size());
-            continue_generation = !streamer_ptr->put(token.begin()->second.generated_ids.at(0));
+            OPENVINO_ASSERT(1 <= token.size());
+            OPENVINO_ASSERT(1 <= token.begin()->second.generated_ids.size());
+            for (const auto& gen_token : token.begin()->second.generated_ids) {
+                if (!streamer_ptr->put(gen_token)) {
+                    break;
+                }
+            }
         }
     }
 

diff --git a/src/cpp/src/lm_encoding.cpp b/src/cpp/src/lm_encoding.cpp
@@ -126,7 +126,7 @@ std::pair<EncodedResults, int32_t> get_lm_encoded_results(
                                                 get_active_sequence_groups),
                                  active_sequence_groups.end());
 
-    while (active_sequence_groups.size() > 0) {
+    do {
         size_t total_num_tokens = 0;
 
         for (auto& sequence_group : active_sequence_groups) {
@@ -203,11 +203,18 @@ std::pair<EncodedResults, int32_t> get_lm_encoded_results(
         raw_perf_counters.m_batch_sizes.emplace_back(batch_size);
 
         if (streamer_ptr) {
-            // stream data from first sequence
-            int64_t out_token = sequence_groups.at(0).get()->operator[](0)->get_generated_ids().back();
-            if (streamer_ptr->put(out_token)) {
-                break;
+            // not generated tokens like several prompt phase
+            if (!generations.at(0).get()->can_read()) {
+                continue;
             }
+            std::unordered_map<uint64_t, GenerationOutput> token = generations.at(0).get()->back();
+            OPENVINO_ASSERT(1 <= token.size());
+            OPENVINO_ASSERT(1 <= token.begin()->second.generated_ids.size());
+            for (const auto& gen_token : token.begin()->second.generated_ids) {
+                if (!streamer_ptr->put(gen_token)) {
+                    break;
+                }
+            }   
         }
 
         sampler_output = sampler.sample(active_sequence_groups, m_llm.get_tensor("logits"));
@@ -216,13 +223,7 @@ std::pair<EncodedResults, int32_t> get_lm_encoded_results(
                                                     active_sequence_groups.end(),
                                                     get_active_sequence_groups),
                                     active_sequence_groups.end());
-    }
-
-    if (streamer_ptr) {
-        int64_t out_token = sequence_groups.at(0).get()->operator[](0)->get_generated_ids().back();
-        streamer_ptr->put(out_token);
-        streamer_ptr->end();
-    }
+    } while (active_sequence_groups.size() > 0);
 
     size_t next_selected_beam = 0;
     for (size_t i = 0; i < sequence_groups.size(); i++) {