Implement OlMoE logits logging.

Update: logging items in OlMoE. Update: some changes for main script. Add: logits post processing notebook.
2025-09-29 19:52:44 +08:00
parent 6738855fb1
commit 5d1d818138
5 changed files with 99 additions and 22 deletions
--- a/.clineignore
+++ b/.clineignore
@ -223,3 +223,6 @@ venv/

 # Checkpoints for LLMs
 llms/
+
+# Logging files
+logs/
--- a/.gitignore
+++ b/.gitignore
@ -223,3 +223,6 @@ venv/

 # Checkpoints for LLMs
 llms/
+
+# Logging files
+logs/
--- a/logits_post_process.py
+++ b/logits_post_process.py
@ -0,0 +1,59 @@
+# ---
+# jupyter:
+#   jupytext:
+#     formats: ipynb,py:percent
+#     text_representation:
+#       extension: .py
+#       format_name: percent
+#       format_version: '1.3'
+#       jupytext_version: 1.17.3
+#   kernelspec:
+#     display_name: venv
+#     language: python
+#     name: python3
+# ---
+
+# %%
+import numpy as np
+import pandas as pd
+# import torch
+
+# %%
+log_file = "olmoe_20250929-165403.parquet"
+model_id = "./llms/OLMoE-1B-7B-0924-Instruct"
+
+# %%
+df = pd.read_parquet(log_file)
+df.head()
+
+# %%
+# logit = df.loc[1, "router_logits"]
+# logit
+
+# %%
+main_mask = (df["src"] == "main")
+
+token_ids = df.loc[main_mask, "token_ids"].item()
+output_text = df.loc[main_mask, "output_text"].item()
+
+# %%
+lm_mask = (df["src"] == "lm_logit")
+
+df.loc[lm_mask, "logits"] = df.loc[lm_mask, "logits"].apply(lambda arr: np.stack([a for a in arr]).flatten())
+df.loc[lm_mask, "token_id"] = df.loc[lm_mask, "logits"].apply(lambda l: np.argmax(l, axis=-1))
+df.head()
+
+# %%
+df[lm_mask, "token_id"].to_numpy()
+
+# %%
+token_ids
+
+# %%
+import transformers
+from transformers import AutoTokenizer, GPTNeoXTokenizerFast
+
+tokenizer: GPTNeoXTokenizerFast = AutoTokenizer.from_pretrained(model_id)
+
+# %%
+tokenizer.decode(token_ids)
--- a/models/log_expert/olmoe.py
+++ b/models/log_expert/olmoe.py
@ -102,14 +102,18 @@ class OlmoeMoE(nn.Module):
        # router_logits: (num_tokens, n_experts)
        router_logits, _ = self.gate(hidden_states)

-        dlog.log({
-            "_time": datetime.now(),
-            "router_logits": router_logits.cpu().float().numpy(),
-            "layer": self.layer_idx,
-        })
-
        final_hidden_states = self.experts(hidden_states=hidden_states,
                                           router_logits=router_logits)
+
+        dlog.log({
+            "_time": datetime.now(),
+            "src": "router",
+            "layer": self.layer_idx,
+            "router_logits": router_logits.cpu().float().numpy(),
+            "orig_shape": list(orig_shape),
+            "hidden_dim": hidden_dim,
+            "hidden_states_shape": list(hidden_states.shape),
+        })
        return final_hidden_states.view(orig_shape)

    def add_logging_metrics(self, layer_idx: int):
@ -501,6 +505,11 @@ class OlmoeForCausalLM(nn.Module, SupportsPP):
                       sampling_metadata: SamplingMetadata) -> torch.Tensor:
        logits = self.logits_processor(self.lm_head, hidden_states,
                                       sampling_metadata)
+        dlog.log({
+            "_time": datetime.now(),
+            "src": "lm_logit",
+            "logits": logits.cpu().float().numpy(),
+        })
        return logits

    def load_weights(self, weights: Iterable[tuple[str,
--- a/olmoe_log_expert_vllm.py
+++ b/olmoe_log_expert_vllm.py
@ -11,14 +11,12 @@ from vllm.distributed.parallel_state import destroy_model_parallel
 from models.register import register_vllm_logit_logging_models
 from utils import DataLogger as dlog

-# %%
-# dlog.get_instance(path=f"olmoe_{datetime.now().strftime("%Y%m%d-%H%M%S")}.parquet")

 # %%
 model_id = "./llms/OLMoE-1B-7B-0924-Instruct"

 try:
-    log_file = Path(f"olmoe_{datetime.now().strftime("%Y%m%d-%H%M%S")}.parquet")
+    log_file = Path(f"logs/olmoe_{datetime.now().strftime("%Y%m%d-%H%M%S")}.parquet")
    if log_file.exists():
        log_file.unlink()

@ -32,6 +30,7 @@ try:
        # tensor_parallel_size=2,
        gpu_memory_utilization=0.95,
        max_model_len=4096,
+        max_num_seqs=1,
        # compilation_config=CompilationConfig(
        #     level=CompilationLevel.PIECEWISE,
        #     # By default, it goes up to max_num_seqs
@ -42,21 +41,21 @@ try:

    sampling_params = SamplingParams(
        temperature=0.6,
-        top_p=0.95,
-        top_k=20,
+        # top_p=0.95,
+        # top_k=20,
+        top_p=1.0,
+        top_k=1,
        max_tokens=1024,
    )

    # Prepare the input to the model
-    prompt = "Give me a very short introduction to large language models."
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},
-        {"role": "user", "content": prompt},
+        {
+            "role": "user",
+            "content": "What is the name of the tallest building in Paris? Output the final answer ONLY:",
+        },
    ]
-    # messages = [
-    #     {"role": "system", "content": "你是一位人工智能助手。"},
-    #     {"role": "user", "content": "请简要地介绍什么是大语言模型。"},
-    # ]

    # Generate outputs
    outputs = llm.chat(
@ -73,12 +72,16 @@ try:
        # print("=== COMPLETION ===")
        print(out.outputs[0].text)
        print("\n---\n")
-        dlog.log({
+        dlog.log(
+            {
                "_time": datetime.now(),
-            "output_text": out.outputs[0].text
-        })
+                "src": "main",
+                "output_text": out.outputs[0].text,
+                "token_ids": out.outputs[0].token_ids,
+            }
+        )

-    print("Finish completion")
+    print("\n---\nFinish completion")

 except Exception as e:
    print(e)