feat: 方法单独提取

wangtao2001 · wangtao2001 · commit f4f3e5bf539d · 2025-04-02T16:59:59.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -54,7 +54,7 @@ experimental/data/**/*.txt
 experimental/pre_trained
 experimental/scripts/**/checkpoints
 experimental/scripts/**/example*.json
-experimental/scripts/**/seqeval
+experimental/metrics/**
 experimental/scripts/test*.py
 experimental/scripts/test
 test*.py
diff --git a/examples/get_knowledge_graph_pdf.py b/examples/get_knowledge_graph_pdf.py
@@ -13,7 +13,7 @@
 set_logger(console=True, file=False)
 
 parser = argparse.ArgumentParser()
-parser.add_argument('-u', '--url', default='http://localhost:7474')
+parser.add_argument('-u', '--url', default='bolt://localhost:7687')
 parser.add_argument('-n', '--user', default='neo4j')
 parser.add_argument('-p', '--password', default='neo4j')
 parser.add_argument('-f', '--file')
diff --git a/examples/knowledge_server.py b/examples/knowledge_server.py
@@ -10,7 +10,7 @@
 
 
 parser = argparse.ArgumentParser()
-parser.add_argument('-u', '--url', default='http://localhost:7474')
+parser.add_argument('-u', '--url', default='bolt://localhost:7687')
 parser.add_argument('-n', '--user', default='neo4j')
 parser.add_argument('-p', '--password', default='neo4j')
 args = parser.parse_args()
diff --git a/experimental/README.md b/experimental/README.md
@@ -13,11 +13,13 @@ experimental/
 │       ├── pipeline.py # 原始数据处理脚本
 │       └── txt/
 │           └── *.txt   # 原始纯文本数据
-├── README.md
-└── scripts/
-    ├── ner/            # 实体识别模型
-    ├── overview.py     # 数据概览
-    └── pre_trained/    # 预训练模型
+├── scripts/
+│   ├── ner/            # 实体识别模型
+│   ├── overview.py     # 数据概览
+│   └── pre_trained/    # 预训练模型
+├── results/            # 结果
+└── README.md
+
 ```
 
 ### 实验准备
@@ -29,6 +31,8 @@ experimental/
 export SWANLAB_API_KEY=
 ```
 
+#### 评估指标
+
 #### 数据
 
 ### 数据格式说明
diff --git a/experimental/scripts/ke/model.py b/experimental/scripts/ke/model.py
@@ -10,6 +10,7 @@
 import torch
 from torch.nn import functional as F
 
+
 class BertBiLSTMCRF(PreTrainedModel):
     def __init__(self, config):
         super().__init__(config)
@@ -55,10 +56,10 @@ def forward(self, input_ids, attention_mask, token_type_ids, labels=None, **kwar
                 "loss": loss,
                 "pred_label_ids": pred_label_ids
             }
-        else:
-            return {
-                "pred_label_ids": pred_label_ids
-            }
+
+        return {
+            "pred_label_ids": pred_label_ids
+        }
 
 
 class BertForRE(PreTrainedModel):
diff --git a/experimental/scripts/ke/train_with_trainer.py b/experimental/scripts/ke/train_with_trainer.py
@@ -207,7 +207,7 @@ def main(args):
     parser.add_argument("--checkpoint", type=str, default="experimental/scripts/ke/checkpoints", help="检查点存储路径")
     parser.add_argument("--log", type=str, default="experimental/scripts/ke/logs", help="日志存储路径")
     parser.add_argument("--use_local_metric", type=bool, default=True, help="是否使用本地评估指标")
-    parser.add_argument("--seqeval_path", type=str, default="experimental/scripts/ke/seqeval", help="本地seqeval指标代码路径")
+    parser.add_argument("--seqeval_path", type=str, default="experimental/metrics/seqeval", help="本地seqeval指标代码路径")
     parser.add_argument("--lr", type=float, default=5e-5)
     parser.add_argument("--epochs", type=int, default=5)
     parser.add_argument("--batch_size", type=int, default=2)
diff --git a/pyproject.toml b/pyproject.toml
@@ -26,35 +26,23 @@ dependencies = [
     "tqdm==4.66.4",
     "transformers>=4.43.3",
     "vllm>=0.7.3",
-    "pymongo==4.8.0",
     "paddleocr==2.8.1",
     "paddlepaddle==2.6.1",
-    "ollama==0.3.3",
-    "json5==0.9.25",
     "ray>=2.35.0",
-    "verovio==4.3.1",
     "maturin==1.7.4",
-    "patchelf==0.17.2.1",
     "docstring-parser==0.16",
     "doclayout-yolo==0.0.3",
     "shortuuid>=1.0.13",
     "jupyter>=1.1.1",
-    "dashscope>=1.20.13",
-    "tenacity>=9.0.0",
     "fastapi>=0.115.6",
-    "shuangchentools>=0.0.6",
-    "qwen-vl-utils>=0.0.8",
     "trl>=0.14.0",
-    "deprecated>=1.2.18",
     "singleton-decorator>=1.0.0",
     "tabulate>=0.9.0",
     "torchcrf>=1.1.0",
-    "seqeval>=1.2.2",
     "scikit-learn>=1.6.1",
     "swanlab>=0.5.2",
     "evaluate>=0.4.3",
     "pymilvus>=2.5.6",
-    "openai-agents>=0.0.7",
     "neo4j>=5.28.1",
 ]
 
diff --git a/src/course_graph/agent/agent.py b/src/course_graph/agent/agent.py
@@ -68,21 +68,21 @@ def __init__(
             self.tool_choice = tool_choice
 
         self.messages: list[ChatCompletionMessageParam] = []
-   
-        for server in mcp_server:
-            tools = server.tools
-            for tool in tools:
-                self.tools.append({
-                    'type': 'function',
-                    'function': {
-                        'name': tool.name,
-                        'description': tool.description,
-                        'parameters': tool.inputSchema
-                    }
-                })  # 注意不能使用 add_tools 方法
-                self.mcp_functions[tool.name] = server
-
-    def chat(self, message: str = None) -> ChatCompletionMessage:
+        if mcp_server:
+            for server in mcp_server:
+                tools = server.tools
+                for tool in tools:
+                    self.tools.append({
+                        'type': 'function',
+                        'function': {
+                            'name': tool.name,
+                            'description': tool.description,
+                            'parameters': tool.inputSchema
+                        }
+                    })  # 注意不能使用 add_tools 方法
+                    self.mcp_functions[tool.name] = server
+
+    def chat_completion(self, message: str = None) -> ChatCompletionMessage:
         """ Agent 多轮对话
 
         Args:
@@ -111,6 +111,18 @@ def chat(self, message: str = None) -> ChatCompletionMessage:
         self.messages.append(resp)  # 比 add_assistant_message 信息更详细
 
         return response
+    
+    def chat(self, message: str = None) -> str:
+        """ Agent 多轮对话
+
+        Args:
+            message (str): 用户输入
+
+        Returns:
+            ChatCompletionMessage: 模型输出
+        """
+        response = self.chat_completion(message)
+        return response.content
 
     def add_user_message(self, message: str) -> None:
         """ 添加用户记录
diff --git a/src/course_graph/agent/controller.py b/src/course_graph/agent/controller.py
@@ -92,7 +92,7 @@ async def run(self, agent: Agent, message: str = None) -> tuple[Agent, str]:
             data={'message': message}
         ))
 
-        assistant_output = agent.chat(message)
+        assistant_output = agent.chat_completion(message)
 
         self._add_trace_event(TraceEvent(
             timestamp=datetime.now(),
@@ -188,7 +188,7 @@ async def run(self, agent: Agent, message: str = None) -> tuple[Agent, str]:
 
                 self.set_agent_instruction(agent)
 
-            assistant_output = agent.chat()
+            assistant_output = agent.chat_completion()
             turn += 1
             if turn > self.max_turns:
                 raise MaxTurnsException
diff --git a/src/course_graph/database/neo4j_.py b/src/course_graph/database/neo4j_.py
@@ -4,10 +4,10 @@
 # File: course_graph/database/neo4j.py
 # Description: 定义图数据库连接
 
-from neo4j import GraphDatabase, Driver
+from neo4j import GraphDatabase
 from neo4j.graph import Node, Relationship
 from singleton_decorator import singleton
-from functools import lru_cache
+from functools import cache
 
 
 @singleton
@@ -39,8 +39,8 @@ def close(self):
         self.session.close()
         self.driver.close()
 
-    @lru_cache
-    def match_nodes(self, skip: int = None, limit: int = None) -> list[Node]:
+    @cache
+    def get_nodes(self, skip: int = None, limit: int = None) -> list[Node]:
         """ 获取所有 Node
         
         Args:
@@ -50,15 +50,16 @@ def match_nodes(self, skip: int = None, limit: int = None) -> list[Node]:
         Returns:
             list: 所有 Node
         """
-        records, _, _ = self.driver.execute_query(
-            "MATCH (n) RETURN n skip $skip limit $limit",
-            limit=limit,
-            skip=skip
-        )
+        query = "MATCH (n) RETURN n"
+        if skip is not None:
+            query += f" skip $skip"
+        if limit is not None:
+            query += f" limit $limit"
+        records, _, _ = self.driver.execute_query(query, limit=limit, skip=skip)
         return [record['n'] for record in records]
     
-    @lru_cache
-    def match_relations(self, skip: int = None, limit: int = None) -> list[Relationship]:
+    @cache
+    def get_relations(self, skip: int = None, limit: int = None) -> list[Relationship]:
         """ 获取所有 Relation
         
         Args:
@@ -68,14 +69,15 @@ def match_relations(self, skip: int = None, limit: int = None) -> list[Relations
         Returns:
             list: 所有 Relation
         """
-        records, _, _ = self.driver.execute_query(
-            "MATCH ()-[r]->() RETURN r skip $skip limit $limit",
-            limit=limit,
-            skip=skip
-        )
+        query = "MATCH (m)-[r]->(n) RETURN m, r, n"
+        if skip is not None:
+            query += f" skip $skip"
+        if limit is not None:
+            query += f" limit $limit"
+        records, _, _ = self.driver.execute_query(query, limit=limit, skip=skip)
         return [record['r'] for record in records]
     
-    @lru_cache
+    @cache
     def get_nodes_count(self) -> int:
         """ 获取所有 Node 的数量
         
@@ -87,7 +89,7 @@ def get_nodes_count(self) -> int:
         )
         return records[0]['count(n)']
     
-    @lru_cache
+    @cache
     def get_relations_count(self) -> int:
         """ 获取所有 Relation 的数量
         
@@ -99,5 +101,65 @@ def get_relations_count(self) -> int:
         )
         return records[0]['count(r)']
     
+    @cache
+    def get_max_relation_count(self) -> int:
+        """ 获取所有 Relation 的最大 ID
+        
+        Returns:
+            int: 所有 Relation 的最大 ID
+        """
+        records, _, _ = self.driver.execute_query("""
+            MATCH (n)-[r]-()
+            RETURN n, count(r) AS relation_count
+            ORDER BY relation_count DESC
+            LIMIT 1""")
+        return records[0]['relation_count']
+    
+    @cache
+    def get_nodes_with_relation_count(self, skip: int = None, limit: int = None) -> list[tuple[Node, int]]:
+        """ 获取所有 Node 及其关系数量
+        
+        Args:
+            skip (int, optional): 跳过. Defaults to None.
+            limit (int, optional): 限制. Defaults to None.
+
+        Returns:
+            list[tuple[Node, int]]: 所有 Node 及其关系数量
+        """
+        query = "MATCH (n)-[r]-() RETURN n, count(r)"
+        if skip is not None:
+            query += f" skip $skip"
+        if limit is not None:
+            query += f" limit $limit"
+        records, _, _ = self.driver.execute_query(query, limit=limit, skip=skip)
+        return [(record['n'], record['count(r)']) for record in records]
+    
+    @cache
+    def get_node_by_id(self, id: int) -> Node:
+        """ 获取指定 id 的 Node
+        
+        Args:
+            id (int): 指定 id
+            
+        Returns:
+            Node: 相应 Node
+        """
+        records, _, _ = self.driver.execute_query("MATCH (n) WHERE n.id = $id RETURN n", id=id)
+        return records[0]['n']
+    
+    @cache
+    def get_relations_by_node_id(self, id: int) -> list[Relationship]:
+        """ 获取指定 id 的 Node 的所有 Relation
+        
+        Args:
+            id (int): 指定 id
+            
+        Returns:
+            list[Relationship]: 相应 Node 的所有 Relation
+        """
+        records, _, _ = self.driver.execute_query("MATCH (n)-[r]->() WHERE n.id = $id RETURN r", id=id)
+        return [record['r'] for record in records]
+    
     def __hash__(self):
         return hash(self.url)
+    
diff --git a/src/course_graph/kg/api.py b/src/course_graph/kg/api.py
diff --git a/src/course_graph/parser/core.py b/src/course_graph/parser/core.py
diff --git a/src/course_graph/parser/document.py b/src/course_graph/parser/document.py
diff --git a/src/course_graph/parser/pdf_parser/pdf_parser.py b/src/course_graph/parser/pdf_parser/pdf_parser.py
diff --git a/uv.lock b/uv.lock