[논문 리뷰] A Survey of Large Language Models for Graphs #9
Replies: 1 comment
-
A Survey of Large Language Models for Graphs 리뷰2. PRELIMINARIES AND TAXONOMY2.1 DefinitionsGraph Neural Networks (GNNs): GNN은 노드 간의 연결을 통해 정보를 전달하고 학습하는 모델입니다. 각 노드의 표현을 이웃 노드의 정보로 업데이트하여, 복잡한 그래프 구조 내에서 관계를 학습합니다. Large Language Models (LLMs): LLM은 대규모 텍스트 데이터셋으로 학습한 언어 모델로, 인간과 유사한 방식으로 언어를 이해하고 생성할 수 있습니다. LLM은 복잡한 자연어 처리 작업에 사용되며, 대화형 AI, 텍스트 요약, 번역 등에 활용됩니다.
2.2 Taxonomy
- GNNs as Prefix - LLMs as Prefix - LLMs-Graphs Integration - LLMs-Only 3. LARGE LANGUAGE MODELS FOR GRAPHS3.1 GNNs as Prefix이 방법에서는 GNN이 구조적 인코더로서 먼저 그래프의 구조를 이해한 후, 그 데이터를 LLM에 전달합니다. 즉, GNN이 토크나이저 역할을 하여 그래프 데이터를 구조적 정보가 풍부한 토큰 시퀀스로 변환한 후 LLM에 입력하여 자연어와 정렬을 맞추는 방식입니다. 이 방법은 크게 두 가지 방식으로 나뉩니다: Node-level Tokenization : 그래프 구조의 각 노드를 개별적으로 LLM에 입력하여, 노드 간의 미세한 구조적 정보를 LLM이 이해할 수 있도록 합니다. 이를 통해 **노드 분류(node classification)**나 **링크 예측(link prediction)와 같은 TASK에 효과적입니다. Graph-level Tokenization : 그래프 전체를 고정된 길이의 토큰 시퀀스로 압축하여, 그래프의 전역적인 의미론적 정보를 LLM이 학습할 수 있도록 합니다. 이는 **그래프 분류(graph classification)**와 같이 전역적 TASK에 적합합니다. 3.2 LLMs as Prefix이 방법은 LLM이 먼저 그래프와 관련된 텍스트 데이터를 처리하고, 그 결과를 GNN이 학습하는 구조입니다. 주로 LLM이 생성한 임베딩이나 라벨을 GNN이 정교화합니다. LLM이 생성하는 정보는 텍스트 기반 임베딩이나 라벨로 나뉩니다: Embeddings from LLMs for GNNs : LLM이 생성한 텍스트 임베딩을 GNN에 전달하여 더 나은 예측을 수행합니다. 이는 텍스트와 그래프 데이터 간의 조화로운 학습을 도모합니다. Labels from LLMs for GNNs : LLM이 생성한 라벨을 GNN의 Ground-Truth로 사용하여 성능을 향상시킵니다. 이를 통해 노드나 엣지에 대한 분류 작업을 더욱 효과적으로 수행할 수 있습니다. 3.3 LLMs-Graphs IntegrationFusion Training of GNNs and LLMs : GNN과 LLM을 함께 훈련하여, 양방향 정보 전달(bi-directional information passing)을 가능하게 합니다. 이를 통해 그래프와 텍스트 데이터를 동시에 학습하며, 더 높은 성능을 발휘할 수 있습니다.
Alignment between GNNs and LLMs : GNN과 LLM의 표현 공간을 정렬하여, 그래프와 텍스트 데이터를 더욱 효과적으로 학습할 수 있도록 합니다. 주로 대조 학습(contrastive learning)을 통해 정렬합니다. LLMs Agent for Graphs : LLM을 기반으로 자율적으로 그래프 데이터를 탐색하고 문제를 해결할 수 있는 Agent를 설계하여, 그래프 작업을 해결하는 방식입니다. 주로 질문 응답(Question-Answering) 작업에서 활용됩니다. FUXI는 ReAct 알고리즘을 활용하여 LLM이 스스로 그래프 데이터를 탐색하고 분석하는 방식입니다. LLM은 지식 그래프 기반 추론을 통해 데이터를 능동적으로 탐색하고, 복잡한 질문에 대한 답변을 생성 3.4 LLMs-OnlyLLMs-Only 방식은 말 그대로 GNN을 사용하지 않고, 오직 LLM만을 사용하여 그래프 데이터를 처리합니다. 주로 두 가지 방법으로 나뉩니다: Tuning-Free : 프롬프트를 설계하여 사전 학습된 LLM이 그래프 작업을 직접 수행하도록 합니다. 그래프 데이터를 텍스트 형식으로 표현하여 LLM이 이해할 수 있도록 합니다. EX : NLGraph, GPT4Graph, GraphText 등 Tuning-Required : 그래프 토큰 시퀀스를 텍스트 시퀀스와 정렬하여 LLM이 그래프 데이터를 처리할 수 있도록 학습합니다. 유사점
차이점
즉, 3.4.2 방식에서는 그래프 인코더나 프리픽스를 사용하지 않고, 그래프 토큰 시퀀스를 LLM 시퀀스에 직접 결합하여 학습하는 방식입니다. 그래프 토큰과 자연어 토큰을 정렬하여 이를 직접 처리하는 것이 차별점입니다. 노드 토큰 시퀀스에 대한 예시 : 노드 A는 토큰 시퀀스 A -> [B, C]로 표현함. 이는 A가 노드 B와 C와 연결되어 있음을 의미. |
Beta Was this translation helpful? Give feedback.
-
LLM과 Graph Learning를 통합하는 방법론 관련한 Survey 논문(KDD '24)
ABSTRACT
INTRODUCTION
Graph is integral in mapping complex inter-connections relevant to a wide range of applications
그래프는 다양한 분야에서 복잡한 연결관계를 임베딩하기 위한 방법론
- GCNs, GATs, Graph Transformers(Nodeformer, DIFFormer)
researchers have explored various approaches to leverage the strengths of LLMs for graph learning.
리서처는
당연히도? 어쩔수없게도?그래프 러닝에 LLM의 장점을 활용하고자 연구중(ex 1) developed prompts that enable LLMs to understand graph structures and respond to queries effectively.
그래프 구조를 잘 이해시키고, 쿼리에 잘 대답하도록 LLM 또는 프롬프트를 발전시키거나
(ex 2) integrated GNNs to feed tokens into the LLMs, allowing them to understand graph structures more directly.
GNN을 LLM과 통합하는 방향도 존재
This synergy has not only improved task performance but also demonstrated impressive zero-shot generalization capabilities.
그래서 시너지는 성능뿐만 아니라, 제로샷(학습하지 않는 노드, 그래프에 대한 쿼리 대답)에도 효과성을 보인다.
offer a systematic review of the advancements in Large Language Models (LLMs) for graph applications.
Beta Was this translation helpful? Give feedback.
All reactions