feed.xml

<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="3.9.0">Jekyll</generator><link href="https://harryjo97.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://harryjo97.github.io/" rel="alternate" type="text/html" /><updated>2021-03-11T13:27:35+09:00</updated><id>https://harryjo97.github.io/feed.xml</id><title type="html">Graph ML review</title><subtitle>about Graph ML</subtitle><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><entry><title type="html">Wasserstein Embedding For Graph Learning</title><link href="https://harryjo97.github.io/paper%20review/Wasserstein-Embedding-For-Graph-Learning/" rel="alternate" type="text/html" title="Wasserstein Embedding For Graph Learning" /><published>2021-03-10T15:00:00+09:00</published><updated>2021-03-10T15:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/Wasserstein-Embedding-For-Graph-Learning</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/Wasserstein-Embedding-For-Graph-Learning/">&lt;p&gt;[paper review] : WEGL, ICLR 2021&lt;/p&gt;

&lt;h2 id=&quot;introduction&quot;&gt;Introduction&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;기존에 graph-structured data 를 분석하는 방식에는 크게 두 가지가 있습니다. 첫 번째는 GNN 을 사용하는 방법입니다.  GNN 은 feature aggregation, graph pooling, classification 세 가지를 거쳐 그래프의 representation 을 학습하며, 다양한 domain 에서 좋은 성능을 보여주고 있습니다.&lt;/p&gt;

&lt;p&gt;두 번째 방법은 graph kernel 을 이용하는 방법입니다. kernel 을 통해 두 그래프 사이의 similarity 를 표현하여, SVM 과 같은 classifier 를 통해 그래프를 학습합니다. 대표적인 예로 random walk kernel, Weisfeiler-Lehman kernel 등이 있으며, 최근에는 Wasserstein distance 를 활용한 WWL kernel [4] 에 대한 연구가 진행되었습니다.&lt;/p&gt;

&lt;p&gt;GNN 과 graph kernel 을 이용하여 그래프를 학습하는 경우, 모두 그래프의 크기가 커질수록 사용하기 힘들어지는 단점이 있습니다. GNN 은 그래프의 크기가 클수록 학습시 필요한 계산량이 많아져 학습이 어려워지며, graph kernel 의 경우 그래프 쌍마다 similarity 를 계산해야하기 때문에 마찬가지로 크기가 큰 그래프 dataset 에 사용하기 어렵습니다.&lt;/p&gt;

&lt;p&gt;논문에서는 그래프에 LOT framework [2] 를 적용해 이런 문제를 해결하려고 합니다. GNN 과 graph kernel 의 장점을 모두 사용하기 위해, node embedding 과 LOT framework 를 결합한 Wasserstein Embedding for Graph Learning (WEGL) 를 제시합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;background&quot;&gt;Background&lt;/h2&gt;

&lt;h3 id=&quot;wasserstein-distance&quot;&gt;Wasserstein Distance&lt;/h3&gt;

&lt;p&gt;\(\mathbb{R}^d\) 에서 정의된 두 probability measure \(\mu\) 와 \(\nu\) 사이의 2-Wasserstein distance 는 다음과 같이 정의합니다 [7].&lt;/p&gt;

\[\mathcal{W}_2(\mu,\nu) = \left( \inf_{\pi\in\Pi(\mu,\nu)} \int\Vert x-y\Vert^2_2\,d\pi(x,y) \right)^{1/2}
\tag{1}\]

&lt;p&gt;여기서 \(\Pi(\mu,\nu)\) 는 transport plan \(\pi\) 들의 집합으로, 각각의 transport plan \(\pi\) 는 모든 Borel subset \(A\) 와 \(B\) 에 대해 \(\pi(A\times\mathbb{R}^d)=\mu(A)\)  와 \(\pi(\mathbb{R}^d\times B)=\nu(B)\) 를 만족합니다.&lt;/p&gt;

&lt;p&gt;특히 \(\mu\) 가 Lebesgue measure 에 대해 absolutely continuous 하다면, Brenier theorem [7, 3]  에 의해 \((1)\) 의 정의는 다음과 동일합니다.&lt;/p&gt;

\[\mathcal{W}_2(\mu,\nu) = \left( \inf_{f\in MP(\mu,\nu)} \int \Vert z-f(z)\Vert^2_2\,d\mu(z) \right)^{1/2}
\tag{2}\]

&lt;p&gt;여기서 \(MP(\mu,\nu)=\left\{ f:\mathbb{R}^d\rightarrow\mathbb{R}^d \mid \nu(B)=\mu(f^{-1}(B)) \;\; \text{for any Borel set B} \right\}\) 로 정의하며, \(f\in MP(\mu,\nu)\) 를 transport map 이라고 부릅니다. 특히 Brenier theorem [7, 3] 에 의해 optimal transport plan \(\pi^{\ast}\) 는 유일하게 존재하며, \((2)\) 를 만족하는 optimal transport map \(f^{\ast}\) 또한 유일하게 존재합니다. 이를 만족하는 optimal transport map \(f^{\ast}\) 를  Monge map 이라고 부르며, \(T^{\nu}_{\mu}\) 라고 쓰겠습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;lot-framework&quot;&gt;LOT Framework&lt;/h3&gt;

&lt;p&gt;Linear Optimal Transportation (LOT) framework [2] 는 기존의 optimal transport metric 을 더 빠르게 계산하기 위해 제시된 방법입니다. 기존의 방법은 \(M\) 개의 그래프들에 대해 그래프의 각 쌍마다 2-Wasserstein distance 를 구하려면 총 \(M(M-1)/2\) 번의 거리 계산이 필요하기 때문에, large-scale dataset 에 적용하기 힘듭니다. 이를 해결하기 위해 LOT 는 non-linear 한 distribution space 를 linear 한 function space 로 embedding 시켜, distribution 사이의 복잡한 거리 계산 대신 embedding 사이의 weighted \(L^2\)-norm 을 계산합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이를 구체적으로 설명하면 다음과 같습니다. \(\mathbb{R}^n\) 에서 정의되며 bounded second momoent 를 가진  probability measure 들의 집합을 \(\mathcal{P}_2(\mathbb{R}^n)\) 이라고 하겠습니다. 또한 \(\sigma\in\mathcal{P}_2(\mathbb{R}^n)\) 에 대해 다음의 norm 으로 정의된 function space  \(L^2(\mathbb{R}^n,\sigma)\) 를 생각하겠습니다.&lt;/p&gt;

\[\Vert f\Vert^2_{\sigma} = \int \Vert f(z)\Vert^2_2\,d\sigma(z)\]

&lt;p&gt;Lebesgue measure 에 대해 absolutely continuous 한 measure \(\sigma\in\mathcal{P}_2(\mathbb{R}^n)\) 에 대해, probability measure space 에서 function space 로의 LOT embedding \(F_{\sigma} : \mathcal{P}_2(\mathbb{R}^n) \rightarrow L^2(\mathbb{R}^n,\sigma)\) 를 다음과 같이 정의합니다 [7, 3].
\(F_{\sigma}(\nu) = T^{\nu}_{\sigma}
\tag{3}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Monge map 의 정의에 의해, LOT embedding \(F_{\sigma}\) 는 reference measure \(\sigma\) 로부터의 거리를 보존합니다.&lt;/p&gt;

\[\begin{align}
\Vert F_{\sigma}(\sigma) - F_{\sigma}(\nu)\Vert_{\sigma} 
&amp;amp;= \Vert Id-T^{\nu}_{\sigma}\Vert_{\sigma} \\
&amp;amp;= \int \Vert z - T^{\nu}_{\sigma}(z)\Vert^2_2\,d\sigma(z) \\
&amp;amp;= \mathcal{W}_2(\sigma,\nu)
\tag{4}
\end{align}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;특히 measure 들 사이의 2-Wasserstein distance 는 LOT embedding 사이의 거리로 근사할 수 있습니다 [7].&lt;/p&gt;

\[\mathcal{W}_2(\mu,\nu) \approx \Vert  F_{\sigma}(\mu) - F_{\sigma}(\nu)\Vert_{\sigma}
\tag{5}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;LOT 는 크게 두 가지 장점이 있습니다. 먼저 measure 들의 거리 계산이 쉬워진다는 것입니다. 두 probability measure 의 2-Wasserstein distance 를 LOT embedding 들의 weighted \(L^2\)-norm \((5)\) 로 근사할 수 있기 때문에, 기존의 방법으로는 \(M\) 개의 그래프에 대해 \(M(M-1)/2\) 개의 LP 를 풀어야했지만, LOT 를 통해 \(M\) 개의 LP 만을 풀면 충분합니다. 또한 LOT embedding 은 linear 하기 때문에, Euclidean structure (e.g. image) 에 적용할 수 있는 PCA 혹은 LDA 와 같은 방법을 사용할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;linear-wasserstein-embedding&quot;&gt;Linear Wasserstein Embedding&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;기존의 연구들 [4, 5, 8, 9] 과 마찬가지로 논문에서는 그래프 (혹은 그래프의 embedding) 를 하나의 probability distribution 으로 고려합니다. 주어진 그래프들의 embedding \(\left\{ Z_i = \left[ z^i_1,\cdots,z^i_{N_i} \right]^T\in\mathbb{R}^{N_i\times d} \right\}^{M}_{i=1}\) 와 reference embedding \(Z_0 = \left[ z^0_1,\cdots,z^0_{N} \right]^T\in\mathbb{R}^{N\times d}\) 에 대해, 각 embedding 을 다음과 같이 probability measure 로 나타냅니다.&lt;/p&gt;

\[\mu_i=\frac{1}{N_i}\sum^{N_j}_{n=1}\delta_{z^i_n}\;,\;\;\mu_0=\frac{1}{N}\sum^N_{l=1}\delta_{z^0_l}
\tag{6}\]

&lt;p&gt;이 때 \(\mu_0\) 와 \(\mu_i\) 사이의 optimal transportation plan \(\pi^{\ast}_i\) 은 다음의 LP 를 풀어 얻을 수 있습니다.&lt;/p&gt;

\[\pi^{\ast}_{i}
= \underset{\pi\in\Pi_i}{\arg\!\min} \sum^{N}_{j=1}\sum^{N_i}_{k=1} \pi_{jk}\Vert z^0_j - z^i_k\Vert^2_2
\tag{7}\]

\[\begin{align}
\Pi_i 
= \{ \pi\in\mathbb{R}^{N\times N_i} \;\mid\; 
&amp;amp;N_i\sum^N_{j=1}\pi_{jk} = N\sum^{N_i}_{k=1}\pi_{jk}=1, \\
&amp;amp;\forall k\in\{1,\cdots,N_i\},\;\forall j\in\{1,\cdots,N\} \}
\end{align}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;LOT embedding \((3)\) 을 계산하기 위해서는 \(\mu_0\) 로부터 \(\mu_i\) 로의 Monge map 을 찾아야합니다. 다음과 같이 barycentric projection [2, 7] 을 사용해, \((7)\) 의 optimal transportation plan 으로부터 \(\mu_0\) 에서 \(\mu_i\) 로의 Monge map  \(F_i:z^0_j \mapsto \bar{z^0_j}\)  를 근사할 수 있습니다.&lt;/p&gt;

\[\bar{z^0_j} = N\sum^{N_i}_{k=1}\pi^{\ast}_{jk}z^i_{k}
\tag{8}\]

&lt;p&gt;\((8)\) 을 정리하면 다음과 같이 쓸 수 있습니다.
\(F_i = N\left( \pi^{\ast}_iZ_i \right)\in\mathbb{R}^{N\times d}
\tag{9}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((3)\) 과 \((9)\) 로부터 \(Z_i\) 의 LOT embedding \(F_{\mu_o}(Z_i)\) 를 다음과 같이 계산할 수 있습니다.&lt;/p&gt;

\[F_{\mu_o}(Z_i) = F_i = N\left( \pi^{\ast}_iZ_i \right)\in\mathbb{R}^{N\times d}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이 때 \(\mu_0\) 와 \(\mu_0\) 사이의 optimal transport plan 은 \(\frac{1}{N}I_{N\times N}\) 이고 \(F_{\mu_o}(Z_0) = Z_0\) 를 만족하므로, reference \(Z_0\) 의 embedding 을 원점으로 설정하기 위해, 각 LOT embedding \(F_{\mu_0}(Z_i)\) 에서 \(Z_0\) 를 빼주는 변환을 생각합니다. 또한 \((5)\) 의 weighted \(L^2\)-norm 계산을 일반적인 \(L^2\)-norm 으로 바꿔주기 위해, LOT embedding 대신 다음의 linear Wasserstein embedding \(\phi(Z_i)\) 를 정의합니다.
\(\phi(Z_i) = (F_i-Z_0)/\sqrt{N}\in\mathbb{R}^{N\times d}
\tag{10}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;wegl--a-linear-wasserstein-embedding-for-graphs&quot;&gt;WEGL : A Linear Wasserstein Embedding for Graphs&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 graph classification task 를 위한 Wasserstein Embedding for Graph Learning (WEGL) 를 제시합니다. 먼저 주어진 \(M\) 개의 독립적인 그래프 \(\{G_i=(\mathcal{V}_i,\mathcal{E}_i)\}^{M}_{i=1}\) 들은 diffusion layer 들을 거쳐 node embedding \(\{Z_i\}^{M}_{i=1}\) 로 바뀝니다. 이 후 \(\{Z_i\}^{M}_{i=1}\) 로부터 reference node embedding \(Z_0\) 를 계산하고, \(Z_0\) 에 대한 linear Wasserstein embedding \(\{\phi(Z_i)\}^{M}_{i=1}\) 을 구합니다. 마지막으로, 최종적인 embedding \(\{\phi(Z_i)\}^{M}_{i=1}\) 들을 사용하여 classifier 를 통해 그래프들을 분류됩니다.&lt;/p&gt;

&lt;p&gt;WEGL 모델의 input 은 graph dataset, diffusion layer 의 수, final node embedding 의 local pooling 함수, 그리고 classifier 의 종류이며, output 은 그래프의 classification 결과입니다. 다음은 WEGL 의 과정을 표현한 그림입니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Wasserstein-Embedding-For-Graph-Learning/WEGL.PNG&quot; style=&quot;max-width: 100%; height:auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;node-embedding&quot;&gt;Node embedding&lt;/h3&gt;

&lt;p&gt;WEGL 의 첫 번째 단계는 그래프들의 node embedding 을 구하는 것입니다. 그래프의 node embedding 에는 다양한 방법이 존재하며 크게 parametric 한 방법과 non-parametric 한 방법으로 나눌 수 있습니다. 만약 parametric embedding 을 사용한다면, 학습 과정에서 node embedding 이 달라질 때마다 linear Wasserstein embedding 을 계산해야합니다. 따라서 WEGL 에서는 복잡한 계산을 줄이기 위해 non-parametric diffusion layer 를 사용합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;주어진 그래프 \(G=(\mathcal{V},\mathcal{E})\) 의 node feature \(\{x_v\}_{v\in\mathcal{V}}\) 들과 scalar edge feature \(\{w_{uv}\}_{(u,v)\in\mathcal{E}}\) 에 대해, diffusion layer 는 다음과 같이 정의됩니다.&lt;/p&gt;

\[x^{(l)}_v = \sum_{u\in N(v)\cup\{v\}}\frac{w_{uv}}{\sqrt{\text{deg}(u)\text{deg}(v)}}\,x^{(l-1)}_u
\tag{11}\]

&lt;p&gt;Self-loop \((v,v)\) 를 포함해 scalar edge feature 가 주어지지 않은 edge \((u,v)\) 들에 대해서는 모두 1 로 설정해줍니다. 특히 \((11)\) 에서 \(\sqrt{\text{deg}(u)\text{deg}(v)}\) 를 통해 noramlize 해주는 방법은  GCN 의 propagation rule 에서도 볼 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;만약 edge feature 가 scalar 가 아닌 multiple features \(w_{uv}\in\mathbb{R}^{F}\) 로 주어진다면, \((11)\) 의 diffusion layer 를 다음과 같이 바꿔줍니다. 여기서 \(\text{deg}_f(u) = \sum_{v\in\mathcal{V}}w_{uv,f}\) 로 정의합니다.&lt;/p&gt;

\[x^{(l)}_v = \sum_{u\in N(v)\cup\{v\}}\left( \sum^F_{f=1}\frac{w_{uv,f}}{\sqrt{\text{deg}_f(u)\text{deg}_f(v)}}\right)\,x^{(l-1)}_u
\tag{12}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;마지막으로 node feature \(\{x^{(l)}_v\}^{L}_{l=0}\) 들에 대한 local pooling \(g\) 로 최종 node embedding 을 구합니다.&lt;/p&gt;

\[z_v = g\left( \left\{x^{(l)}_v\right\}^{L}_{l=0} \right) \in\mathbb{R}^d
\tag{13}\]

&lt;p&gt;\((13)\) 의 local pooling \(g\) 로는 concatenation 또는 averaging 을 사용합니다.&lt;/p&gt;

&lt;p&gt;주어진 \(M\) 개의 그래프 \(\left\{G_i=(\mathcal{V}_i,\mathcal{E}_i)\right\}^M_{i=1}\) 들에 대해, node embedding \(\left\{Z_i\right\}^M_{i=1}\) 는 위의 과정을 따라 다음과 같이 표현할 수 있습니다.&lt;/p&gt;

\[Z_i = h\left(G_i\right) = \begin{bmatrix}
z_1,\;\cdots\;,\;z_{\vert \mathcal{V}_i\vert}
\end{bmatrix}^T \in \mathbb{R}^{\vert\mathcal{V}_i\vert\times d}\]

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;reference-distribution&quot;&gt;Reference Distribution&lt;/h3&gt;

&lt;p&gt;LOT embedding 을 위한 reference embedding 을 정하는 방법에는 여러 가지가 있으며, 논문에서는 그래프들의 node embedding \(\cup^M_{i=1} Z_i\) 에 대해 \(N=\left\lfloor\frac{1}{M}\sum^M_{i=1}N_i \right\rfloor\) 개의 centroid 들을 가지도록 \(k\)-means clustering 을 통해 reference node embedding \(Z_0\) 을 계산합니다.&lt;/p&gt;

&lt;p&gt;또한 node embedding \(\{Z_i\}^{M}_{i=1}\) 들에 대한 Wasserstein barycenter, 혹은 normal distribution 으로부터 뽑은 \(N\) 개의 sample 들로도 reference embedding 을 구성할 수 있습니다. 이론적으로 linear Wasserstein embedding 의 결과는 reference 에 따라 달라지지만, 실험적으로 WEGL 의 성능은 reference 에 따라 큰 차이를 보이지 않습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;linear-wasserstein-embedding-1&quot;&gt;Linear Wasserstein Embedding&lt;/h3&gt;

&lt;p&gt;\((9)\) 와 \((10)\) 를 통해 reference embedding \(Z_0\) 에 대한 linear Wasserstein embedding \(\phi(Z_i)\in\mathbb{R}^{N\times d}\) 를 계산합니다. 이 때 \((9)\) 를 계산하기 위해 총 \(M\) 개의 LP 를 풀어야합니다. 기존의 Wasserstein distance 를 사용한 방법들은 그래프의 쌍마다 LP 를 풀어야하기 때문에 총 \(M(M-1)/2\) 개의 LP 를 풀어야하므로, linear Wasserstein Embedding 을 사용하면 필요한 계산량이 훨씬 줄어듭니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;classifier&quot;&gt;Classifier&lt;/h3&gt;

&lt;p&gt;WEGL 의 최종 단계는 linear Wasserstein embedding \(\{\phi(Z_i)\}^{M}_{i=1}\) 을 사용해 classifier 로 그래프들을 분류하는 것입니다. WEGL 의 장점 중 하나는 task 에 맞는 classifier 를 선택할 수 있다는 점입니다. 논문에서는 classifier 로 AuotML, random forest, RBF kernel 을 이용한 SVM 을 사용했습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;experimental-evaluation&quot;&gt;Experimental Evaluation&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 2 가지의 graph classification task 에 대해 WEGL 의 성능을 평가했습니다.&lt;/p&gt;

&lt;h3 id=&quot;molecular-property-prediction&quot;&gt;Molecular Property Prediction&lt;/h3&gt;

&lt;p&gt;첫 번째 task 는 molecular property prediction task 로 ogbg-molhiv dataset 을 사용했습니다. ogbg-molhiv dataset 은 Open Graph Benchmark 의 일부로 dataset 의 각각의 그래프는 분자를 나타냅니다. 그래프의 node 는 원자를, edge 는 원자들 사이의 결합을 표현하며, 이로부터 각각의 분자가 HIV 를 억제하는지에 대해 이진분류하는 것이 목표입니다.&lt;/p&gt;

&lt;p&gt;실험의 baseline 모델로는 GCN, GIN, DeeperGCN, HIMP 를 사용했습니다. 또한 특별하게 ogbg-molhiv dataset 에 대해서는 virtual node 를 사용하는 방법이 좋은 성능을 보여주기 때문에, 각 모델들의 virtual node variant 들과도 성능을 비교했습니다. 각 모델의 성능을 ROC-AUC 로 측정한 결과는 다음과 같습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Wasserstein-Embedding-For-Graph-Learning/ogbg-molhiv.PNG&quot; style=&quot;max-width: 100%; height:auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;WEGL 에 AutoML classifier 를 사용했을 때 state-of-the-art performance 를 보여주며, random forest classifier 를 사용했을 때도 준수한 성능을 보여줍니다. 특히 GNN 모델들과 같이 end-to-end 학습 없이도 large-scale graph dataset 에 적용될 수 있음을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt;또한 linear Wasserstein embedding 의 효과를 입증하기 위한 ablatin study 를 진행했습니다. WEGL 에서 Wasserstein embedding 대신 global average pooling (GAP) 를 사용한 경우 test ROC-AUC 가 확연히 줄어드는 것을 확인할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;tud-benchmark&quot;&gt;TUD Benchmark&lt;/h3&gt;

&lt;p&gt;두 번째로는 social network, bioinformatics, 그리고 molecular graph dataset 에서 실험을 진행했습니다. 첫 번째 실험과 다르게 GNN baseline 뿐만 아니라, graph classification 에서 좋은 성능을 보여주는 graph kernel 들을 함께 비교했습니다. WEGL 의 classifier 로는 random forest, RBF kernel 을 이용한 SVM, 그리고 GBDT 를 사용했습니다. 각 dataset 들에 대한 graph classification accuracy 는 다음의 표에서 확인할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Wasserstein-Embedding-For-Graph-Learning/TUD.PNG&quot; style=&quot;max-width: 100%; height:auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;WEGL 은 거의 state-of-the-art performance 에 근접한 성능을 가지는 것을 볼 수 있으며, 특히 모든 dataset 에 대해 top-3 performance 를 보여줍니다. 이로부터 WEGL 이 다양한 domain 에서의 graph 들을 잘 학습함을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;computation-time&quot;&gt;Computation Time&lt;/h3&gt;

&lt;p&gt;마지막으로 WEGL 의 computational efficiency 를 확인하기 위해 학습과 추론에서의 wall-clock time 을 GIN 과 WWL kernel [4] graph kernel 과 비교했습니다. 각 모델의 training time 과 inference time 을 dataset 의 그래프 수, 그래프의 평균적인 node 수, 그리고 그래프의 평균적인 edge 수를 달라히며 측정하였습니다. 결과는 다음의 그래프에서 확인할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Wasserstein-Embedding-For-Graph-Learning/time.PNG&quot; style=&quot;max-width: 100%; height:auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;WEGL 은 다른 모델들과 비교해 비슷하거나 훨씬 좋은 성능을 보여줍니다. 특히 그래프의 수가 많아질수록 GIN, WWL 과 비교해 학습 시간이 짧았습니다. GPU 를 사용한 GIN 과 비교해 추론 시간은 조금 길었지만, WEGL 이 CPU 를 사용한 점을 감안하면 그 차이는 크지 않습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;future-work&quot;&gt;Future Work&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;WEGL 모델의 단점은 end-to-end 학습이 불가능하다는 것입니다. 특히 GNN 과 같이 node embedding 을 학습하지 않고 non-parametric diffusion layer 를 사용했기 때문에, graph representation 이 제대로 이루어졌는지가 의문입니다.  만약 WEGL 이 end-to-end 학습이 가능하다면, \((6)\) 과 같이 그래프를 probability measure 로 고려할 때, attention 을 적용해 node 마다 다른 weight 을 가지도록 학습하는 방법을 생각해 볼 수 있습니다.&lt;/p&gt;

&lt;p&gt;또한 Wasserstein distance (optimal transport) 의 가장 큰 약점은 rescaling, translation, rotation 과 같은 transformation 들에 대해 invariant 하지 못하다는 것입니다. 따라서 Wasserstein distance 대신 Gromov-Wasserstein distance 를 사용한다면, permutation invariant 한 모델을 만들 수 있다고 기대합니다.&lt;/p&gt;

&lt;p&gt;마지막으로 \((7)\) 로부터 optimal transport plan 을 계산할 때, entropy regularization 을 적용해 계산을 줄일 수 있습니다. 논문의 실험에서 사용한 dataset 의 크기가 크지 않아 entropy regularization 의 효과가 크지 않았지만, dataset 의 크기가 커질 경우 큰 도움이 될 것입니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Soheil Kolouri, Navid Naderializadeh, Gustavo K Rohde, and Heiko Hoffmann. &lt;a href=&quot;https://arxiv.org/pdf/2006.09430.pdf&quot;&gt;Wasserstein embedding for graph learning&lt;/a&gt;. arXiv preprint arXiv:2006.09430, 2020.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Wei Wang, Dejan Slepcev, Saurav Basu, John A Ozolek, and Gustavo K Rohde. &lt;a href=&quot;https://link.springer.com/article/10.1007/s11263-012-0566-z&quot;&gt;A linear optimal transportation framework for quantifying and visualizing variations in sets of images&lt;/a&gt;. International Journal of Computer Vision, 101(2):254–269, 2013.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Caroline Moosmüller and Alexander Cloninger. &lt;a href=&quot;https://arxiv.org/pdf/2008.09165.pdf&quot;&gt;Linear optimal transport embedding: Provable
fast wasserstein distance computation and classification for nonlinear problems&lt;/a&gt;. arXiv preprint
arXiv:2008.09165, 2020.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Matteo Togninalli, Elisabetta Ghisu, Felipe Llinares-López, Bastian Rieck, and Karsten Borgwardt.
&lt;a href=&quot;https://arxiv.org/pdf/1906.01277.pdf&quot;&gt;Wasserstein Weisfeiler-Lehman graph kernels&lt;/a&gt;. In Advances in Neural Information Processing
Systems, pp. 6436–6446, 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;G. Bécigneul, O.-E. Ganea, B. Chen, R. Barzilay, and T. Jaakkola. &lt;a href=&quot;https://arxiv.org/pdf/2006.04804.pdf&quot;&gt;Optimal Transport Graph Neural Networks&lt;/a&gt;. arXiv preprint arXiv:2006.04804&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;WEGL Github code :  &lt;a href=&quot;https://github.com/navid-naderi/WEGL&quot;&gt;https://github.com/navid-naderi/WEGL&lt;/a&gt;&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Peyré, G., Cuturi, M., et al. &lt;a href=&quot;https://arxiv.org/pdf/1803.00567.pdf&quot;&gt;Computational optimal transport&lt;/a&gt;. Foundations and Trends® in Machine Learning, 11(5-6):355–607, 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;T. Vayer, L. Chapel, R. Flamery, R. Tavenard, and N. Courty. &lt;a href=&quot;https://arxiv.org/pdf/1805.09114.pdf&quot;&gt;Optimal transport for structured data with application on graphs&lt;/a&gt;. In International Conference on Machine Learning (ICML), 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;H. P. Maretic, M. E. Gheche, G. Chierchia, and P. Frossard. &lt;a href=&quot;https://arxiv.org/pdf/1906.02085.pdf&quot;&gt;GOT: An optimal transport framework for graph comparison&lt;/a&gt;. In 33rd Conference on Neural Information Processing Systems (NeurIPS), 2019.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="Optimal Transportation" /><summary type="html">[paper review] : WEGL, ICLR 2021</summary></entry><entry><title type="html">Invariant and Equivariant Graph Networks</title><link href="https://harryjo97.github.io/paper%20review/Invariant-and-Equivariant-Graph-Networks/" rel="alternate" type="text/html" title="Invariant and Equivariant Graph Networks" /><published>2021-03-05T11:00:00+09:00</published><updated>2021-03-05T11:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/Invariant-and-Equivariant-Graph-Networks</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/Invariant-and-Equivariant-Graph-Networks/">&lt;p&gt;[paper review] : Invariant and Equivariant Graph Networks, ICLR 2019&lt;/p&gt;

&lt;h2 id=&quot;motive&quot;&gt;Motive&lt;/h2&gt;

&lt;h3 id=&quot;translation-invariance&quot;&gt;Translation Invariance&lt;/h3&gt;

&lt;p&gt;CNN 의 translation invariant 한 특성은 이미지를 학습하는 데 큰 장점이 됩니다. 이와 같이 translation invariant 한 모델을 만드는 방법으로  Multi-layer perceptron (MLP) 이 있습니다. MLP 를 통해 임의의 연속 함수를 근사할 수 있기 때문에, translation invariant 한 함수 \(f\) 를 모델링하는 MLP 를 만들 수 있습니다. MLP 의 기본적인 형태는 non-linear function \(\sigma\) 와 linear function \(L(x) = Ax+b\) 로 구성된 layer 들로 이루어고, 각 layer 는 \(\mathcal{L}(x) = \sigma(L(x))\) 의 형태를 가집니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;../assets/post/Invariant-and-Equivariant-Graph-Networks/mlp.PNG&quot; style=&quot;max-width: 70%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;일반적인 MLP 의 경우 input size 가 커질수록, depth 가 깊어질수록 parameter 의 수가 감당할 수 없을 정도로 커집니다. Parameter 의 수를 줄이고 translation invariant 속성을 유지하기 위해서, \(L(x) = Ax+b\) 대신 transform invariant 한 linear operator 를 사용합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;../assets/post/Invariant-and-Equivariant-Graph-Networks/mlp-invariant.PNG&quot; style=&quot;max-width: 70%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;하지만 이미지의 한 픽셀은 다른 임의의 픽셀로 보내지는 translation 을 찾을 수 있기 때문에, transform invariant operator 는 각 픽셀들의 value 를 모두 더해주는 sum operator 와 일치합니다. 모든 픽셀 value 를 더해주는 것은 이미지의 세부 정보를 무시하기에, 의미 있는 operator 라 할 수 없습니다.&lt;/p&gt;

&lt;p&gt;이 때 transform invariant operator 대신, CNN 의 convolution 과 같이 translation equivariant linear operator 를 사용할 수 있습니다. MLP \(m\), invariant linear layer \(h\), non-linear activation \(\sigma\) 와 equivariant linear layer \(L_i\) 들을 통해, 다음과 같이 invariant function \(f\) 를 만들 수 있습니다.&lt;/p&gt;

\[f = m\circ h\circ L_k\circ\sigma\circ \cdots \circ\sigma\circ L_1 
\tag{1}\]

&lt;p&gt; &lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;../assets/post/Invariant-and-Equivariant-Graph-Networks/mlp-equivariant.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;\((1)\) 에서 적절한 layer 들의 선택으로 다양한 invariant model 을 얻을 수 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;invariant-graph-networks&quot;&gt;Invariant Graph Networks&lt;/h3&gt;

&lt;p&gt;이미지에서 translation invariant function 을 통해 feature 를 학습하는 것과 같이, 그래프에서는 permutation invariant function 을 통해 node representation 을 학습할 수 있습니다. 위와 같이 \((1)\) 을 통해 permutation invariant 한 function 을 만들어 낼 수 있고, 이 모델을 Invariant Graph Network (IGN) 라 부릅니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;graphs-as-tensors&quot;&gt;Graphs as Tensors&lt;/h2&gt;

&lt;p&gt;\(n\) 개의 node 를 가진 그래프를 생각해봅시다. 각 node \(i\) 마다 value \(x_i\in\mathbb{R}\) 를 가지고 각 edge \((i,j)\) 마다 value \(x_{ij}\in\mathbb{R}\) 를 가진다면,  이는 \(X\in\mathbb{R}^{n\times n}\) tensor 를 통해 다음과 같이 표현할 수 있습니다.&lt;/p&gt;

\[X_{ij} = \begin{cases}
x_i &amp;amp;\mbox{ if }\; i=j \\
x_{ij} &amp;amp; \mbox{ if }\; i\neq j
\end{cases}\]

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Invariant-and-Equivariant-Graph-Networks/2-tensor.PNG&quot; style=&quot;max-width: 50%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;이 표현법을 hypergraph 에 대해서도 일반화할 수 있습니다. \(n\) 개의 node 를 가지는 hypergraph 에 대해, 각 hyper-edge 는  \((i_1,\cdots,i_k)\in [n]^k\)  의 형태로 나타낼 수 있습니다. 따라서 \((1)\) 과 마찬가지로, hypergraph 또한 \(X\in\mathbb{R}^{n^k}\) tensor 로 표현할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Invariant-and-Equivariant-Graph-Networks/k-tensor.PNG&quot; style=&quot;max-width: 50%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;만약 hyper-edge 들이 \(a\) 차원의 value 를 가진다면, \(X\in\mathbb{R}^{n^k\times a}\)  tensor 로 표현할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;permutation-invariance--equivariance&quot;&gt;Permutation Invariance &amp;amp; Equivariance&lt;/h2&gt;

&lt;p&gt;이미지에서의 translation 은 symmetry 의 한 종류입니다. 그래프에 있어 symmetry 는 node 순서의 재배열 (re-ordering) 을 통해 해석할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;../assets/post/Invariant-and-Equivariant-Graph-Networks/symmetry.PNG&quot; style=&quot;max-width: 70%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;h3 id=&quot;permutation-of-tensors&quot;&gt;Permutation of Tensors&lt;/h3&gt;

&lt;p&gt;그래프 node 가 재배열되면, 그에 따라 그래프 tensor 또한 변하게 됩니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;../assets/post/Invariant-and-Equivariant-Graph-Networks/permutation.PNG&quot; style=&quot;max-width: 70%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;Permutation \(p\in S_n\) 와 \(k\)-tensor \(X\in\mathbb{R}^{n^k}\) 에 대해, \(X\) 에 대한 permutation \(p\) 는 각 hyper-edge \((i_1,\cdots,i_k)\in [n]^k\) 에 대해 다음과 같이 쓸수 있습니다.&lt;/p&gt;

\[(p\cdot X)_{i_1,\cdots,i_k} = X_{p^{-1}(i_1),\cdots,p^{-1}(i_k)}
\tag{2}\]

&lt;h3 id=&quot;permutation-invariance&quot;&gt;Permutation Invariance&lt;/h3&gt;

&lt;p&gt;함수 \(f\) 가 permutation invariant 하다는 것은, input element 들의 순서와 상관 없이 output 이 같다는 뜻입니다. \(f\) 의 input 이 tensor 일 경우, permutation invariant 는 다음과 같이 나타낼 수 있습니다.&lt;/p&gt;

\[f(p\cdot A) = f(A)
\tag{3}\]

&lt;h3 id=&quot;permutation-equivariance&quot;&gt;Permutation Equivariance&lt;/h3&gt;

&lt;p&gt;함수 \(f\) 가 permutation equivariant 하다는 것은, 임의의 permutation \(p\) 에 대해 \(p\) 와 \(f\)  가 commute 함을 의미합니다. \(f\) 의 input 이 tensor 일 경우, permutation equivariant 는 다음과 같이 나타낼 수 있습니다.&lt;/p&gt;

\[f(p\cdot A) = p\cdot f(A)
\tag{4}\]

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;notation&quot;&gt;Notation&lt;/h2&gt;

&lt;p&gt;논문에 나오는 notation 들을 정리하면 다음과 같습니다.&lt;/p&gt;

&lt;table&gt;
  &lt;thead&gt;
    &lt;tr&gt;
      &lt;th style=&quot;text-align: center&quot;&gt;&lt;center&gt; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; notation &amp;nbsp; &amp;nbsp; &amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;center&gt;&lt;/center&gt;&lt;/center&gt;&lt;/th&gt;
      &lt;th&gt;&lt;center&gt; explanation &lt;center&gt;&lt;/center&gt;&lt;/center&gt;&lt;/th&gt;
    &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: center&quot;&gt;\([\,\cdot\,]\)&lt;/td&gt;
      &lt;td&gt;\([n]=\{1,\cdots,n\}\)&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: center&quot;&gt;\(\text{vec}(\,\cdot\,)\)&lt;/td&gt;
      &lt;td&gt;\(X\) 의 column 들을 쌓아 만든 행렬; \(\mathbb{R}^{a\times b}\) matrix \(X\) 에 대해 \(\text{vec}(X)\in\mathbb{R}^{ab\times 1}\)&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: center&quot;&gt;\([\text{vec}(\,\cdot\,)]\)&lt;/td&gt;
      &lt;td&gt;\([\text{vec}(X)]=X\)&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: center&quot;&gt;\(\otimes\)&lt;/td&gt;
      &lt;td&gt;Kronecker product&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: center&quot;&gt;\(P^{\otimes k}\)&lt;/td&gt;
      &lt;td&gt;\(\overbrace{P\otimes \cdots \otimes P}^{k}\)&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: center&quot;&gt;\(b(l)\)&lt;/td&gt;
      &lt;td&gt;\(l\) 번째 bell number&lt;/td&gt;
    &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;fixed-point-equations&quot;&gt;Fixed-Point Equations&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;먼저 permutation invariant linear operator 에 대해 알아보겠습니다. 일반적인 linear operator \(L:\mathbb{R}^{n^k}\rightarrow\mathbb{R}\) 을 \(\mathbb{R}^{1\times n^k}\) matrix \(\mathbf{L}\) 로 나타낼 때, \(L\) 이 permutation invaraint 하다면 임의의 permutation \(p\in S_n\) 에 대해 다음을 만족해야합니다.&lt;br /&gt;
\(\mathbf{L}\text{vec}(p\cdot A) = \mathbf{L}\text{vec}(A)
\tag{5}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Permutation \(p\in S_n\) 를 나타내는 matrix \(P\) 에 대해 \(\text{vec}(p\cdot A) = P^{T\otimes k}\text{vec}(A)\) 이기 때문에, \((5)\) 는 다음과 같이 쓸 수 있습니다.&lt;/p&gt;

\[P^{T\otimes k}\mathbf{L}\text{vec}(A) = \mathbf{L}\text{vec}(A)
\tag{6}\]

&lt;p&gt;\((6)\) 은 모든 \(A\in\mathbb{R}^{n^k}\) 에 대해 성립해야하기 때문에,&lt;/p&gt;

\[P^{T\otimes k}\mathbf{L} = \mathbf{L}
\tag{7}\]

&lt;p&gt;\((7)\) 의 양변에 transpose 를 취하면, 다음의 fixed-point equation 을 얻을 수 있습니다.&lt;/p&gt;

\[P^{\otimes k}\text{vec}(\mathbf{L}) = \text{vec}(\mathbf{L})
\tag{8}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이제 permutation equivariant linear operator 에 대해 알아보겠습니다. 일반적인 linear operator \(L:\mathbb{R}^{n^k}\rightarrow\mathbb{R}^{n^k}\) 을 \(\mathbb{R}^{n^k\times n^k}\) matrix \(\mathbf{L}\) 로 나타낼 때, \(L\) 이 permutaion equivariant 하다면 임의의 permutation \(p\in S_n\) 에 대해 다음을 만족해야합니다.&lt;/p&gt;

\[[\mathbf{L}\text{vec}(p\cdot A)] = p\cdot[\mathbf{L}\text{vec}(A)]
\tag{9}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;양변에 \(\text{vec}(\cdot)\) 을 취하고 \(\text{vec}(p\cdot A) = P^{T\otimes k}\text{vec}(A)\) 을 이용하면, \((9)\) 를 다음과 같이 쓸 수 있습니다.
\(\mathbf{L}P^{T\otimes k}\text{vec}(A) = P^{T\otimes k}\mathbf{L}\text{vec}(A)
\tag{10}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((10)\) 은 모든 \(A\in\mathbb{R}^{n^k}\) 에 대해 성립해야하며 \(P^{T\otimes k}\) 의 역행렬이 \(P^{\otimes k}\) 이므로,
\(P^{\otimes k}\mathbf{L}P^{T\otimes k} = \mathbf{L}
\tag{11}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((11)\) 의 양변에 \(\text{vec}(\cdot)\) 을 취하고 Kronecker product 의 성질인 \(\text{vec}(XAY) = Y^T\otimes X\text{vec}(A)\) 을 사용하면 다음의 fixed-point equation 을 얻을 수 있습니다.
\(P^{\otimes 2k}\text{vec}(\mathbf{L}) = \text{vec}(\mathbf{L})
\tag{12}\)&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;solving-the-fixed-point-equations&quot;&gt;Solving the Fixed-Point Equations&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;모든 permutation invaraint  / equivariant 한 linear operator 들을 찾아내는 것은, \((8)\) 과 \((12)\) 의 해를 구하는 것과 같습니다. 즉 다음과 같은 fixed-point equation 의 해 \(X\in\mathbb{R}^{n^l}\) 를 구해야합니다.&lt;/p&gt;

\[P^{\otimes l}\text{vec}(X) = \text{vec}(X)
\tag{13}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이 때, \(P^{\otimes l}\text{vec}(X)=\text{vec}(p^{-1}\cdot X)\) 이므로, \((13)\) 은 다음과 같이 정리할 수 있습니다.&lt;/p&gt;

\[q\cdot X = X \;\;\text{for all permutation} \;\; q\in S_{n}
\tag{14}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((14)\) 에 대한 solution space 의 basis 를 특별한 equivalence relation 을 통해 표현하려고 합니다. \(a,\, b\in\mathbb{R}^l\) 에 대해  equivalence relation \(\sim\) 을 다음과 같이 정의하겠습니다.&lt;/p&gt;

\[a\sim b \;\text{ iff }\; a_i=a_j \Leftrightarrow b_i=b_j \;\forall i,j\in [\,l\,]\]

&lt;p&gt;\(a\in\mathbb{R}^l\) 에 대해 \(a_i\) 값이 같은 index \(i\) 들로 \([\,l\,]\) 을 분할한 집합을 \(S_a\) 라고 한다면, \(a\sim b\) 임은 \(S_a=S_b\) 와 동치입니다. 따라서, equivalence classes 들은 \([\,l\,]\) 의 분할과 일대일 대응됩니다. 예를 들어, \(l=2\) 라면 equivalence class 는 \(\{a\in\mathbb{R}^2: a_1=a_2\}\) 와 \(\{a\in\mathbb{R}^2: a_1\neq a_2\}\) 두 개 뿐입니다. 이 때 \(\{a\in\mathbb{R}^2: a_1=a_2\}\) 는 \(\{ \{1,2\} \}\) 와, \(\{a\in\mathbb{R}^2: a_1=a_2\}\) 는 \(\{\{1\},\{2\}\}\) 와 대응됩니다. 일대일 대응에 의해, equivalence class 는 총 \(b(l)\) 개 존재합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;결론적으로, \(X\) 가 \((14)\) 의 해인 것과 \(X\) 가 각각의 equivalence class 내에서 상수라는 것이 동치입니다. 증명은 다음과 같습니다. 먼저 \(X\) 가 각 equivalence class 내에서 상수라고 가정하겠습니다. 임의의 permutation \(q\in S_n\) 와 \(a\mathbb{R}^l\) 에 대해, \(a_i=a_j \Leftrightarrow q(a_i)=q(a_j)\) 이므로 \(a\sim q(a)\) 이고, 가정에 의해 \(X_a=X_{q(a)}\) 를 만족합니다. \((14)\) 에서 양변의 \(a\in\mathbb{R}^l\) 성분을 비교하면 \(X_a=X_{q(a)}\) 이므로, \(X\) 는 \((14)\) 의 해입니다.&lt;/p&gt;

&lt;p&gt;반대로, \(X\) 가 \((14)\) 의 해라고 가정하겠습니다. 만약, \(a\sim b\) 라면 permutation \(q\) 가 존재해 \(b=q(a)\) 를 만족합니다. 이 때 \(X_a\neq X_b\) 라면, \(X\) 가 \((14)\) 의 해라는 것에 모순이므로, \(X\) 가 각 equivalence class 내에서 상수여야 합니다.&lt;/p&gt;

&lt;p&gt;이제 각 equivalence class \(\gamma\in [n]^l/\sim\) 에 대해 tensor \(B^{\gamma}\in\mathbb{R}^l\) 을 다음과 같이 정의하겠습니다.&lt;/p&gt;

\[B^{\gamma}_a = \begin{cases}
1 &amp;amp;\mbox{ if }\; a\in\gamma \\
0 &amp;amp;\mbox{ otherwise}
\end{cases}
\tag{15}\]

&lt;p&gt;\((14)\) 의 해 \(X\) 에 대해 \(X\) 가 각 equivalence class 내에서 상수여야 하므로, \(X\) 는 \(B^{\gamma}\) 들의 linear combination 으로  표현할 수 있습니다. 또한 \(B^{\gamma}\) 들의 support 는 disjoint 하므로, orthogonal 합니다. 따라서 \(B^{\gamma}\) 들은 \((14)\) 에 대한 solution space 의 orthogonal basis 를 이룹니다. 이 때, equivalence class 는 총 \(b(l)\) 개 존재하므로 solution space 는 \(b(l)\) 차원입니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\(n=5\), \(k=2\) 일 때 permutation equivariant linear operator 공간의 orthogonal basis 는 다음과 같습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;../assets/post/Invariant-and-Equivariant-Graph-Networks/basis.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;특히 \(b(2k)=b(4)=15\) 이므로 총 15개의 basis element 가 존재한다는 것을 확인할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Maron, H., Ben-Hamu, H., Shamir, N., and Lipman, Y. (2019). &lt;a href=&quot;https://arxiv.org/pdf/1812.09902.pdf&quot;&gt;Invariant and equivariant graph
networks&lt;/a&gt;. In International Conference on Learning Representations.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Zaheer, M., Kottur, S., Ravanbakhsh, S., Poczos, B., Salakhutdinov, R. R., and Smola, A. J. (2017).
&lt;a href=&quot;https://arxiv.org/abs/1703.06114&quot;&gt;Deep sets&lt;/a&gt;. In Advances in Neural Information Processing Systems, pages 3391–3401.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;H. Maron, H. Ben-Hamu, H. Serviansky, and Y. Lipman. &lt;a href=&quot;https://arxiv.org/pdf/1905.11136.pdf&quot;&gt;Provably Powerful Graph Networks&lt;/a&gt;. In Neural
Information Processing Systems (NeurIPS), pages 2153–2164, 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Deep Learning of Irregular Data &lt;a href=&quot;http://irregulardeep.org/An-introduction-to-Invariant-Graph-Networks-(1-2)/&quot;&gt;An Introduction To Invariant Graph Networks (1:2)&lt;/a&gt;&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="Analysis" /><summary type="html">[paper review] : Invariant and Equivariant Graph Networks, ICLR 2019</summary></entry><entry><title type="html">Continuous Graph Neural Networks</title><link href="https://harryjo97.github.io/paper%20review/Continuous-Graph-Neural-Networks/" rel="alternate" type="text/html" title="Continuous Graph Neural Networks" /><published>2021-02-25T20:00:00+09:00</published><updated>2021-02-25T20:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/Continuous-Graph-Neural-Networks</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/Continuous-Graph-Neural-Networks/">&lt;p&gt;[paper review] CGNN, ICML 2020&lt;/p&gt;

&lt;h2 id=&quot;introduction&quot;&gt;Introduction&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;GCN 의 propagation rule 은 neighbor node representation 들을 모아 각 node representation 을 update 합니다 [3]. 이 때 update 과정에서 각 node 와 주변의 node 들의 representation 이 점점 비슷해집니다. GCN layer 를 많이 쌓을수록 node 들의 representation 이 같은 값으로 수렴하는 over-smoothing 이 발생하기 쉽고, 이는 GCN 의 performance 를 저해하게 됩니다 [4]. 깊은 모델은 node feature 들의 복잡한 상호작용을 표현할 수 있기 때문에, over-smoothing 을 해결하는 것이 GNN 의 성능 향상에 있어 중요한 과제입니다.&lt;/p&gt;

&lt;p&gt;논문에서는 node representation 의 시간에 따른 연속적인 변화를 표현할 수 있는 CGNN 모델을 제시합니다. CGNN 은 node representation 의 변화를 ODE 를 통해 표현하여 기존의 discrete GNN 을 연속적인 모델로 일반화시킵니다. ODE 에 restart distribution 을 추가하여 over-smoothing 문제를 해결하고, 그로 인해 node 들의 long-range dependency 를 학습할 수 있습니다. 특히 node classification 에 있어 기존의 GNN 모델들보다 성능이 뛰어나며, memory efficient 한 continuous-depth 모델입니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;preliminaries&quot;&gt;Preliminaries&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Simple undirected graph \(G=(V,E)\) 의 adjacent matrix 를 \(Adj\) , degree matrix 를 \(D\) 라고 하겠습니다. 이 때 node 들의 degree 가 서로 다를 수 있기 때문에, normalized adjacent matrix \(D^{-1/2}Adj\,D^{-1/2}\) 를 주로 사용합니다. 하지만  normalized adjacent matrix 의 eigenvalue 는 \([-1,1]\) 구간에 존재하기 때문에,  normalized adjacent matrix 로 정의된 convolution 을 사용할 경우 exploding / vanishing gradient 와 같은 instability 가 발생할 수 있습니다 [3].&lt;/p&gt;

&lt;p&gt;따라서 [3] 에서는 renormalization trick 을 통해 normalized adjacent matrix 대신 \(\hat{A} = \tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2}\) 을 사용합니다. GCN 의 \(n\) 번째 layer 의 node representation \(H_n\) 과 weight matrix \(W\) 를 통해,  propagation rule 을 다음과 같이 쓸 수 있습니다.&lt;/p&gt;

\[H_{n+1} = \hat{A}\,H_nW\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 normalized adjacent matrix 의 eigenvalue 의 크기를 조절하기 위해, renormalization trick 대신 parameter \(\alpha\in (0,1)\) 을 사용여 다음과 같은 regularized adjacency matrix \(A\) 를 사용합니다.&lt;/p&gt;

\[A = \frac{\alpha}{2}\left(I + D^{-1/2}Adj\,D^{-1/2} \right)
\tag{1}\]

&lt;p&gt;이 때 정의에 의해 \(A\) 는 diagonalizable 하므로 \(A=U\Lambda U^T\) 로 표현한다면, \(A-I = U(\Lambda-I)U^T\) 입니다. 이 때 \(A\) 의 eigenvalue 는 \([0,\alpha]\) 구간에 존재하므로 \(\Lambda-I\) 의 diagonal element 들은 모두 0 보다 작고, \(A-I\) 는 invertible 합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;더 나아가 node 마다 regularization parameter \(\alpha\) 를 다르게 설정하기 위해, parmeter vector \(\tilde{\alpha}\in (0,1)^{\vert V\vert}\) 를 사용하여 새로운 regularized adjacency matrix \(\tilde{A}\) 를 정의할 수 있습니다.&lt;/p&gt;

\[\tilde{A} 
= \frac{1}{2}\,\text{diag}(\tilde{\alpha}) \left(I + D^{-1/2}Adj\,D^{-1/2} \right)
\tag{2}\]

&lt;p&gt;\(A\) 와 마찬가지로 \(\tilde{A}\)  의 eigenvalue 는 \([0,1)\) 구간에 존재하며, \(\tilde{A}-I\) 또한 invertible 합니다. 논문의 실제 implementation 에서는 \((2)\) 의 regularized adjacency matrix 를 사용했습니다 [6].&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;model&quot;&gt;Model&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;CGNN 은 크게 encoder, ODE solver, decoder 세 가지 부분으로 이루어져 있습니다. 먼저 encoder (fully connected layer) \(\mathcal{E}\) 는 각 node feature 를 latent space 로 보내주는 역할로, node feature matrix \(X\in\mathbb{R}^{\vert V\vert\times\vert F\vert}\) 를 \(E = \mathcal{E}(X)\) 로 변환해줍니다. 그 후 미리 준비된 ODE 와 initial value \(H(0):=E\)  에 대한 initial value problem 을 풀어주는 ODE solver 를 거쳐, 종료 시간 \(t_1\) 에 대한 node representation \(H(t_1)\) 을 만들어줍니다. 마지막으로 \(H(t_1)\) 은 decoder (fully connected layer) \(\mathcal{D}\) 를 거쳐 node-label matrix 로 변환됩니다. ODE solver 로는 최근 각광받는 Neural ODE [2] 를 사용합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;주어진 그래프에 대해 CGNN 의 architecture 는 그래프의 (normalized) adjacency matrix 와 종료 시간 \(t_1\), 그리고 node representation 의 변화를 표현하는 ODE 로 결정됩니다. CGNN 모델의 input 은 node feature matrix 이고, 이로부터 output 은 node-label matrix 가 됩니다. 다음의 그림을 통해 CGNN 의 구조를 이해할 수 있습니다. 그림에서 빨간색 화살표는 정보의 이동을 나타냅니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Continuous-Graph-Neural-Networks/architecture.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;CGNN 에서 가장 중요한 것은 바로 node 들의 관계를 모델링해주는 ODE 입니다. ODE 는 node representation 의 연속적인 변화를 정의하며, node 들의 long-term dependency 를 표현할 수 있어야 합니다. 논문에서는 다음의 두 가지 ODE 를 제시합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;case-1--independent-feature-channels&quot;&gt;Case 1 : Independent Feature Channels&lt;/h3&gt;

&lt;p&gt;올바른 node representation 을 찾기 위해서는 node 들의 연결성을 반영해야 하기 때문에, ODE 는 그래프의 구조를 고려해야합니다. 논문에서는 PageRank 와 같은 diffusion-based method 로부터 영감을 받아, 다음의 propogation rule 을 정의합니다. 여기서 \(A\) 는 \((1)\) 의 정의를 따릅니다.&lt;/p&gt;

\[H_{n+1} = AH_n + H_0
\tag{3}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((3)\) 의 node representation update 는 자신의 처음 representation \(H_0\) 를 기억하며, 주변 node representation 들의 정보를 모으는 과정으로 이해할 수 있습니다. 즉 원래의 node feature 를 잊어버리지 않으며 그래프의 구조를 학습할 수 있습니다. \((3)\) 를 통해 다음과 같이 \(H_n\) 을 직접 표현할 수 있습니다.&lt;/p&gt;

\[H_n = \left(\sum^n_{i=0} A^i\right)H_0
\tag{4}\]

&lt;p&gt;\((4)\) 를 통해 representation \(H_n\) 은 \(n\) 번째 layer 까지 propagated 된 정보 \(\left\{A^iH_0\right\}^{n}_{i=0}\) 를 모두 포함한다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이를 continuous 한 과정으로 일반화 시키기 위해, \((4)\) 를 Riemann sum 으로 바라봅니다. \(E=H_0\) 라 하고 partition \(\{ 0, 1, \cdots, n \}\) 과 \(\Delta t=1\) 에 대해, \((4)\) 를 Riemann sum 으로 표현하면 다음과 같습니다.&lt;/p&gt;

\[\sum^{n+1}_{i=1} A^{(i-1)\Delta t}E\Delta t
\tag{5}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((5)\) 에서 \(n\rightarrow\infty\) 이면, Riemann sum 으로부터 다음의 적분을 얻을 수 있습니다.&lt;/p&gt;

\[H(t) = \int^{t+1}_{0} A^sE\,ds
\tag{6}\]

&lt;p&gt;\((6)\) 의 양변에 미분을 취하면,&lt;/p&gt;

\[\frac{dH(t)}{dt} = A^{t+1}E
\tag{7}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이 때 \(t\) 가 정수가 아닌 경우 \(A^{t+1}\) 을 직접 계산할 수 없기 때문에, 한 번 더 미분을 취해줍니다.&lt;/p&gt;

\[\frac{d^2H(t)}{dt^2} = \ln A\,A^{t+1}E = \ln A\frac{dH(t)}{dt}
\tag{8}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;이후 \((8)\) 의 양변을 다시 적분해줌으로써 다음의 ODE 를 얻습니다.&lt;/p&gt;

\[\frac{dH(t)}{dt} = \ln A\,H(t) + const
\tag{9}\]

&lt;p&gt;\((6)\) 으로부터 \(t=0\) 일 때, \(H(0)\) 의 값을 구할 수 있습니다.&lt;/p&gt;

\[\ln A\,H(0) = \int^1_0 \ln A\,A^sE\,ds = \left( A-I\right)E
\tag{10}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((7)\) 과 \((10)\) 으로부터 \((9)\) 의 적분상수 \(const\) 를 계산할 수 있습니다.&lt;/p&gt;

\[\begin{align}
AE = \left.\frac{dH(t)}{dt}\right|_{t=0} 
&amp;amp;= \ln A\,H(0) + const \\
&amp;amp;= (A-I)E + const
\end{align}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;따라서 다음의 Proposition 1 을 얻을 수 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Proposition 1.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;The discrete dynamic in \((3)\) is a discretisation of the following ODE :&lt;/p&gt;

\[\frac{dH(t)}{dt} = \ln A\,H(t)+E
\tag{11}\]

  &lt;p&gt;with the initial value \(H(0)=\left(\ln A\right)^{-1}\left( A-I\right)E\)&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((11)\) 의 \(\ln A\) 는 직접 계산할 수 없으므로, 1차 항까지의 Taylor expansion 을 통해  \(\ln A\approx A-I\) 로 근사해줍니다.&lt;/p&gt;

\[\frac{dH(t)}{dt} = (A-I)H(t) + E
\tag{12}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((12)\) 의 ODE 는 epidemic model 의 관점에서 이해할 수 있습니다. 또한 \((12)\) 의 양변에 integrating factor \(e^{-(A-I)t}\) 를 곱해주면, 다음의 ODE 로부터 Proposition 2 를 보일 수 있습니다.&lt;/p&gt;

\[\frac{d}{dt}\,e^{-(A-I)t}\,H(t) = e^{-(A-I)t}E\]

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Proposition 2.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;The analytical solution of the ODE defined in \((12)\) is given by :&lt;/p&gt;

\[H(t) = (A-I)^{-1}\left( e^{(A-I)t}-I \right)E + e^{(A-I)t}E
\tag{13}\]
&lt;/blockquote&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Preliminaries 에서 설명했듯이 \(A-I\) 의 eigenvalue 는 \([-1,\alpha-1]\subset [-1,0)\) 구간에 존재합니다. 즉 \(t\rightarrow\infty\) 이라면, \((13)\) 의 matrix exponential \(e^{(A-I)t}\) 는 0 으로 수렴합니다. 따라서, 충분히 큰 \(t\) 에 대해 \(H(t)\) 를 다음과 같이 근사할 수 있습니다.&lt;/p&gt;

\[H(t)\approx (I-A)^{-1}E = \left( \sum^{\infty}_{i=0}A^i \right)E
\tag{14}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((3)\) 과 형태를 비교하면, \((14)\) 의 \(H(t)\) 는 모든 layer 에서 전파된 정보  \(\left\{A^iE\right\}^{\infty}_{i=0}\)  들을 포함한다는 것을 볼 수 있습니다. 즉 discrete 한 layer 의 representation 정보를 모두 반영하기 때문에, node 들의 long-term dependency 를 잘 표현할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((1)\) 의 정의에 의해, \(\alpha\) 가 \(A\) 의 eigenvalue 의 크기를 정해줍니다.  \(\alpha\) 가 작아질수록 \(A^i\) 이 \(\mathbf{0}\) 으로 더 빠르게 수렴하기 때문에, \(\alpha\) 를 통해 \((14)\) 의 representation \(H(t)\) 가 반영하는 neighborhood 의 크기를 조절할 수 있습니다. 이런 특성을 활용하기 위해 CGNN 은 모델의 학습 과정에서 parameter \(\alpha\) 를 같이 학습합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;더 나아가 각 node 마다 \(\alpha\) 를 다르게 설정하기 위해, \((1)\) 에서 정의된 \(A\) 대신 \((2)\) 에서 정의한 \(\tilde{A}\) 를 사용합니다. \(\tilde{A}\) 를 사용해도 \((12)\) 와 \((14)\) 의 결과가 동일하게 성립하기 때문에, 실제 implementation 에서는 \((2)\) 를 사용하여 parameter vector \(\tilde{\alpha}\) 를 학습합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;case-2--modelling-the-interaction-of-feature-channels&quot;&gt;Case 2 : Modelling the Interaction of Feature Channels&lt;/h3&gt;

&lt;p&gt;\((3)\) 으로부터 파생된 ODE \((12)\) 는 각 feature channel 들이 독립적이며 서로 영향을 주지 않습니다. 하지만 feature channel 들 사이의 영향을 무시할 수 없기 때문에, 이를 모델링할 수 있는 ODE 를 만들어야 합니다. \((3)\) 에서 각 channel 들의 상호작용을 표현하기 위해, weigh matrix \(W\in\mathbb{R}^{d\times d}\) 를 사용하여 다음의 discrete 한 propagation rule 을 생각합니다.&lt;/p&gt;

\[H_{n+1} = AH_nW + H_0
\tag{15}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Case 1 과 동일하게 \((15)\) 를 Riemann sum 으로 바라보아, Proposition 3 를 얻을 수 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Proposition 3.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;Suppose that the eigenvalue decompositions of \(A\), \(W\) are \(A=P\Lambda P^{-1}\) and \(W=Q\Phi Q^{-1}\), respectively, then the discrete dynamic in \((15)\) is a discretisation of the following ODE :&lt;/p&gt;

\[\frac{dH(t)}{dt} = \ln A\,H(t)+ H(t)\ln\,W +E
\tag{16}\]

  &lt;p&gt;with the initial value \(H(0)=PFQ^{-1}\), where&lt;/p&gt;

\[F_{ij} = \frac{\Lambda_{ii}\tilde{E}_{ij}\Phi_{jj} - \tilde{E}_{ij}}{\ln\,\Lambda_{ii}\Phi_{jj}}
\tag{17}\]

  &lt;p&gt;where \(\tilde{E} = P^{-1}EQ\).&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;마찬가지로 \(\ln A\) 와 \(\ln W\) 를 직접 계산할 수 없기 때문에, \((16)\) 에서 \(\ln A\approx A-I\) 와 \(\ln W\approx W-I\) 로 근사하여, 다음의 ODE 를 얻을 수 있습니다. 이 때 초기값은 \(H_0\) 로 동일합니다.&lt;/p&gt;

\[\frac{dH(t)}{dt} =(A-I)H(t)+ H(t)(W-I) +E
\tag{18}\]

&lt;p&gt;\((18)\) 의 ODE 는 Sylvester differential equation 으로 알려져있으며, Proposition 4 의 analytical solution 을 가지고 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Proposition 4.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;Suppose the eigenvalue decompositions of \(A-I\) and \(W-I\) are \(A-I=P\Lambda'P^{-1}\) and \(W-I=Q\Phi'Q^{-1}\), respectively, then the analytical solution of the ODE in \((18)\) is given by :&lt;/p&gt;

\[H(t) = e^{(A-I)t}Ee^{(W-I)t} + PF(t)Q^{-1}
\tag{19}\]

  &lt;p&gt;where \(F(t)\in\mathbb{R}^{\vert V\vert\times d}\) with each element defined as follows :&lt;/p&gt;

\[F_{ij}(t) = \frac{\tilde{E}_{ij}}{\Lambda'_{ii}+\Phi'_{jj}}e^{(\Lambda'_{ii}+\Phi'_{jj})t} - \frac{\tilde{E}_{ij}}{\Lambda'_{ii}+\Phi'_{jj}}\]

  &lt;p&gt;where \(\tilde{E}=P^{-1}EQ\).&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;만약 Proposition 4 에서 \(W\) 의 eigenvalue 가 1 이하라고 가정한다면,  \(A-I\) 의 eigenvalue 는 \((-1,0)\) 에 존재하며 \(W-I\) 의 eigenvalue 는 \((-1,0]\) 에 존재하기 때문에, 다음과 같이 matrix exponential 들이 \(\mathbf{0}\) 으로 수렴합니다.&lt;/p&gt;

\[\lim_{t\rightarrow\infty} e^{(A-I)t}\rightarrow 0 \;,\;\;\;
\lim_{t\rightarrow\infty} e^{(\Lambda'_{ii}+\Phi'_{jj})t}\rightarrow 0\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;따라서, 충분히 큰 \(\;t\) 에 대해 \(H(t)\) 를 다음과 같이 근사할 수 있습니다.&lt;/p&gt;

\[\left(P^{-1}H(t)Q\right)_{ij} \approx -\frac{\tilde{E}}{\Lambda'_{ii}+\Phi'_{jj}}
\tag{20}\]

&lt;p&gt;\((20)\) 에서 \(W=I\) 를 대입하면, \((14)\) 의 결과와 같다는 것을 확인할 수 있습니다. 즉 \((11)\) 의 ODE 는 \((16)\) 의 ODE 의 특수한 케이스입니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;실제 implementation 에서는 \(W\) 가 diagonalizable 하도록, 학습 가능한 orthogonal matrix \(U\) 와 학습 가능한 vector \(M\) 을 사용해 \(W\) 를 다음과 같이 표현합니다.&lt;/p&gt;

\[W=U\,\text{diag}(M)U^T\]

&lt;p&gt;학습 과정에서 \(M\) 의 clipping 을 통해 \(W\) 의 eigenvalue 가 1 이하이도록 만들어주며, \(U\) 가 orthogonal matrix 가 되도록 hyperparameter \(\beta\) 를 사용해 트레이닝 스텝마다 다음과 같이 U 를 update 해줍니다.&lt;/p&gt;

\[U \leftarrow (1+\beta)U-\beta(UU^T)U\]

&lt;p&gt;논문에서는 \(\beta=0.5\) 로 고정합니다. 또한 Case 1 과 마찬가지로 \(A\) 대신 \(\tilde{A}\) 를 사용하여 parameter vector \(\tilde{\alpha}\) 를 학습합니다. 마지막으로 학습의 안정화를 위해 \(H(t)\) 에 auxiliary dimension 을 추가하는 방법을 활용하지만, performance 에는 큰 차이가 없습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;discussion&quot;&gt;Discussion&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;기존의 discrete 한 layer 를 사용하는 GCN 과 비교하여, CGNN 은 다음과 같은 이점이 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;robustness-with-time-to-over-smoothing&quot;&gt;Robustness with time to over-smoothing&lt;/h3&gt;

&lt;p&gt;기존의 discrete 한 layer 를 사용하는 GCN 은 node classification, graph classification, link prediction 등 다양한 영역에서 좋은 성능을 보여주지만, layer 의 개수에 따라 성능에 큰 차이를 보입니다. GCN layer 수가 적다면 expressive 한 representation 을 학습할 수 없고, 반대로 layer 의 수가 많다면 over-smoothing 으로 인해 제대로된 representation 을 학습할 수 없습니다. 특히 [5] 에서 GCN layer 의 수가 많아질수록 기하급수적으로 node representation 에 정보 손실이 발생함을 보였습니다. 그에 비해 CGNN 은 성능이 \(t_1\) 에 크게 영향을 받지 않음을 실험적으로 알 수 있고, \((14)\) 에서 확인할 수 있듯이 \(t\rightarrow\infty\) 이어도 representation 에 정보 손실은 없습니다.&lt;/p&gt;

&lt;h3 id=&quot;global-dependencies&quot;&gt;Global dependencies&lt;/h3&gt;

&lt;p&gt;GCN layer 의 수가 적다면 node representation 에 가까운 주변 node 들의 정보만을 반영할 수 있습니다. 즉 expressive 한 모델을 만들기 위해서는, 더 깊은 모델을 통해 멀리 떨어진 node 들의 정보들을 반영할 수 있어야합니다. \((14)\) 에서 볼 수 있듯이 시간 \(t\) 가 충분히 크다면 representation \(H(t)\) 가 \(\left\{A^i E\right\}^{\infty}_{i=0}\) 들의 합으로 표현되기 때문에, CGNN 은 node 들의 long-term dependency 를 학습할 수 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;diffusion-constant&quot;&gt;Diffusion constant&lt;/h3&gt;

&lt;p&gt;\((1)\) 에서 정의된 \(A\) 는 parameter \(\alpha\) 를 통해 \(A^{i}\) 이 0 으로 수렴하는 속도를 조절할 수 있습니다. 특히 \(A\) 대신 \(\tilde{A}\) 를 사용하면, 각 node 마다 diffusion constat \(\alpha\) 를 다르게 줄 수 있기 때문에 expressive 한 representation 학습에 큰 도움이 됩니다.&lt;/p&gt;

&lt;h3 id=&quot;entangling-channels-during-graph-propagation&quot;&gt;Entangling channels during graph propagation&lt;/h3&gt;

&lt;p&gt;Case 2 의 \((18)\) ODE 를 사용하면 서로 다른 feature channel 들의 상호작용을 표현할 수 있습니다. 특히 \((19)\) 를 통해, 상호작용을 나타내는 weight matrix \(W\) 의 eigenvalue 들이 node representation 에 어떤 영향을 끼치는지 설명할 수 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;insight-into-the-role-of-the-restart-distribution&quot;&gt;Insight into the role of the restart distribution&lt;/h3&gt;

&lt;p&gt;\((12)\) 와 \((18)\) 의 ODE 에서 node representation \(H(t)\) 의 시간에 따른 미분값은 restart distribuion \(H(0)=E\) 에 의존합니다. \((12)\) 의 ODE 에서 \(E\) 가 더해지지 않은 다음의 ODE 를 보겠습니다.&lt;/p&gt;

\[\frac{dH(t)}{dt} = (A-I)H(t)
\tag{21}\]

&lt;p&gt;\((21)\) 의 analytical solution 은 \(H(t)=e^{(A-I)t}\,H(0)\approx A^tH(0)\) 입니다.  \(t\rightarrow\infty\) 에 따라 최종 representation 이  으로 \(\mathbf{0}\) 수렴하기 때문에 학습하고자 하는 representation 과 부합합니다. 또한 실험을 통해 \((21)\) 의 ODE 를 사용한 CGNN (CGNN discrete) 은 종료 시간 \(t_1\) 이 증가함에 따라 성능이 감소하는 것을 확인할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;experiment&quot;&gt;Experiment&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Semi-supervised node classification task 에 대한 CGNN 모델의 performance 를 측정하기 위해, [3] 에서 사용한 dataset 을 그대로 사용했습니다. Dataset 은 네 가지의 citation network Cora, Citeseer, Pubmed, NELL 이며, 실험 방법 또한 [3] 의 방법을 따랐습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Continuous-Graph-Neural-Networks/dataset.PNG&quot; style=&quot;max-width: 70%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;실험의 baseline 모델로는 discrete 한 GNN 모델인 GCN, GAT 와 continuous 한 GNN 모델 GODE 를 선택했습니다. GODE 는 node representation 의 연속적인 변화를 GNN 으로 매개화한 ODE 를 통해 표현하며, ODE 를 매개화하는 GNN 으로 GCN (GCN-GODE) 과 GAT (GAT-GODE) 를 골랐습니다. CGNN 의 variant 들로는 Case 1 의 CGNN, Case 2 의 weight matrix 를 사용한 CGNN with weight, 그리고 \((3)\) 의 discrete propagation rule 을 사용한 CGNN discrete 모델을 선택했습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Performance comparison&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;각 dataset 에 대해, basline 모델들과 CGNN 모델들의 정확도는 다음의 표에 정리되어있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Continuous-Graph-Neural-Networks/classification.PNG&quot; style=&quot;max-width: 80%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;또한 각 dataset 들에서 15 개의 random split 에 대한 모델들의 정확도는 다음의 표를 통해 확인할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Continuous-Graph-Neural-Networks/classification-random.PNG&quot; style=&quot;max-width: 80%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;GCN 과 GAT 와 비교해 CGNN (CGNN with weight) 의 정확도가 훨씬 놓은 것을 볼 수 있습니다. 이는 CGNN 이 node 들의 long-term dependency 를 학습할 수 있기 때문입니다. 또한 GODE 와 비교했을 때 Cora 와 Pubmed 에서 훨씬 높은 성능을 보입니다. CGNN 은 그래프에서 node 들의 long-term dependency 를 반영할 수 있도록 잘 설계된 ODE 를 사용하는 반면, GODE 는 기존의 GCN 혹은 GAT 와 같은 GNN 으로 매개화된 ODE 를 사용하기 때문에 node representation 의 변화에 대한 학습의 차이가 생깁니다.&lt;/p&gt;

&lt;p&gt;CGNN variant 들을 비교해보면, CGNN discrete 보다 CGNN (CGNN with weight) 의 성능이 더 뛰어납니다. 즉 node representation 의 변화를 continuous 하게 모델링하는 것이 효과적임을 알 수 있습니다. CGNN 과 CGNN with weight 의 성능 차이는 미미한데, 아마도 사용한 dataset 이 복잡하지 않기 때문이라고 생각됩니다. 더 복잡한 knowledge graph 혹은 protein-protein interactions network 와 같은 dataset 에서는 performance 의 차이가 뚜렷하게 나타날 것이라고 봅니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Performance with respect to time steps&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;CGNN 의 이점 중 하나는 바로 over-smoothing 이 일어나지 않는다는 것입니다. 이를 확인하기 위해 GCN 과 GAT 에서는 layer 의 수에 따른 정확도를, CGNN 에서는 종료 시간 \(t_1\) 에 따른 정확도를 비교했습니다. 결과는 다음의 그래프에 나타나 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Continuous-Graph-Neural-Networks/layer.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;GCN 과 GAT 와 같은 모델은 layer 의 수가 2 혹은 3일 때 가장 높은 정확도를 보이며, layer 의 수가 많아질수록 정확도가 감소하는 것을 볼 수 있습니다. 그에 비해 CGNN 은 종료 시간이 증가함에 따라 정확도도 올라가며, 결국 수렴하는 경향을 관찰할 수 있습니다. 즉 CGNN 은 over-smoothing 이 일어나지 않고, node 들의 long-term dependency 를 학습할 수 있다는 것을 실험적으로 확인했습니다.&lt;/p&gt;

&lt;p&gt;또한 restart distribution \(H(0)=E\) 를 사용하지 않은 모델 CGNN w/o H(0) 는 GCN, GAT 와 같이 layer 의 수가 커질수록 정확도가 떨어지는 것을 볼 수 있습니다. 이를 통해 restart distribution 이 over-smoothing 을 해결하는 중요한 역할을 한다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Memory Efficiency&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;마지막으로 CGNN 모델의 종료 시간 \(t_1\) 에 따른 memory 사용량을 확인했습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Continuous-Graph-Neural-Networks/memory.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;node representation 의 변화를 discrete 하게 표현하는 모델들 :  GCN, GAT, CGNN discrete 은 layer 의 수에 따라 memory 사용량이 linear 하게 증가했습니다. 그에 비해 adjoint sensitivity method [2] 를 사용하는 CGNN 은 memory 사용량이 일정하게 적은 것을 볼 수 있습니다. 따라서 CNN 은 memory efficient 하기 때문에, large graph 에 대해서도 적용할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;future-work&quot;&gt;Future Work&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;CGNN 은 homophily, 즉 node 가 주변의 이웃한 node 들과 비슷한 feature 를 가진다고 가정합니다. 이를 확장해, homophily 뿐만 아니라 structural equivalence 를 반영할 수 있도록 \((3)\) 과 \((15)\) 의 discrete propagation rule 을 정의하는 방향으로의 연구가 기대됩니다. 특히, diffusion-based 에서 더 나아가 domain-specific ODE 를 사용한다면 분자 구조, 단백질의 결합, knowledge graph 과 같이 node 들 사이의 더 복잡한 관계를 가지는 상황에서도 우수한 성능을 보여줄 수 있다고 생각합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;L.-P. A. Xhonneux, M. Qu, and J. Tang. &lt;a href=&quot;https://arxiv.org/pdf/1912.00967.pdf&quot;&gt;Continuous graph neural networks&lt;/a&gt;. arXiv preprint arXiv:1912.00967, 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Tian Qi Chen, Yulia Rubanova, Jesse Bettencourt, and David K Duvenaud. &lt;a href=&quot;https://arxiv.org/pdf/1806.07366.pdf&quot;&gt;Neural ordinary differential equations&lt;/a&gt;. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems 31, pages 6571–6583. Curran Associates, Inc., 2018.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Thomas N Kipf and Max Welling. &lt;a href=&quot;&quot;&gt;Semi-supervised classification with graph convolutional networks&lt;/a&gt;. arXiv preprint arXiv:1609.02907, 2016.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Qimai Li, Zhichao Han, and Xiao-Ming Wu. &lt;a href=&quot;https://arxiv.org/pdf/1801.07606.pdf&quot;&gt;Deeper insights into graph convolutional networks for semisupervised learning&lt;/a&gt;. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Kenta Oono and Taiji Suzuki. &lt;a href=&quot;https://arxiv.org/pdf/1905.10947.pdf&quot;&gt;Graph neural networks exponentially lose expressive power for node classification&lt;/a&gt;. In International Conference on Learning Representations, 2020.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Continuous Graph Neural Networks Github : &lt;a href=&quot;https://github.com/DeepGraphLearning/ContinuousGNN&quot;&gt;https://github.com/DeepGraphLearning/ContinuousGNN&lt;/a&gt;&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="continuous-depth model" /><summary type="html">[paper review] CGNN, ICML 2020</summary></entry><entry><title type="html">Composition-based Multi-Relational Graph Convolutional Networks</title><link href="https://harryjo97.github.io/paper%20review/Composition-based-Multi-Relational-Graph-Convolutional-Networks/" rel="alternate" type="text/html" title="Composition-based Multi-Relational Graph Convolutional Networks" /><published>2021-02-17T12:00:00+09:00</published><updated>2021-02-17T12:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/Composition-based-Multi-Relational-Graph-Convolutional-Networks</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/Composition-based-Multi-Relational-Graph-Convolutional-Networks/">&lt;p&gt;[paper review] CompGCN, ICLR 2020&lt;/p&gt;

&lt;h2 id=&quot;introduction&quot;&gt;Introduction&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;대부분의 Graph Convolutional Networks (GCNs) 는 simple, undirectred graph 에 대해서 연구가 이루어졌습니다. 더 일반적인 형태의 그래프는 edge 에 feature 와 direction 이 존재하는 multi-relational graph 이며, 예로 knowledge graph 가 있습니다. GCN 을 통해 multi-relational graph 를 분석하는 기존의 방법은 node representation 만을 학습할 수 있고, over-parametrization 의 문제가 있습니다. 특히 node 뿐만 아니라 node 사이 relation 에 대한 학습이 필요한 link prediction 의 경우 GCN 을 직접 사용하는데 어려움이 있습니다. 논문에서는 이런 문제점을 해결하기 위해 GCN 을 통해 node 의 representation 뿐만 아니라, relation 의 representation 을 같이 학습하는 CompGCN 모델을 제시합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;background&quot;&gt;Background&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;knowledge-graph&quot;&gt;Knowledge Graph&lt;/h3&gt;

&lt;p&gt;Knowledge graph 는 multi-relational graph 의 한 종류로 Freebase, WordNet 과 같은 knowledge base 를 그래프로 나타낸 것입니다. Entity 들을 node 로, entity 들 사이의 relation 을 edge 로 표현합니다. Node 들의 집합 \(\mathcal{V}\) 와 relation 들의 집합 \(\mathcal{R}\) 에 대해, edge 는 node \(u,v\in\mathcal{V}\)사이의 relation \(r\in\mathcal{R}\) 로 이루어진 triplet \((u,r,v)\) 로 정의됩니다. 이러한 edge 들의 집합으로 knowledge graph \(\mathcal{G} = \{(u,r,v)\} \subset \mathcal{V}\times\mathcal{R}\times\mathcal{V}\) 를 정의합니다.&lt;/p&gt;

&lt;p&gt;Knowledge graph 는 수많은 triplet 들로 이루어져 있고, 많은 수의 triplet 들이 incomplete 합니다. 이를테면, 주어진 두 entity \(u\) 와 \(v\) 사이의 relation 이 알려지지 않은 triplet \((u,?,v)\), 혹은 node \(u\) 와 연결된 relation \(r\) 이 주어졌지만 tail entity 를 모르는 triplet \((u,r,?)\) 과 같은 케이스가 있습니다. 이런 imcomplete 한 triplet 을 완성하기 위해서는 link prediction 이 필요합니다. Link prediction 은 각 entity 와 relation 들에 대한 low-dimensional representation 을 찾고, 올바른 triplet 에 더 높은 score 를 부여하는 score function 을 통해 이루어집니다. 대표적인 모델로 TransE, DistMult, RotatE 등이 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;gcn-on-multi-relational-graphs&quot;&gt;GCN on Multi-Relational Graphs&lt;/h3&gt;

&lt;p&gt;Simple undirected graph 에 대한 GCN 의 layer-wise propagation rule 은 다음과 같이 표현할 수 있습니다 [3].&lt;/p&gt;

\[H^{(k+1)} = f\left( \hat{A}H^{(k)}W^{(k)} \right)
\tag{1}\]

&lt;p&gt;하지만 multi-relational graph 에도 \((1)\) 을 적용한다면, relation 에 대한 정보를 사용하지 않기 때문에 제대로된 representation 을 찾을 수 없습니다. 따라서 \((1)\) 의 \(W^{(k)}\) 대신 relation specific weight \(W^{(k)}_r\) 를 사용하여, 다음과 같이 새로운 propagation rule 을 정의할 수 있습니다.&lt;/p&gt;

\[H^{(k+1)} = f\left( \hat{A}H^{(k)}W^{(k)}_r \right)
\tag{2}\]

&lt;p&gt;\((2)\) 를 사용할 경우 relation 의 수가 많아질수록 over-parametrization 이 쉽게 일어날 수 있다는 단점이 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;compgcn-details&quot;&gt;CompGCN Details&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Directed-GCN [5] 과 같이 relation 이 단방향이 아닌 양방향으로 정의될 수 있도록, edge 와 relation 들의 집합 \(\mathcal{E}\) 과 \(\mathcal{R}\) 을 확장합니다. 기존의 edge \((u,r,v)\in\mathcal{E}\) 에 대해, relation \(r\) 의 방향을 뒤집은 inverse \(r^{-1}\) 를 이용한 inverse edge \((v,r^{-1},u)\) 와 self-loop \(\top\) 을 이용한 self edge \((u,\top,u)\) 을 추가해 새로운 edge 들의 집합 \(\mathcal{E}'\) 을 다음과 같이 정의합니다.&lt;/p&gt;

\[\mathcal{E}' = \mathcal{E}\,\cup\{(v,r^{-1},u):(u,r,v)\in\mathcal{E}\,\}\,\cup\{(u,\top,u):u\in V\}\]

&lt;p&gt;또한 기존의 relation \(r\in\mathcal{R}\) 에 대해 inverse relation \(r^{-1}\) 과 self-loop \(\top\) 을 추가한 새로운 relation 들의 집합 \(\mathcal{R}'\) 을 다음과 같이 정의합니다.&lt;/p&gt;

\[\mathcal{R}' = \mathcal{R}\,\cup\{r^{-1}:r\in\mathcal{R}\}\,\cup\{\top\}\]

&lt;p&gt;Self-loop \(\top\) 을 추가해주는 이유는 GCN [3] 에서와 같이 embedding 을 update 해줄 때 주변 node 들의 embedding 뿐만 아니라, 자가 자신의 embedding 에 대한 정보를 사용해주기 위해서입니다 [4, 5].&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;CompGCN 은 각 node \(u\in\mathcal{V}\) 에 대한 node embedding \(h_u\in\mathbb{R}^d\) 와 각 relation \(r\in\mathcal{R}'\) 에 대한 relation embedding \(h_r\in\mathbb{R}^d\) 을 학습합니다. 이 때 node embedding 과 relation embedding 의 차원이 같도록 설정해줍니다. 다음의 그림은 추가된 inverse relation 들과 node embedding, relation embedding 을 보여줍니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
     &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/graph.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
 &lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Composition Operation&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;GCN 에 relation embedding 을 적용하기 위해, entity-relation composition operation \(\phi:\mathbb{R}^d\times \mathbb{R}^d\rightarrow\mathbb{R}^d\) 을 사용합니다. 이는 entity 의 embedding \(h_v\) 와 relation 의 embedding \(h_r\) 을 통해 새로운 embedding \(\phi(h_v,h_r)\) 을 만들어주는 operation 입니다.&lt;/p&gt;

&lt;p&gt;논문에서는 composition operation \(\phi\) 를 다음의 세 가지 non-parametrized operation 에 한정시킵니다.&lt;/p&gt;

&lt;ul&gt;
  &lt;li&gt;subtraction : \(\phi(h_v,h_r) = h_v - h_r\)&lt;/li&gt;
  &lt;li&gt;multiplication : \(\phi(h_v,h_r) = h_v\ast h_r\)&lt;/li&gt;
  &lt;li&gt;circular-correlation : \(\phi(h_v,h_r) = h_v\star h_r\)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;각각의 operation 들은 TransE, DistMult, HolE 모델에서 영감을 받았다고 설명하지만, 실험 결과를 보면 operation 들에 특별한 의미가 있는 것 같지는 않습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Node Embedding Update&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;\((2)\) 를 통한 node embedding 의 update 는 다음과 같이 정리할 수 있습니다.&lt;/p&gt;

\[h_u \leftarrow f\left( \sum_{(u,r,v)\in\mathcal{E}'}W_rh_v \right)
\tag{3}\]

&lt;p&gt;\((3)\) 은 \(u\) 를 head entity 로 가지는 모든 edge \((u,r,v)\) 들에 대해, relation \(r\) 과 tail entity \(v\) 의 정보를 통해 \(u\) 의 새로운 embedding 을 update 하는 과정으로 이해할 수 있습니다. 이 때 over-parametrization 의 문제점을 가지는 relation specific weight \(W_r\) 을 사용하지 않기 위해, composition operation \(\phi(h_v,h_r)\) 을 통해 relation 에 대한 정보를 담아냅니다.&lt;/p&gt;

&lt;p&gt;Composition operation 을 사용한다면, 모든 node 들에 대해 공통적인 weight \(W\) 를 사용해 \((3)\) 을 다음과 같이 바꿀 수 있습니다.&lt;/p&gt;

\[h_u \leftarrow f\left( \sum_{(u,r,v)\in\mathcal{E}'}W\phi(h_v,h_r) \right)
\tag{4}\]

&lt;p&gt;더 나아가 \(\mathcal{E}'\) 에서 기존의 edge 와 새로 추가된 inverse edge, self edge 들을 구분하기 위해, \((4)\) 의 \(W\) 대신 direction specific weight \(W_{\text{dir}(r)}\) [5] 를 사용하여 새로운 update rule 을 정의해줍니다.&lt;/p&gt;

\[h_u \leftarrow f\left( \sum_{(u,r,v)\in\mathcal{E}'}W_{\text{dir}(r)}\,\phi(h_v,h_r) \right)
\tag{5}\]

&lt;p&gt;이 때 direction specific weight \(W_{\text{dir}(r)}\) 는 다음과 같이 구분할 수 있습니다.&lt;/p&gt;

\[W_{\text{dir}(r)} = 
\begin{cases}
W_O, &amp;amp; r\in\mathcal{R} \\
W_I, &amp;amp; r\in\mathcal{R}_{inv} \\
W_S, &amp;amp; r=\top
\end{cases}\]

&lt;p&gt;\((5)\) 의 과정은 다음의 그림을 통해 이해할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
     &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/update.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
 &lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Relation Embedding Update&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;\((5)\) 를 통해 node embedding 을 update 한 후, 학습 가능한 행렬 \(W_{\text{rel}}\) 을 통해 다음과 같이 relation embedding 을 update 해줍니다.&lt;/p&gt;

\[h_r \leftarrow W_{\text{rel}}h_r
\tag{6}\]

&lt;blockquote&gt;
  &lt;p&gt;Basis Formulation&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;또한 relation 의 수가 증가함에 따라 CompGCN 모델이 필요 이상으로 복잡해지는 것을 막기 위해, [4] 의 basis formulation 을 응용합니다. 각 relation 들의 initial representation 을 다음과 같이 학습 가능한 basis vector \(\{v_1,\cdots,v_{\mathcal{B}}\}\) 들의 linear combination 으로 표현합니다.&lt;/p&gt;

\[h_r^{(0)} = \sum^{\mathcal{B}}_{b=1} \alpha_{br}v_b 
\tag{7}\]

&lt;p&gt;여기서 \(\alpha_{br}\in\mathbb{R}\) 은 relation 과 basis vector 에 의존하는, 학습 가능한 scalar 입니다.&lt;/p&gt;

&lt;p&gt;\((7)\) 을 통해 서로 다른 relation 들의 embedding 을 공통의 basis vector 들로 표현할 수 있습니다. 이를 weight sharing 관점에서 볼 때 수가 적은 (rare) relation 들과 수가 많은 (frequent) relation 들이 wegiht 을 공유하기 때문에, rare relation 들에 대해 overfitting 이 일어나는 것을 방지할 수 있습니다 [4]. CompGCN 은 Relational-GCN [4] 과 다르게, initial representation 만을 basis vector 로 표현하며 이후의 layer 에서는 basis 를 사용하지 않습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Comparison With Other Models&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;\((5)\) 의 update rule 은 GCN [3], Relational-GCN [4], Directed-GCN [5], Weighted-GCN 모델들을 모두 일반화한 것입니다. 각각의 모델들은 다음의 표와 같이 \((5)\) 의 direction specific weight \(W_{\text{dir}(r)}\) 와 composition operation 을 특정해주어 나타낼 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
     &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/general.PNG&quot; style=&quot;max-width: 90%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;다음의 표는 각 모델들이 반영한 특징을 잘 정리해 놓았습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
     &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/other.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;experiment--results&quot;&gt;Experiment &amp;amp; Results&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 CompGCN 모델을 link prediction, node classification, graph classification 세 가지 task 들에 대해 performance 를 측정합니다.&lt;/p&gt;

&lt;h3 id=&quot;link-prediction&quot;&gt;Link Prediction&lt;/h3&gt;

&lt;blockquote&gt;
  &lt;p&gt;Performance comparison&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;먼저 link prediction task 에 대해 5 가지 metric 으로 평가하여 모델들의 performance 를 비교합니다. FB15k-237 과 WN18RR 데이터셋에 대한 CompGCN 과 baseline 모델들의 성능을 측정한 결과는 다음의 표에 정리되어있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/link.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;대부분의 metric 에서 CompGCN 의 성능이 가장 뛰어남을 확인할 수 있습니다. 2 가지 metric 에서 CompGCN 보다 뛰어난 성능을 보이는 RotatE [2] 모델은 entity 와 relation 을 복소수 영역에서 다루며, relation 을 rotation operation 으로 해석합니다. CompGCN 또한 complex domain 에서의 rotation operation 을 적용한다면, 더 우수한 성능을 낼 수 있지 않을까 기대해봅니다.&lt;/p&gt;

&lt;p&gt;Relational-GCN 과 같은 기존의 모델 대신 CompGCN 을 사용하는 것이 얼마나 효과적인지에 대한 분석이 필요합니다. Score function \(X\) 와 entity embedding 을 위한 모델 \(M\) 그리고 CompGCN 의 경우 composition operator \(Y\) 의 다양한 조합 \(X+M(Y)\) 에 대해, FB15k-237 데이터셋에서 성능을 평가했습니다. 결과는 다음의 표에 정리되어 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/encoder.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;다양한 조합들 중, 모델 \(M\) 으로 CompGCN 을 사용했을 때 성능이 가장 좋음을 볼 수 있습니다. 대부분의 모델들은 TransE 의 score function 을 적용했을 때 성능이 눈에 띄게 떨어지지만, CompGCN 은 성능에 큰 차이가 나지 않습니다. CompGCN 의 performance 가 다른 모델들에 비해 뛰어난 이유는, node embedding 뿐만 아니라 relation embedding 을 같이 학습하기 때문이라고 추측할 수 있습니다. 다음의 그림에서 볼 수 있듯이 Relational-GCN 과 Weighted-GCN 은 entity embedding 만을 학습하지만, CompGCN 은 relation embedding 을 같이 학습하기 때문에 entity 와 relation 을 모두 고려해야하는 link prediciton task 에서 효과적입니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/embedding.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;CompGCN 의 성능을 composition operation 에 따라 비교해보면, 사용한 score function 에 따라 달라지지만 대체적으로 circular-correlation 과 같이 복잡한 operation 을 사용한 경우 더 나은 performance 를 보입니다. 특히, 다양한 조합들 중 ConvE 의 score function, circular-correlation (Corr) 과 함께 CompGCN 을 사용했을 때의 성능이 가장 뛰어남을 확인할 수 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Scalability&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;CompGCN 의 scalability 를 분석하기 위해, relation 의 수와 basis vector 의 수에 따른 CompGCN 의 performance 를 비교했습니다.  FB15k-237 데이터셋에서 ConvE + CompGCN (Corr) 모델을 사용해 basis vector 의 수 \(\mathcal{B}\) 에 따른 성능을 측정하였고, 결과는 다음의 그래프와 같습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/basis.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;\(\mathcal{B}\) 가 커질수록 CompGCN 의 performance 가 좋아지며, \(\mathcal{B}=5\) 일 때에도 충분히 뛰어난 성능을 보입니다. \(\mathcal{B}\) 가 작을수록 parameter 의 수가 줄어들기 때문에, CompGCN 은 적은 parameter 로도 충분히 multi-relational graph 의 representatin 을 학습한다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt;Relational-GCN 과 자세히 비교하기 위해, \(\mathcal{B}=5\) 로 제한된 CompGCN 과 relation 의 수에 따른 성능을 측정하였습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/rgcn.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;Relational-GCN 과 비교했을 때, \(\mathcal{B}=5\) 로 제한된 조건에서도 relation 의 수와 상관 없이 CompGCN 이 R-GCN 보다 더 좋은 성능을 보여줍니다.&lt;/p&gt;

&lt;h3 id=&quot;node-classification-graph-classification&quot;&gt;Node Classification, Graph Classification&lt;/h3&gt;

&lt;p&gt;마지막으로 node classification 과 graph classification task 에서의 성능을 baseline 과 비교했습니다. Node classification 에 대해서는 MUTAG 과 AM 데이터셋에서의 정확도를, graph classification 에 대해서는 MUTAG 과 PTC 데이터셋에서의 정확도를 측정했습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Composition-based-Multi-Relational-Graph-Convolutional-Networks/classification.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;두 task 모두에서 baseline 모델들보다 월등히 뛰어난 정확도를 보여줍니다. 이를 통해 CompGCN 이 node embedding 만을 학습하는 기존의 GCN 보다 효과적으로 multi-relational graph 의 representation 을 학습함을 확인할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;future-study&quot;&gt;Future Study&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;여러가지 방면에서 CompGCN 에 대한 추가적인 연구가 이루어질 수 있습니다.&lt;/p&gt;

&lt;ul&gt;
  &lt;li&gt;
    &lt;p&gt;Composition operation \(\phi\) 를 non-parametrized operation 이 아닌, Neural Tensor Networks (NTN) 와ConvE 같은 parametrized operation 을 사용했을 때 CompGCN 의 성능이 개선될 것이라고 생각합니다.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;RotatE 모델과 같이 relation 의 다양한 패턴들, symmetry / antisymmetry / inversion / composition, 을 반영할 수 있도록 score function 및 composition operation 에 대해 연구가 진행 될 수 있습니다.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;CompGCN 에 대한 이론적인 연구가 필요합니다. 실험적으로 relation embedding 을 통해 multi-relational graph 의 representation 을 학습하는데 효과적이라는 것은 입증했지만, 어떤 이유로 효과적인에 대해 설명이 부족합니다. 특히 score function 과 composition operation 이 performance 에 미치는 영향에 대해 연구한다면, CompGCN 을 더 효과적으로 사용할 수 있을 것입니다.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Shikhar Vashishth, Soumya Sanyal, Vikram Nitin, and Partha P. Talukdar. &lt;a href=&quot;https://arxiv.org/pdf/1911.03082.pdf&quot;&gt;Composition-based multi-relational graph convolutional networks&lt;/a&gt;. In ICLR, 2020.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. &lt;a href=&quot;https://arxiv.org/pdf/1902.10197.pdf&quot;&gt;Rotate: Knowledge graph embedding by relational rotation in complex space&lt;/a&gt;. arXiv preprint arXiv:1902.10197, 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Thomas N Kipf and Max Welling. &lt;a href=&quot;&quot;&gt;Semi-supervised classification with graph convolutional networks&lt;/a&gt;. arXiv preprint arXiv:1609.02907, 2016.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Michael Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, and Max Welling. &lt;a href=&quot;https://arxiv.org/pdf/1703.06103.pdf&quot;&gt;Modeling relational data with graph convolutional networks&lt;/a&gt;. arXiv preprint arXiv:1703.06103, 2017.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Diego Marcheggiani and Ivan Titov. &lt;a href=&quot;https://arxiv.org/pdf/1703.04826.pdf&quot;&gt;Encoding sentences with graph convolutional networks for
semantic role labeling&lt;/a&gt;. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp. 1506–1515. Association for Computational Linguistics, 2017&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="Knowledge Graph" /><summary type="html">[paper review] CompGCN, ICLR 2020</summary></entry><entry><title type="html">Graph Attention Networks</title><link href="https://harryjo97.github.io/paper%20review/Graph-Attention-Networks/" rel="alternate" type="text/html" title="Graph Attention Networks" /><published>2021-02-08T20:00:00+09:00</published><updated>2021-02-08T20:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/Graph-Attention-Networks</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/Graph-Attention-Networks/">&lt;p&gt;[paper review] : GAT, ICLR 2018&lt;/p&gt;

&lt;h2 id=&quot;introduction&quot;&gt;Introduction&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;CNN 은 image classification, semantic segmentation, machine translation 등 다양한 분야에 적용되어 좋은 성능을 보여주었습니다. CNN 의 핵심인 convolution 은 주어진 data 의 구조가 grid-like (Euclidean domain) 특성을 가질 때 정의됩니다. 3D mesh, social network, biological network 등과 같이 irregular 한 그래프 data 에 대해 convolution operator 를 일반화시키기 위한 다양한 연구가 이루어지고 있습니다.&lt;/p&gt;

&lt;p&gt;Graph domain 에서 convolution 을 일반화시키는 연구는 크게 두 가지로 나눌 수 있습니다. 첫번째 방법은 spectral approach 로, graph Laplacian 을 통해 Fourier domain 에서 convolution 을 정의합니다. 이 때 eigendecomposition 과 같은 복잡한 행렬 연산과 non-spatially localized filter 의 문제를 해결하기 위해, ChebNet 은 Chebyshev expansion 을 사용했고, 더 나아가 [2] 에서는 Chebyshev expansion 을 각 node 의 1-step neighborhood 에 한정시켜 node classification, link prediction, graph classification 등 다양한 분야에서 좋은 성능을 보여주는 GCN 을 제시했습니다. 하지만 spectral approach 의 가장 큰 문제점은 바로 그래프의 전체 구조에 의존한다는 것입니다. Input graph 에 따라 graph Laplacian 이 변하기 때문에, inductive learning 에 직접 적용될 수 없습니다.&lt;/p&gt;

&lt;p&gt;두번째 방법은, non-spectral approach 입니다. 공간적으로 가까운 neighbor 를 통해 그래프에서 직접 convolution 을 정의합니다. Graph Laplacian 을 사용하지 않기 때문에 spectral approach 의 문제점을 피해가지만, 크기가 다른 neighborhood 들에 대해서 적용되며  CNN 의 weight-sharing 특성을 유지하는 convolution operator 를 정의하는 것은 굉장히 어렵습니다. 대표적인 모델로 MoNet 과 GraphSAGE [3] 가 있습니다.&lt;/p&gt;

&lt;p&gt;논문은 [4] 에서 제시된 attention mechanism 을 통해 non-spectral appoach 의 문제점을 해결합니다. Attention mechanism 의 장점은, 고정되지 않은 input size 에 적용될 수 있다는 점입니다. 그래프에서 크기가 다른 neighborhood 들에 대해서도 공통적으로 적용될 수 있기 때문에, attention mechansim 을 통한 non-spectral approach 는 weight-sharing 특성을 가질 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;gat-architecture&quot;&gt;GAT Architecture&lt;/h2&gt;

&lt;h3 id=&quot;graph-attentional-layer&quot;&gt;Graph Attentional Layer&lt;/h3&gt;

&lt;p&gt;들어가기 앞서, \(N\) 개의 node 를 가지는 그래프에 대해 node \(i\) 의 feature 를 vector \(h_i\in\mathbb{R}^{F}\) 로 나타내겠습니다. 여기서 \(F\) 는 node 의 input feature dimension 이며, \(F'\) 을 output 의 feature dimension 이라고 하겠습니다. 또한, node 의 ordering 에는 의미가 없으며 단순히 node 를 구분하기 위한 notation 입니다.&lt;/p&gt;

&lt;p&gt;GAT 를 이루는 graph attentional layer 는, 모든 node 들에 대해 공통된 weight matrix \(W\in\mathbb{R}^{F'\times F}\) 와 self-attention \(\mathcal{A}:\mathbb{R}^{F'}\times\mathbb{R}^{F'}\rightarrow\mathbb{R}\) 로 이루어집니다. 먼저  self-attention 을 통해 attention coefficient \(e_{ij}\) 를 다음과 같이 계산합니다.&lt;/p&gt;

\[e_{ij} = \mathcal{A}\left( Wh_i, Wh_j \right)
\tag{1}\]

&lt;p&gt;\((1)\) 의 attention coefficient \(e_{ij}\) 는 node \(i\) 에 대한 node \(j\) 의 중요도 (importance) 로 해석할 수 있습니다. 만약 모든 node 들의 쌍에 대해 attention coefficient 를 사용한다면, 그래프의 구조적인 특성을 무시하게 됩니다. GAT 의 핵심은, 바로 node \(i\) 의 neighborhood \(N_i\) 에 속하는 node \(j\) 들에 대해서만 coefficient \(e_{ij}\) 를 사용하는 것입니다. Masked attention 을 통해 그래프의 구조에 대한 정보를 살릴 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;각 node 들에 대해 \((1)\) 의 coefficient 들을 비교할 수 있도록, [4] 에서와 같이 softmax 함수를 통해 정규화를 해줍니다.&lt;/p&gt;

\[\alpha_{ij} = \text{softmax}_j(e_{ij}) = \frac{\exp(e_{ij})}{\sum_{k\in N_i}\exp(e_{ik})}
\tag{2}\]

&lt;p&gt;논문에서는 \(\mathcal{A}\) 를 weight vector \(a\in\mathbb{R}^{2F'}\) 와 LeakyReLU 를 사용해 다음과 같이 정의합니다.&lt;/p&gt;

\[\mathcal{A}\left( Wh_i, Wh_j \right)
= \text{LeakyReLU}\left( a^T\left[ Wh_i\vert\vert Wh_j \right] \right)
\tag{3}\]

&lt;p&gt;아래의 그림은 \((3)\) 의 과정을 나타냅니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Graph-Attention-Networks/attention.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;\((3)\) 을 적용해 \((2)\) 를 다시 표현하면 다음과 같이 쓸 수 있습니다.&lt;/p&gt;

\[\alpha_{ij} = \frac{\exp\left( \text{LeakyReLU}\left( a^T\left[ Wh_i\,\Vert\, Wh_j \right] \right) \right)}{\sum_{k\in N_i}\exp\left(\text{LeakyReLU}\left( a^T\left[ Wh_i\,\Vert\, Wh_k \right] \right)\right)}
\tag{4}\]

&lt;p&gt;\((4)\) 의 정규화된 attention coefficient 를 통해 다음과 같이 node \(i\) 의 feature vector 를 update 해줍니다.&lt;/p&gt;

\[h_i \leftarrow \sigma\left( \sum_{j\in N_i}\alpha_{ij}Wh_j \right)
\tag{5}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;또한 논문에서는 self-attention 의 학습 과정을 안정화시키기 위해, transformer 에 대한 논문 “Attention is all you need” 의 방법과 같이 multi-head attention 을 사용했습니다. \(K\) 개의 independent 한 attention mechanism \((5)\) 들의 concatenation 을 통해 다음과 같이 새로운 layer-wise propagation rule 을 정의합니다.&lt;/p&gt;

\[h_i \leftarrow \Big\Vert^{K}_{k=1} \sigma\left( \sum_{j\in N_i}\alpha^{k}_{ij}W^kh_j \right)
\tag{6}\]

&lt;p&gt;\(K=3\) 일 때 independent 한 attention mechanism 들을 서로 다른 색의 화살표로 표현한다면, \((6)\) 의 식을 아래의 그림과 같이 이해할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Graph-Attention-Networks/multihead.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;마지막 layer 에서는 concatenation 대신 feature 들의 averaging 을 통해 final output 을 만들어줍니다.&lt;/p&gt;

\[h_i \leftarrow \sigma\left( \frac{1}{K}\sum^K_{k=1}\sum_{j\in N_i}\alpha^{k}_{ij}W^kh_j \right)
\tag{7}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;GAT 의 가장 큰 장점은 계산이 효율적으로 이루어질 수 있다는 것입니다. Self-attentional layer 는 모든 edge 들에 대해 병렬화가 가능하고, node 의 output feature 는 각 node 마다 병렬적으로 계산이 가능합니다. 특히 spectral approach 에서와 같은 eigendecomposition 혹은 복잡한 행렬 연산이 필요하지 않습니다. 1개의 head 에 대한 \((6)\) 의 계산 복잡도는 \(O\left(\vert V\vert FF' + \vert E\vert F'\right)\) 이며, 이는 GCN 의 복잡도와 비슷합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;gat-vs-gcn&quot;&gt;GAT vs GCN&lt;/h3&gt;

&lt;p&gt;GCN 과의 가장 큰 차이는 동일한 neighborhood 내의 node 들에 대해 다른 importance 를 부여할 수 있다는 점입니다. GCN 의 layer-wise propagation rule 은 normalization constant \(c_{ij}=\sqrt{\vert N_i\vert\vert N_j\vert}\) 를 통해 다음과 같이 나타낼 수 있습니다.&lt;/p&gt;

\[h_i \leftarrow \sigma\left( \sum_{j\in N_i}\frac{1}{c_{ij}}Wh_j \right)
\tag{8}\]

&lt;p&gt;\((5)\) 와 비교해보면, \(c_{ij}\) 는 값이 고정되어 있지만 \(\alpha_{ij}\) 는 weight vector \(a\in\mathbb{R}^{2F'}\) 에 따라 변할 수 있습니다. Weight 가 고정되어 있지 않기 때문에 GCN 보다 더 expressive 하고다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt;또한 \((8)\) 에서 볼 수 있듯이 GCN 은 학습 전에 그래프의 전체 구조에 대한 정보 (graph Laplacian) 를 알고 있어야합니다. GAT 의 경우 전체 구조에 대한 정보가 필요 없기 때문에 GCN 과 다르게 inductive learning 에 직접 이용될 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;gat-vs-graphsage&quot;&gt;GAT vs GraphSAGE&lt;/h3&gt;

&lt;p&gt;GraphSAGE 는 대표적인 non-spectral approach 로, GAT 와 비슷한 propagation rule 을 따릅니다. 하지만 GraphSAGE 는 GAT 와의 달리 neighborhood 중 일부만을 sample 해 사용합니다. 이는 계산량을 한정시키기 위해 선택한 방법으로, 추론 과정에서 neighborhood 중 일부의 정보만을 이용하게 됩니다. 또한 LSTM 을 aggregator 로 사용한 GraphSAGE 와 다르게, GAT 는 node 의 ordering 과 무관합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;evaluation&quot;&gt;Evaluation&lt;/h2&gt;

&lt;h3 id=&quot;datasets&quot;&gt;Datasets&lt;/h3&gt;

&lt;p&gt;GAT 모델을 다른 baseline 모델들과 비교하기 위해, 잘 알려진 4 가지 dataset 에서 실험을 진행했습니다. Transductive learning 의 performance 측정을 위해 Cora, Citeseer, Pubmed 세 가지의 citation network dataset 을 사용했습니다. 또한 inductive learing 의 performance 측정을 위해 protein-protein interaction (PPI) dataset 에서도 실험을 수행했습니다. 각 dataset 의 특징은 아래의 table 1 에 정리되어 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
&lt;img src=&quot;/assets/post/Graph-Attention-Networks/dataset.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;transductive-learning&quot;&gt;Transductive Learning&lt;/h3&gt;

&lt;p&gt;Transductive learning task 의 baseline 들로는 [2] 의 실험에서 사용된 baseline 들과 함께 GCN 을 사용했습니다. GAT 와 baseline 모델들의 성능은 mean classification error 로 측정되었고, 결과는 아래의 표에 정리되어 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Graph-Attention-Networks/transductive.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;GCN 과의 비교를 통해, 같은 neighborhood 내의 node 들에 대해 다른 weight 를 부여하는 방법이 효과적임을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;inductive-learning&quot;&gt;Inductive Learning&lt;/h3&gt;

&lt;p&gt;Transductive learning task 의 baseline 들로 활용된 모델들은 inductive learning 에 직접적으로 적용되기 힘들기 때문에, inductive learning task 의 baseline 에서 제외했습니다. Inductive learning task 의 baseline 들로는 GraphSAGE 의 variant 들을 선택했습니다. 특히 GraphSAGE 모델 중 성능이 좋다고 알려진 두 모델 : pool aggregator 를 사용하는 GraphSAGE-pool 과 LSTM aggregator 를 사용하는 GraphSAGE-LSTM 과 더불어 aggregator 로 GCN 또는 mean 을 사용한 GraphSAGE-GCN, GraphSAGE-mean 총 네 개의 모델을 골랐습니다.&lt;/p&gt;

&lt;p&gt;GAT 모델이 그래프 구조에 대한 정보를 이용하는지 확인하기 위해, 그래프의 구조를 전혀 이용하지 않는 multilayer perceptron (MLP) classifier 를 실험에 포함시켰습니다. 또한 GAT 모델의 특징 중 한 가지가 바로 같은 neighborhood 내의 node 들에 대해서 다른 weight 를 부여할 수 있다는 것인데, 이를 확인하기 위해 constant attention mechanism 을 사용한 Const-GAT 모델을 GAT 모델과 함께 비교했습니다.&lt;/p&gt;

&lt;p&gt;GAT 와 baseline 모델들의 성능은 micro-averaged \(F_1\) score 로 측정되었으며, 결과는 아래의 표에 정리되어 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Graph-Attention-Networks/inductive.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;GraphSAGE 의 performance 와 비교를 통해, neighborhood 의 일부만 sampling 하는 것보다 전체 neighborhood 를 이용하는 것이 효과적임을 확인할 수 있습니다. 또한 Const-GAT 모델과의 비교를 통해 다시 한번 같은 neighborhood 내의 node 들에 대해서 다른 weight 를 부여하는 것이 중요하다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt;논문에서는 GAT 모델을 통해 학습한 feature representation 을 눈으로 확인하기 위해, data visualization 을 위해 많이 사용되는 t-SNE (stochastic neighbor embedding) 를 아래의 그림과 같이  시각화 했습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Graph-Attention-Networks/t-sne.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;Node 의 색은 7개의 class 에 해당하며, 각각의 class 끼리 clustering 된 것을 볼 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;conclusion&quot;&gt;Conclusion&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;GAT 는 graph-structured data 에 적용될 수 있는 convolutin-style 의 neural network 로 다음과 같은 특징을 가지고 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Computationally Efficient&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;앞서 설명했듯이, 계산이 효율적으로 이루어질 수 있습니다. Self-attentional layer 는 모든 edge 들에 대해 병렬화가 가능하고, node 의 output feature 는 각 node 마다 병렬적으로 계산이 가능합니다. 특히 복잡한 행렬 연산을 사용하지 않습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Different Importance&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;같은 neighborhood 내의 node 들에 대해 다른 weight 을 부여해줄 수 있습니다. 이웃한 node 들에 대해 weight 이 고정되어 있지 않기 때문에, GCN 보다 expressive 한 특성을 가집니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Inductive Learning&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Node 들이 서로 다른 degree 를 가지는 그래프에도 적용할 수 있으며, 그래프의 전체 구조에 의존하지 않기 때문에 inductive learning 이 가능합니다.&lt;/p&gt;

&lt;p&gt;GAT 는 attention mechanism 을 사용하기 때문에, 학습된 attentional weight 를 통해 모델의 해석에 도움을 줄 수 있습니다. Attentional weight 을 이용한 model interpretability 관련 연구가 기대됩니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Petar Veliˇckovi´c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua
Bengio. &lt;a href=&quot;https://arxiv.org/pdf/1710.10903.pdf&quot;&gt;Graph attention networks&lt;/a&gt;. arXiv preprint arXiv:1710.10903, 2017.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Thomas N Kipf and Max Welling. &lt;a href=&quot;&quot;&gt;Semi-supervised classification with graph convolutional networks&lt;/a&gt;. arXiv preprint arXiv:1609.02907, 2016.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Will Hamilton, Zhitao Ying, and Jure Leskovec. &lt;a href=&quot;https://arxiv.org/pdf/1706.02216.pdf&quot;&gt;Inductive representation learning on large graphs&lt;/a&gt;. In Advances in Neural Information Processing Systems, pages 1024–1034, 2017.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. &lt;a href=&quot;https://arxiv.org/pdf/1409.0473.pdf&quot;&gt;Neural machine translation by jointly
learning to align and translate&lt;/a&gt;. International Conference on Learning Representations (ICLR),
2015.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="Attention" /><summary type="html">[paper review] : GAT, ICLR 2018</summary></entry><entry><title type="html">How Powerful are Graph Neural Networks?</title><link href="https://harryjo97.github.io/paper%20review/How-Powerful-are-Graph-Neural-Networks/" rel="alternate" type="text/html" title="How Powerful are Graph Neural Networks?" /><published>2021-02-02T19:00:00+09:00</published><updated>2021-02-02T19:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/How-Powerful-are-Graph-Neural-Networks</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/How-Powerful-are-Graph-Neural-Networks/">&lt;p&gt;[paper review] GIN, ICLR 2019&lt;/p&gt;

&lt;h2 id=&quot;related-study&quot;&gt;Related Study&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;GNN 의 expressive power 에  대한 연구는 크게 두 가지 방향으로 이루어집니다. 첫 번째 방법은 이 논문과 같이, Weisfeiler-Lehman (WL) graph isomorphism test 를 통해 GNN 의 expressive power 에 대한 limitation 을 연구합니다 (No. 1, 2, 5). 다른 방향으로는, permutation invariant function 들에 대한 universal approximation 을 통해 GNN 의 expressive power 를 다룹니다 (No. 3, 5). 최근에는 GNN 의 width, depth 와 expressive power 의 연관성에 대한 연구도 이루어졌습니다 (No. 6).&lt;/p&gt;

&lt;p&gt;제가 공부하며 expressive power 와 관련된 논문을 아래의 리스트로 정리했습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;table&gt;
  &lt;thead&gt;
    &lt;tr&gt;
      &lt;th style=&quot;text-align: left&quot;&gt;No.&lt;/th&gt;
      &lt;th style=&quot;text-align: left&quot;&gt;Paper&lt;/th&gt;
      &lt;th&gt; &lt;/th&gt;
    &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;1&lt;/td&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/1810.02244.pdf&quot;&gt;Weisfeiler and Leman Go Neural: Higher-order Graph Neural Networks&lt;/a&gt;&lt;/td&gt;
      &lt;td&gt;Morris et al., 2018&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;2&lt;/td&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/1905.11136.pdf&quot;&gt;Provably Powerful Graph Networks&lt;/a&gt;&lt;/td&gt;
      &lt;td&gt;Maron et al., 2019&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;3&lt;/td&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/1901.09342.pdf&quot;&gt;On the Universality of Invariant Networks&lt;/a&gt;&lt;/td&gt;
      &lt;td&gt;Maron et al., 2019&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;4&lt;/td&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/1905.04943.pdf&quot;&gt;Universal Invariant and Equivariant Graph Neural Networks&lt;/a&gt;&lt;/td&gt;
      &lt;td&gt;Keriven et al., 2019&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;5&lt;/td&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/1905.12560.pdf&quot;&gt;On the equivalence between graph isomorphism testing and function approximation with GNNs&lt;/a&gt;&lt;/td&gt;
      &lt;td&gt;Chen et al., 2019&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;6&lt;/td&gt;
      &lt;td style=&quot;text-align: left&quot;&gt;&lt;a href=&quot;https://openreview.net/pdf?id=B1l2bp4YwS&quot;&gt;What graph neural networks cannot learn: depth vs width&lt;/a&gt;&lt;/td&gt;
      &lt;td&gt;Loukas, 2020&lt;/td&gt;
    &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;introduction&quot;&gt;Introduction&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;잘 알려져 있는 Graph Convolutional Network, GraphSAGE, Graph Attention Network, Gated Graph Neural Netowork 등 대부분의 GNN 은 recursive neighborhood aggregation (message passing) scheme 을 사용합니다 [2]. 이런 network 들을 Message Passing Neural Network (MPNN) 이라 부릅니다. MPNN 은 매 iteration 마다 node 주변 neighborhood 의 feature vector (representation) 를 수집하여, node 의 새로운 feature vector 를 update 합니다. \(k\) 번의 iteration 후, 각 node 들은 \(k\)-hop neighborhood 의 feature vector 들로 update 된 새로운 feature vector 를 가지게 됩니다. 충분한 수의 iteration 후에는, 각 node 의 feature vector 가 그래프 전체의 구조에 대한 정보를 포함한다고 해석할 수 있습니다.&lt;/p&gt;

&lt;p&gt;Neighborhood aggregataion scheme 을 사용하는 GNN 은 node classification, link prediction, graph classification 등 다양한 task 에 대해 state-of-the-art 성능을 보여줍니다. 하지만, 모델의 설계는 주로 경험적인 직관 혹은 실험을 통한 시행 착오를 통해 이루어집니다. GNN 의 limitation 과 expressive power 등의 이론적인 연구가 바탕이 된다면 더 효율적인 모델을 만들 수 있고, 또한 모델의 hyperparameter tuning 에 큰 도움이 될 것입니다.&lt;/p&gt;

&lt;p&gt;논문에서는 GNN 의 expressive power 를 Weisfeiler-Lehman (WL) graph isomorphism test 를 통해 설명합니다. WL test 또한 MPNN 과 같이 매 iteratin 마다 주변 neighborhood 의 feature vector 를 수집해 각 node 의 feature vector 를 update 합니다. WL test 는 regular graph 와 같이 특수한 그래프를 제외하고는, 대부분의 그래프를 구분해낼 수 있습니다 (up to isomorphism). 그 이유는, 바로 알고리즘에서 neighborhood aggregation 이후 node 의 feature vetor 를 update 하는 과정이 injective 하기 때문입니다. WL test 의 알고리즘에서는 그래프의 두 node 가 서로 다른 neighborhood 를 가지고 있다면, 서로 다른 label 을 가지게 됩니다.&lt;/p&gt;

&lt;p&gt;Node 의 neighborhood 를 feature vector 들의 multiset 으로 표현하면, GNN 의 neighborhood aggregation scheme 은 multiset 에 대한 함수로 볼 수 있습니다. GNN 이 WL test 와 같이 그래프를 구분할 수 있는 능력 (discriminative power) 이 높지려면, neighborhood aggregation scheme 이 서로 다른 multiset 에 대해 서로다른 embedding 으로 보내주어야 합니다. 따라서, GNN 의 expressive power 를 multiset 에 대한 함수를 통해 분석할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;preliminaries&quot;&gt;Preliminaries&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서 다루는 GNN 들은 모두 MPNN 으로, 매 iteration 마다 각 node 의 neighborhood feature vector 를 수집해 새로운 feature vector 로 update 합니다. 이를 neighborhood aggregation scheme 이라 부르며, 크게 두 단계로 나눌 수 있습니다.&lt;/p&gt;

&lt;p&gt;첫번 째 단계에서는, neighborhood 의 feature vector 들을 수집합니다. \(v\) 의 neighborhood \(N(v)\) 에 대해, \(u\in N(v)\) 의 feature vector 들을 모아줍니다. \(k\) 번째 iteration 에서 node \(v\) 의 feature vector 를 \(h_v^{(k)}\) 라고 하면, 다음과 같이 정리할 수 있습니다.&lt;/p&gt;

\[a_v^{(k)} = \text{AGGREGATE}^{(k)}\left(\left\{\!\!\left\{h_u^{(k-1)}:u\in N(v)\right\}\!\!\right\}\right)\]

&lt;p&gt;이 때 \(\text{AGGREGATE}\) 함수는 multiset 에 대해 정의된 함수이며, 주로 summation 을 사용합니다. GraphSAGE [4] 에서와 같이 max-pooling 또는 mean-pooling 등을 사용할 수도 있습니다.&lt;/p&gt;

&lt;p&gt;두번 째 단계에서는 전 단계에서 수집한 정보 \(a_v^{(k)}\) 와 현재의 feature vector \(h_v^{(k-1)}\) 를 사용해, node 의 새로운 feature vector 를 update 합니다.&lt;/p&gt;

\[h_v^{(k)} = \text{COMBINE}^{(k)}\left(h_v^{(k-1)},a_v^{(k)}\right)\]

&lt;p&gt;GraphSAGE 는 vector concatenation \([\,\cdot\,]\) 이후 weight matrix \(W\) 를 이용한 linear mapping 을 통해, 다음과 같은 \(\text{COMBINE}\) 함수를 사용했습니다.&lt;/p&gt;

\[\text{COMBINE}^{(k)}\left(h_v^{(k-1)},a_v^{(k)}\right)
= W \cdot \left[ h_v^{(k-1)},a_v^{(k)} \right]\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;위의 과정을 합치면, MPNN 의 \(k\) 번째 iteration 은 다음과 같이 표현할 수 있습니다.&lt;/p&gt;

\[\begin{align}
h_v^{(k)} 
&amp;amp;= \text{COMBINE}^{(k)}\left(h_v^{(k-1)},a_v^{(k)}\right) \\
&amp;amp;= \text{COMBINE}^{(k)}\left(h_v^{(k-1)},\text{AGGREGATE}^{(k)}\left(\left\{\!\!\left\{h_u^{(k-1)}:u\in N(v)\right\}\!\!\right\}\right)\right) 
\tag{1}
\end{align}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Node classification 에서는 GNN 의 마지막 layer 에서 얻은 feature vector \(h_v^{(K)}\) 들로 prediction 을 수행합니다.  Graph classificaiton 의 경우 마지막 layer 에서 얻은 feature vector 들을 모아 \(\text{READOUT}\) 함수를 통해 graph representation \(h_G\) 를 표현하고, 이를 통해 prediction 을 수행합니다.&lt;/p&gt;

\[h_G = \text{READOUT}\left( \left\{\!\!\left\{ h_v^{(K)}:v\in V \right\}\!\!\right\} \right)
\tag{2}\]

&lt;p&gt;Graph representation \(h_G\) 가 node 의 ordering 에 따라 달라지지 않아야하기 때문에, \(\text{READOUT}\)  함수로 permutation invariant function 을 사용합니다. 간단한 예로 feature 들을 모두 더하는 summation 이 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;building-powerful-graph-neural-networks&quot;&gt;Building Powerful Graph Neural Networks&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;WL test 와 GNN 의 representational power 의 관계에 대해 알아보겠습니다.&lt;/p&gt;

&lt;h3 id=&quot;weisfeiler-lehman-test&quot;&gt;Weisfeiler-Lehman Test&lt;/h3&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Lemma 2.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;Let \(G_1\) and \(G_2\) be any two non-isomorphic graphs. If a graph neural network \(\mathcal{A}:\mathcal{G}\rightarrow\mathbb{R}^d\) maps \(G_1\) and \(G_2\) to different embeddings, the Weisfeiler-Lehman graph isomorphism test also decides \(G_1\) and \(G_2\) are not isomorphic.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Lemma 2 에 의해, GNN 의 discriminative power 가 WL test 보다 좋을 수 없다는 것을 알 수 있습니다. 즉 WL test 로 구분하지 못하는 그래프들에 대해서는, 예를 들어 다음의 그림과 같이 circular skip link graph 들에 대해서는 GNN 또한 구분할 수 없습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/How-Powerful-are-Graph-Neural-Networks/csl.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;

&lt;p&gt;Lemma 2 에 대한 증명의 핵심은 WL test 에서 feature vector 를 update 하는 과정이 injectivite 하다는 것입니다. 그렇다면, 과연 GNN 의 neighborhood aggregation 이 injective 할 때 WL test 와 같은 power 를 가질 수 있을까요? 이에 대한 답은 다음의 Theorem 3 를 통해 얻을 수 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Theorem 3.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;Let \(\mathcal{A}:\mathcal{G}\rightarrow\mathbb{R}^d\) be a GNN. With a sufficient number of GNN layers, \(\mathcal{A}\) maps any graphs \(G_1\) and \(G_2\) that the Weisfeiler-Lehman test of isomorphism decides as non-isomorphic, to different embeddings if the following conditions hold:&lt;/p&gt;

  &lt;p&gt;a) \(\mathcal{A}\) aggregates and updates node features iteratively with&lt;/p&gt;

\[h_v^{(k)} = \phi\left( h_v^{(k-1)},f\left(\left\{\!\!\left\{ h_u^{(k-1)}:u\in N(v) \right\}\!\!\right\}\right) \right)\]

  &lt;p&gt;where the functions \(f\), which operates on multisets, and \(\phi\) are injective.&lt;/p&gt;

  &lt;p&gt;b) \(\mathcal{A}\) ‘s graph-level readout, which operates on the multiset of node features \(\left\{\!\!\left\{  h_v^{(k)}\right\}\!\!\right\}\), is injective&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Theorem 3 에서 함수 \(f\) 와 \(\phi\) 는 각각 위에서 설명한 \(\text{AGGREGATE}\) 와 \(\text{COMBINE}\) 함수에 해당하며, graph-level readout 은 \(\text{READOUT}\) 함수를 의미합니다. 즉 \(\text{AGGREGATE}\), \(\text{COMBINE}\) 과 \(\text{READOUT}\) 이 모두 multiset 에 대해 injective 일때, GNN 은 WL test 와 같은 discriminative power 를 가질 수 있다는 것이 Theorem 3 의 결론입니다.&lt;/p&gt;

&lt;p&gt;Lemma 2 와 Theorem 3 에 의해, neighborhood aggregation scheme 을 사용하는 GNN 의 discriminative power 에 대한 upper bound 를 WL test 를 통해 나타낼 수 있습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;GNN is at most as powerful as WL test in distinguishing different graphs.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;그래프를 구분하는 능력에 있어 GNN 이 WL test 보다 성능이 떨어진다면,  GNN 을 쓰는 이유가 무엇인지에 대해 생각해보아야 합니다. GNN 의 가장 큰 장점은 바로 그래프 사이의 similarity 에 대해 학습할 수 있다는 것입니다. WL test 에서의 feature vector 는 label 로 one-hot encoding 에 불과합니다. 두 그래프가 다르다는 것은 확실히 알 수 있어도, 얼마나 다른지에 대해서는 알 수 없습니다. 하지만 GNN 의 feature vector 를 통해 그래프를 구분하는 것 뿐만 아니라, 비슷한 그래프를 비슷한 embedding 으로 보내주도록 학습할 수 있습니다. 즉 두 그래프가 얼마나 다른지에 대해서도 알 수 있습니다. 이런 특성 덕분에, 다양한 분야에서 GNN 이 훌륭한 성과를 보여준다고 생각합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;graph-isomorphism-network&quot;&gt;Graph Isomorphism Network&lt;/h3&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;WL test 와 같은 discriminative power 를 가지는 GNN 을 만들기 위해서는, Theorem 3 에 의해 \((1)\) 의 \(\text{AGGREGATE}\) 와 \(\text{COMBINE}\) 함수가 mutiset 에 대해 injective 해야합니다. 그렇다면, 먼저 multiset 에 대해 injective 한 함수가 존재하는지를 알아야합니다. 다음의 Lemma 5 와 Corollary 6 에서 답을 찾을 수 있습니다. 논문에서는 node 의 input feature space \(\chi\) 가 countable universe 라고 가정합니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Lemma 5.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;Assume \(\chi\) is countable. There exists a function \(f:\chi \rightarrow\mathbb{R}^n\) so that \(h(X)=\sum_{x\in X}f(x)\) is unique for each multiset \(X\subset\chi\) of bounded size. Moreover, any multiset function \(g\) can be decomposed as \(g(X)=\phi\left(\sum_{x\in X}f(x)\right)\) for some function \(\phi\).&lt;/p&gt;
&lt;/blockquote&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Corollary 6.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;Assume \(\chi\) is countable. There exists a function \(f:\chi \rightarrow\mathbb{R}^n\) so that for infinitely many choices of \(\epsilon\), including all irrational numbers, \(h(c,X)=(1+\epsilon)f(c) + \sum_{x\in X}f(x)\) is unique for each pair \((c,X)\) where \(c\in\chi\) and \(X\subset\chi\) is a multiset of bounded size. Moreover, any function \(g\) over such pairs can be decomposed as \(g(c,X)=\varphi\left( (1+\epsilon)f(c)+\sum_{x\in X}f(x) \right)\) for some function \(\varphi\).&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Lemma 5 와 Corollary 6 의 증명에서 핵심은, countable \(\chi\) 의 enumeration \(Z: \chi\rightarrow\mathbb{N}\) 와 bounded multiset \(X\) 에 대해 \(\vert X\vert&amp;lt;N\) 를 만족하는 \(N\) 을 사용해 \(f(x) = N^{-Z(x)}\) 를 정의하는 것입니다. 쉽게 말해, \(\chi\) 의 각 원소들을 나열하고 각 원소가 포함되었는지 아닌지를 \(N\) 진법으로 표현하는 것입니다.&lt;/p&gt;

&lt;p&gt;\((1)\) 에 Corollary 6 의 결과를 적용하면, 각 layer \(k=1,\cdots,K\) 에 대해 다음을 만족하는 함수 \(f^{(k)}\) 와 \(\varphi^{(k)}\) 가 존재합니다.&lt;/p&gt;

\[h_v^{(k)} = \varphi^{(k-1)}\left( (1+\epsilon)\;f^{(k-1)}\left(h_v^{(k-1)}\right)+\sum_{u\in N(v)}f^{(k-1)}\left(h_u^{(k-1)}\right) \right)
\tag{3}\]

&lt;p&gt;\((3)\) 에서 양변에 \(f^{(k)}\) 를 취해주면 다음과 같습니다.&lt;/p&gt;

\[f^{(k)}\left(h_v^{(k)}\right) = f^{(k)}\circ\varphi^{(k-1)}\left( (1+\epsilon)\;f^{(k-1)}\left(h_v^{(k-1)}\right)+\sum_{u\in N(v)}f^{(k-1)}\left(h_u^{(k-1)}\right) \right)
\tag{4}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\(k\) 번째 layer 에서 각 node 의 feature vector 를 \(f^{(k)}\left(h_v^{(k)}\right)\) 로 생각한다면, \((4)\) 를 다음과 같이 간단히 쓸 수 있습니다.&lt;/p&gt;

\[h_v^{(k)} = f^{(k)}\circ\varphi^{(k-1)}\left( (1+\epsilon)\;h_v^{(k-1)}+\sum_{u\in N(v)}h_u^{(k-1)} \right)
\tag{5}\]

&lt;p&gt;Universal approximation theorem 덕분에 두 함수의 composition \(f^{(k)}\circ\varphi^{(k-1)}\) 을, multi-layer perceptrons (MLPs) 을 통해 근사할 수 있습니다. 또한 \((5)\) 의 \(\epsilon\) 을 학습 가능한 parameter \(\epsilon^{(k)}\) 으로 설정한다면, \((5)\) 를 다음과 같이 neural network 모델로 표현할 수 있습니다.&lt;/p&gt;

\[h_v^{(k)} = \text{MLP}^{(k)}\left( \left(1+\epsilon^{(k)}\right)\;h_v^{(k-1)}+\sum_{u\in N(v)}h_u^{(k-1)}\right)
\tag{6}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Graph Isomorphism Network (GIN) 은 \((6)\) 을 layer-wise propagation rule 로 사용합니다. Theorem 3 로 인해 GIN 은 WL test 와 같은 discriminative power 를 가지므로, maximally powerful GNN 이라는 것을 알 수 있습니다. WL test 와 같은 discriminative power 를 가지는 모델로 GIN 이 유일하지 않을 수 있습니다. GIN 의 가장 큰 장점은 구조가 간단하면서도 powerful 하다는 것입니다.&lt;/p&gt;

&lt;p&gt;Node classification 에는 \((6)\) 의 GIN 을  바로 사용하면 되지만, graph classification 에는 추가로 graph-level readout function 이 필요합니다. Readout function 은 node 의 feature vector 들에 대한 함수입니다. 이 때 node 의 feature vector (representation) 은 layer 를 거칠수록 local 에서 global 하게 변합니다. Layer 의 수가 너무 많다면, global 한 특성만 남을 것이고, layer 의 수가 너무 적다면 local 한 특성만 가지게 됩니다. 따라서, readout function 을 통해 그래프를 구분하기 위해서는, 적당한 수의 layer 를 거쳐야 합니다.&lt;/p&gt;

&lt;p&gt;이런 특성을 반영하기 위해, GIN 은 각 layer 의 graph representation (\(\text{READOUT}(\,\cdot\,)\) 의 output) 을 concatenation 으로 모두 합쳐줍니다.  그렇다면 최종 결과는 각 layer 마다 나타나는 그래프의 구조적 정보를 모두 포함하게 됩니다.&lt;/p&gt;

\[h_G = \text{CONCAT}\left( \text{READOUT} \left(\left\{\!\!\left\{h_v^{(k)} \right\}\!\!\right\}\right) \,:\, k=0,1,\cdots,K\right)
\tag{7}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Theorem 3 를 다시 보면, \((7)\) 의 결과가 multiset 에 대해 injective 해야 maximally powerful GNN 을 만들 수 있습니다. Lemma 5 를 통해 multiset 에 대해 unique 한 summation 이 존재하기 때문에, 다음과 같이 각 layer 의 graph representation 을 정의하면, \(h_G\) 는 multiset 에 대해 injective 하게 됩니다.&lt;/p&gt;

\[\text{READOUT} \left(\left\{\!\!\left\{h_v^{(k)} \right\}\!\!\right\}\right) = \sum_{v\in V} f^{(k)}\left(h_v^{(k)}\right)\]

&lt;p&gt;따라서, graph classification 에서도 GIN 이 maximally powerful 하다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 node 의 input feature space \(\chi\) 가 countable 인 상황만 고려했지만, 실제로 그래프의 input data 가 countable space 라고 보장할 수 없습니다. \(\chi\) 가 \(\mathbb{R}^n\) 과 같이 continuous space 일 때에 대한 이론적인 연구가 필요해보입니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;less-powerful-but-still-interesting-gnns&quot;&gt;Less Powerful But Still Interesting GNNs&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 \((6)\) 의 두 가지 특징, MLP 와 feature vector summation 에 대한 ablation study 를 보여줍니다.&lt;/p&gt;

&lt;p&gt;다음의 두 가지 변화를 주면, 모델의 성능이 떨어짐을 확인합니다.&lt;/p&gt;

&lt;ol&gt;
  &lt;li&gt;MLP 대신 1-layer perceptron&lt;/li&gt;
  &lt;li&gt;Summation 대신 mean-pooling 또는 max-pooling&lt;/li&gt;
&lt;/ol&gt;

&lt;h3 id=&quot;1-layer-perceptrons-instead-of-mlps&quot;&gt;1-Layer Perceptrons instead of MLPs&lt;/h3&gt;

&lt;p&gt;GCN 의 layer-wise propagation rule 은 다음과 같습니다.&lt;/p&gt;

\[h_v^{(k)} = \text{ReLU}\left( W\cdot\text{MEAN}\left\{\!\!\left\{ h_u^{(k-1)} \,:\, u\in N(v)\cup\{v\}\right\}\!\!\right\}  \right)
\tag{8}\]

&lt;p&gt;\((6)\) 과 비교해보면, \(\text{MLP}\) 대신 1-layer perceptron \(\sigma\circ W\) 를 사용했음을 알 수 있습니다. Universal approximation theorem 은 MLP 에 대해 성립하지만, 일반적으로 1-layer perceptron 에 대해서는 성립하지 않습니다.  다음의 Lemma 7 은 1-layer perceptron 을 사용한 GNN 이 구분하지 못하는 non-isomorphic 그래프들이 존재함을 보여줍니다. 즉, 1-layer perceptron 으로는 충분하지 않다는 뜻입니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;&lt;strong&gt;Lemma 7.&lt;/strong&gt;&lt;/p&gt;

  &lt;p&gt;There exist finite multisets \(X_1\neq X_2\) so that for any linear mapping \(W\),&lt;/p&gt;

\[\sum_{x\in X_1} \text{ReLU}(Wx) = \sum_{x\in X_2} \text{ReLU}(Wx)\]
&lt;/blockquote&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h3 id=&quot;mean--max-pooling-instead-of-summation&quot;&gt;Mean / Max-Pooling instead of Summation&lt;/h3&gt;

&lt;p&gt;Aggregator \(h\) 를 사용한 GraphSAGE 의 layer-wise propagation rule 은 다음과 같습니다 [4].&lt;/p&gt;

\[h_v^{(k)} = \text{ReLU}\left( W\cdot \text{CONCAT}\left( h_v^{(k-1)}, h\left( \left\{\!\!\left\{ h_u^{(k-1)} \,:\, u\in N(v) \right\}\!\!\right\} \right) \right) \right)\]

&lt;p&gt;Max-pooling 과 mean-pooling 의 경우 aggregator \(h\) 는 다음과 같습니다.&lt;/p&gt;

&lt;p&gt; 
\(\begin{align}
&amp;amp; h_{max}\left( \left\{\!\!\left\{ h_u^{(k-1)} \,:\, u\in N(v) \right\}\!\!\right\} \right) 
= \text{MAX}\left( \left\{\!\!\left\{ f\left(h_u^{(k-1)}\right) \,:\, u\in N(v) \right\}\!\!\right\}  \right) \\
\\
&amp;amp; h_{mean}\left( \left\{\!\!\left\{ h_u^{(k-1)} \,:\, u\in N(v) \right\}\!\!\right\} \right) 
= \text{MEAN}\left( \left\{\!\!\left\{f\left(h_u^{(k-1)}\right) \,:\, u\in N(v) \right\}\!\!\right\}  \right)
\tag{9}
\end{align}\)&lt;/p&gt;

&lt;p&gt;여기서 \(f(x) = \text{ReLU}\left(Wx\right)\), \(\text{MAX}\) 와 \(\text{MEAN}\) 은 element-wise max 와 mean operator 입니다.&lt;/p&gt;

&lt;p&gt;\(h_{max}\) 와 \(h_{mean}\) 모두 multiset 에 대해 정의되며, permutation invariant 하기 때문에, aggregator 로써 역할을 잘 수행합니다. 하지만, 두 함수 모두 multiset 에 대해 injective 하지 않습니다. 다음의 예시를 통해 확인해보겠습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/How-Powerful-are-Graph-Neural-Networks/eg.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Figure 3 에서 node 의 색은 feature vector 를 의미합니다. 즉 같은 색을 가지면, 같은 feature vector 를 가집니다. 위에서 정의된 \(f\) 에 대해, \(f(red) &amp;gt; f(blue)&amp;gt;f(green)\) 을 만족한다고 가정하겠습니다. Figure 3-(a) 를 보면 non-isomorphic 한 두 그래프 모두 \(h_{max}\) 와 \(h_{mean}\) 의 결과가 \(f(blue)\) 로 같습니다. Figure 3-(c) 도 마찬가지로 non-isomorphic 한 두 그래프 모두 \(h_{max}=f(red)\), \(h_{mean}=\frac{1}{2}(f(red)+f(green))\) 으로 결과가 같습니다. Figure 3-(b) 의 경우 \(h_{mean}\) 은 값이 다르지만, \(h_{max}\) 의 값은 같습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((6)\) 에서는 다음과 같이 aggregator \(h\) 를 summation 으로 정의합니다.&lt;/p&gt;

\[h_{sum}\left( \left\{\!\!\left\{ h_u^{(k-1)} \,:\, u\in N(v) \right\}\!\!\right\} \right) 
= \sum_{u\in N(v)}f\left(h_u^{(k-1)}\right)\]

&lt;p&gt;\(h_{sum}\) 이 multiset 전체를 injective 하게 표현할 수 있고, \(h_{mean}\) 의 경우 multiset 의 distribution 을, \(h_{max}\) 의 경우 multiset 의 서로다른 원소들로 이루어진 set 을 표현할 수 있다고 설명합니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/How-Powerful-are-Graph-Neural-Networks/rank.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;

&lt;p&gt;따라서, max-pooling 과 mean-pooling 을 사용한 GraphSAGE 같은 경우 GIN 보다 representation power 가 떨어진다고 볼 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;experiment--result&quot;&gt;Experiment &amp;amp; Result&lt;/h2&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;논문에서는 GIN 과 다른 GNN 들의 graph classification 성능을 비교하기 위해, 4개의 bioinformatics datasets (MUTAG, PTC, NCI1, PROTEINS) 와 5개의 social network datasets (COLLAB, IMDB-BINARY, IMDB-MULTI, REDDIT-BINARY, REDDIT-MULTI5K) 에 대해 실험을 수행했습니다.&lt;/p&gt;

&lt;p&gt;GIN 모델로 \((6)\) 에서 \(\epsilon\) 을 학습하는 GIN-\(\epsilon\) 과, \(\epsilon\) 을 0 으로 고정한 GIN-0 를 선택했습니다. GIN 과 비교하기 위해 \((6)\) 의 summation 을 \((9)\) 와 같이 mean-pooling 또는 max-pooling 으로 바꾸거나, MLP 를 1-layer perceptron 으로 바꾼 모델들 (Figure 4 의 Mean - 1-layer 와 같은 variant 들을 의미합니다.) 을 실험 대상으로 선정했습니다.&lt;/p&gt;

&lt;p&gt;Baseline 모델로는 graph classification 의 state-of-the-art 성능을 보여주는 WL subtree kernel, C-SVM, Diffusion-convolutional neural network (DCNN), PATCHY-SAN, Deep Graph CNN (DGCNN), 그리고 Anonymous Walk Embeddings (AWL) 을 사용했습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/How-Powerful-are-Graph-Neural-Networks/train.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;

&lt;p&gt;먼저 representational power 를 확인하기 위해 GNN 들의 training accuracy 들을 비교합니다. 모델의 representational power 가 높다면, training set 에서의 accuracy 또한 높아져야합니다. Figure 4 를 보면 GIN-\(\epsilon\) 과 GIN-0 모두 training accuracy 가 거의 1 에 수렴하는 것을 볼 수 있습니다. GIN-\(\epsilon\) 의 경우 각 layer 의 parameter \(\epsilon^{(k)}\) 또한 학습하지만, GIN-0 와 큰 차이를 보이지는 않습니다. Figure 4 에서 1-layer perceptron 보다는 MLP 를 사용했을 때, mean / max-pooling 보다는 summation 을 사용했을 때 정확도가 대체로 더 높게 나타납니다.&lt;/p&gt;

&lt;p&gt;하지만 모든 GNN 모델들은 WL subtree kernel 의 정확도보다 낮은 것이 보입니다. Lemma 2 에서 설명했듯이, neighborhood aggregation scheme 을 사용하는 GNN 은 WL test 의 representational power 를 뛰어 넘을수 없다는 것을 확인할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/How-Powerful-are-Graph-Neural-Networks/test.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;
&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;

&lt;p&gt;Table 1 은 test set 에 대한 classification accuracy 를 보여줍니다. GIN 모델, 특히 GIN-0 모델의 성능이 가장 뛰어나다는 것을 확인할 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Xu, K., Hu, W., Leskovec, J., and Jegelka, S. (2019). &lt;a href=&quot;https://arxiv.org/pdf/1810.00826.pdf&quot;&gt;How powerful are graph neural networks?&lt;/a&gt; In
International Conference on Learning Representations.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Gilmer, J., Schoenholz, S. S., Riley, P. F., Vinyals, O., and Dahl, G. E. (2017). &lt;a href=&quot;https://arxiv.org/pdf/1704.01212.pdf&quot;&gt;Neural
message passing for quantum chemistry&lt;/a&gt;. In International Conference on Machine Learning, pages 1263–1272.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Zhengdao Chen, Soledad Villar, Lei Chen, and Joan Bruna. &lt;a href=&quot;https://arxiv.org/pdf/1905.12560.pdf&quot;&gt;On the equivalence between graph isomorphism testing and function approximation with GNNs&lt;/a&gt;. In Advances in Neural Information Processing Systems, pages 15868–15876, 2019.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;William L Hamilton, Rex Ying, and Jure Leskovec. &lt;a href=&quot;https://arxiv.org/pdf/1706.02216.pdf&quot;&gt;Inductive representation learning on large graphs&lt;/a&gt;.
In Advances in Neural Information Processing Systems (NIPS), pp. 1025–1035, 2017a.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="Analysis" /><summary type="html">[paper review] GIN, ICLR 2019</summary></entry><entry><title type="html">Semi-Supervised Classification with Graph Convolutional Networks</title><link href="https://harryjo97.github.io/paper%20review/Semi-Supervised-Classification-with-Graph-Convolutional-Networks/" rel="alternate" type="text/html" title="Semi-Supervised Classification with Graph Convolutional Networks" /><published>2021-01-13T20:00:00+09:00</published><updated>2021-01-13T20:00:00+09:00</updated><id>https://harryjo97.github.io/paper%20review/Semi-Supervised-Classification-with-Graph-Convolutional-Networks</id><content type="html" xml:base="https://harryjo97.github.io/paper%20review/Semi-Supervised-Classification-with-Graph-Convolutional-Networks/">&lt;p&gt;[paper review] : GCN, ICLR 2017&lt;/p&gt;

&lt;h2 id=&quot;introduction&quot;&gt;Introduction&lt;/h2&gt;

&lt;p&gt;논문에서 해결하고자 하는 문제는 다음과 같습니다.&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;Classifying nodes in a graph where labels are only available for a small subset of nodes.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;즉 그래프의 node 들 중 label 이 주어진 node 들의 수가 적은 상황에서 출발합니다.&lt;/p&gt;

&lt;p&gt;Graph Convolution Network 를 사용하기 이전에는, 주로 explicit graph-based regularization &lt;a href=&quot;https://www.aaai.org/Papers/ICML/2003/ICML03-118.pdf&quot;&gt;(Zhu et al., 2003)&lt;/a&gt; 을 이용하여 문제에 접근하였습니다. 이 방법은 supervised loss \(\mathcal{L}_0\) 에 graph Laplacian regularization 항 \(\mathcal{L}_{reg}\) 을 더한 loss function 을 학습에 사용합니다. Neural network 와 같이 differentiable 함수 \(f\) 와 feature vector matrix  \(X\), 그리고 unnormalized graph Laplacian \(L\) 로 Laplacian regularization 을 다음과 같이 정의합니다.&lt;/p&gt;

\[\mathcal{L} = \mathcal{L}_0 + \lambda\mathcal{L}_{reg},\;\;\; \mathcal{L}_{reg} = f(X)^T\,L\,f(X)
\tag{1}\]

&lt;p&gt;\(\mathcal{L}_{reg}\) 를 자세히 들여다보면, 그래프의 adjacency matrix \(A\) 에 대해 다음을 만족합니다.&lt;/p&gt;

\[f(X)^T\;L\;f(X) = \sum_{i,j} A_{ij} \|f(X_i)-f(X_j)\|^2\]

&lt;p&gt;\(\mathcal{L}_{reg}\) 의 값이 작다는 것은 곧 인접한 두 node 의 feature 가 비슷하다는 뜻입니다. 이와 같이 explicit graph-based regularization 은 그래프의 인접한 node 들은 비슷한 feature 를 가질 것이라는 가정을 전제로 하기 때문에, 일반적인 상황에서 제약을 받습니다.&lt;/p&gt;

&lt;p&gt;논문에서는 Explicit graph-based regularization 을 사용하지 않기 위해 그래프의 구조를 포함하는 neural network model \(f(X,A)\) 를 제시합니다.  [1] 에서 제시된 spectral convolution 과 [3] 의 truncated Chebyshev expansion 을 사용한 ChebyNet 을 발전시킨 Graph Convolutional Network (GCN) 을 통해 semi-supervised node classification 을 해결합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;fast-approximate-convolutions-on-graphs&quot;&gt;Fast Approximate Convolutions On Graphs&lt;/h2&gt;

&lt;h3 id=&quot;spectral-graph-convolution&quot;&gt;Spectral Graph Convolution&lt;/h3&gt;

&lt;p&gt;Graph signal \(x\in\mathbb{R}^N\) 와 filter \(g_{\theta}=\text{diag}(\theta)\) 에 대해 spectral convolution 은 다음과 같이 정의됩니다 [1, 2].&lt;/p&gt;

\[g_{\theta}\ast x = Ug_{\theta}U^Tx
\tag{2}\]

&lt;p&gt;여기서 \(U\)  는 normalized graph Laplacian \(L = I - D^{-1/2}AD^{-1/2}\) 의 eigenvector 로 이루어진 Fourier basis 이고, \(L=U\Lambda U^T\) 로 표현할 수 있습니다.&lt;/p&gt;

&lt;p&gt;Filter \(g_{\theta}\) 는 다음과 같이 \(L\) 의 eigenvalue 들의 함수로 생각할 수 있습니다 [3].&lt;/p&gt;

\[g_{\theta}(\Lambda) =
\begin{bmatrix}
g_{\theta}(\lambda_0) &amp;amp; &amp;amp; &amp;amp; \\
 &amp;amp; g_{\theta}(\lambda_1) &amp;amp; &amp;amp; \\
  &amp;amp; &amp;amp; \ddots &amp;amp; \\
  &amp;amp; &amp;amp; &amp;amp; g_{\theta}(\lambda_{N-1})
\end{bmatrix}\]

&lt;p&gt;\((2)\) 을 계산하기 위해서는 \(U\) 의 matrix multiplication 을 수행해야하며, 이는 \(O(N^2)\) 으로 상당히 복잡한 연산입니다. 또한 \(U\) 를 구하기 위한 eigendecomposition 은 복잡도가 \(O(N^3)\) 이므로, node 의 개수가 수천 수만개인 그래프에 대해서 \((2)\) 를 계산하는 것은 굉장히 힘듭니다.&lt;/p&gt;

&lt;p&gt;이를 해결하기 위해, truncated Chebyshev expansion 을 통해 \(g_{\theta}(\Lambda)\) 를 다음과 같이 근사합니다 [3, 5].&lt;/p&gt;

\[g_{\theta'}(\Lambda) \approx \sum^K_{k=0} \theta'_{k}T_k(\tilde{\Lambda})
\tag{3}\]

&lt;p&gt;여기서 \(\tilde{\Lambda} = \frac{2}{\lambda_{max}}\Lambda - I\) 로 정의하고, \(L\) 의 가장 큰 eigenvalue \(\lambda_{max}\) 를 사용해 Chebyshev expansion 을 위해 \(\Lambda\) 를  scaling 해준 것입니다.&lt;/p&gt;

&lt;p&gt;\((3)\) 의 근사를 \((2)\) 에 대입하면, \(\tilde{L} = \frac{2}{\lambda_{max}}L - I\) 에 대해 다음의 결과를 얻을 수 있습니다.&lt;/p&gt;

\[g_{\theta'}\ast x \approx \sum^K_{k=0} \theta'_kT_k(\tilde{L})x = y
\tag{4}\]

&lt;p&gt;\((4)\) 의 결과가 특별한 이유는 각 node 에 대해 localized 되어 있기 때문입니다. 우선 graph Laplacian \(L\) 은 다음과 같이 localization 특성을 가집니다 [5].&lt;/p&gt;

&lt;blockquote&gt;
  &lt;p&gt;\(\left(L^s\right)_{ij}\) 는 그래프의 두 node \(i\) 와 \(j\) 를 연결하는 path 들 중 길이가 \(s\) 이하인 path 들의 개수와 일치한다.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;\((4)\) 에서 \(L\) 의 \(K\)-th power 까지만 존재하기 때문에, \(y(i)\) 는 \(i\) 의 \(K\)-th order neighborhood signal 들의 합으로 표현할 수 있습니다. 따라서 \((4)\) 의 근사는 \(K\)-localized 됨을 확인할 수 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;layer-wise-linear-model&quot;&gt;Layer-wise Linear Model&lt;/h3&gt;

&lt;p&gt;\((4)\) 에서 \(K\) 가 클수록 더 많은 종류의 convolutional filter 를 얻을 수 있지만, 그만큼 계산이 복잡해지며 overfitting 의 가능성도 커집니다. 여러개의 convolutional layer 를 쌓아 deep model 을 만든다면, \(K\) 가 작아도 다양한 종류의 convolutional filter 를 표현할 수 있습니다. 특히 overfitting 의 가능성을 덜 수 있고, 한정된 자원에 대해서 $K$ 가 클 때보다 더 깊은 모델을 만들 수 있습니다.&lt;/p&gt;

&lt;p&gt;이 논문에서는 극단적으로 \(K=1\) 로 제한을 두었습니다. 또한 normalized graph Laplacian 의 eigenvalue 들은 \([0,2]\) 구간에 속하기 때문에 [6], \(\lambda_{max}\approx 2\) 로 근사합니다.이 경우 \((4)\) 는 다음과 같이 두 개의 parameter \(\theta'_0\) 와 \(\theta'_1\) 을 통해 표현할 수 있습니다.&lt;/p&gt;

\[g_{\theta'}\ast x \approx \theta'_0x + \theta'_1(L-I)x = \theta'_0x - \theta'_1D^{-1/2}AD^{-1/2}x\]

&lt;p&gt;더 나아가, 계산을 줄이기 위해 하나의 parameter \(\theta = \theta'_0 = -\theta'_1\) 만을 사용한다면, 다음과 같은 간단한 결과를 얻게됩니다.&lt;/p&gt;

\[g_{\theta}\ast x \approx \theta(I + D^{-1/2}AD^{-1/2})x
\tag{5}\]

&lt;p&gt;\(M = I + D^{-1/2}AD^{-1/2}\) 의 eigenvalue 는 \([0,2]\) 에 속합니다 [Appendix A]. 그렇기 때문에, \((5)\) 를 사용한 layer 를 여러개 쌓아 deep model 을 만든다면 exploding / vanishing gradient problem 과 같이 불안정한 학습이 이루어질 수 있습니다.&lt;/p&gt;

&lt;p&gt;논문에서는 이를 해결하기 위해 renormalization trick 을 사용합니다. \(\tilde{A} = A + I\) 와 \(\tilde{D}_{ii} = \sum_j \tilde{A}_{ij}\)  에 대해, \((5)\) 에서 \(I + D^{-1/2}AD^{-1/2}\) 대신 \(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\) 를 이용해 다음과 같이 convolutional filter 를 정의합니다 [Appendix B].&lt;/p&gt;

\[g_{\theta}\ast x \approx \theta\, \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} x
\tag{6}\]

&lt;p&gt;\((6)\) 의 결과는 각 node 가 1차원의 feature 를 가질 때로 한정되어 있습니다. 이제 각 node 마다 \(C\) 차원의 feature vector 를 가지는 상황을 고려하겠습니다. 주어진 signal \(X\in\mathbb{R}^{N\times C}\) 와 \(F\) 개의 feature map 에 대해서 \((6)\) 을 다음과 같이 일반화할 수 있습니다 [Appendix C].&lt;/p&gt;

\[Z = \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}X\Theta
\tag{7}\]

&lt;p&gt;여기서 \(\Theta\in\mathbb{R}^{C\times F}\) 는 filter의 parameter matrix 이고 \(Z\in\mathbb{R}^{N\times F}\) 가 filtering 의 결과입니다. 특히 \(\Theta\) 는 그래프의 모든 node 들에 대해 동일하게 사용되기 때문에, CNN 의 filter 와 같이 weight-sharing 의 관점에서 큰 의미가 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;\((7)\) 을 사용해 muli-layer GCN 의 layer-wise propagation rule 을 정의할 수 있습니다. \(l\) 번째 layer 와 \(l+1\) 번째 layer 의 activation 을 다음과 같이 쓰면,&lt;/p&gt;

\[H^{(l)}\in\mathbb{R}^{N\times C_l}\, , \;\; H^{(l+1)}\in\mathbb{R}^{N\times C_{l+1}}\]

&lt;p&gt;trainable weight matrix \(W^{(l)}\in\mathbb{R}^{C_l\times C_{l+1}}\) 와 activation function \(\sigma\) (e.g. ReLU, tanh) 를 사용해 다음과 같이 propagation rule 을 정의할 수 있습니다.&lt;/p&gt;

\[H^{(l+1)} = \sigma\left( \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\,H^{(l)}W^{(l)} \right)
\tag{8}\]

&lt;p&gt;\((8)\) 에서 혼동하지 말아야 점은, 각 layer 들에 대해 그래프의 구조 (node 들과 node 들의 연결 상태) 는 변하지 않고, 각 node 에 주어진 feature vector 의 dimension \(C_l\) 만 변한다는 것입니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Semi-Supervised-Classification-with-Graph-Convolutional-Networks/gcn.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;semi-supervised-node-classification&quot;&gt;Semi-Supervised Node Classification&lt;/h2&gt;

&lt;h3 id=&quot;example--two-layer-gcn&quot;&gt;Example : Two-layer GCN&lt;/h3&gt;

&lt;p&gt;\((8)\) 의 propagation rule 을 사용해 node classification 을 위한 two-layer GCN 을 보겠습니다.. 먼저 전처리 단계에서 \(\hat{A} = \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\) 를 계산하여 다음과 같이 두 개의 layer 를 가지는 model 을 만들 수 있습니다.&lt;/p&gt;

\[Z = \text{softmax}\left( \hat{A}\;\text{ReLU}\left( \hat{A}XW^{(0)} \right)W^{(1)} \right)
\tag{9}\]

&lt;p&gt;마지막 output layer 에서 activation function 으로 softmax 를 각 행 별로 적용해줍니다. 
Loss function 으로 label 이 있는 node 들에 대해서만 cross-entropy error 를 계산합니다.&lt;/p&gt;

\[\mathcal{L} = -\sum_{l\in\text{labled}}\sum^{\text{output dim}}_{f=1} Y_{lf}\ln Z_{lf}\]

&lt;p&gt;이를 통해 \((9)\) 의 weight matrix \(W^{(0)}\) 와 \(W^{(1)}\) 은 gradient descent 를 통해 업데이트 합니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;experiments--results&quot;&gt;Experiments &amp;amp; Results&lt;/h2&gt;

&lt;p&gt;실험 방법 및 데이터에 관해서 더 자세한 설명은 &lt;a href=&quot;https://arxiv.org/pdf/1603.08861.pdf&quot;&gt;Yang et al., 2016&lt;/a&gt; 을 참고하기 바랍니다.&lt;/p&gt;

&lt;h3 id=&quot;datasets&quot;&gt;Datasets&lt;/h3&gt;

&lt;p&gt;논문에서는 크게 네 가지 dataset : Citeseer, Cora, Pubmed, NELL 을 실험에 사용했습니다.&lt;/p&gt;

&lt;p&gt;이들 중 Citeseer, Cora, 그리고 Pubmed  는 citation network dataset 으로, 각 node 는 문서들이며 edge 는 citation link 를 의미합니다.  NELL 은 knowledge graph 에서 추출된 이분 그래프 dataset 으로 relation node 와 entity node 모두 사용했습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Semi-Supervised-Classification-with-Graph-Convolutional-Networks/dataset.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;h3 id=&quot;node-classification&quot;&gt;Node Classification&lt;/h3&gt;

&lt;p&gt;각 데이터셋에 대한 baseline method 들과 two-layer GCN 의 classification accuracy 는 다음과 같습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Semi-Supervised-Classification-with-Graph-Convolutional-Networks/result1.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;GCN 의 정확도가 다른 baseline method 들에 비해 월등히 높은 것을 볼 수 있습니다. 특히 baseline method 들 중 정확도가 가장 높은  Planetoid 와 비교해, GCN 의 수렴 속도가 훨씬 빠르다는 것을 알 수 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;evaluation-of-propagation-model&quot;&gt;Evaluation of Propagation Model&lt;/h3&gt;

&lt;p&gt;위에서 제시된 다양한 propagation model 들의 performance 를 비교한 결과는 다음과 같습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Semi-Supervised-Classification-with-Graph-Convolutional-Networks/result2.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;\((7)\) 에서 사용한 renormalization trick 이 가장 높은 정확도를 보여줍니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;appendix&quot;&gt;Appendix&lt;/h2&gt;

&lt;h3 id=&quot;a--largesest-eigenvalue-of-m&quot;&gt;A.  Largesest Eigenvalue of \(M\)&lt;/h3&gt;

&lt;p&gt;\(M = I + D^{-1/2}AD^{-1/2}\) 가 real symmetric matrix 이기 때문에, Courant-Fischer 정리에 의해 \(M\) 의 가장 큰 eigenvalue \(\mu\) 는 다음을 만족합니다.&lt;/p&gt;

\[\mu = \sup_{\|x\|=1} x^TMx\]

&lt;p&gt;\(L\) 의 정의에 의해 \(M = 2I-L\) 이며 \(L\) 은 positive semi-definite matrix 이기 때문에, \(\|x\|=1\) 를 만족하는 \(x\in\mathbb{R}^N\) 에 대해 다음이 성립합니다.&lt;/p&gt;

\[x^TMx 
=x^T(2I-L)x
= 2 - x^TLx \leq 2\]

&lt;p&gt;따라서,&lt;/p&gt;

\[\mu = \sup_{\|x\|=1} x^TMx \leq 2\]

&lt;h3 id=&quot;b-about-renormalization-trick&quot;&gt;B. About Renormalization Trick&lt;/h3&gt;

&lt;p&gt;\(I + D^{-1/2}AD^{-1/2}\) 와 \(\tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2}\) 의 matrix 를 자세히 살펴보면 다음과 같습니다.&lt;/p&gt;

\[I + D^{-1/2}AD^{-1/2} = \begin{cases}
1 &amp;amp; i=j \\
A_{ij}/\sqrt{D_{ii}D_{jj}} &amp;amp; i\neq j
\end{cases}\]

\[\tilde{D}^{-1/2}\tilde{A}\,\tilde{D}^{-1/2} = \begin{cases}
1/(D_{ii}+1) &amp;amp; i=j \\
A_{ij}/\sqrt{(D_{ii}+1)(D_{jj}+1)} &amp;amp; i\neq j
\end{cases}\]

&lt;h3 id=&quot;c-generalization-to-high-dimensional-feature-vectors&quot;&gt;C. Generalization to high dimensional feature vectors&lt;/h3&gt;

&lt;p&gt;먼저 filter 의 개수가 1개일 때를 생각하겠습니다. 각 node 가 \(C\) 차원의 feature vector 를 가질 때, 이를 signal \(X\in\mathbb{R}^{N\times C}\) 로 표현할 수 있습니다.&lt;/p&gt;

\[X = \begin{bmatrix}
\vert &amp;amp; &amp;amp; \vert \\
x_1 &amp;amp; \cdots &amp;amp; x_C \\
\vert &amp;amp; &amp;amp; \vert
\end{bmatrix}\]

&lt;p&gt;\(X\) 의 각 column 은 특정 feature 에 대한 signal \(x_{i}\in\mathbb{R}^N\) 입니다. 각 feature 마다 convolutional filter \((6)\) 을 적용해 새로운 feature \(Z\in\mathbb{R}^N\) 를 얻어내는 과정을 다음과 같이 표현할 수 있습니다.&lt;/p&gt;

\[\begin{align}
Z 
&amp;amp;= \sum^{C}_{i=1} \hat{A}x_i\theta_i\\
&amp;amp;= \begin{bmatrix}
\vert &amp;amp; &amp;amp; \vert \\
\hat{A}x_1 &amp;amp; \cdots &amp;amp; \hat{A}x_C \\
\vert &amp;amp; &amp;amp; \vert
\end{bmatrix}
\begin{bmatrix}
\theta_1 \\
\vdots \\
\theta_C
\end{bmatrix} \\
\\
&amp;amp;= \hat{A}\;
\begin{bmatrix}
\vert &amp;amp; &amp;amp; \vert \\
x_1 &amp;amp; \cdots &amp;amp;x_C \\
\vert &amp;amp; &amp;amp; \vert
\end{bmatrix}
\begin{bmatrix}
\theta_1 \\
\vdots \\
\theta_C
\end{bmatrix}
= \hat{A}X\Theta
\end{align}\]

&lt;p&gt;이제 Filter 의 개수가 \(F\) 개라면, \(i\) 번째 filter 로 만들어진 새로운 feature \(Z_i = \hat{A}X\Theta_i\) 들에 대해 다음과 같이 정리할 수 있습니다.&lt;/p&gt;

\[\begin{align}
Z 
&amp;amp;= \begin{bmatrix}
\vert &amp;amp; &amp;amp; \vert \\
Z_1 &amp;amp; \cdots &amp;amp; Z_F \\
\vert &amp;amp; &amp;amp; \vert
\end{bmatrix} 
= \begin{bmatrix}
\vert &amp;amp; &amp;amp; \vert \\
\hat{A}X\Theta_1 &amp;amp; \cdots &amp;amp; \hat{A}X\Theta_F \\
\vert &amp;amp; &amp;amp; \vert
\end{bmatrix} \\
\\
&amp;amp;= \hat{A}X\begin{bmatrix}
\vert &amp;amp; &amp;amp; \vert \\
\Theta_1 &amp;amp; \cdots &amp;amp;\Theta_F \\
\vert &amp;amp; &amp;amp; \vert
\end{bmatrix}
= \hat{A}X\Theta
\end{align}\]

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann LeCun. &lt;a href=&quot;https://arxiv.org/pdf/1312.6203.pdf&quot;&gt;Spectral networks and locally
connected networks on graphs&lt;/a&gt;. In International Conference on Learning Representations (ICLR),
2014.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;M. Henaff, J. Bruna, and Y. LeCun. &lt;a href=&quot;https://arxiv.org/pdf/1506.05163.pdf&quot;&gt;Deep Convolutional Networks on Graph-Structured Data&lt;/a&gt;.
arXiv:1506.05163, 2015.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. &lt;a href=&quot;https://arxiv.org/pdf/1606.09375.pdf&quot;&gt;Convolutional neural networks on
graphs with fast localized spectral filtering&lt;/a&gt;. In Advances in neural information processing systems
(NIPS), 2016.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Thomas N. Kipf and Max Welling. &lt;a href=&quot;https://arxiv.org/pdf/1609.02907.pdf&quot;&gt;Semi-supervised classification with graph convolutional networks&lt;/a&gt;.
In International Conference on Learning Representations (ICLR), 2017.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;David K Hammond, Pierre Vandergheynst, and Remi Gribonval. &lt;a href=&quot;https://arxiv.org/pdf/0912.3848.pdf&quot;&gt;Wavelets on graphs via spectral
graph theory&lt;/a&gt;. Applied and Computational Harmonic Analysis, 30(2):129–150, 2011.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;F. R. K. Chung. Spectral Graph Theory, volume 92. American Mathematical Society, 1997.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;paper review&quot;]" /><category term="GCN" /><summary type="html">[paper review] : GCN, ICLR 2017</summary></entry><entry><title type="html">Weisfeiler-Lehman Algorithm</title><link href="https://harryjo97.github.io/theory/Weisfeiler-Lehman-Algorithm/" rel="alternate" type="text/html" title="Weisfeiler-Lehman Algorithm" /><published>2021-01-12T19:00:00+09:00</published><updated>2021-01-12T19:00:00+09:00</updated><id>https://harryjo97.github.io/theory/Weisfeiler-Lehman-Algorithm</id><content type="html" xml:base="https://harryjo97.github.io/theory/Weisfeiler-Lehman-Algorithm/">&lt;p&gt;Weisfeiler-Lehman Algorithm&lt;/p&gt;

&lt;h2 id=&quot;graph-isomorphism&quot;&gt;Graph Isomorphism&lt;/h2&gt;

&lt;p&gt;주어진 두 그래프 \(G = (V_{G},E_{G})\) 와 \(H=(V_{H}, E_{H})\) 에 대해, 두 그래프가 isomorphic 하다는 것은 다음을 만족하는 bijection \(f:V_{G}\rightarrow V_{H}\) 가 존재한다는 뜻입니다.&lt;/p&gt;

\[u, v \text{ are adjacent in }G \iff f(u), f(v) \text{ are adjacent in }H\]

&lt;p&gt;즉 \(G\) 에서 edge 로 이웃한 모든 node 들의 쌍에 대해, \(H\) 에서 대응되는 각 node 들의 쌍 또한 edge 로 이웃해 있을 때 isomorphic 하다고 표현합니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/isomorphism.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;
&lt;p&gt;위의 그림에서 보면, 각 그래프에서 같은 숫자를 가진 node 들끼리 대응 되기 때문에, 두 그래프는 isomorphic 합니다.&lt;/p&gt;

&lt;h2 id=&quot;weisfeiler-lehman-algorithm&quot;&gt;Weisfeiler-Lehman Algorithm&lt;/h2&gt;

&lt;p&gt;주어진 두 그래프가 isomorphic 한지를 확인하는 방법으로 Weisfeiler-Lehman algorithm 이 있습니다. 보통 줄여서 WL 알고리즘 혹은 WL test 라고 부릅니다.&lt;/p&gt;

&lt;p&gt;1차원의 WL 알고리즘은 다음과 같습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/algorithm.PNG&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;
&lt;p&gt;1 차원 WL 알고리즘을 통해 regular graph 를 제외한 대부분의 그래프에 대한 node embedding 이 가능합니다.&lt;/p&gt;

&lt;p&gt;주의할 점은 WL 알고리즘의 결과가 다르다면 두 그래프는 확실히 isomorphic 하지 않지만, 결과가 같다고 해서 두 그래프가 isomorphic 하다고는 결론 지을 수 없습니다. Isomorphic 하지 않은 두 그래프의 WL 알고리즘의 결과는 같을 수 있기 때문에, Graph Isomorphism 에 대한 완벽한 해결법이라고는 할 수 없습니다. WL  알고리즘의 반례로는 Reference [3] 을 참고하기 바랍니다.&lt;/p&gt;

&lt;h3 id=&quot;example&quot;&gt;Example&lt;/h3&gt;

&lt;p&gt;다음의 두 그래프에 대해 WL 알고리즘을 적용해보겠습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-0.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;주어진 두 그래프에 대해 initial node coloring  \(h^{(0)}_{i}=1\) 을 주겠습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-1.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;각 node 에 대해 이웃한 node 들의 coloring 정보를 모읍니다. 다음과 같이 multi-set 으로 표시하겠습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-2.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;이 예시에서는 편의상 hash 함수로 identity 함수를 사용하겠습니다. 
다음과 같이 1 번째 iteration 의 coloring \(h^{(1)}_{i}\) 를 계산할 수 있습니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-3.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;다시 각 node 에 대해 이웃한 node 들의 coloring 정보를 모은 후,&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-4.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;2 번째 iteration 의 coloring \(h^{(2)}_i\) 를 계산해 줍니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-5.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;위의 과정을 반복해 3 번째 iteration 의 coloring \(h^{(3)}_i\) 를 계산해 줍니다.&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-6.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p align=&quot;center&quot;&gt;
    &lt;img src=&quot;/assets/post/Weisfeiler-Lehman-Algorithm/eg-7.png&quot; style=&quot;max-width: 100%; height: auto&quot; /&gt;	
&lt;/p&gt;

&lt;p&gt;3 번째 iteration 의 coloring 으로 인한 node 들의 분할이 2 번째 iteration 의 분할과 동일하므로, 알고리즘을 끝냅니다. 마지막 그림에서 보다시피, 두 그래프에 대해 WL 알고리즘을 통한 node 들의 분할이 일치합니다. 두 그래프는 실제로 isomorphic 하지만, WL 알고리즘의 결과만으로는 판별할 수 없습니다.&lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Brendan L. Douglas. &lt;a href=&quot;https://arxiv.org/pdf/1101.5211.pdf&quot;&gt;The Weisfeiler-Lehman method and graph isomorphism testing&lt;/a&gt;. arXiv preprint
arXiv:1101.5211, 2011.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;David Bieber. &lt;a href=&quot;https://davidbieber.com/post/2019-05-10-weisfeiler-lehman-isomorphism-test/&quot;&gt;The Weisfeiler-Lehman Isomorphism Test&lt;/a&gt;&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;J. Cai, M. Furer, and N. Immerman. An optimal lower bound on the number of variables for graph identification. Combinatorica, 12(4):389–410, 1992.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;theory&quot;]" /><category term="Analysis" /><summary type="html">Weisfeiler-Lehman Algorithm</summary></entry><entry><title type="html">Polynomial Approximation Using Chebyshev Expansion</title><link href="https://harryjo97.github.io/theory/Polynomial-Approximation-of-Spectral-Filtering/" rel="alternate" type="text/html" title="Polynomial Approximation Using Chebyshev Expansion" /><published>2021-01-04T22:00:00+09:00</published><updated>2021-01-04T22:00:00+09:00</updated><id>https://harryjo97.github.io/theory/Polynomial-Approximation-of-Spectral-Filtering</id><content type="html" xml:base="https://harryjo97.github.io/theory/Polynomial-Approximation-of-Spectral-Filtering/">&lt;p&gt;Graph Convolutional Network 이해하기 : (5) Polynomial approximation using Chebyshev expansion&lt;/p&gt;

&lt;h2 id=&quot;chebyshev-polynomial&quot;&gt;Chebyshev Polynomial&lt;/h2&gt;

&lt;p&gt;Chebyshev polynomial \(\{T_{k}(x)\}_{k\geq 0}\) 는 다음과 같이 점화식으로 정의됩니다.&lt;/p&gt;

\[T_k(x) = 2xT_{k-1}(x) - T_{k-2}(x)
\;\; \text{ with } \;\; T_0(x) = 1 ,\; T_1(x) = x
\tag{1}\]

&lt;p&gt;특히 Chebyshev polynomial \(\{T_{k}(x)\}_{k\geq 0}\) 는 \(L^2\left( [-1,1],\, \frac{dx}{\sqrt{1-x^2}} \right)\) 의 orthogonal basis 를 이루기 때문에 \(h\in L^2\left( [-1,1],\, \frac{dx}{\sqrt{1-x^2}} \right)\) 에 대해, 다음과 같이 uniformly convergent 한 Chebyshev expansion 이 존재합니다.&lt;/p&gt;

\[h(x) = \frac{1}{2}c_0 + \sum^{\infty}_{k=1} c_kT_k(x)
\tag{2}\]

&lt;p&gt;\((2)\) 에서 Chebyshev coefficeint \(c_k\) 는 다음과 같이 계산할 수 있습니다.&lt;/p&gt;

\[c_k = \frac{2}{\pi}\int^1_{-1} \frac{T_k(x)h(x)}{\sqrt{1-x^2}}dx
\tag{$\ast$}\]

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;truncated-chebyshev-expansion&quot;&gt;Truncated Chebyshev Expansion&lt;/h2&gt;

&lt;p&gt;Filter \(g_{\theta}\) 에 대한 spectral convolution 의 결과 \(f_{out}\) 은 다음과 같습니다.&lt;/p&gt;

\[f_{out} 
= Ug_{\theta}(\Lambda)U^T\;f_{in}
\tag{3}\]

&lt;p&gt;\((3)\) 을 계산하기 위해서는 Fourier basis \(U\) 가 필요하기 때문에, graph Laplacian \(L\) 의 eigenvector 를 모두 찾아야 합니다. \(N\) 개의 node 를 가지는 그래프에 대해서, QR decomposition 과 같은 eigenvalue decomposition 의 computational complexity 의 \(O(N^3)\) 입니다. 즉 node 가 수천개 혹은 수만개 이상인 그래프에 대해서 직접 \((3)\) 을 계산하는 것은 현실적으로 불가능합니다.&lt;/p&gt;

&lt;p&gt;따라서, 그래프의 크기가 큰 경우에는 \((3)\) 을 근사할 수 있는 효율적인 방법이 필요합니다. 만약 \(g_{\theta}\) 가 order \(K\) polynomial \(\sum^K_{k=0} a_k x^k\) 이라면, \((3)\) 을 다음과 같이 쓸 수 있습니다.&lt;/p&gt;

\[\begin{align}
f_{out}
&amp;amp;= U\left(\sum^{N-1}_{k=0} a_k\Lambda^k \right)U^T f_{in} \\
&amp;amp;= \sum^{K}_{k=0} a_k\left( U\Lambda U^T \right)^k f_{in} 
= g_{\theta}(L)f_{in}
\tag{4}
\end{align}\]

&lt;p&gt;\((4)\) 에서 볼 수 있듯이, Fourier basis \(U\)  없이도 \((3)\) 의 결과를 얻을 수 있습니다. 만약 \(g_{\theta}\) 에 대한 polynomial approximant \(p\) 를 찾을 수 있다면, \(p\) 를 사용해 \((4)\) 와 같이 \((3)\) 을 효율적으로 근사할 수 있습니다.&lt;/p&gt;

&lt;p&gt;만약 \(p\) 가 \(L\) 의 spectrum 에 대한 upper bound \(\lambda_{max}\) 에 대해 다음의 조건을 만족한다면,&lt;/p&gt;

\[\left\vert g_{\theta}(x) - p(x) \right\vert \leq B &amp;lt; \infty
\;\;\text{ for all }\;\; x\in [0,\lambda_{max}]
\tag{5}\]

&lt;p&gt;Polynomial \(p(L)\) 과의 spectral convolution \(\tilde{f}_{out} = p(L)f_{in}\) 을 통해, 다음과 같이 \((3)\) 을 근사할 수 있습니다 [3].&lt;/p&gt;

\[\begin{align}
\vert f_{out}(i) - \tilde{f}_{out}(i) \vert 
&amp;amp;= \left\vert \sum_{l} g_{\theta}(\lambda_l)\hat{f}(\lambda_l)u_l(i) - \sum_{l} p(\lambda_l)\hat{f}(\lambda_l)u_l(i) \right\vert \\
\\
&amp;amp;\leq \sum_{l} \vert g_{\theta}(\lambda_l) - p(\lambda_l) \vert \left\vert \hat{f}(\lambda_l)u_l(i) \right\vert \\
&amp;amp;\leq B \left( \sum_l \left\vert \hat{f}(\lambda_l) \right\vert^2\sum_l \vert u_l(i) \vert^2 \right)^{1/2} 
= B\;\|f\| 
\tag{6}
\end{align}\]

&lt;p&gt;이 때 \(f_{out}\) 과 \(\tilde{f}_{out}\) 에 대한 오차 \((6)\) 을 줄이기 위해서는, \(g_{\theta}\) 와 \(p\) 에 대한 \(L_{\infty}\) error \((5)\) 를  최소화해야 합니다. 만약  \(p\) 가 order \(K\) polynomial 이라면, \((5)\) 는 \(p\) 가 minimax polynomial of order \(K\) 일 때 최소가 됩니다. 더 나아가, minimax polynomial 은 truncated Chebyshev expansion 을 통해 충분히 근사할 수 있습니다.&lt;/p&gt;

&lt;p&gt;따라서, \((6)\) 의 오차를 줄이기 위해 \(p\) 로 \(g_{\theta}\) 의 truncated Chebyshev expansion 을 선택할 수 있습니다. 하지만  \(g_{\theta}\) 는 \(L\) 의 spectrum 을 포함하는 domain 에서 정의된 함수이기 때문에, \((2)\) 를 적용하기 위해서는 domain 의 변환이 필요합니다. \(L\) 의 eigenvalue 들은 모두 \([0, \lambda_{max}]\) 구간에 속하기 때문에 \(h_{\theta}\) 를 다음과 같이 정의하면 \(g_{\theta}\) 를 \([-1,1]\) 에서 정의된 함수로 바꿀 수 있습니다.&lt;/p&gt;

\[h_{\theta}(x) = g_{\theta}\left( \frac{\lambda_{\max}}{2}(x+1) \right)\]

&lt;p&gt;\((2)\) 를 \(h_{\theta}\) 에 적용하고 order \(K\) 까지의 truncation 을 생각하면, 다음과 같이 \(h_{\theta}\) 를 근사할 수 있습니다.&lt;/p&gt;

\[h_{\theta}(x) \approx \frac{1}{2}c_0 + \sum^{K}_{k=1} c_kT_k(x)\]

&lt;p&gt;\(\tilde{L} = \frac{2}{\lambda_{max}}L - I\) 에 대해 \(g_{\theta}(L) = h_{\theta}(\tilde{L})\) 를 만족하기 때문에, \(p\) 를 다음과 같이 정의합니다.&lt;/p&gt;

\[p(\tilde{L}) = h_{\theta}(\tilde{L}) =  \frac{1}{2}c_0I + \sum^{\infty}_{k=1} c_kT_k(\tilde{L})
\tag{7}\]

&lt;p&gt;\((7)\) 을 사용하면, Fourier basis \(U\) 를 이용하지 않고도 \((3)\) 에 대한 근사가 가능합니다.&lt;/p&gt;

\[\begin{align}
&amp;amp; Ug_{\theta}(\Lambda)U^T 
= Uh_{\theta}(\tilde{\Lambda})U^T 
\approx Up(\tilde{\Lambda})U^T = p(\tilde{L}) \\
\\
&amp;amp; f_{out} = Ug_{\theta}(\Lambda)U^Tf_{in} \approx p(\tilde{L})f_{in}
\tag{8}
\end{align}\]

&lt;p&gt; &lt;/p&gt;

&lt;p&gt;마지막으로, 두 가지 확인해야할 것이 있습니다. 첫번 째로, \(\tilde{L}\) 을 계산하기 위해서 \(\lambda_{max}\) 에 대한 정보가 필요합니다. Spectrum 의 upper bound \(\lambda_{max}\) 는 Arnoldi iteration 혹은 Jacobi-Davidson method 등을 사용하면 \(L\) 의 전체 spectrum 을 찾는 것에 비해서 훨씬 쉽게 구할 수 있습니다.&lt;/p&gt;

&lt;p&gt;두번 째로, \(p(\tilde{L})\) 을 계산하기 위해서는 Chebyshev coefficient \(c_k\) 에 대해 알아야합니다. 이는 \((\ast)\) 를 통해 이론적으로 계산할 수 있지만, 현실적으로 도움이 되지 않습니다. 여기서, neural network 가 등장합니다. Universal approximation theorem 에 의해 \((7)\) 을 근사할 수 있는 neural network 가 존재합니다. 따라서, coefficient \(c_k\) 를 parameter 로 학습하는 neural network 가 바로 ChebNet 입니다 [1].&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;advantage-of-using-chebyshev-expansion&quot;&gt;Advantage of Using Chebyshev Expansion&lt;/h2&gt;

&lt;p&gt;\((8)\) 과 같이 truncated Chebyshev expansion 을 통한 근사는 다음과 같은 두 가지 이점이 있습니다.&lt;/p&gt;

&lt;h3 id=&quot;fast-filtering-using-recurrence-relation&quot;&gt;Fast filtering using recurrence relation&lt;/h3&gt;

&lt;p&gt;Chebyshev polynomial 의 중요한 특성은 \((1)\) 의 점화식을 통해 재귀적으로 계사할 수 있다는 것입니다. Graph Laplacian \(L\) 에서부터 시작해 재귀적 연산으로 order \(K\) polynomial \(T_K\) 까지 구하는 computational cost 는 \(L\) 이 sparse matrix 일 때 \(O(K\vert E\vert)\) 입니다.&lt;/p&gt;

&lt;h3 id=&quot;localized-filter&quot;&gt;Localized Filter&lt;/h3&gt;

&lt;p&gt;\((8)\) 의 결과 \(p(\tilde{L})f_{in}\) 은 각 vertex \(i\) 에 대해 \(i\) 의 \(K\)- hop local neighborhood 만을 이용해 표현할 수 있습니다. 이를 통해 CNN 의 중요한 특성인 locality 가 그래프에서 일반화될 수 있습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;lanczos-algorithm&quot;&gt;Lanczos Algorithm&lt;/h2&gt;

&lt;p&gt;\((3)\) 을 효율적으로 계산하는 다른 해결 방법으로는 Lanczos Algorithm 이 있습니다. &lt;a href=&quot;https://arxiv.org/pdf/1901.01484.pdf&quot;&gt;LanczosNet: Multi-Scale Deep Graph Convolutional Networks&lt;/a&gt; 의 paper review 를 통해 더 자세히 설명하겠습니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. &lt;a href=&quot;https://arxiv.org/pdf/1606.09375.pdf&quot;&gt;Convolutional neural networks on
graphs with fast localized spectral filtering&lt;/a&gt;. In Advances in neural information processing systems
(NIPS), 2016.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;Thomas N. Kipf and Max Welling. &lt;a href=&quot;https://arxiv.org/pdf/1609.02907.pdf&quot;&gt;Semi-supervised classification with graph convolutional networks&lt;/a&gt;.
In International Conference on Learning Representations (ICLR), 2017.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;David K Hammond, Pierre Vandergheynst, and Remi Gribonval. &lt;a href=&quot;https://arxiv.org/pdf/0912.3848.pdf&quot;&gt;Wavelets on graphs via spectral
graph theory&lt;/a&gt;. Applied and Computational Harmonic Analysis, 30(2):129–150, 2011.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;theory&quot;]" /><category term="GCN" /><summary type="html">Graph Convolutional Network 이해하기 : (5) Polynomial approximation using Chebyshev expansion</summary></entry><entry><title type="html">Localized Polynomial Filter</title><link href="https://harryjo97.github.io/theory/Localized-Polynomial-Filter/" rel="alternate" type="text/html" title="Localized Polynomial Filter" /><published>2021-01-04T20:00:00+09:00</published><updated>2021-01-04T20:00:00+09:00</updated><id>https://harryjo97.github.io/theory/Localized-Polynomial-Filter</id><content type="html" xml:base="https://harryjo97.github.io/theory/Localized-Polynomial-Filter/">&lt;p&gt;Graph Convolutional Network 이해하기 : (4) Localized Polynomial Filter&lt;/p&gt;

&lt;h2 id=&quot;localization-of-graph-laplacian&quot;&gt;Localization of Graph Laplacian&lt;/h2&gt;

&lt;p&gt;그래프 \(G\) 의 vertex \(i\) 와 \(j\) 에 대해, 두 vertex 사이의 거리 \(d_G(i,j)\) 를 \(i\) 와 \(j\) 를 연결하는 모든 path 들 중 edge 들의 수가 가장 적은 path 의 길이로 정의합니다.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;(Lemma 1)&lt;/strong&gt;  그래프 \(G\) 의 adjacency matrix \(A\) 에 대해 \(\tilde{A}\) 를 다음과 같다면,&lt;/p&gt;

\[\tilde{A} = \begin{cases}
A_{ij} &amp;amp;\mbox{ if } i\neq j \\
1 &amp;amp;\mbox{ if } i=j
\end{cases}\]

&lt;p&gt;임의의 양의 정수 \(s\) 에 대해, \(\left( \tilde{A}^s \right)_{ij}\) 은 vertex \(i\) 와 \(j\) 를 연결하는 path 들 중 길이가  \(s\) 이하인 path 들의 수와 일치합니다.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;(Lemma 2)&lt;/strong&gt;  \(N\times N\) matrix \(A\) , \(B\) 와 모든 \(1\leq m,n\leq N\) 에 대해, \(B_{mn}=0\) 이면 \(A_{mn}=0\) 을 만족한다면, 임의의 양의 정수 \(s\) 에 대해서도 \(\left( B^s \right)_{mn}=0\) 이면  \(\left( A^s \right)_{mn}=0\) 이 성립합니다.&lt;/p&gt;

&lt;p&gt;위의 두 lemma 를 사용하면, graph Laplacian \(L\) 의 localization 을 보일 수 있습니다.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;(Localization of graph Laplacian)&lt;/strong&gt;  그래프 \(G\) 의 vertex \(i, \;j\) 와 \(d_G(i,j)\)  보다 작은 모든 \(s\) 에 대해 다음이 성립합니다.&lt;/p&gt;

\[\left(L^s\right)_{ij} = 0
\tag{1}\]

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;localized-polynomial-filter&quot;&gt;Localized Polynomial Filter&lt;/h2&gt;

&lt;p&gt;Filter \(g_{\theta}\) 에 대한 spectral convolution 의 결과 \(f_{out}\) 은 다음과 같습니다.&lt;/p&gt;

\[f_{out} = Ug_{\theta}(\Lambda)U^T\;f_{in} 
\tag{2}\]

&lt;p&gt;만약 filter \(g_{\theta}\) 가 order \(K\) polynomial \(\sum^K_{k=0} a_k x^k\) 이라면, \((2)\) 를 다음과 같이 정리할 수 있습니다.&lt;/p&gt;

\[\begin{align}
f_{out}
&amp;amp;= U\left(\sum^{N-1}_{k=0} a_k\Lambda^k \right)U^T f_{in} \\
&amp;amp;= \sum^{K}_{k=0} a_k\left( U\Lambda U^T \right)^k f_{in} 
= g_{\theta}(L)f_{in}
\tag{3}
\end{align}\]

&lt;p&gt;\((3)\) 에서 볼 수 있듯이, Fourier basis \(U\) 를 직접 계산하지 않고도 \((2)\) 의 결과를 얻을 수 있습니다.&lt;/p&gt;

&lt;p&gt;특히 vertex \(i\) 에 대해서만 자세히 살펴보겠습니다.&lt;/p&gt;

\[f_{out}(i) 
= (g_{\theta}(L) f_{in})(i) 
= \sum^{K}_{k=0}\sum^{N}_{j=1} a_{k} \left(L^k\right)_{ij} f_{in}(j) 
\tag{4}\]

&lt;p&gt;Vertex \(i\) 로부터 거리가 \(K\) 이하인 vertex 들의 집합을 \(N(i,K)\) 라고 하고, 이를 \(i\) 의 \(K\)- hop local neighborhood 라고 부르겠습니다. 만약 vertex \(j\) 가 \(N(i,K)\) 의 원소가 아니라면, \((1)\) 에 의해 \((L^k)_{ij}=0\) 입니다.&lt;/p&gt;

&lt;p&gt;따라서, \((4)\) 를 정리하면 다음과 같습니다.&lt;/p&gt;

\[\begin{align}
f_{out}(i) 
&amp;amp;= \sum^N_{j=1}\sum^K_{k=0} a_k(L^k)_{ij}f_{in}(j) \\
&amp;amp;= \sum_{j\in N(i,K)}\left[\sum^K_{k=0} a_k(L^k)_{ij}\right]f_{in}(j) \\
&amp;amp;= \sum_{j\in N(i,K)} b_{ij}f_{in}(j)
\tag{5}
\end{align}\]

&lt;p&gt;결국 \(f_{out}(i)\) 는 \(i\) 의 \(K\)- hop local neighborhood 원소들만을 이용해서 표현할 수 있습니다. 즉 \(f_{out}(i)\) 를 계산하기 위해 모든 vertex 들의 정보를 사용하지 않아도 된다는 뜻입니다. CNN 의 convolutional fiter 가 각 픽셀을 중심으로 주변의 픽셀 값만을 사용하는 것과 같은 맥락입니다.&lt;/p&gt;

&lt;p&gt; &lt;/p&gt;

&lt;h2 id=&quot;reference&quot;&gt;Reference&lt;/h2&gt;

&lt;ol&gt;
  &lt;li&gt;
    &lt;p&gt;David K Hammond, Pierre Vandergheynst, and Remi Gribonval. &lt;a href=&quot;https://arxiv.org/pdf/0912.3848.pdf&quot;&gt;Wavelets on graphs via spectral
graph theory&lt;/a&gt;. Applied and Computational Harmonic Analysis, 30(2):129–150, 2011.&lt;/p&gt;
  &lt;/li&gt;
  &lt;li&gt;
    &lt;p&gt;D. Shuman, S. Narang, P. Frossard, A. Ortega, and P. Vandergheynst. &lt;a href=&quot;https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&amp;amp;arnumber=6494675&quot;&gt;The Emerging Field of Signal
Processing on Graphs: Extending High-Dimensional Data Analysis to Networks and other Irregular Domains&lt;/a&gt;. &lt;em&gt;IEEE Signal Processing Magazine&lt;/em&gt;, 30(3):83–98, 2013.&lt;/p&gt;
  &lt;/li&gt;
&lt;/ol&gt;</content><author><name>Jaehyeong Jo</name><email>harryjo97@kaist.ac.kr</email></author><category term="[&quot;theory&quot;]" /><category term="GCN" /><summary type="html">Graph Convolutional Network 이해하기 : (4) Localized Polynomial Filter</summary></entry></feed>