Bukan Sekadar Paham Makna: Bagaimana Sintaksis Mempertajam Kecerdasan Model Berbasis Transformers

Aspect-Based Sentiment Triplet Extraction (ASTE) saat ini merupakan salah satu tantangan paling rumit dalam bidang NLP. Analisis Sentimen Standar biasanya hanya mengevaluasi polaritas kalimat secara keseluruhan. Sebaliknya, ASTE melangkah lebih jauh dengan mengekstraksi Triplet: Aspek, Opini, dan Polaritas Sentimen.

Dalam penelitian ini, Yuan et al mengatasi masalah Symmetry Ambiguity. Model yang diusulkan, yaitu Syntax-Aware Transformer (SA-Transformer), menjawab tantangan ini dengan memasukkan syntactic dependencies secara eksplisit dan relative distances ke dalam mekanisme attention, sehingga konteks struktural dapat memandu pemahaman semantik ^[1].

1. Model Architecture Overview

Untuk menyelesaikan masalah Symmetry Ambiguity, SA-Transformer dirancang dengan arsitektur dua cabang. Model ini memproses makna sekuens semantik dan struktur sintaksis gramatikal secara paralel, kemudian menggabungkannya menggunakan mekanisme syntax-aware attention.

*Gambar 0: SA-Transformer Overall Architecture. Detailed input-output flow mapping raw text tokens explicitly through syntactic extraction (Matrices A & R), GloVe encoding (w_i), edge pooling (E_{ij}), syntax-aware attention (P_{ij}), to relational prediction tags.*

2. GloVe Embedding Layer

Sebelum sintaksis dianalisis, model pertama-tama memetakan token kata ke dalam representasi dense vector menggunakan pre-trained GloVe embedding (300-dimensi). Setiap token $w_i$ dipetakan ke vektor dengan panjang tetap $e_i \in \mathbb{R}^{300}$ . Vektor embedding ini kemudian diteruskan sebagai input ke encoder BiLSTM.

*Gambar 1: GloVe Word Embedding Lookup. Setiap token dipetakan ke representasi vektor 300-dimensi yang tetap.*

3. Contextual Semantic Encoding (BiLSTM)

Setelah mendapatkan embedding GloVe, vektor-vektor ini dimasukkan ke dalam Bidirectional LSTM (BiLSTM) untuk menghasilkan representasi semantik yang sequence-aware( $h_i$ ). Representasi matematis yang akurat dari sel LSTM yang digunakan dalam Context Sequence Encoder dapat ditelusuri di bawah ini:

*Gambar 2: Mathematical trace of the Bidirectional LSTM Cell mapping semantics.*

Sel LSTM memproses kata-kata token secara independen. Untuk menangkap seluruh konteks kalimat, sel-sel ini disusun ke dalam graf sekuens di mana Forward and Backward paths memproses struktur kalimat input secara bersamaan:

*Gambar 3: Aliran dua arah yang melintasi sekuens dalam konteks langkah waktu maju dan mundur.*

Hidden state gabungan yang dihasilkan $h_i = [\vec{h_i}; \overleftarrow{h_i}]$ merangkum memori sekuens, menghasilkan representasi dasar $S^{(0)}_i = h_i$ .

4. Syntactic Backbone: Dependency Tree and Matrices

Untuk menangkap hubungan struktural, sekuens dilewatkan melalui Dependency Parser. Parser mengekstrak syntactic relations dan memproyeksikannya ke dalam Adjacency Matrix (A) (koneksi biner) dan Relation Matrix (R) (label edge gramatikal).

*Gambar 4: Dependency Tree visualization mapping standard grammatical relations.*

Matrix A and Matrix R di bawah ini adalah pemetaan $N \times N$ (di mana $N = 10$ token). Matriks ini membentuk graf dasar untuk Transformer layers.

Adjacency Matrix (A) — 10×10

Relation Matrix (R) — 10×10

5. Memecah Symmetry Ambiguity dengan AEA

Model multi-task standar dapat mengenali "staff" dan "food" sebagai aspek dengan benar, tetapi kesulitan menghubungkan opini karena keduanya terhubung ke kata "was" melalui dependensi nsubj. Graph Convolutional Networks (GCNs) standar memperlakukan edge conj di antara dua token "was" secara identik, yang secara keliru menyebabkan opini "courteous" bocor ke "food".

Adjacent Edge Attention (AEA) menyelesaikan ini dengan membedakan label gramatikal secara dinamis berdasarkan tetangga strukturalnya.

*Gambar 5: Audit Neural AEA secara dinamis menekan bobot tepi "conj" untuk mencegah kebocoran emosi antar klausa.*

6. Syntactic Distance (Shortest Path BFS)

Untuk lebih membantu lapisan atensi Transformer, jarak struktural eksplisit dihitung antar token menggunakan Breadth-First Search (BFS) pada pohon dependensi.

*Gambar 6: Jarak sintaksis menghitung lompatan struktural gramatikal daripada urutan kata sekuensial.*

SA-Transformer menghitung lompatan struktural secara strict daripada jarak sekuens linear. Jarak 4 dipetakan ke dalam vektor $E_{dist}[4]$ dan digabungkan langsung ke dalam representasi Attention Key/Value.

7. SA-Transformer (Syntax-Aware Attention)

Inovasi inti pada penelitian ini adalah mekanisme Syntax-Aware Attention. Mekanisme ini memasukkan representasi edge ( $E^{(l)}$ ) dari AEA langsung ke dalam atensi bersama dengan hidden state BiLSTM ( $H^{(l)}$ ):

K_j = h_j W_K + e_{i,j} W_{K_e}, \quad V_j = h_j W_V + e_{i,j} W_{V_e}

\alpha_{i,j} = \text{softmax}\left(\frac{(h_i W_Q) \cdot K_j^T}{\sqrt{d_k}}\right), \quad S_i^{(l+1)} = \sum_j \alpha_{i,j} V_j

Contoh Pengerjaan: Atensi untuk "staff" ( $i=2$ )

Menggunakan hidden state BiLSTM dan representasi edge AEA dari bagian sebelumnya, berikut adalah penelusuran bagaimana SA-Transformer memperbarui representasi "staff":

*Gambar 7: Syntax-Aware Attention flow for "staff". Representasi tepi dari AEA meningkatkan kata-kata yang terhubung secara sintaksis (nsubj→was: α=0.52) sambil memblokir kata yang tidak terhubung (food: α=0.07).*

Setelah $L$ lapisan, Syntactic Pair Representation dibentuk dengan menggabungkan representasi akhir dua kata dengan embedding jaraknya:

P_{i,j} = [S_i^{(L)} ; S_j^{(L)} ; f^d(i,j)]

8. Adjacent Inference Strategy & Final Extraction

Setiap representasi pasangan $P_{i,j}$ dari Bagian 7 diklasifikasikan ke dalam sebuah tag. Berikut adalah penelusuran pipa lengkap untuk pasangan kata ("staff", "courteous"):

Langkah 1: Input Syntactic Pair Representation

P_{\text{staff,courteous}} = [S_2^{(L)} ; S_5^{(L)} ; f^d(2,5)]

Langkah 2: Klasifikasi MLP → Initial Logits

MLP memetakan $P_{i,j}$ ke logit 6-kelas $c_{i,j}$ :

c_{\text{staff,courteous}} = \text{MLP}(P_{2,5}) = [\underset{N}{0.12}, \underset{A}{-0.85}, \underset{O}{-0.47}, \underset{\textbf{POS}}{\textbf{2.31}}, \underset{NEG}{-1.05}, \underset{NEU}{0.38}]

GCN mengagregasi prediksi dari sel tetangga $(i{\pm}1, j)$ dan $(i, j{\pm}1)$ :

\tilde{c}_{2,5}^{(t)} = W \cdot c_{1,5}^{(t-1)} + W \cdot c_{3,5}^{(t-1)} + W \cdot c_{2,4}^{(t-1)} + W \cdot c_{2,6}^{(t-1)}

Langkah 4: Softmax Akhir → Prediksi Tag

Setelah refinement GCN, probabilitas akhir dihitung:

P(y_{2,5}) = \text{softmax}(c_{2,5} + \tilde{c}_{2,5}^{(T)}) = [\underset{N}{0.03}, \underset{A}{0.01}, \underset{O}{0.02}, \underset{\textbf{POS}}{\textbf{0.89}}, \underset{NEG}{0.01}, \underset{NEU}{0.04}]

\Rightarrow y_{2,5} = \textbf{POS} \quad \text{(staff is linked to courteous with positive sentiment)}

Demikian pula untuk pasangan ("food", "terrible"):

P(y_{8,10}) = \text{softmax}(c_{8,10} + \tilde{c}_{8,10}^{(T)}) = [\underset{N}{0.02}, \underset{A}{0.01}, \underset{O}{0.01}, \underset{POS}{0.03}, \underset{\textbf{NEG}}{\textbf{0.91}}, \underset{NEU}{0.02}]

\Rightarrow y_{8,10} = \textbf{NEG} \quad \text{(food is linked to terrible with negative sentiment)}

Grid Prediksi Pasangan Kata Lengkap ( $y_{i,j}$ )

Menerapkan proses ini ke setiap pasangan kata dalam "The staff was very courteous but the food was terrible" menghasilkan grid tagging $10 \times 10$ yang lengkap:

*Gambar 9: Word-pair tagging grid lengkap pada kalimat. Grid ini simetris, (staff, courteous) dan (courteous, staff) keduanya memprediksi POS. Hubungan aspek-opini utama disorot dengan hijau (POS) dan merah (NEG). Semua pasangan lainnya menerima tag N (no relation).*

Triplet Terakhir yang Diekstrak

Membaca grid yang telah ditandai, model mengekstrak triplet ASTE akhir:

Aspek	Opini	Sentimen	Sel Grid
staff	courteous	POS	$y_{2,5} = 0.89$
food	terrible	NEG	$y_{8,10} = 0.91$

9. Hasil Eksperimen

SA-Transformer diuji terhadap tiga kategori besar model ASTE menggunakan empat kumpulan data benchmark dari SemEval Challenge.

Baseline yang Dievaluasi:

Metode Pipeline: TSF ^[2], CLMA+ ^[3].
Metode Multitask: BMRC ^[4], Span-ASTE ^[5].
Metode Pasangan Kata: GTS ^[6], S3E2 ^[7].

Hasil Perbandingan (Skor Micro F1)

Keluarga Model	Model Representatif	Rest14 (F1)	Lap14 (F1)	Rest15 (F1)
Pipeline	CLMA+	41.36	32.55	39.77
Multitask	Span-ASTE	58.74	45.41	55.43
Pasangan Kata	S3E2	59.81	48.06	55.97
Diusulkan	SA-Transformer	63.58	52.33	58.91

Arsitektur ini menunjukkan peningkatan yang substansial. SA-Transformer melampaui S3E2 sebesar +3,77% pada Rest14 karena AEA menyelesaikan kalimat yang mengandung beberapa target aspek yang saling bertentangan.

References

1. Yuan, Li and Wang, Jin and Yu, Liang-Chih and Zhang, Xuejie (2024). Encoding Syntactic Information into Transformers for Aspect-Based Sentiment Triplet Extraction. IEEE Transactions on Affective Computing. link View Source

2. Peng, Haiyun and others (2019). Knowing what, how and why: A near complete solution for aspect-based sentiment analysis. AAAI.

3. Wang, W. and others (2017). Coupled multi-layer attentions for co-extraction of aspect and opinion terms. AAAI.

4. Chen, S. and others (2021). Bidirectional machine reading comprehension for aspect sentiment triplet extraction. AAAI.

5. Xu, L. and others (2021). Learning span-level interactions for aspect sentiment triplet extraction. ACL.

6. Wu, Z. and others (2020). Grid tagging scheme for aspect-oriented fine-grained opinion extraction. ACL Findings.

7. Chen, Z. and others (2021). Semantic and syntactic enhanced aspect sentiment triplet extraction. ACL Findings.

8. Zhao, Z. and others (2022). Multi-task alignment scheme for span-level aspect sentiment triplet extraction. ICANN.

Azhary Arliansyah

Bukan Sekadar Paham Makna: Bagaimana Sintaksis Mempertajam Kecerdasan Model Berbasis Transformers

1. Model Architecture Overview

2. GloVe Embedding Layer

3. Contextual Semantic Encoding (BiLSTM)