Articles/Bukan Sekadar Paham Makna: Bagaimana Sintaksis Mempertajam Kecerdasan Model Berbasis Transformers
Bukan Sekadar Paham Makna: Bagaimana Sintaksis Mempertajam Kecerdasan Model Berbasis Transformers
NLP Research Transformers ASTE BiLSTM Sentiment Analysis
Aspect-Based Sentiment Triplet Extraction (ASTE) saat ini merupakan salah satu tantangan paling rumit dalam bidang NLP. Analisis Sentimen Standar biasanya hanya mengevaluasi polaritas kalimat secara keseluruhan. Sebaliknya, ASTE melangkah lebih jauh dengan mengekstraksi Triplet: Aspek, Opini, dan Polaritas Sentimen.
Dalam penelitian ini, Yuan et al mengatasi masalah Symmetry Ambiguity. Model yang diusulkan, yaitu Syntax-Aware Transformer (SA-Transformer), menjawab tantangan ini dengan memasukkan syntactic dependencies secara eksplisit dan relative distances ke dalam mekanisme attention, sehingga konteks struktural dapat memandu pemahaman semantik [1].
1. Model Architecture Overview
Untuk menyelesaikan masalah Symmetry Ambiguity, SA-Transformer dirancang dengan arsitektur dua cabang. Model ini memproses makna sekuens semantik dan struktur sintaksis gramatikal secara paralel, kemudian menggabungkannya menggunakan mekanisme syntax-aware attention.
*Gambar 0: SA-Transformer Overall Architecture. Detailed input-output flow mapping raw text tokens explicitly through syntactic extraction (Matrices A & R), GloVe encoding (w_i), edge pooling (E_{ij}), syntax-aware attention (P_{ij}), to relational prediction tags.*
2. GloVe Embedding Layer
Sebelum sintaksis dianalisis, model pertama-tama memetakan token kata ke dalam representasi dense vector menggunakan pre-trained GloVe embedding (300-dimensi). Setiap token wi dipetakan ke vektor dengan panjang tetap ei∈R300. Vektor embedding ini kemudian diteruskan sebagai input ke encoder BiLSTM.
*Gambar 1: GloVe Word Embedding Lookup. Setiap token dipetakan ke representasi vektor 300-dimensi yang tetap.*
3. Contextual Semantic Encoding (BiLSTM)
Setelah mendapatkan embedding GloVe, vektor-vektor ini dimasukkan ke dalam Bidirectional LSTM (BiLSTM) untuk menghasilkan representasi semantik yang sequence-aware(hi). Representasi matematis yang akurat dari sel LSTM yang digunakan dalam Context Sequence Encoder dapat ditelusuri di bawah ini:
*Gambar 2: Mathematical trace of the Bidirectional LSTM Cell mapping semantics.*
Sel LSTM memproses kata-kata token secara independen. Untuk menangkap seluruh konteks kalimat, sel-sel ini disusun ke dalam graf sekuens di mana Forward and Backward paths memproses struktur kalimat input secara bersamaan:
*Gambar 3: Aliran dua arah yang melintasi sekuens dalam konteks langkah waktu maju dan mundur.*
Hidden state gabungan yang dihasilkan hi=[hi;hi] merangkum memori sekuens, menghasilkan representasi dasar Si(0)=hi.
4. Syntactic Backbone: Dependency Tree and Matrices
Untuk menangkap hubungan struktural, sekuens dilewatkan melalui Dependency Parser. Parser mengekstrak syntactic relations dan memproyeksikannya ke dalam Adjacency Matrix (A) (koneksi biner) dan Relation Matrix (R) (label edge gramatikal).
*Gambar 4: Dependency Tree visualization mapping standard grammatical relations.*
Matrix A and Matrix R di bawah ini adalah pemetaan N×N (di mana N=10 token). Matriks ini membentuk graf dasar untuk Transformer layers.
Adjacency Matrix (A) — 10×10
Relation Matrix (R) — 10×10
5. Memecah Symmetry Ambiguity dengan AEA
Model multi-task standar dapat mengenali "staff" dan "food" sebagai aspek dengan benar, tetapi kesulitan menghubungkan opini karena keduanya terhubung ke kata "was" melalui dependensi nsubj. Graph Convolutional Networks (GCNs) standar memperlakukan edge conj di antara dua token "was" secara identik, yang secara keliru menyebabkan opini "courteous" bocor ke "food".
Adjacent Edge Attention (AEA) menyelesaikan ini dengan membedakan label gramatikal secara dinamis berdasarkan tetangga strukturalnya.
*Gambar 5: Audit Neural AEA secara dinamis menekan bobot tepi "conj" untuk mencegah kebocoran emosi antar klausa.*
6. Syntactic Distance (Shortest Path BFS)
Untuk lebih membantu lapisan atensi Transformer, jarak struktural eksplisit dihitung antar token menggunakan Breadth-First Search (BFS) pada pohon dependensi.
*Gambar 6: Jarak sintaksis menghitung lompatan struktural gramatikal daripada urutan kata sekuensial.*
SA-Transformer menghitung lompatan struktural secara strict daripada jarak sekuens linear. Jarak 4 dipetakan ke dalam vektor Edist[4] dan digabungkan langsung ke dalam representasi Attention Key/Value.
7. SA-Transformer (Syntax-Aware Attention)
Inovasi inti pada penelitian ini adalah mekanisme Syntax-Aware Attention. Mekanisme ini memasukkan representasi edge (E(l)) dari AEA langsung ke dalam atensi bersama dengan hidden state BiLSTM (H(l)):
Menggunakan hidden state BiLSTM dan representasi edge AEA dari bagian sebelumnya, berikut adalah penelusuran bagaimana SA-Transformer memperbarui representasi "staff":
*Gambar 7: Syntax-Aware Attention flow for "staff". Representasi tepi dari AEA meningkatkan kata-kata yang terhubung secara sintaksis (nsubj→was: α=0.52) sambil memblokir kata yang tidak terhubung (food: α=0.07).*
Setelah L lapisan, Syntactic Pair Representation dibentuk dengan menggabungkan representasi akhir dua kata dengan embedding jaraknya:
Pi,j=[Si(L);Sj(L);fd(i,j)]
8. Adjacent Inference Strategy & Final Extraction
Setiap representasi pasangan Pi,j dari Bagian 7 diklasifikasikan ke dalam sebuah tag. Berikut adalah penelusuran pipa lengkap untuk pasangan kata ("staff", "courteous"):
⇒y8,10=NEG(food is linked to terrible with negative sentiment)
Grid Prediksi Pasangan Kata Lengkap (yi,j)
Menerapkan proses ini ke setiap pasangan kata dalam "The staff was very courteous but the food was terrible" menghasilkan grid tagging 10×10 yang lengkap:
*Gambar 9: Word-pair tagging grid lengkap pada kalimat. Grid ini simetris, (staff, courteous) dan (courteous, staff) keduanya memprediksi POS. Hubungan aspek-opini utama disorot dengan hijau (POS) dan merah (NEG). Semua pasangan lainnya menerima tag N (no relation).*
Triplet Terakhir yang Diekstrak
Membaca grid yang telah ditandai, model mengekstrak triplet ASTE akhir:
Aspek
Opini
Sentimen
Sel Grid
staff
courteous
POS
y2,5=0.89
food
terrible
NEG
y8,10=0.91
9. Hasil Eksperimen
SA-Transformer diuji terhadap tiga kategori besar model ASTE menggunakan empat kumpulan data benchmark dari SemEval Challenge.
Arsitektur ini menunjukkan peningkatan yang substansial. SA-Transformer melampaui S3E2 sebesar +3,77% pada Rest14 karena AEA menyelesaikan kalimat yang mengandung beberapa target aspek yang saling bertentangan.
References
1. Yuan, Li and Wang, Jin and Yu, Liang-Chih and Zhang, Xuejie (2024). Encoding Syntactic Information into Transformers for Aspect-Based Sentiment Triplet Extraction. IEEE Transactions on Affective Computing. link
View Source
2. Peng, Haiyun and others (2019). Knowing what, how and why: A near complete solution for aspect-based sentiment analysis. AAAI.
3. Wang, W. and others (2017). Coupled multi-layer attentions for co-extraction of aspect and opinion terms. AAAI.
4. Chen, S. and others (2021). Bidirectional machine reading comprehension for aspect sentiment triplet extraction. AAAI.
5. Xu, L. and others (2021). Learning span-level interactions for aspect sentiment triplet extraction. ACL.
6. Wu, Z. and others (2020). Grid tagging scheme for aspect-oriented fine-grained opinion extraction. ACL Findings.
7. Chen, Z. and others (2021). Semantic and syntactic enhanced aspect sentiment triplet extraction. ACL Findings.
8. Zhao, Z. and others (2022). Multi-task alignment scheme for span-level aspect sentiment triplet extraction. ICANN.