5. Phản hồi và tranh cãiSelf-Attention hoạt động dựa trên việc tính toán mối quan hệ giữa từng cặp từ trong chuỗi bằng các vector Query, Key và Value. Trọng số attention được tính bằng tích vô hướng giữa Query và Key, sau đó áp dụng hàm softmax để chuẩn