Mô hình Transformer sử dụng cơ chế attention để tính toán mức độ quan trọng của mỗi phần tử trong chuỗi đối với phần tử khác. Cơ chế này được thực hiện thông qua ba thành phần chính: Query, Key và Value. Mỗi phần tử trong chuỗi đầu vào được ánh xạ thành