Mô hình Transformer là một kiến trúc học sâu được thiết kế để xử lý các bài toán chuỗi, đặc biệt là trong lĩnh vực NLP. Điểm đặc biệt của Transformer là nó không sử dụng cấu trúc tuần tự như mạng nơ-ron hồi tiếp (RNN) mà thay vào đó sử dụng một cơ chế g