Vì Transformer không sử dụng cấu trúc tuần tự như RNN, nên nó không có khả năng nhận biết thứ tự của các phần tử trong chuỗi. Để giải quyết vấn đề này, Transformer sử dụng một kỹ thuật gọi là positional encoding, trong đó mỗi phần tử trong chuỗi đầu vào