Mô hình đa mô thức (multimodal): Kết hợp văn bản, hình ảnh, âm thanh để xử lý thông tin toàn diện hơn (ví dụ: GPT-4V, Gemini).Tăng cường giám sát và xử lý các hành vi lợi dụng lì xì trong công sở, trường học.“Lấy phong bì màu đỏ 2” không đơn giản là một