Về bản chất, token trong lĩnh vực trí tuệ nhân tạo (AI token) là đơn vị dữ liệu nhỏ nhất được mô hình ngôn ngữ sử dụng để xử lý và tạo ra văn bản.
Hãy tưởng tượng mỗi từ, dấu câu, hoặc thậm chí một phần của từ trong câu được chia thành các phần riêng lẻ. Đây chính là các token. Trong các mô hình ngôn ngữ, token đóng vai trò là các khối xây dựng cơ bản để hiểu và tạo ra ngôn ngữ của con người.
Các loại Token
- Word token: Chúng đại diện cho toàn bộ từ. Ví dụ, ‘ngôn ngữ’, ‘mô hình’ và ‘AI’ là mỗi mã thông báo từ riêng biệt.
- Subword token: Được sử dụng cho các phần của từ, thường là trong các ngôn ngữ mà từ có thể được chia thành các đơn vị nhỏ hơn, có ý nghĩa hơn. Ví dụ, ‘unbreakable’ có thể được chia thành ‘un’, ‘break’ và ‘able’.
- Các dấu câu: Đây là các dấu câu như dấu phẩy, dấu chấm hoặc dấu chấm hỏi.
- Các token đặc biệt: Được sử dụng trong các ngữ cảnh cụ thể, chẳng hạn như đánh dấu đầu hoặc cuối câu hoặc cho các từ chưa thấy trong dữ liệu đào tạo.
Quy trình token hóa
Token hóa (tokenization) là quá trình chuyển đổi văn bản thành token. Quá trình này bao gồm một số bước:
- Phân tách: Chia văn bản thành các đơn vị nhỏ hơn (từ, từ phụ, dấu câu).
- Chuẩn hóa: Chuẩn hóa văn bản, như chuyển đổi tất cả các ký tự thành chữ thường, để giảm độ phức tạp.
- Ánh xạ: Gán một mã định danh số duy nhất cho mỗi token.
Ví dụ về token
- Văn bản: “AI is evolving rapidly.”
- Phiên bản đã được token hóa: [‘AI’, ‘is’, ‘evolving’, ‘rapid’, ‘ly’, ‘.’]
→ Xem thêm: AI Token: Ngôn ngữ và Tiền tệ của Trí tuệ Nhân tạo