Bạn có bao giờ tự hỏi làm thế nào một chatbot AI có thể trả lời các câu hỏi của bạn một cách trôi chảy và mạch lạc không? Khả năng này phần lớn dựa vào một công nghệ mạnh mẽ được gọi là Mô hình Ngôn ngữ Lớn (LLM).
Mô hình Ngôn Ngữ Lớn (Large Language Model) Là Gì?
Ở mức cơ bản, một mô hình ngôn ngữ lớn là một hàm toán học phức tạp có khả năng dự đoán từ tiếp theo hợp lý cho bất kỳ đoạn văn bản nào. Hãy hình dung bạn có một đoạn kịch bản phim ngắn mô tả cảnh giữa một người và trợ lý AI của họ, nhưng câu trả lời của AI đã bị mất. Nếu bạn đưa đoạn văn bản này vào một cỗ máy mạnh mẽ có thể dự đoán từ tiếp theo, bạn có thể hoàn thành kịch bản đó bằng cách lặp đi lặp lại quá trình dự đoán từ tiếp theo.
Khi bạn tương tác với một chatbot, đây chính xác là những gì đang diễn ra. Mô hình sẽ nhận văn bản đầu vào (ví dụ: câu hỏi hoặc yêu cầu của bạn) và liên tục dự đoán từ tiếp theo mà một trợ lý AI giả định sẽ nói để phản hồi, và đó là những gì được trình bày cho người dùng.
Quá Trình Dự Đoán Từ Tiếp Theo
Thay vì chỉ dự đoán một từ với độ chắc chắn tuyệt đối, mô hình gán một xác suất cho tất cả các từ tiếp theo có thể có. Để tạo ra câu trả lời trông tự nhiên hơn, mô hình thường được phép chọn các từ ít có khả năng xảy ra hơn một cách ngẫu nhiên trong quá trình tạo ra câu trả lời. Điều này có nghĩa là cùng một câu hỏi đôi khi có thể nhận được các câu trả lời hơi khác nhau mỗi lần bạn hỏi, ngay cả khi mô hình tự nó là deterministic.
“Lớn” Nghĩa là Gì trong LLM?
Điểm làm cho các mô hình này trở nên “lớn” là chúng có thể chứa hàng trăm tỷ các giá trị liên tục khác nhau, thường được gọi là tham số (parameters) hoặc trọng số (weights). Cách hoạt động của mô hình hoàn toàn được xác định bởi những tham số này.
Huấn Luyện Mô Hình Ngôn Ngữ Lớn
Mô hình học cách đưa ra các dự đoán này bằng cách xử lý một lượng văn bản khổng lồ, thường được lấy từ internet. Lượng văn bản này lớn đến mức, ví dụ, để một người bình thường đọc hết lượng văn bản dùng để huấn luyện GPT-3 liên tục 24/7 sẽ mất hơn 2600 năm. Các mô hình lớn hơn sau đó được huấn luyện trên lượng dữ liệu còn nhiều hơn thế.
Bạn có thể nghĩ về quá trình huấn luyện một chút giống như việc tinh chỉnh các nút điều chỉnh trên một cỗ máy lớn. Các tham số của mô hình ban đầu được đặt ngẫu nhiên (khiến mô hình chỉ tạo ra những từ vô nghĩa). Tuy nhiên, không có con người nào cố tình đặt các tham số này một cách có chủ ý. Thay vào đó, chúng được liên tục tinh chỉnh dựa trên rất nhiều ví dụ văn bản. Quá trình này bao gồm việc đưa vào mô hình tất cả trừ từ cuối cùng của một ví dụ, và so sánh dự đoán của mô hình với từ cuối cùng thực tế trong ví dụ đó. Một thuật toán gọi là backpropagation được sử dụng để điều chỉnh các tham số theo cách mà nó làm cho mô hình có nhiều khả năng chọn từ đúng hơn và ít khả năng chọn tất cả các từ khác hơn. Khi quá trình này được thực hiện trên hàng nghìn tỷ ví dụ, mô hình không chỉ đưa ra dự đoán chính xác hơn trên dữ liệu đã thấy mà còn bắt đầu đưa ra dự đoán hợp lý hơn trên văn bản hoàn toàn mới mà nó chưa từng thấy trước đây.
Quy Mô Tính Toán Khổng Lồ
Số lượng tham số khổng lồ và lượng dữ liệu huấn luyện cực lớn dẫn đến quy mô tính toán cho việc huấn luyện một mô hình ngôn ngữ lớn là kinh ngạc. Để minh họa, nếu bạn có thể thực hiện một tỷ phép cộng và nhân mỗi giây, bạn nghĩ sẽ mất bao lâu để thực hiện tất cả các phép toán liên quan đến việc huấn luyện các mô hình ngôn ngữ lớn nhất? Sẽ mất nhiều hơn 10.000 năm; thực tế là vượt xa 100 triệu năm.
Tuy nhiên, quy mô này chỉ trở nên khả thi nhờ sử dụng các chip máy tính chuyên biệt được tối ưu hóa cho việc thực hiện nhiều phép toán song song, được gọi là GPU (Bộ xử lý đồ họa). Quá trình này (huấn luyện ban đầu trên lượng lớn dữ liệu thô) được gọi là pre-training.
Transformers: Kiến Trúc Chính
Trước năm 2017, hầu hết các mô hình ngôn ngữ xử lý văn bản từng từ một. Nhưng sau đó, một nhóm nghiên cứu tại Google đã giới thiệu một mô hình mới gọi là transformer. Transformers không đọc văn bản từ đầu đến cuối theo trình tự; chúng xử lý toàn bộ văn bản cùng lúc, song song.
Bước đầu tiên bên trong transformer, và hầu hết các mô hình ngôn ngữ khác, là gán mỗi từ một danh sách dài các con số (vectors). Điều này là cần thiết vì quá trình huấn luyện chỉ hoạt động với các giá trị liên tục, nên ngôn ngữ phải được mã hóa thành các con số, và mỗi danh sách số này có thể mã hóa ý nghĩa của từ tương ứng.

Điều làm cho transformer trở nên độc đáo là sự phụ thuộc của chúng vào một phép toán đặc biệt gọi là attention. Phép toán này cho phép các danh sách số của từng từ “nói chuyện” với nhau và tinh chỉnh ý nghĩa mà chúng mã hóa dựa trên ngữ cảnh xung quanh, tất cả được thực hiện song song. Ví dụ, các con số mã hóa từ “bank” có thể được thay đổi dựa trên ngữ cảnh xung quanh nó để mã hóa ý nghĩa cụ thể hơn là “bờ sông” (riverbank).
Transformers thường bao gồm một loại phép toán thứ hai gọi là mạng nơ-ron truyền thẳng (feed-forward neural network), và điều này giúp mô hình có thêm khả năng lưu trữ nhiều mẫu phức tạp hơn về ngôn ngữ đã học được trong quá trình huấn luyện. Toàn bộ dữ liệu liên tục chảy qua nhiều lần lặp lại của hai phép toán cơ bản này. Khi làm như vậy, hy vọng là mỗi danh sách số được làm giàu để mã hóa bất kỳ thông tin nào có thể cần thiết để đưa ra dự đoán chính xác về từ tiếp theo trong đoạn văn.

Ở cuối cùng, một hàm cuối cùng được thực hiện trên vector cuối cùng trong chuỗi này, mà giờ đây đã có cơ hội bị ảnh hưởng bởi tất cả ngữ cảnh khác từ văn bản đầu vào, cũng như mọi thứ mô hình đã học trong quá trình huấn luyện, để đưa ra dự đoán về từ tiếp theo. Một lần nữa, dự đoán của mô hình trông giống như một xác suất cho mọi từ tiếp theo có thể có.
Sau Pre-training: Học Tăng Cường Với Phản Hồi Từ Con Người (RLHF)
Mục tiêu của việc tự động hoàn thành một đoạn văn bản ngẫu nhiên từ internet rất khác với mục tiêu trở thành một trợ lý AI tốt. Để giải quyết điều này, các chatbot trải qua một loại huấn luyện khác, cũng quan trọng không kém, gọi là học tăng cường với phản hồi từ con người (Reinforcement Learning with Human Feedback – RLHF). Trong quá trình này, người dùng hoặc người đánh giá sẽ gắn cờ các dự đoán không hữu ích hoặc có vấn đề, và những phản hồi đó sẽ thay đổi thêm các tham số của mô hình, làm cho chúng có nhiều khả năng đưa ra các dự đoán mà người dùng ưa thích hơn.

Tính Chất Hiện Tượng Khó Giải Thích
Mặc dù các nhà nghiên cứu thiết kế khung sườn cho cách hoạt động của từng bước, nhưng hành vi cụ thể của mô hình là một hiện tượng phát sinh dựa trên cách hàng trăm tỷ tham số đó được tinh chỉnh trong quá trình huấn luyện. Điều này làm cho việc xác định tại sao mô hình đưa ra một dự đoán cụ thể trở nên vô cùng khó khăn.
Tuy nhiên, kết quả cuối cùng là khi bạn sử dụng các dự đoán của mô hình ngôn ngữ lớn để hoàn thành một lời nhắc, các từ mà nó tạo ra trôi chảy một cách kỳ lạ, hấp dẫn và thậm chí hữu ích.