Công nghệ mới này có thể làm tan biến GPT-4 và tất cả những thứ tương tự

Đối với tất cả sự nhiệt tâm quanh chương trình trí tuệ nhân tạo chatbot được gọi là ChatGPT từ OpenAI, và công nghệ kế vị của nó, GPT-4, các chương trình đó chỉ là ứng dụng phần mềm vào cuối cùng. Và giống như tất cả các ứng dụng khác, chúng có những hạn chế kỹ thuật có thể làm cho hiệu suất của chúng không tối ưu.

Trong một bài báo được xuất bản vào tháng Ba, các nhà khoa học trí tuệ nhân tạo (AI) tại Đại học Stanford và Viện nghiên cứu trí tuệ nhân tạo MILA của Canada đã đề xuất một công nghệ có thể hiệu quả hơn rất nhiều so với GPT-4 - hoặc bất kỳ cái gì tương tự - trong việc xử lý lượng lớn dữ liệu và biến nó thành một câu trả lời.

Ngoài ra: Các cựu nhân viên của Apple muốn thay thế điện thoại thông minh bằng thiết bị này

Được biết đến với tên gọi Hyena, công nghệ này có thể đạt độ chính xác tương đương trên các bài kiểm tra chuẩn, như trả lời câu hỏi, trong khi chỉ sử dụng một phần nhỏ công suất tính toán. Trong một số trường hợp, mã Hyena có thể xử lý lượng văn bản lớn đến mức làm cho công nghệ kiểu GPT quá tải bộ nhớ và không hoạt động được.

"Kết quả đáng kỳ vọng của chúng tôi ở quy mô dưới một tỷ tham số cho thấy rằng sự chú ý có thể không phải là tất cả những gì chúng ta cần," nhóm tác giả viết. Lời nhận xét đó được đề cập đến tiêu đề của một báo cáo AI nổi tiếng năm 2017, 'Attention is all you need'. Trong bài báo đó, nhà khoa học của Google Ashish Vaswani và đồng nghiệp đã giới thiệu cho thế giới chương trình trí tuệ nhân tạo Transformer của Google. Transformer đã trở thành cơ sở cho tất cả các mô hình ngôn ngữ lớn gần đây."

Nhưng Transformer có một nhược điểm lớn. Nó sử dụng cái gọi là "attention", trong đó chương trình máy tính lấy thông tin từ một nhóm ký hiệu như từ, và chuyển thông tin đó sang một nhóm ký hiệu mới như câu trả lời mà bạn nhìn thấy từ ChatGPT, đó là đầu ra.

Còn nữa: GPT-4 là gì? Đây là tất cả những gì bạn cần biết

Thao tác chú ý đó - công cụ cần thiết của tất cả các chương trình ngôn ngữ lớn, bao gồm ChatGPT và GPT-4 - có "phức tạp tính toán" như là đa thức bậc hai (Wiki "phức tạp thời gian" của tính toán). Sự phức tạp này có nghĩa là thời gian mà ChatGPT cần để tạo ra một câu trả lời tăng lên theo bình phương của lượng dữ liệu được đưa vào.

Tại một thời điểm, nếu có quá nhiều dữ liệu - quá nhiều từ trong yêu cầu, hoặc quá nhiều chuỗi cuộc trò chuyện trong nhiều giờ với chương trình - thì hoặc chương trình trở nên chậm khi cung cấp câu trả lời, hoặc nó phải được cung cấp ngày càng nhiều chip GPU để chạy nhanh hơn, dẫn đến tăng yêu cầu về tính toán.

Trong bài báo mới, 'Hyena Hierarchy: Hướng tới Mô hình Ngôn ngữ Covolutional Lớn hơn', được đăng trên máy chủ arXiv pre-print, tác giả chính Michael Poli của Stanford và đồng nghiệp đã đề xuất thay thế hàm chú ý của Transformer bằng một cái gì đó dưới bậc hai, cụ thể là Hyena.

Còn:Auto-GPT là gì? Tất cả mọi thứ cần biết về công cụ AI mạnh mẽ tiếp theo

Các tác giả không giải thích tên, nhưng có thể tưởng tượng một số lý do cho chương trình "Hyena". Hyena là loài động vật sống ở châu Phi có khả năng săn mồi trên hàng cây dài đặc biệt. Một mô hình ngôn ngữ rất mạnh có thể tượng trưng như một con hyena, săn mồi trên hàng cây dài để tìm thức ăn.

Như tiêu đề cho thấy, tác giả rất quan tâm đến "hệ thống cấp bậc", và các gia đình của các con linh hươu có một hệ thống cấp bậc nghiêm ngặt, trong đó các thành viên của một bộ tộc linh hươu địa phương có các mức độ xếp hạng khác nhau để thiết lập sự ưu thế. Một cách tương tự, chương trình Hyena áp dụng một loạt các hoạt động rất đơn giản lại và lại, điều này khiến chúng kết hợp để tạo thành một loại hệ thống xử lý dữ liệu theo cấp bậc. Chính yếu tố kết hợp này đã tạo nên tên gọi chương trình Hyena.

Ngoài ra:Các phiên bản ChatGPT trong tương lai có thể thay thế phần lớn công việc mà con người đang làm, theo lời Ben Goertzel

Các tác giả đóng góp cho bài báo bao gồm những người nổi tiếng trong thế giới trí tuệ nhân tạo, như Yoshua Bengio, giám đốc khoa học của MILA, người đã đoạt giải Turing năm 2019, tương đương với giải Nobel về lĩnh vực công nghệ tính toán. Bengio được công nhận rộng rãi là người phát triển cơ chế quan tâm trước khi Vaswani và nhóm của ông thích nghi nó cho Transformer.

Cũng trong số những tác giả là giáo sư cộng tác khoa học máy tính đại học Stanford Christopher Ré, người trong những năm gần đây đã góp phần thúc đẩy ý tưởng về trí tuệ nhân tạo như "phần mềm 2.0".

Để tìm một phương pháp thay thế sub-quadratic cho attention, Poli và đội ngũ đã tiến hành nghiên cứu về cách attention mechanism đang hoạt động để xem liệu công việc đó có thể được thực hiện hiệu quả hơn hay không.

Một thực hành gần đây trong lĩnh vực khoa học AI, được gọi là khả năng giải thích theo hướng cơ chế, đang cung cấp những hiểu biết về những gì đang diễn ra sâu bên trong mạng thần kinh, bên trong những "mạch" tính toán chú ý. Bạn có thể tưởng tượng nó như việc tháo rời phần mềm như cách bạn tháo rời một chiếc đồng hồ hoặc máy tính để xem các bộ phận và tìm hiểu cách nó hoạt động.

Ngoài ra:Tôi đã sử dụng ChatGPT để viết cùng một thuật toán trong 12 ngôn ngữ lập trình hàng đầu. Đây là kết quả của nó

Một công trình được trích dẫn bởi Poli và nhóm nghiên cứu là một loạt các thí nghiệm của nhà nghiên cứu Nelson Elhage thuộc công ty khởi nghiệp AI Anthropic. Những thí nghiệm này phân tích các chương trình Transformer để xem attention đang làm gì.

Điểm cốt yếu là Elhage và đội ngũ đã phát hiện rằng sự chú ý hoạt động ở cấp độ cơ bản nhất bằng các thao tác máy tính rất đơn giản, chẳng hạn như sao chép một từ từ đầu vào gần đây và dán vào đầu ra.

Ví dụ, nếu ai đó bắt đầu gõ vào một chương trình mô hình ngôn ngữ lớn như ChatGPT một câu từ Harry Potter và Hòn đá phù thủy, ví dụ như "Mr. Dursley là giám đốc một công ty có tên Grunnings...", chỉ cần gõ "D-u-r-s", phần đầu của tên, có thể đủ để khuyến khích chương trình hoàn thiện tên "Dursley" vì nó đã nhìn thấy tên trong một câu trước đó của Hòn đá phù thủy. Hệ thống có thể sao chép từ bộ nhớ bản ghi các ký tự "l-e-y" để tự động hoàn thiện câu.

Cũng như: Theo nhà tương lai học, ChatGPT giống như một 'trí tuệ ngoài hành tinh' hơn là một bộ não con người

Tuy nhiên, phép toán chú ý gặp vấn đề về độ phức tạp bậc hai khi số lượng từ càng lớn. Số từ càng nhiều càng đòi hỏi càng nhiều "trọng số" hoặc tham số, để thực hiện phép toán chú ý.

Như tác giả viết: "Khối Transformer là một công cụ hữu ích cho việc tự học chuỗi, nhưng nó không phải là hoàn hảo. Một trong những hạn chế đáng chú ý nhất là chi phí tính toán tăng nhanh khi độ dài của chuỗi đầu vào tăng lên."

Dù chi tiết kỹ thuật của ChatGPT và GPT-4 chưa được tiết lộ bởi OpenAI, nhưng có tin rằng chúng có thể có một nghìn tỷ hoặc hơn số lượng tham số như vậy. Việc chạy các tham số đó yêu cầu nhiều vi mạch GPU hơn từ Nvidia, từ đó tăng chi phí tính toán.

Để giảm chi phí tính toán bậc hai đó, Poli và nhóm đã thay thế phép chú ý bằng điều gọi là "tích chập", đây là một trong những phép toán cổ điển nhất trong các chương trình trí tuệ nhân tạo, được hoàn thiện từ những năm 1980. Một phép tích chập chỉ là một bộ lọc có thể tìm ra các phần tử trong dữ liệu, có thể là các điểm ảnh trong một bức ảnh số hay các từ trong một câu.

Cũng nên: Thành công của ChatGPT có thể gây ra sự lan truyền tiêu cực đến tính bí mật trong trí tuệ nhân tạo, theo nhà tiên phong trí tuệ nhân tạo Bengio

Poli và nhóm của anh ấy thực hiện một loại mash-up: họ lấy công việc đã được thực hiện bởi nhà nghiên cứu Stanford Daniel Y. Fu và nhóm của anh ấy để áp dụng bộ lọc tương quan vào các chuỗi từ, và họ kết hợp nó với công việc của học giả David Romero và đồng nghiệp tại Đại học Vrije Amsterdam cho phép chương trình thay đổi kích thước bộ lọc theo thời gian thực. Khả năng điều chỉnh linh hoạt này giúp giảm thiểu số lượng tham số phức tạp, hoặc, trọng số, mà chương trình cần có.

Kết quả của tác trộn là ta có thể áp dụng một phép gộp lồi vào một lượng văn bản không giới hạn mà không cần thêm và thêm các tham số để sao chép ngày càng nhiều dữ liệu. Đây là một phương pháp "không cần chú ý", như tác giả mô tả.

"Các nhà điều hành Hyena có khả năng thu hẹp khoảng cách chất lượng đáng kể với sự chú ý trên quy mô lớn," Poli và nhóm viết, "đạt được độ lạc lối tương tự và hiệu suất phụ thuộc vào bản đồ với nguồn lực tính toán nhỏ hơn." Độ lạc lối là một thuật ngữ kỹ thuật để nói về mức độ phức tạp của câu trả lời do chương trình như ChatGPT sinh ra."

Để chứng minh khả năng của Hyena, các tác giả đã thử nghiệm chương trình này với một loạt các chỉ số để xác định mức độ tốt của một chương trình ngôn ngữ trong việc thực hiện các nhiệm vụ trí tuệ nhân tạo đa dạng.

Cũng nữa: "Có những điều kỳ lạ đang diễn ra trong phần mềm," nói giáo sư trí tuệ nhân tạo Chris Ré tại Stanford

Một bài kiểm tra khác là The Pile, một bộ sưu tập văn bản gồm 825 gigabyte được tổ chức vào năm 2020 bởi Eleuther.ai, một tổ chức nghiên cứu AI phi lợi nhuận. Các văn bản được thu thập từ các nguồn "chất lượng cao" như PubMed, arXiv, GitHub, Cục Bằng sáng chế Hoa Kỳ và các nguồn khác, để các nguồn này có một hình thức nghiêm ngặt hơn so với chỉ là các cuộc thảo luận trên Reddit ví dụ.

Thách thức chính cho chương trình là tạo ra từ tiếp theo khi được cung cấp một loạt câu mới làm đầu vào. Chiến dịch Hyena đã đạt được một điểm số tương đương với chương trình GPT gốc của OpenAI từ năm 2018, với 20% số phép tính ít hơn - "kiến trúc tích chập không sử dụng attention đầu tiên đã đạt được chất lượng GPT" với ít phép tính hơn, nhà nghiên cứu viết.

Tiếp theo, các tác giả đã kiểm tra chương trình trên các nhiệm vụ suy luận được biết đến với tên gọi SuperGLUE, được giới thiệu vào năm 2019 bởi các học giả tại Đại học New York, Trung tâm Nghiên cứu Trí tuệ Nhân tạo của Facebook, đơn vị DeepMind của Google và Đại học Washington.

Ví dụ, khi cho câu sau, "Cơ thể tôi tạo ra một cái bóng trên cỏ", và hai lựa chọn cho nguyên nhân, là "mặt trời đang mọc" hoặc "cỏ đã được cắt", và yêu cầu chọn một trong hai, chương trình sẽ cho ra kết quả "mặt trời đang mọc" là đáp án phù hợp.

Trong nhiều nhiệm vụ, chương trình Hyena đạt được điểm số tương đương hoặc gần như một phiên bản của GPT trong khi được huấn luyện với lượng dữ liệu huấn luyện không đến một nửa.

Cũng còn có điều: Cách sử dụng Bing mới (và sự khác biệt so với ChatGPT)

Thú vị hơn, khi các tác giả tăng độ dài của cụm từ sử dụng làm đầu vào: càng nhiều từ thì cải thiện hiệu suất càng tốt hơn. Ở mức 2.048 "tokens", mà bạn có thể hiểu như là từ, Hyena cần ít thời gian hơn để hoàn thành một nhiệm vụ ngôn ngữ so với phương pháp chú ý.

Tại 64.000 tokens, tác giả cho biết, "Tăng tốc của Hyena đạt 100 lần" - một cải tiến hiệu suất gấp 100 lần.

Poli và nhóm của anh ta cho rằng họ không chỉ đơn thuần thử một phương pháp khác với Hyena, mà họ đã "vượt qua rào cản bậc hai", tạo nên một thay đổi chất lượng trong việc tính toán kết quả của một chương trình.

Người ta cho rằng cũng có những sự thay đổi đáng kể về chất lượng trong tương lai: "Việc phá vỡ rào cản bậc hai là một bước quan trọng để mở ra các khả năng mới cho học sâu, như sử dụng toàn bộ sách giáo trình như ngữ cảnh, tạo ra âm nhạc dài hoặc xử lý hình ảnh quy mô gigapixel," họ viết.

Khả năng của Hyena sử dụng một bộ lọc mở rộng hiệu quả hơn qua hàng nghìn từ, các tác giả viết, có nghĩa là không có giới hạn thực sự đối với "bối cảnh" của một câu truy vấn đối với chương trình ngôn ngữ. Nó có thể, trong thực tế, gợi lại các phần của các văn bản hoặc cuộc trò chuyện trước đó xa so với luồng trò chuyện hiện tại - tương tự như những con hyena săn mồi hàng dặm.

Cũng về chủ đề này: Các chatbot AI tốt nhất: ChatGPT và các lựa chọn thú vị khác để thử

"Những nhà điều hành lươn lẹo có ngữ cảnh không giới hạn," họ viết. "Nói cách khác, chúng không bị giới hạn bởi ví dụ như địa phương và có thể học được sự phụ thuộc xa giữa bất kỳ thành phần của [đầu vào] nào."

Thêm vào đó, chương trình cũng có thể được áp dụng vào dữ liệu từ các phương thức khác nhau, chẳng hạn như hình ảnh và có thể là video và âm thanh.

Chú ý rằng chương trình Hyena được hiển thị trong bài báo là nhỏ hơn so với GPT-4 hoặc thậm chí GPT-3. Trong khi GPT-3 có 175 tỷ tham số hoặc trọng số, phiên bản lớn nhất của Hyena chỉ có 1.3 tỷ tham số. Vì vậy, còn phải xem Hyena sẽ hoạt động như thế nào trong cuộc so sánh trực tiếp với GPT-3 hoặc 4.

Tuy nhiên, nếu hiệu suất đạt được được duy trì trong các phiên bản lớn hơn của chương trình Hyena, nó có thể trở thành một mô hình mới phổ biến như sự chú ý đã được trong suốt thập kỷ qua.

Như Poli và đội ngũ kết luận: "Các thiết kế đơn giản hơn và không vượt quá bậc hai như Hyena, được hướng dẫn bởi một số nguyên tắc đơn giản và được đánh giá trên các tiêu chí đánh giá khả năng hiểu xe. cơ học, có thể tạo nên cơ sở cho các mô hình lớn hiệu quả. "

Công nghệ mới này có thể làm tan biến GPT-4 và tất cả những thứ tương tự

Bài viết liên quan