U-Turn của OpenAI: Không Huấn luyện GPT-4 trên Dữ liệu Khách hàng API

Trong một sự khác biệt đáng kể so với các thực tiễn trước đây của mình, OpenAI đã thông báo rằng họ sẽ không còn sử dụng dữ liệu của khách hàng gửi qua các API của mình để huấn luyện các mô hình ngôn ngữ phong phú như GPT-4.

Thay đổi này đã được xác nhận bởi Sam Altman, CEO của OpenAI, trong một cuộc phỏng vấn gần đây với CNBC.

Cách tiếp cận mới của OpenAI đối với dữ liệu người dùng

Chính sách mới của OpenAI được áp dụng từ ngày 1 tháng 3 năm 2023, khi công ty đã một cách im lặng cập nhật điều khoản dịch vụ để phản ánh cam kết mới này đối với quyền riêng tư của người dùng.

Altman đã làm rõ, "Khách hàng rõ ràng muốn chúng tôi không được đào tạo qua dữ liệu của họ, vì vậy chúng tôi đã thay đổi kế hoạch: Chúng tôi sẽ không làm như vậy".

Các API, hay giao diện lập trình ứng dụng, là các khung công nghệ giúp khách hàng kết nối trực tiếp với phần mềm của OpenAI.

Altman đã nói rằng OpenAI đã không sử dụng dữ liệu của API để đào tạo mô hình "trong một thời gian," cho thấy thông báo chính thức này hình thành một thực tế hiện tại.

Hậu quả đối với khách hàng doanh nghiệp

Việc OpenAI điều này mang đến những hệ quả sâu xa, đặc biệt là đối với khách hàng doanh nghiệp của họ, bao gồm các công ty khổng lồ như Microsoft, Salesforce và Snapchat.

Các công ty này có khả năng sử dụng các khả năng API của OpenAI cho hoạt động của họ, vì vậy việc chuyển đổi riêng tư và bảo vệ dữ liệu đặc biệt quan trọng đối với họ.

Tuy nhiên, các biện pháp bảo vệ dữ liệu mới chỉ áp dụng cho khách hàng sử dụng dịch vụ API của công ty. Điều khoản dịch vụ cập nhật của OpenAI lưu ý, "Chúng tôi có thể sử dụng Nội dung từ các dịch vụ khác ngoài API của chúng tôi."

Do đó, các hình thức khác của đầu vào dữ liệu, như văn bản được nhập vào chatbot phổ biến ChatGPT, vẫn có thể được OpenAI sử dụng trừ khi dữ liệu được chia sẻ qua API.

Tác động rộng hơn đến ngành công nghiệp

Chính sách mới của OpenAI đến vào lúc các ngành công nghiệp đang đối mặt với những tác động tiềm năng của các mô hình ngôn ngữ lớn, như ChatGPT của OpenAI, thay thế nội dung thông thường được tạo ra bởi con người.

Ví dụ, Hiệp hội Nhà văn Mỹ vừa đình công sau khi đàm phán giữa Hiệp hội và các hãng phim đổ vỡ. Hiệp hội đã đề xuất hạn chế sử dụng OpenAI's ChatGPT để tạo hoặc viết lại kịch bản.

Quyết định của OpenAI không sử dụng dữ liệu khách hàng cho việc đào tạo đánh dấu một phần quan trọng trong cuộc trò chuyện liên quan đến quyền riêng tư dữ liệu và trí tuệ nhân tạo. Khi các công ty tiếp tục khám phá và đẩy mạnh giới hạn của công nghệ AI, việc đảm bảo quyền riêng tư của người dùng và duy trì sự tin tưởng có lẽ sẽ tiếp tục đóng vai trò trung tâm trong những cuộc thảo luận này.

Sự tiến hóa của ChatGPT: từ GPT-3 đến GPT-4

Lưu ý rằng cam kết của OpenAI không sử dụng dữ liệu của khách hàng để huấn luyện áp dụng cho mô hình ngôn ngữ mới nhất của họ, GPT-4, được phát hành vào ngày 14 tháng 3 năm 2023.

GPT-4 đã giới thiệu một số cải tiến so với phiên bản trước đó là GPT-3, bao gồm một sự tăng đáng kể về giới hạn số từ (25.000 so với giới hạn 3.000 từ của ChatGPT), kích thước cửa sổ ngữ cảnh lớn hơn và khả năng lý luận và hiểu biết được cải thiện.

Một tính năng đáng chú ý khác của GPT-4 là khả năng đa phương thức hoạt động, hoặc khả năng hiểu và suy luận thông tin từ hình ảnh cùng với văn bản. Mẫu mới nhất này tạo ra các văn bản giống con người hơn, sử dụng các biểu tượng cảm xúc như emoji để mang lại cảm giác cá nhân hơn.

Tuy nhiên, kích thước và kiến trúc chính xác của GPT-4 vẫn chưa được tiết lộ, dẫn đến những suy đoán về chi tiết của mô hình.

Mặc dù có những tin đồn như vậy, CEO của OpenAI đã phủ nhận những tuyên bố cụ thể về kích thước của mô hình này.

Đối với hiệu suất, GPT-4 đã chứng tỏ được sự mạnh mẽ trong việc tạo ra văn bản nhưng cũng tồn tại một số hạn chế. Ví dụ, nó đạt điểm số ở điểm phần trăm thứ 54 trên Bài viết Kỷ năng Đại học (GRE) và đạt từ phần trăm thứ 43 đến thứ 59 trên kỳ thi AP Calculus BC.

Ngoài ra, nó đã hoạt động tốt trên các nhiệm vụ lập trình Leetcode dễ dàng, nhưng hiệu suất của nó giảm đi khi độ khó nhiệm vụ tăng lên.

Trong khi chi tiết về quá trình huấn luyện của GPT-4 chưa được công bố chính thức, nhưng đã biết rằng các mô hình GPT thường liên quan đến học máy quy mô lớn với một phạm vi đa dạng về văn bản trên internet.

Mong đợi

Với sự thay đổi vào chính sách sử dụng dữ liệu của OpenAI, dữ liệu được sử dụng để huấn luyện mô hình ngôn ngữ không bao gồm thông tin được chia sẻ qua API trừ khi người dùng đồng ý rõ ràng góp phần cho mục đích này.

Mặc dù công nghệ này ngày càng được cải tiến và đóng vai trò quan trọng hơn trong cuộc sống của chúng ta, thì việc các công ty điều chỉnh và đáp ứng những lo ngại về việc bảo mật dữ liệu và giành được sự tin tưởng của mọi người cũng rất đáng chú ý.

Màn quay đầu của OpenAI: Không huấn luyện GPT-4 trên Dữ liệu Khách hàng của API

Cách tiếp cận mới của OpenAI đối với dữ liệu người dùng

Hậu quả đối với khách hàng doanh nghiệp

Tác động rộng hơn đến ngành công nghiệp

Sự tiến hóa của ChatGPT: từ GPT-3 đến GPT-4

Mong đợi

Bài viết liên quan