Hình mờ ChatGPT hoạt động như thế nào và tại sao nó có thể bị đánh bại

ChatGPT của OpenAI đã giới thiệu cách tự động tạo nội dung nhưng kế hoạch giới thiệu tính năng đánh dấu chìm để dễ phát hiện đang khiến một số người lo lắng. Đây là cách hình mờ ChatGPT hoạt động và tại sao có thể có cách đánh bại nó.

ChatGPT là một công cụ đáng kinh ngạc mà các nhà xuất bản trực tuyến, các chi nhánh và SEO đồng thời yêu thích và sợ hãi.

Một số nhà tiếp thị yêu thích nó vì họ đang khám phá những cách mới để sử dụng nó để tạo nội dung tóm tắt, dàn ý và các bài viết phức tạp.

Các nhà xuất bản trực tuyến lo sợ về viễn cảnh nội dung AI tràn ngập kết quả tìm kiếm, thay thế các bài báo chuyên môn do con người viết.

Do đó, tin tức về tính năng đánh dấu mờ giúp mở khóa khả năng phát hiện nội dung do ChatGPT tạo ra cũng được mong đợi với sự lo lắng và hy vọng.

Hình mờ mật mã

Hình mờ là một dấu bán trong suốt (logo hoặc văn bản) được nhúng vào hình ảnh. Hình mờ báo hiệu ai là tác giả gốc của tác phẩm.

Nó chủ yếu được nhìn thấy trong các bức ảnh và ngày càng nhiều trong các video.

Văn bản thủy ấn trong ChatGPT liên quan đến mật mã dưới dạng nhúng một mẫu từ, chữ cái và dấu câu dưới dạng mã bí mật.

Scott Aaronson và ChatGPT Watermarking

Một nhà khoa học máy tính có ảnh hưởng tên là Scott Aaronson đã được OpenAI thuê vào tháng 6 năm 2022 để làm việc về An toàn và căn chỉnh AI.

An toàn trí tuệ nhân tạo là một lĩnh vực nghiên cứu liên quan đến việc nghiên cứu những cách mà trí tuệ nhân tạo có thể gây hại cho con người và tạo ra những cách để ngăn chặn sự gián đoạn tiêu cực đó.

Tạp chí khoa học Distill, có các tác giả liên kết với OpenAI, định nghĩa An toàn AI như sau:

“Mục tiêu của sự an toàn trí tuệ nhân tạo (AI) dài hạn là đảm bảo rằng các hệ thống AI tiên tiến được liên kết một cách đáng tin cậy với các giá trị của con người — rằng chúng làm những việc mà mọi người muốn chúng làm một cách đáng tin cậy.”

AI Alignment là lĩnh vực trí tuệ nhân tạo liên quan đến việc đảm bảo rằng AI được liên kết với các mục tiêu đã định.

Một mô hình ngôn ngữ lớn (LLM) như ChatGPT có thể được sử dụng theo cách có thể đi ngược lại mục tiêu của AI Alignment như OpenAI đã xác định, đó là tạo ra AI mang lại lợi ích cho nhân loại.

Theo đó, lý do của việc đánh dấu thủy ấn là để ngăn chặn việc lạm dụng AI theo cách gây hại cho loài người.

Aaronson giải thích lý do đánh dấu đầu ra ChatGPT:

“Điều này có thể hữu ích để ngăn chặn đạo văn học thuật, rõ ràng, nhưng cũng có thể, ví dụ, tạo ra tuyên truyền hàng loạt…”

Hình mờ ChatGPT hoạt động như thế nào?

ChatGPT watermarking là một hệ thống nhúng mẫu thống kê, mã, vào các lựa chọn từ và thậm chí cả dấu chấm câu.

Nội dung do trí tuệ nhân tạo tạo ra được tạo ra với một kiểu lựa chọn từ khá dễ đoán.

Các từ được viết bởi con người và AI tuân theo một mẫu thống kê.

Thay đổi mẫu từ được sử dụng trong nội dung được tạo là một cách để “đóng dấu mờ” vào văn bản để giúp hệ thống dễ dàng phát hiện xem đó có phải là sản phẩm của trình tạo văn bản AI hay không.

Thủ thuật làm cho hình mờ nội dung AI không thể bị phát hiện là sự phân bố các từ vẫn có hình thức ngẫu nhiên tương tự như văn bản do AI tạo bình thường.

Điều này được gọi là phân phối giả ngẫu nhiên của các từ.

Giả ngẫu nhiên là một chuỗi các từ hoặc số ngẫu nhiên được thống kê không thực sự ngẫu nhiên.

Hình mờ ChatGPT hiện không được sử dụng. Tuy nhiên, Scott Aaronson tại OpenAI được ghi nhận rằng nó đã được lên kế hoạch.

Hiện tại, ChatGPT đang ở giai đoạn xem trước, cho phép OpenAI phát hiện ra “sự sai lệch” thông qua việc sử dụng trong thế giới thực.

Có lẽ hình mờ có thể được giới thiệu trong phiên bản cuối cùng của ChatGPT hoặc sớm hơn thế.

Scott Aaronson đã viết về cách hoạt động của thủy vân:

“Dự án chính của tôi cho đến nay là một công cụ để đánh dấu bằng thống kê các đầu ra của một mô hình văn bản như GPT.
Về cơ bản, bất cứ khi nào GPT tạo ra một số văn bản dài, chúng tôi muốn có một tín hiệu bí mật không đáng chú ý trong các lựa chọn từ ngữ mà bạn có thể sử dụng để sau này chứng minh rằng, vâng, điều này đến từ GPT.”

Aaronson giải thích thêm về cách thức hoạt động của hình mờ ChatGPT. Nhưng trước tiên, điều quan trọng là phải hiểu khái niệm mã thông báo.

Tokenization là một bước xảy ra trong quá trình xử lý ngôn ngữ tự nhiên, trong đó máy lấy các từ trong tài liệu và chia nhỏ chúng thành các đơn vị ngữ nghĩa như từ và câu.

Mã thông báo thay đổi văn bản thành dạng có cấu trúc có thể được sử dụng trong máy học.

Quá trình tạo văn bản là máy đoán mã thông báo nào tiếp theo dựa trên mã thông báo trước đó.

Điều này được thực hiện với một hàm toán học xác định xác suất của mã thông báo tiếp theo, được gọi là phân phối xác suất.

Từ nào tiếp theo được dự đoán nhưng nó là ngẫu nhiên.

Bản thân hình mờ được Aaron mô tả là giả ngẫu nhiên, trong đó có một lý do toán học cho một từ hoặc dấu chấm câu cụ thể ở đó nhưng nó vẫn là ngẫu nhiên về mặt thống kê.

Dưới đây là giải thích kỹ thuật về GPT watermarking:

“Đối với GPT, mọi đầu vào và đầu ra là một chuỗi mã thông báo, có thể là từ nhưng cũng có thể là dấu chấm câu, các phần của từ hoặc hơn thế nữa—tổng cộng có khoảng 100.000 mã thông báo.
Về cốt lõi, GPT liên tục tạo phân phối xác suất trên mã thông báo tiếp theo để tạo, có điều kiện dựa trên chuỗi mã thông báo trước đó.
Sau khi mạng nơ-ron tạo bản phân phối, máy chủ OpenAI sẽ thực sự lấy mẫu mã thông báo theo bản phân phối đó—hoặc một số phiên bản đã sửa đổi của bản phân phối, tùy thuộc vào tham số được gọi là "nhiệt độ".
Tuy nhiên, miễn là nhiệt độ khác không, thường sẽ có một số ngẫu nhiên trong việc lựa chọn mã thông báo tiếp theo: bạn có thể chạy đi chạy lại với cùng một lời nhắc và nhận được một kết quả hoàn thành khác nhau (tức là chuỗi mã thông báo đầu ra) mỗi lần .
Vì vậy, đối với hình mờ, thay vì chọn mã thông báo tiếp theo một cách ngẫu nhiên, ý tưởng sẽ là chọn nó một cách giả ngẫu nhiên, sử dụng chức năng mã hóa giả ngẫu nhiên, có khóa chỉ được biết đến với OpenAI.”

Hình mờ trông hoàn toàn tự nhiên đối với những người đọc văn bản vì việc lựa chọn các từ bắt chước tính ngẫu nhiên của tất cả các từ khác.

Đây là giải thích kỹ thuật:

“Để minh họa, trong trường hợp đặc biệt GPT có nhiều mã thông báo có thể có mà nó đánh giá là có khả năng xảy ra như nhau, bạn có thể chỉ cần chọn bất kỳ mã thông báo nào tối đa hóa g. Sự lựa chọn có vẻ hoàn toàn ngẫu nhiên đối với một người không biết khóa, nhưng một người nào đó biết khóa sau đó có thể tính tổng g trên tất cả n-gram và thấy rằng nó lớn bất thường.”

Watermarking là giải pháp ưu tiên quyền riêng tư

Tôi đã xem các cuộc thảo luận trên phương tiện truyền thông xã hội nơi một số người gợi ý rằng OpenAI có thể lưu giữ bản ghi về mọi đầu ra mà nó tạo ra và sử dụng bản ghi đó để phát hiện.

Scott Aaronson xác nhận rằng OpenAI có thể làm được điều đó nhưng làm như vậy sẽ gây ra vấn đề về quyền riêng tư. Trường hợp ngoại lệ có thể xảy ra là đối với tình huống thực thi pháp luật, điều mà anh ấy không giải thích chi tiết.

Cách phát hiện hình mờ ChatGPT hoặc GPT

Một điều thú vị dường như vẫn chưa được nhiều người biết đến là Scott Aaronson đã lưu ý rằng có một cách để đánh bại hình mờ.

Anh ấy không nói rằng có thể đánh bại hình mờ, anh ấy nói rằng nó có thể bị đánh bại.

“Bây giờ, tất cả điều này có thể bị đánh bại với đủ nỗ lực.
Ví dụ: nếu bạn sử dụng một AI khác để diễn giải đầu ra của GPT—được thôi, chúng tôi sẽ không thể phát hiện ra điều đó.”

Có vẻ như hình mờ có thể bị đánh bại, ít nhất là từ tháng 11 khi các tuyên bố trên được đưa ra.

Không có dấu hiệu cho thấy hình mờ hiện đang được sử dụng. Nhưng khi nó được đưa vào sử dụng, có thể không biết liệu lỗ hổng này đã được lấp đầy hay chưa.

trích dẫn

Đọc bài đăng trên blog của Scott Aaronson tại đây.