OpenAI GPT-4 Sẽ Ra Mắt Giữa Tháng Ba Năm 2023

CTO của Microsoft ở Đức, Andreas Braun, đã xác nhận rằng GPT-4 sẽ ra mắt trong vòng một tuần kể từ ngày 9 tháng 3 năm 2023 và sẽ hỗ trợ đa phương thức. Đa phương thức AI có nghĩa là nó sẽ có thể hoạt động với nhiều loại đầu vào, như video, hình ảnh và âm thanh.

Cập nhật: GPT-4 phát hành vào ngày 14 tháng 3 năm 2023

OpenAI đã ra mắt GPT-4 vào ngày 14 tháng 3 năm 2023. Đây là một mô hình đa phương thức chấp nhận các gợi ý hình ảnh và văn bản.

Modal là một thuật ngữ được sử dụng trong học máy để chỉ các hình thức đầu vào như văn bản, cũng như các giác quan như âm thanh, hình ảnh, mùi, v.v.

Thông báo của OpenAI mô tả quy mô những tiến bộ của GPT-4:

“...trong khi vẫn kém khả năng so với con người trong nhiều tình huống thực tế, đạt được hiệu suất tương đương con người trên các chỉ số chuyên nghiệp và học thuật khác nhau.

Ví dụ: nó đỗ kỳ thi bar mô phỏng với điểm số xếp trong 10% người làm bài thi; trong khi đó, điểm số của GPT-3.5 chỉ ở khoảng 10% thấp nhất.

Chúng tôi đã dành 6 tháng thích nghi GPT-4 theo cách lặp đi lặp lại dựa trên những bài học từ chương trình kiểm tra xung đột của chúng tôi cũng như từ ChatGPT, mang lại kết quả tốt nhất từ trước đến nay (mặc dù vẫn chưa hoàn hảo) về tính chính xác, khả năng điều khiển và sự từ chối vượt ra khỏi ranh giới đã định.”

Mô hình ngôn ngữ đa phương tiện quy mô lớn

Điều quan trọng nhất từ thông báo là GPT-4 có khả năng đa phương thức (SEJ đã dự đoán GPT-4 đa phương thức vào tháng 1 năm 2023).

Modal là một tham chiếu đến loại đầu vào mà (trong trường hợp này) một mô hình ngôn ngữ lớn xử lý.

Đa phương thức có thể bao gồm văn bản, giọng nói, hình ảnh và video.

GPT-3 và GPT-3.5 chỉ hoạt động trong một hình thức, văn bản.

Theo báo cáo tin tức Đức, GPT-4 có thể hoạt động trong ít nhất bốn lĩnh vực, hình ảnh, âm thanh (thính giác), văn bản và video.

Ông Andreas Braun, Giám đốc Công nghệ Microsoft Đức đã trích dẫn:

"Chúng tôi sẽ giới thiệu GPT-4 vào tuần tới, ở đó chúng tôi sẽ có các mô hình multimodal có thể cung cấp những khả năng hoàn toàn khác nhau - ví dụ như video..."

Báo cáo thiếu thông tin cụ thể về GPT-4, vì vậy không rõ những gì được chia sẻ về đa phương thức có phải cụ thể cho GPT-4 hay chỉ là chung chung.

Giám đốc Chiến lược kinh doanh Microsoft Holger Kenn đã giải thích về đa dạng hình thức, nhưng báo cáo không rõ ràng liệu ông ta đang đề cập đến đa dạng hình thức của GPT-4 hay đa dạng hình thức chung.

Tôi tin rằng những tham chiếu đến đa phương thức của anh ấy đề cập đặc biệt đến GPT-4.

Bản tin chia sẻ:

"Kenn đã giải thích về khái niệm AI đa phương thức (multimodal AI), có khả năng dịch bản văn thành cả hình ảnh, âm nhạc và video."

Một sự thật thú vị khác là Microsoft đang làm việc trên "thước đo đáng tin cậy" để làm căn cứ cho trí tuệ nhân tạo của họ với các sự kiện để nó trở nên đáng tin cậy hơn.

Microsoft Kosmos-1

Một điều có vẻ được báo cáo ít ở Hoa Kỳ là Microsoft đã phát hành một mô hình ngôn ngữ đa phương thức mang tên Kosmos-1 vào đầu tháng Ba năm 2023.

Theo báo cáo của trang tin tức Đức, Heise.de:

“…đội đã áp dụng mô hình đã được huấn luyện trước vào các bài kiểm tra khác nhau, với kết quả tốt trong việc phân loại hình ảnh, trả lời câu hỏi về nội dung hình ảnh, gán nhãn tự động cho hình ảnh, nhận dạng văn bản quang học và tạo ra giọng nói.

...Nhận biết hình ảnh, tức là rút ra kết luận về hình ảnh mà không sử dụng ngôn ngữ là bước trung gian, có vẻ là yếu tố quan trọng ở đây..."

Kosmos-1 là một tầng mục đích đa phương tiện kết hợp các phương pháp diễn đạt bằng văn bản và hình ảnh.

GPT-4 đi xa hơn Kosmos-1 vì nó bổ sung một modal thứ ba, video, và cũng có vẻ như bao gồm modal âm thanh.

Hoạt động trên nhiều ngôn ngữ

GPT-4 có vẻ hoạt động trên tất cả các ngôn ngữ. Mô tả nó có thể nhận câu hỏi bằng tiếng Đức và trả lời bằng tiếng Ý.

Đó là một ví dụ hơi lạ, vì ai sẽ đặt câu hỏi bằng tiếng Đức và muốn nhận được câu trả lời bằng tiếng Ý?

Đây là những gì đã được xác nhận:

"...công nghệ đã tiến xa đến mức nó "hoạt động trên tất cả các ngôn ngữ": Bạn có thể đặt câu hỏi bằng tiếng Đức và nhận được câu trả lời bằng tiếng Ý."

Với đa phương thức, Microsoft(-OpenAI) sẽ 'làm cho các mô hình toàn diện'."

Tôi tin rằng điểm đột phá của mô hình này chính là khả năng của nó vượt qua ngôn ngữ để thu thập kiến thức từ các ngôn ngữ khác nhau. Vì vậy, nếu câu trả lời là tiếng Ý, nó sẽ biết và có thể cung cấp câu trả lời bằng ngôn ngữ mà câu hỏi đã được hỏi.

Điều này sẽ giúp nó trở nên tương tự như mục tiêu của trí tuệ nhân tạo đa phương thức của Google, được gọi là MUM. MUM được cho là có thể cung cấp câu trả lời bằng tiếng Anh cho những dữ liệu chỉ tồn tại bằng một ngôn ngữ khác, chẳng hạn như tiếng Nhật.

Ứng dụng của GPT-4

Hiện tại không có thông báo về nơi GPT-4 sẽ xuất hiện. Nhưng Azure-OpenAI đã được đề cập cụ thể.

Google đang cố gắng bắt kịp Microsoft bằng cách tích hợp một công nghệ cạnh tranh vào công cụ tìm kiếm của mình. Sự phát triển này làm tăng thêm sự nhận thức rằng Google đang tụt hậu và thiếu lãnh đạo trong lĩnh vực Trí tuệ nhân tạo phục vụ người dùng.

Google đã tích hợp trí tuệ nhân tạo vào nhiều sản phẩm như Google Lens, Google Maps và các lĩnh vực khác mà người tiêu dùng tương tác với Google. Phương pháp này nhằm sử dụng trí tuệ nhân tạo như một công nghệ hỗ trợ, giúp đỡ mọi người trong những nhiệm vụ nhỏ.

Cách Microsoft thực hiện nó là rõ ràng hơn và do đó nó thu hút mọi sự chú ý và củng cố hình ảnh Google đang bị lúng túng và đấu tranh để bắt kịp.

Đọc thông báo chính thức về việc phát hành OpenAI GPT-4 tại đây.

Đọc báo cáo gốc tiếng Đức tại đây:

GPT-4 sẽ ra mắt vào tuần tới - và nó sẽ có tính năng đa phương thức, theo Microsoft Đức

OpenAI GPT-4 Sẽ Có Mặt Vào Giữa Tháng Ba Năm 2023

Cập nhật: GPT-4 phát hành vào ngày 14 tháng 3 năm 2023

Mô hình ngôn ngữ đa phương tiện quy mô lớn

Microsoft Kosmos-1

Hoạt động trên nhiều ngôn ngữ

Ứng dụng của GPT-4

Bài viết liên quan