OpenAI đã giới thiệu GPT-4.5 , một mô hình không còn lý luận từng bước mà tập trung vào cuộc trò chuyện tự nhiên, trực quan hơn.
Sam Altman mô tả đây là AI đầu tiên thực sự mang lại cảm giác như đang nói chuyện với một người chu đáo, và từ những gì chúng ta thấy cho đến nay, nó được thiết kế để ít gây ảo giác hơn, diễn ra trôi chảy hơn và cung cấp phản hồi rõ ràng, súc tích hơn.
Đây không phải là bản nâng cấp nhằm mục đích vượt trội hơn các mô hình được xây dựng cho lý luận phức tạp. GPT-4.5 sẽ không dẫn đầu bảng xếp hạng chuẩn trong các tác vụ logic nặng như lập trình hoặc giải quyết vấn đề khoa học. Thay vào đó, OpenAI tập trung vào việc cải thiện nó cho các tương tác hàng ngày, viết và truy vấn dựa trên kiến thức.
Hiện tại, quyền truy cập bị hạn chế. Người dùng Pro có thể bắt đầu sử dụng GPT-4.5 ngay hôm nay, nhưng người dùng Plus sẽ phải đợi cho đến khi OpenAI mở rộng cơ sở hạ tầng của mình vào tuần tới. Công ty đã trích dẫn tình trạng thiếu GPU là lý do cho việc triển khai theo từng giai đoạn, lưu ý rằng nhu cầu cao hơn dự kiến.
Chúng tôi muốn xem mô hình này thay đổi các tương tác AI hàng ngày như thế nào và liệu các điểm mạnh của nó có bù đắp được cho những đánh đổi trong các tác vụ lý luận hay không. Hãy cùng xem xét kỹ hơn những điểm khác biệt của GPT-4.5.
1. GPT-4.5 là gì?
GPT-4.5 có cách tiếp cận khác so với các mô hình gần đây của OpenAI. Thay vì cải thiện lý luận từng bước, nó dựa trên học tập không giám sát , giúp phản hồi trôi chảy hơn, ngắn gọn hơn và mang tính đàm thoại hơn.
Không phải là mô hình chuỗi suy nghĩ
Một trong những điểm khác biệt lớn nhất giữa GPT-4.5 và mô hình lý luận của OpenAI là cách nó xử lý và cấu trúc phản hồi.
Các mô hình như o1, DeepSeek R1 hoặc o3-mini sử dụng lý luận chuỗi suy nghĩ (CoT), nghĩa là chúng chia nhỏ các vấn đề phức tạp theo từng bước, giống như con người viết ra công việc của mình trong một bài toán. Cách tiếp cận có cấu trúc này giúp suy luận logic, giải quyết vấn đề theo nhiều bước và giải thích chi tiết.
Tuy nhiên, GPT-4.5 không lý luận theo cách này. Thay vào đó, nó phản hồi dựa trên trực giác ngôn ngữ và nhận dạng mẫu, rút ra từ dữ liệu đào tạo của nó mà không chia nhỏ vấn đề thành các bước một cách rõ ràng. Đây là lý do tại sao nó có thể mang tính đàm thoại và tự nhiên hơn, nhưng cũng có nghĩa là nó kém tin cậy hơn đối với các tác vụ nặng về logic như lập trình nâng cao hoặc lý luận khoa học.
Tự nhiên hơn, súc tích hơn
Điểm nổi bật của GPT-4.5 là chất lượng hội thoại. Phản hồi diễn ra tự nhiên hơn, khiến các tương tác trở nên ít mang tính máy móc và trực quan hơn. OpenAI đã thử nghiệm điều này với những người đánh giá là con người và kết quả cho thấy sự ưu tiên rõ ràng cho tông giọng, độ rõ ràng và mức độ tương tác của GPT-4.5 so với GPT-4o (sẽ nói thêm về điểm chuẩn sau).
Một so sánh từ bài thuyết trình trực tiếp đã gây ấn tượng với chúng tôi. Các kỹ sư OpenAI đã hỏi các mô hình khác nhau: "Tại sao đại dương lại mặn?":
- GPT-3.5 Turbo : Một phản hồi đúng về mặt kỹ thuật nhưng lại quá chi tiết.
- GPT-4 Turbo : Một câu trả lời dài dòng nhưng chính xác.
- GPT-4.5: Một lời giải thích ngắn gọn nhưng đầy đủ, được cấu trúc theo cách giúp bạn dễ nhớ và dễ hiểu hơn.
Theo quan điểm của chúng tôi, sự thay đổi này hướng đến sự ngắn gọn và rõ ràng khiến GPT-4.5 phù hợp hơn với các cuộc trò chuyện thông thường, tóm tắt và hỗ trợ viết. Chúng tôi cũng thích cách ví dụ này từ blog phát hành thể hiện sự tiến hóa của GPT đàm thoại:
2. Ấn tượng thực tế: Nói chuyện với GPT-4.5
Để hiểu rõ hiệu suất thực sự của GPT-4.5, chúng tôi đã xem bản demo của OpenAI và chạy thử nghiệm của riêng mình.
Nhận thức xã hội nhiều hơn, giọng điệu tốt hơn
Một trong những bản demo của OpenAI minh họa rõ điều này. Một người dùng đã yêu cầu GPT-4.5 giúp soạn thảo một văn bản sau khi một người bạn lại hủy kế hoạch. Yêu cầu ban đầu là bực bội và bốc đồng: “Viết tin nhắn nói với họ rằng tôi ghét họ”.
GPT-4.5 đã nắm bắt được cảm xúc đằng sau yêu cầu và đề xuất phản hồi mang tính xây dựng hơn trong khi vẫn thừa nhận sự thất vọng. OpenAI đã so sánh điều này với o1, vốn đã tuân theo hướng dẫn theo nghĩa đen mà không nhận ra ý định cơ bản.
Chúng tôi đã thử các lời nhắc tương tự và nhận thấy điều tương tự - GPT-4.5 hiểu giọng điệu và sắc thái xã hội tốt hơn các mô hình trước đó. Ví dụ, chúng tôi đã nhắc mô hình viết một email hung hăng gửi cho một ông chủ và chúng tôi mong đợi mô hình sẽ nhận ra sự thất vọng của chúng tôi và giúp chúng tôi định hình lại phản hồi theo cách chuyên nghiệp và mang tính xây dựng hơn - và nó đã làm được!
Tất nhiên, nếu chúng ta yêu cầu nó xuất ra văn bản tức giận, nó sẽ tuân thủ, nhưng theo mặc định, nó có vẻ ưu tiên các phản hồi chu đáo và cân bằng hơn. Bạn thực sự có thể xem ví dụ trò chuyện của chúng tôi được chia sẻ tại đây .
Giải thích tốt hơn và ngắn hơn
Một cải tiến quan trọng khác là cách GPT-4.5 giải thích các khái niệm. OpenAI đã so sánh các mô hình khác nhau để trả lời câu hỏi "Tại sao đại dương lại mặn?" và kết luận rằng GPT-4.5 tóm tắt các điểm chính một cách ngắn gọn, trong khi GPT-4 Turbo đưa ra câu trả lời dài và chi tiết.
Chúng tôi chỉ thử nghiệm nó với GPT-4o (khác với GPT-4 Turbo) và kết quả trông gần như giống nhau. Tuy nhiên, chúng tôi thấy có sự khác biệt đáng kể khi thử nghiệm nó với mô hình cũ GPT-4. Chúng tôi đã thử nhiều lời nhắc, nhưng bạn có thể so sánh các câu trả lời cho câu hỏi "Tại sao sông không mặn?"
3. Hiệu suất chuẩn: Độ chính xác cao hơn, nhưng không phải là mô hình lý luận
OpenAI đã nói rõ ngay từ đầu: GPT-4.5 không phải là một cỗ máy lý luận mạnh mẽ. Không giống như các mô hình o-series, dựa vào lý luận chuỗi suy nghĩ (CoT) để phân tích từng bước các vấn đề phức tạp, GPT-4.5 dựa vào học không giám sát, nghĩa là nó tạo ra phản hồi dựa trên trực giác ngôn ngữ thay vì logic có cấu trúc.
Sự đánh đổi này được phản ánh trong kết quả chuẩn. GPT-4.5 vượt trội hơn các mô hình trước về độ chính xác và tính thực tế nhưng lại chậm hơn trong việc giải quyết vấn đề có cấu trúc.
Độ chính xác cao hơn, ít ảo giác hơn
GPT-4.5 dẫn đầu về kiến thức chung và độ chính xác thực tế, với tỷ lệ chính xác 62,5% trên SimpleQA, vượt xa GPT-4o (38,2%), OpenAI o1 (47%) và OpenAI o3-mini (15%).
Tuy nhiên, điều quan trọng hơn có thể được cho là tỷ lệ ảo giác giảm của GPT-4.5 . Các mô hình trước đây gặp khó khăn trong việc tự tin tạo ra thông tin không chính xác, nhưng GPT-4.5 có tỷ lệ ảo giác thấp nhất ở mức 37,1%, cải thiện đáng kể so với GPT-4o (61,8%), OpenAI o1 (44%) và o3-mini (80,3%).
Điều này có nghĩa là GPT-4.5 đưa ra ít tuyên bố sai hơn so với các mô hình OpenAI trước đây, mặc dù nó vẫn chưa hoàn toàn đáng tin cậy để kiểm tra thực tế (xét cho cùng, nó vẫn ở mức 37,1%).
Đánh giá của con người: Hữu ích hơn cho các nhiệm vụ hàng ngày và chuyên nghiệp
OpenAI đã tiến hành đánh giá so sánh với người thử nghiệm, đo tỷ lệ thắng của GPT-4.5 so với GPT-4o trong các loại truy vấn khác nhau. Kết quả cho thấy GPT-4.5 được ưa chuộng hơn trong hầu hết các trường hợp, đặc biệt là trong các truy vấn chuyên nghiệp (tỷ lệ thắng 63,2%).
Vật lộn với lý luận phức tạp
Trong khi GPT-4.5 cải thiện độ chính xác về mặt thực tế và khả năng giao tiếp trôi chảy, nó vẫn còn kém trong các nhiệm vụ đòi hỏi nhiều lý luận như toán học, khoa học và mã hóa có cấu trúc. Điểm chuẩn cho thấy nó vượt trội hơn GPT-4o nhưng vẫn kém hơn o3-mini của OpenAI, được tối ưu hóa để giải quyết vấn đề dựa trên logic.
Điểm chuẩn | GPT-4.5 | GPT-4o | OpenAI o3‑mini (cao) |
GPQA (khoa học) | 71,4% | 53,6% | 79,7% |
AIME '24 (toán) | 36,7% | 9,3% | 87,3% |
MMMLU (đa ngôn ngữ) | 85,1% | 81,5% | 81,1% |
MMMU (đa phương thức) | 74,4% | 69,1% | - |
SWE-Lancer Diamond (mã hóa) | 32,6% 186.125 đô la | 23,3% 138.750 đô la | 10,8% 89.625 đô la |
SWE-Bench đã xác minh (mã hóa) | 38,0% | 30,7% | 61,0% |
GPT-4.5 tích hợp với các tính năng mới nhất của ChatGPT, bao gồm tải tệp và hình ảnh, khả năng tìm kiếm và công cụ canvas để viết và mã hóa các tác vụ. Tuy nhiên, các khả năng đa phương thức như Chế độ giọng nói, xử lý video và chia sẻ màn hình vẫn chưa được hỗ trợ trong ChatGPT.
4. GPT-4.5 Giao diện lập trình ứng dụng
GPT-4.5 cũng khả dụng cho các nhà phát triển thông qua API Chat Completions, API Assistants và API Batch. Mô hình hỗ trợ chức năng gọi, đầu ra có cấu trúc, tin nhắn hệ thống, phát trực tuyến và khả năng thị giác.
Tuy nhiên, đây là một mô hình lớn, đòi hỏi nhiều tính toán, khiến nó đắt hơn các phiên bản trước. OpenAI vẫn chưa cam kết biến GPT-4.5 thành một sản phẩm dài hạn, vì vậy tính khả dụng của nó có thể phụ thuộc vào phản hồi của nhà phát triển.
Loại | Giá |
Đầu vào | 75,00 đô la |
Đầu vào được lưu trong bộ nhớ đệm | 37,50 đô la |
Đầu ra | 150,00 đô la |
GPT-4.5 là một trong những mô hình đắt nhất trong dòng sản phẩm của OpenAI, phản ánh nhu cầu tính toán cao hơn của nó.
Giới hạn tỷ lệ theo từng cấp
Giới hạn tốc độ API thay đổi tùy theo cấp độ truy cập, ảnh hưởng đến số lượng yêu cầu mỗi phút (RPM) và mã thông báo mỗi phút (TPM) mà nhà phát triển có thể sử dụng. Khách hàng cấp cao hơn sẽ nhận được thông lượng cao hơn đáng kể.
Bậc | RPM (Yêu cầu mỗi phút) | TPM (Token mỗi phút) | Giới hạn hàng đợi hàng loạt |
Bậc 1 | 1.000 | 125.000 | 50.000 |
Bậc 2 | 5.000 | 250.000 | 500.000 |
Bậc 3 | 5.000 | 500.000 | 50.000.000 |
Bậc 4 | 10.000 | 1.000.000 | 100.000.000 |
Bậc 5 | 10.000 | 2.000.000 | 5.000.000.000 |
Các nhà phát triển có quyền truy cập API cấp cao hơn sẽ có năng lực lớn hơn nhiều, khiến GPT-4.5 phù hợp hơn với các ứng dụng AI quy mô doanh nghiệp.
Có thể có giới hạn về khả năng cung cấp
GPT-4.5 hiện là bản xem trước nghiên cứu và OpenAI chưa xác nhận liệu nó có khả dụng vĩnh viễn trong API hay không. Với chi phí cao hơn và nhu cầu tính toán, OpenAI có thể đánh giá liệu việc triển khai liên tục có bền vững hay không dựa trên phản hồi của người dùng.
Phần kết luận
GPT-4.5 là mô hình ChatGPT tự nhiên và có nhận thức xã hội nhất từ trước đến nay. Từ các thử nghiệm của chúng tôi, nó luôn hiểu được sắc thái cảm xúc, diễn đạt lại các lời nhắc hung hăng một cách chu đáo hơn và cung cấp các phản hồi rõ ràng hơn, có cấu trúc hơn.
Tuy nhiên, khả năng lập luận của nó vẫn còn yếu và chúng tôi đã xác nhận qua thử nghiệm rằng nó gặp khó khăn với các vấn đề có nhiều lập luận, trong khi các mô hình như o3-mini hoạt động tốt hơn. Mặc dù GPT-4.5 rất tuyệt vời cho các tương tác lưu loát, nhưng nó không phải là mô hình đáng tin cậy để giải quyết vấn đề có cấu trúc hoặc hỗ trợ mã hóa chính xác.
Đối với người dùng ưu tiên luồng hội thoại và tính rõ ràng, GPT-4.5 là một bước tiến. Nhưng đối với bất kỳ thứ gì đòi hỏi logic sâu, vẫn có những lựa chọn tốt hơn.