Grok 4 được đánh giá thông minh nhưng nguy hiểm

bboy_nonoyes · Jul 21, 2025

Grok 4, mô hình mới của startup xAI, đứng top đầu trên LMArena, nhưng những bảng xếp hạng này không tính đến rủi ro an toàn tiềm ẩn.

Grok 4 phát hành ngày 9/7 và được nhà sáng lập Elon Musk tuyên bố "thông minh hơn hầu hết sinh viên cao học của mọi ngành". Mô hình vượt qua các đối thủ như DeepSeek và Claude trên bảng xếp hạng LMArena công bố tuần qua.

LMArena là nền tảng cộng đồng do Đại học California Berkeley phát triển, cho phép người dùng đánh giá song song nhiều mô hình AI với các bài kiểm tra mù. Đây là một trong những nền tảng xếp hạng AI phổ biến nhất hiện nay.

Theo thống kê mới, Grok 4 nằm trong top 3 ở đa số hạng mục, ví dụ, đạt hạng nhất về toán, hạng nhì về viết code, viết sáng tạo, tuân theo hướng dẫn và truy vấn dài. Trong xếp hạng tổng thể, Grok 4 đồng hạng ba với GPT-4.5 của OpenAI. Các mô hình ChatGPT o3 và 4o đồng hạng nhì, trong khi Gemini 2.5 Pro của Google đứng đầu.

Tỷ phú Elon Musk và logo xAI ở phía sau. Ảnh: Goodreturns

Theo Bleeping Computer, LMArena sử dụng phiên bản thường của Grok 4 nên tiềm năng thực sự có thể bị đánh giá thấp. Grok 4 Heavy dùng nhiều tác nhân phối hợp để đưa ra phản hồi tốt hơn, nhưng bản này chưa có sẵn dưới dạng giao diện lập trình ứng dụng (API) nên LMArena không thể kiểm tra.

Dù đạt kết quả tốt về hiệu năng, nhiều người dùng Grok 4 đang báo cáo vấn đề an toàn đáng lo ngại. Ví dụ, người dùng X Eleventh Hour thử yêu cầu chatbot tạo ra chất độc thần kinh Tabun. Grok 4 trả lời chi tiết về cách tổng hợp chất độc - hành động không chỉ nguy hiểm mà còn bất hợp pháp. Trong khi đó, các chatbot AI nổi tiếng của OpenAI và Anthropic đều có biện pháp bảo vệ nhằm từ chối thảo luận về những mối đe dọa hóa học, sinh học, phóng xạ, hạt nhân.

Eleventh Hour cũng có thể khiến Grok 4 hướng dẫn cách chế tạo chất độc thần kinh VX, fentanyl, thậm chí cung cấp kiến thức cơ bản về cách tạo bom hạt nhân. Chatbot thậm chí sẵn sàng hỗ trợ nuôi cấy bệnh dịch, nhưng không tìm đủ thông tin để thực hiện. Ngoài ra, với một số câu lệnh cơ bản, người dùng cũng dễ dàng thu thập thông tin về phương pháp tự tử và quan điểm cực đoan.

Một số nhà nghiên cứu từ OpenAI, Anthropic và tổ chức khác đang lên tiếng về vấn đề an toàn tại xAI. Tuần trước, chatbot Grok đưa ra những bình luận bài Do Thái và liên tục tự xưng là "MechaHitler". Ngay sau khi cho chatbot dừng hoạt động để giải quyết, xAI tung ra mô hình AI tiên tiến hơn là Grok 4. Nhưng theo TechCrunch và một số trang công nghệ, mô hình mới tham khảo quan điểm chính trị cá nhân của Musk để trả lời những chủ đề nhạy cảm.

"Tôi đánh giá cao các nhà khoa học và kỹ sư tại xAI, nhưng cách xử lý vấn đề an toàn rất vô trách nhiệm", Boaz Barak, giáo sư khoa học máy tính đang nghiên cứu về an toàn tại OpenAI, viết trên X.

Barak phản đối việc xAI không công bố thẻ hệ thống - tài liệu nêu chi tiết phương pháp đào tạo và đánh giá an toàn nhằm chia sẻ thông tin với cộng đồng nghiên cứu một cách thiện chí. Do đó, Barak không rõ chương trình đào tạo an toàn nào được thực hiện trên Grok 4.

OpenAI và Google không phải lúc nào cũng chia sẻ thẻ hệ thống nhanh chóng khi tung ra mô hình AI mới. OpenAI quyết định không công bố thẻ hệ thống cho GPT-4.1 với lý do đây không phải mô hình tiên tiến. Google đợi nhiều tháng sau khi ra mắt Gemini 2.5 Pro mới công bố báo cáo an toàn. Tuy nhiên, hai công ty này vẫn công bố báo cáo an toàn cho tất cả mô hình AI tiên tiến trước khi triển khai rộng rãi.

Thu Thảo (Theo Mashable, TechCrunch, Futurism)

Adblock test (Why?)
Theo Trang Công Nghệ

Log in

Grok 4 được đánh giá thông minh nhưng nguy hiểm

bboy_nonoyes Administrator Staff Member

Bài viết cùng chuyên mục

Share This Page