Nhận diện giọng nói sẽ thúc đẩy cải tổ Internet

Robot Siêu Nhân · Apr 2, 2015

(PCWorldVN) Khi các dịch vụ web chuyển dần sang lĩnh vực trí tuệ nhân tạo và deep learning, nhất là nhận diện giọng nói, thì ngành công nghiệp bộ xử lý buộc phải chạy theo nhu cầu.

Apple thua kiện bản quyền nhận dạng giọng nói ở Trung Quốc

Nhận dạng giọng nói

Cách thức lập trình nhận dạng giọng nói.

Microsoft toan tính gì khi đưa Cortana lên Android và iOS

Trợ lý ảo Cortana rục rịch ra riêng, thẳng tiến iOS và Android

Jason Mars tự tạo một ứng dụng tương tự Siri cho riêng ông.

Ông là giáo sư ngành khoa học máy tính đại học Michigan, Mỹ. Làm việc cùng vài nhà nghiên cứu khác, ông vừa mới tạo ra ứng dụng trợ giúp số, có thể trả lời ngay những lệnh bằng giọng nói, tựa như Siri trên iPhone. Sau đó, ông công khai mã nguồn ứng dụng này cho mọi người.

Dự án mà Jason mở ra cho cộng đồng tên là Sirius, giúp các nhà lập trình phần mềm có thể khám phá được tính phức tạp của nhận diện giọng nói hiện đại và có thể thêm vào bộ nhận diện giọng nói của riêng mình, tạo ra ứng dụng di động riêng. Jason làm như vậy vì ông cho rằng ngành công nghệ đang chuyển động theo hướng này.

Jason Mars.

Nhưng dự án Sirius còn có một đích ngắm khác. Jason nhận ra các trung tâm điện toán lớn, chạy các ứng dụng/dịch vụ Internet hiện nay rất "lạc hậu" về công nghệ nhận diện giọng nói. Những công nghệ nhận diện giọng nói phổ biến hiện thời như Siri của Apple, Google Now và Microsoft Cortana không chỉ có trên điện thoại thông minh mà chúng có thể chạy trên hàng ngàn máy tính trong các trung tâm điện toán lớn, và có thể mở rộng cho các dịch vụ khác nữa. Nếu triển khai được ở quy mô như vậy, chúng ta cần rất nhiều nguồn lực đầu tư, nhất là cần nền tảng phần cứng hiệu quả cho công nghệ nhận diện giọng nói.

Với dự án nguồn mở của Jason và cộng sự của ông tại trường đại học, trong đó có Yunqi Zhang, ông có thể minh họa được một công cụ tương tự như Siri hoạt động thế nào trong một trung tâm dữ liệu, và quan trọng hơn hết là nhận diện được phần cứng nào phù hợp nhất để chạy dịch vụ nhận diện giọng nói này. Đó có thể xem là một phần trong ứng dụng công cụ trí tuệ nhân tạo (AI) để làm mới lại Internet, trong đó có những công cụ AI khác như nhận diện gương mặt, xe tự lái...

So với Google Search

Trong thử nghiệm Sirius, Jason đã cho thấy nếu ta chạy dịch vụ này trên phần cứng truyền thống thì nó ngốn tài nguyên về máy móc, dung lượng và điện năng gấp 168 lần so với engine tìm kiếm văn bản của Google Search. Nên khi ta xét nhận diện giọng nói trong tương lai không chỉ áp dụng trên thiết bị di động và thiết bị đeo thì yêu cầu tài nguyên phần cứng như vậy là không thực tế. Vì rõ ràng trung tâm dữ liệu không chỉ chiếm nhiều dung lượng mà chúng còn là những cơ sở hạ tầng rất đắt đỏ, tốn nhiều điện năng. Dự án của Jason Mars rơi vào bế tắc.

Câu hỏi đặt ra là: vậy phần cứng nào sẽ thay thế phần cứng truyền thống để thích hợp cho công nghệ nhận diện giọng nói? Đó cũng là câu hỏi mà 3 công ty công nghệ lớn Apple, Google và Microsoft đang vất vả tìm câu trả lời, cùng với đó là hai nhà sản xuất chip hàng đầu, cung cấp linh kiện cho trung tâm dữ liệu là AMD và Intel.

Cuối cùng, quay lại với dự án của Jason, đó chính là lý do ông khởi động dự án nguồn mở Sirius. Apple, Google và Microsoft hiểu dự án này sẽ ứng dụng được, nhưng doanh nghiệp khác lại chưa biết. Và họ cần biết.

Thế giới điện toán song song

Hầu hết dịch vụ web, từ engine tìm kiếm của Google cho đến mạng xã hội đều chạy với những chip máy chủ cơ bản của Intel và AMD (hầu hết là của Intel). Vấn đề là những CPU này không hề phù hợp để chạy dịch vụ nhận diện giọng nói như Siri, vì dịch vụ này cần chạy rất nhiều xử lý nho nhỏ theo cách tính toán song song.

Các công ty như Google, Microsoft và công ty tìm kiếm Trung Quốc Baidu từng nói những tính toán như vậy vận hành tốt hơn với những bộ xử lý đơn giản hơn, ít tiêu tốn điện năng hơn như GPU (graphics processing units), là chip nguyên gốc được thiết kế để xử lý những hình ảnh số phức tạp, hoặc FPGA (field programmable arrays), là chip có thể lập trình cho từng tác vụ cụ thể, chuyên biệt. Google đã dùng GPU cho "mạng thần kinh" của họ để giúp Google Now vận hành. Còn Microsoft đang dùng FPGA để chạy một phần dịch vụ tìm kiếm Bing.

Bing không có công nghệ nhận diện giọng nói. Nhưng giống như GPU, FPGA cải thiện tính hiệu quả cho nhiều loại dịch vụ web khác nhau, phần lớn vì chúng không tốn quá nhiều điện năng hoặc nhiều dung lượng.

Về cơ bản, với GPU và FPGA, ta có thể gói nhiều chip hơn vào trong một hệ thống. Mặc dù xét trên từng chip thì GPU và FPGA không mạnh bằng CPU nhưng ta có thể chia nhiều phép tính lớn thành các phép tính nhỏ và trải chúng ra cho nhiều chip xử lý. Và đây là mô hình rất phù hợp với các ứng dụng nhận diện giọng nói và các ứng dụng cần tính toán song song.

Hiện thời, GPU là chọn lựa số một không chỉ cho nhận diện giọng nói mà còn cho mọi loại dịch vụ khác vận hành theo mô hình mạng thần kinh. Những công cụ "deep learning" liên quan đến mọi thứ, từ dịch vụ nhận diện gương mặt trên Google+ và Facebook cho đến ngành quảng cáo theo đối tượng trên engine tìm kiếm Baidu, và thậm chí cho cả xe tự lái và ngành robotic.

Theo Jeff Dean, kỹ sư đang nghiên cứu về deep learning cho Google, hiện công ty đang dùng một loại bộ xử lý kết hợp giữa CPU và GPU để chạy mạng thần kinh, giúp vận hành khoảng 50 dịch vụ web khác nhau. Còn Microsoft cũng đã cho thấy FPGA là chọn lựa hấp dẫn không kém.

Tương lai xa hơn

Đến nay chưa có gì rõ ràng nhưng với Sirius, Jason ít nhất cũng đã cho thấy GPU và FPGA là lựa chọn tốt hơn những sản phẩm của Intel. Theo ông, ta có thể lập trình cho chúng làm thứ gì mà ta muốn chúng làm nên FPGA sẽ hiệu quả hơn GPU. Ông đã chứng minh được FPGA nhanh hơn 16 lần, còn GPU 10 lần so với CPU. Dĩ nhiên, FPGA vẫn cần chỉnh sửa lại thiết kế để hoàn thiện hơn. Các công ty như Google, Apple và Microsoft còn phải thuê kỹ sư ngồi lập trình riêng cho chúng.

GPU cũng cần thiết kế lại. Cũng như với FPGA, ta phải chỉnh sửa phần mềm cho từng chip GPU cụ thể. Nhưng ta không cần lập trình cho từng GPU. Do vậy, nếu sử dụng GPU, có thể các công ty lớn không cần thuê kỹ sư ngồi lập trình lại cho chip GPU riêng.

Dù gì đi nữa, khi mà các dịch vụ AI này ngày càng phổ biến thì nó sẽ lái ngành công nghiệp bộ xử lý theo một hướng mới. Intel cũng đã đầu tư vào FPGA. NVIDIA cũng dấn vào nghiên cứu deep learning. AMD từng mua lại ATI nhiều năm trước cũng đang săm soi lĩnh vực này khi họ làm việc với vài công ty trong ngành để tạo công cụ cho phép nhà lập trình viết phần mềm dễ dàng hơn cho GPU.

Khi mà những công ty internet lớn như Microsoft hay Facebook đang muốn dùng chip điện năng thấp ARM trong các trung tâm dữ liệu của họ thì thị trường chip sẽ có một cuộc thay da đổi thịt lớn trong vài năm tới, theo trangWired.

Nguồn PC World VN

Log in

Nhận diện giọng nói sẽ thúc đẩy cải tổ Internet

Robot Siêu Nhân Moderator

Bài viết cùng chuyên mục

Share This Page