Nhận diện giọng nói - tương lai của tìm kiếm di động

bboy_nonoyes · Mar 26, 2013

Từ một công nghệ xa lạ và hoạt động kém chính xác, tra cứu bằng giọng nói đang ngày càng được đầu tư phát triển hoàn thiện hơn và chiếm vị trí quan trọng trên điện thoại di động
Công nghệ nhận diện giọng nói đã xuất hiện từ khá lâu nhưng không thu hút nhiều người sử dụng do các phần mềm trước đây hoạt động thiếu hiệu quả, khả năng hiểu ngôn ngữ kém, chưa kể sự đa dạng của các ngôn ngữ, cách phát âm, tiếng ồn xung quanh... cũng ảnh hưởng không nhỏ đến kết quả.
Với sự phổ biến của smartphone, tablet cùng kết nối Wi-Fi, 3G/4G, nhu cầu tra cứu dữ liệu trong quá trình di chuyển của con người ngày một tăng cao, nhưng họ vẫn ngại dừng lại để gõ từ khóa trên bàn phím chật hẹp của thiết bị. Lúc này, tìm kiếm bằng giọng nói trở thành giải pháp hợp lý và các nhà phát triển đang nhận thức rõ hơn tầm quan trọng của công nghệ này. Tamar Yehoshua, Giám đốc sản phẩm thuộc bộ phận Google Search, đã có cuộc trao đổi riêng với VnExpress.net về vấn đề này.

Tamar Yehoshua, Giám đốc sản phẩm thuộc bộ phận Google Search.
- Theo Google, đâu là tương lai của tìm kiếm trực tuyến?
- Yehoshua: Larry Page (CEO Google) từng mô tả công cụ tìm kiếm hoàn hảo là công cụ có thể hiểu ý định của người dùng và đem lại cho họ chính xác thông tin mà họ cần. Chẳng hạn, khi bạn rời Hà Nội đến California, chúng tôi có thể thông báo cho bạn thời gian hạ cánh ở sân bay, thời tiết California có tốt không hay mọi dịch vụ khác mà bạn cần. Để nói về tương lai của tìm kiếm, hãy nhìn lại năm 1998 khi tra cứu trực tuyến ở giai đoạn đầu. Mọi thứ đều dựa trên từ khóa (keyword), người dùng nhập từ khóa, hệ thống đối chiếu với các tài liệu sẵn có và đưa ra kết quả tương đương. Qua các năm, Google bổ sung tìm kiếm bằng hình ảnh, video... Nhưng mục tiêu của chúng tôi là "hiểu" mọi thứ từ những hòn đảo, tòa nhà... để tạo nên thế giới kết nối. Chẳng hạn, khi bạn hỏi về thời tiết San Francisco, Google hiểu 'San Francisco' là một thành phố và biết những thứ liên quan tới thành phố đó. Một khi chúng tôi hiểu con người, nơi chốn và đồ vật, chúng tôi có thể kết nối chúng. Năm ngoái, chúng tôi giới thiệu Knowledge Graph phiên bản đầu. Khi bạn gõ Tom Cruise, hệ thống biết Cruise là một con người, một diễn viên, do đó ngoài đường link kết quả như thông thường, hệ thống hiển thị phần thông tin tổng hợp về Cruise ở bên phải màn hình. Đó là một trong những mục tiêu trọng tâm mà chúng tôi đang phát triển.

Khi tìm kiếm về phim do Tom Cruise đóng, hệ thống hiển thị ô thông tin về diễn viên này ở bên tay phải và ở phía trên màn hình (Knowledge Graph) ngoài các đường link kết quả thông thường.
Một mục tiêu khác của Google là tạo ra các trải nghiệm hợp lý trên những thiết bị khác nhau như điện thoại và máy tính bảng. Điểm mới ở đây chính là hỗ trợ giọng nói và hội thoại. Ví dụ tôi hỏi smartphone (mà không cần gõ vào ô tìm kiếm) rằng 'Tom Cruise bao nhiêu tuổi?', phần mềm sẽ phân tích giọng nói và đưa ra câu trả lời nhanh chóng. Nghe có vẻ dễ dàng, nhưng hỗ trợ phía sau đó là rất nhiều công nghệ phức tạp và chúng tôi đã mất nhiều năm để móc nối những công nghệ đó lại nhằm xây dựng trải nghiệm đơn giản cho người dùng.
- Trong tương lai của tìm kiếm đó, thiết bị di động đóng vai trò như thế nào?
- Trong khi các hệ thống desktop được sử dụng khi bạn ngồi làm việc ở văn phòng, ở nhà, thì thiết bị di động luôn ở bên bạn và trả lời các câu hỏi của bạn bất cứ khi nào bạn cần. Có lần, tôi ngồi ăn tối với cha mình và ông hỏi ai là tác giả của cuốn Love Story, tôi cầm điện thoại lên và hỏi: "Who wrote Love Story?" và thiết bị lập tức đưa ra câu trả lời là Erich Segal. Ông đã rất ngạc nhiên. Có thể nói, thiết bị di động mang đến một phương thức hoàn toàn mới và thay đổi cách mọi người tra cứu thông tin.
- Bà có thể đưa ra thêm một vài ví dụ khác cho thấy nhận diện giọng nói trên thiết bị di động sẽ thay đổi cách con người tra cứu?
- Người sử dụng ban đầu chưa nhận thức được tầm quan trọng của tìm kiếm bằng giọng nói, nhưng hiện nay ngày càng nhiều người quen với công cụ voice search. Họ dùng những câu lệnh dài hơn, sử dụng ngôn ngữ tự nhiên và đặt trong những văn cảnh cụ thể hơn. Chẳng hạn, tôi có thể hỏi:
"Thời tiết ở Monterey cuối tuần này ra sao?": Trong câu này, thay vì nhập cụm từ khóa Monterey + weather + thời gian, người dùng có thể đặt câu hỏi dưới dạng một cuộc hội thoại với trạng ngữ "cuối tuần này" mà thiết bị vẫn hiểu chính xác "cuối tuần này" là lúc nào.
"Khoảng cách từ nhà tôi tới Monterey là bao xa?": Google hiểu "nhà tôi" (tức nhà của Tamar Yehoshua) ở Sunnyvale và đưa ra khoảng cách chính xác cùng các chỉ dẫn về đường đi.
"Tôi đã đặt lịch ăn tối ở đâu?": Thiết bị hiển thị địa chỉ nhà hàng Green Zebra ở Chicago.
Như vậy, tìm kiếm bằng giọng nói trên thiết bị di động sẽ là các câu lệnh dài (mà bạn vốn ngại gõ bằng bàn phím nếu sử dụng công cụ tìm kiếm truyền thống), được người dùng hỏi một cách tự nhiên và mang tính cá nhân để bạn có thể thực hiện các cuộc hội thoại với thiết bị của mình khi đang trên xe, khi đi lại trong thành phố...

Tương tác bằng giọng nói trên thiết bị di động sử dụng những câu lệnh dài và tự nhiên. Ảnh: BI.
- Bao lâu nữa Google Now (công cụ tương tác giọng nói có trên phiên bản Android 4.1 trở đi) sẽ hỗ trợ tiếng Việt?
- Tôi chưa thể nói trước nhưng mục tiêu của Google là hỗ trợ tìm kiếm bằng giọng nói cho mọi ngôn ngữ có thể. Chúng tôi đang đi theo lộ trình nghiêm ngặt để bổ sung thêm các ngôn ngữ mới. Giống như với Google.com, bạn có thể nhập bất cứ ngôn ngữ nào và hệ thống sẽ nhận diện để cung cấp kết quả theo ngôn ngữ bạn cần.
- Vây Google gặp những khó khăn gì khi muốn thêm một ngôn ngữ mới ngoài tiếng Anh?
- Đây là công việc thực sự khó khăn. Với tiếng Việt, chúng tôi cần hiểu người dùng lẫn nền văn hóa của Việt Nam. Chúng tôi có một đội ngũ chuyên về vấn đề này. Họ làm việc trực tiếp với người bản ngữ để thu thập các cách nói, cách phát âm... trong các điều kiện khác nhau như nhà hàng, trên phố đông hay bên trong xe hơi... Từ đó, họ xây dựng nhiều mẫu câu lệnh của những ngôn ngữ khác nhau để giúp hệ thống "học" cách nhận diện và hiểu ngôn ngữ.
Chúng tôi vẫn ở giai đoạn đầu, nhưng đây thực sự sẽ là một công cụ rất thú vị.
Bài và ảnh: Châu An

Nguồn: VNExpress

Log in

Nhận diện giọng nói - tương lai của tìm kiếm di động

bboy_nonoyes Administrator Staff Member

Bài viết cùng chuyên mục

Share This Page