Sở hữu một chiếc xe có các tính năng tiên tiến mà bạn không hiểu rõ có thể là một trải nghiệm căng thẳng. Trợ lý AI có thể giúp ích không?

Công nghệ trợ lý giọng nói không phải là khái niệm mới đối với nhiều người. Từ SIRI đến Alexa, hầu hết chúng ta đều đã từng gặp công nghệ dựa trên AI ở dạng này. Tuy nhiên, trợ lý giọng nói trên xe là một ứng dụng có thể mới đối với một số người, cho phép hỗ trợ giọng nói trên xe dẫn đến giải pháp rảnh tay để cung cấp nhiều thông tin khác nhau bên trong cabin xe.
Công ty nhận dạng giọng nói và âm thanh Soundhound cho biết họ là công ty đầu tiên cung cấp trợ lý giọng nói trên xe kết hợp AI tạo sinh với trợ lý giọng nói đã có. Gần đây, công ty đã công bố những phát triển tiếp theo trong công nghệ, cho phép người lái xe có thể truy cập thông tin sổ tay hướng dẫn sử dụng xe theo cách đơn giản và dễ dàng.
Chúng tôi đã trao đổi với Michael Zagorsek, Giám đốc điều hành SoundHound, để thảo luận về các tính năng mới và những gì chúng có thể đạt được, cũng như cân nhắc về tương lai của công nghệ này.

Just Auto (JA): SoundHound là ai và công ty này làm gì?
Michael Zagorsek (MZ): Chúng tôi tự coi mình là nhà cung cấp độc lập hàng đầu về công nghệ AI giọng nói cho ô tô. Về bản chất, những gì chúng tôi làm là cung cấp cho các OEM một trợ lý giọng nói có nhãn trắng để tài xế hoặc hành khách có thể tương tác với thông tin về xe bên trong và bên ngoài xe chỉ bằng giọng nói của họ.
Chúng tôi bắt đầu phát triển công nghệ của mình vào năm 2005. Chúng tôi đã ra mắt công nghệ này vào năm 2015 cùng với nhiều thứ mà Amazon và Google đang làm. Sự khác biệt chính là các nhà cung cấp công nghệ lớn đang mở rộng dịch vụ thoại của họ vào ô tô, trong khi những gì chúng tôi đang làm là tăng cường khả năng và thế mạnh của chính các thương hiệu OEM.
Cuối cùng, chúng tôi có thể thực hiện nhiều hoạt động lọc và theo dõi cho các ứng dụng ô tô, ngay cả theo cách mà các nhà cung cấp công nghệ lớn không thể làm được. Sự khác biệt chính là không chỉ đặt giao diện giọng nói vào thứ gì đó như ChatGPT; chúng tôi có tất cả các miền của mình: thời tiết, điều hướng, điểm quan tâm – là thời gian thực, có thể được kết hợp với thứ gì đó như ChatGPT hoặc bất kỳ mô hình ngôn ngữ lớn nào khác. Chúng tôi tin rằng hai thứ đó kết hợp với nhau (kỹ thuật phần mềm với máy học) tạo ra trợ lý mạnh mẽ nhất và đó là thứ chúng tôi đã ra mắt vào năm ngoái.
Chúng tôi chiếm ưu thế trong các thương hiệu Hyundai và nhiều thị trường ở Châu Âu. Chúng tôi là đối tác chiến lược sâu sắc với Stellantis và 20 thương hiệu của họ, cũng như Togg, một nhà sản xuất ô tô Thổ Nhĩ Kỳ, và chúng tôi đang đàm phán với một số OEM khác.
Bạn có thể thảo luận về tính năng AI tạo sinh mới vừa được ra mắt gần đây không?
Một trong những yếu tố cốt lõi của những gì chúng tôi cung cấp là ý tưởng rằng bạn có thể truy cập thông tin bên ngoài xe và bên trong xe. Bản thân sổ tay hướng dẫn sử dụng xe luôn là một thách thức đối với các nhà sản xuất ô tô. Rõ ràng là nó dày và rất toàn diện; việc tìm kiếm thông tin rõ ràng là một thách thức đối với tất cả mọi người. Đây là một trong những 'điểm đau' mà mọi người sở hữu ô tô đều gặp phải.
Một trong những yếu tố cốt lõi mà chúng tôi cung cấp là ý tưởng cho phép bạn truy cập thông tin cả bên ngoài và bên trong xe.
Những gì chúng tôi có thể làm là tiếp thu thông tin đó và sau đó sử dụng sự kết hợp giữa kỹ thuật phần mềm và các mô hình ngôn ngữ lớn, làm cho hướng dẫn đó có thể truy cập bằng giọng nói bằng cách sử dụng sự kết hợp độc quyền giữa lập chỉ mục và tìm kiếm. Tính linh hoạt của các mô hình ngôn ngữ lớn tạo ra nhiều không gian để diễn giải. Mọi người không cần phải biết tên của tính năng. Họ chỉ cần nói, ví dụ: "Tính năng đó là gì nếu bạn đang ở trên đồi để bạn không bị trượt xuống?" Trợ lý xác định rằng bạn đang nói về tính năng hỗ trợ giữ đồi.
Điều này thực sự củng cố đề xuất giá trị của chúng tôi. Về cơ bản, chúng tôi tin rằng trải nghiệm giọng nói nên là phần mở rộng của chính chiếc xe.
Thứ hai, khi xe hơi ngày càng tập trung vào phần mềm, ý tưởng về một hướng dẫn sử dụng in ấn trở nên lỗi thời hơn vì phần mềm được cập nhật qua mạng (OTA) và rõ ràng là không có phiên bản in nào được cập nhật. Nhiều OEM sẽ có hướng dẫn sử dụng của họ dưới dạng kỹ thuật số trong chính hệ thống thông tin giải trí, nhưng ngay cả điều đó rõ ràng cũng đặt ra những thách thức về khả năng truy cập như bạn có thể tưởng tượng.
Công nghệ này có tương thích với mọi loại xe không?
Mỗi phương tiện đều có khả năng sử dụng giọng nói ở một mức độ nào đó. Tôi cho rằng phần kế thừa của nó là khả năng nhúng. Đây là trước khi các phương tiện được kết nối với Đám mây hoặc bất kỳ dịch vụ nào. Chúng sẽ có chức năng rất hạn chế.
Khi chúng tôi bước vào thị trường, chúng tôi bắt đầu cung cấp khả năng Đám mây cho xe ô tô kết nối. Điều sẽ xảy ra là chúng tôi sẽ cung cấp khả năng của mình thông qua nền tảng của chúng tôi trên xe và sau đó thông qua đó chúng tôi sẽ cung cấp tính năng thông minh cho xe này.
Chúng tôi không cứng nhắc về việc bất kỳ công ty xe hơi một chiều nào nên triển khai điều này. Trong một số trường hợp, nếu họ muốn tiếp tục sử dụng Amazon hoặc Google, họ chắc chắn có thể. Việc có một trợ lý giọng nói độc quyền độc lập sống cùng với điều đó, chúng tôi cảm thấy, thực sự là một phần mở rộng của chiến lược thương hiệu của họ.
Chúng tôi cảm thấy rằng việc có một trợ lý toàn diện và có thương hiệu hơn sẽ là cách tốt hơn để sử dụng công nghệ này, nhưng rõ ràng là có nhiều cách khác nhau để thực hiện được điều đó.
Bạn dự đoán điều gì sẽ xảy ra trong lĩnh vực này trong ba năm tới?
Tôi cho rằng những cải tiến mới nhất xung quanh công nghệ AI tạo sinh này đã thực sự đánh thức mọi người về khả năng đàm thoại thực sự của AI.
Điều này hiệu quả với ô tô cũng như loa thông minh hoặc bất kỳ thứ gì hỗ trợ giọng nói. ChatGPT mở ra cánh cửa cho nhiều trường hợp sử dụng mà trước đây không tồn tại. Những người trong xe có thể nói: "Tôi đang đi đến địa điểm này; bạn có lời khuyên nào cho tôi không?" Khi mọi người bắt đầu nhận ra rằng nó có thể bắt đầu tác động có ý nghĩa đến cuộc sống của họ, chúng ta sẽ thấy nhiều hoạt động hơn ở đó.
Tôi cho rằng những cải tiến mới nhất xung quanh công nghệ AI tạo sinh này đã thực sự đánh thức mọi người về khả năng đàm thoại thực sự của AI.
Các loại khác mà mọi người đã tán tỉnh, nhưng vẫn chưa biểu hiện, thì hơi giống với thứ mà chúng ta gọi là 'trí tuệ cảm xúc'. Nếu tôi cảm thấy theo một cách nào đó, trợ lý giọng nói có thể nhận ra và phản hồi tương ứng. Đó là khái niệm phát hiện cảm xúc. Nếu tôi tức giận, liệu có cơ hội nào để quản lý cảm xúc đó thông qua phản hồi không?
Ví dụ, ngay bây giờ khi bạn yêu cầu AI kể một câu chuyện cười, văn bản thành giọng nói có cùng tông điệu như khi bạn yêu cầu nó chỉ đường đến trạm xăng gần nhất. Tôi nghĩ sẽ có rất nhiều cải tiến cho văn bản thành giọng nói thực tế để sửa đổi phản hồi của nó dựa trên ngữ cảnh của những gì nó đang nói. Tôi nghĩ rằng điều đó sẽ thực sự mở khóa nhiều hơn cảm giác rằng bạn đang trò chuyện với một thứ gì đó có vẻ thông minh hơn một chút so với một con rô-bốt chỉ nhận lệnh.
Ngoài ra, nhận dạng giọng nói và nhận dạng giọng nói – công nghệ này đã có, nhưng chưa được thể hiện trong OEM. Vì vậy, hãy tưởng tượng nếu bạn bước vào xe và chào hỏi. Xe của bạn nhận ra giọng nói của bạn và nói "xin chào". Điều đó chắc chắn nằm trong tầm tay, tôi có thể thấy điều đó xảy ra trong vài năm tới.
Cuối cùng nhưng không kém phần quan trọng, kiếm tiền và thương mại nằm trong lộ trình của chúng tôi. Một phần trong hoạt động kinh doanh của chúng tôi là chúng tôi thấy các dịch vụ hỗ trợ giọng nói cũng như nhà hàng, đặt đồ ăn, dịch vụ lái xe – rất có tiềm năng.
Ý tưởng là bạn có thể đặt đồ ăn hoặc hỏi doanh nghiệp bất kỳ câu hỏi nào thông qua giọng nói tự nhiên. Chiến lược của chúng tôi luôn là đưa những dịch vụ đó vào xe và biến chiếc xe thành một cánh cổng mạnh mẽ hơn nhiều vào thế giới xung quanh chúng ta. Trong vài năm tới, chúng tôi thấy điều đó và điều đó rất thú vị đối với các OEM vì giá thách thức doanh thu của họ đang trở nên chặt chẽ hơn. Chúng tôi biết rằng xe điện không được bán với giá có lãi, vì vậy các hình thức doanh thu bổ sung là rất quan trọng và chúng tôi tin rằng tương tác bằng giọng nói có thể mở khóa một số điều đó.
Bạn nghĩ mọi người còn nên biết điều gì nữa về AI không?
Khi mọi người lần đầu hình dung ra một trợ lý giọng nói, tôi sẽ nói là những ngày đầu – có lẽ là bảy đến mười năm trước – họ đã thấy công nghệ và những gì nó có thể làm được trong thực tế. Họ hài lòng với điều đó, nhưng trí tưởng tượng của họ cũng mạnh mẽ hơn nhiều. Phim khoa học viễn tưởng đã giới thiệu các khái niệm như Jarvis cho Iron Man. Luôn có khoảng cách giữa những gì mọi người mong muốn nó có thể làm và những gì nó đã làm.
Tôi nghĩ rằng những tiến bộ đang diễn ra quá nhanh đến mức ý tưởng có một trợ lý có thể trò chuyện với bạn và luôn ở bên bạn đang trong tầm tay hơn bao giờ hết.
Chúng ta đang ở ngưỡng mọi người nhận ra rằng họ thực sự có thể nói chuyện với trợ lý giọng nói của mình thay vì chỉ ra lệnh cho nó. Tôi nghĩ rằng một khi mọi người đột phá vào hành vi đó, họ sẽ không bao giờ quay lại. Một khi bạn đã mở khóa giá trị với AI, nó chỉ trở thành một phần trong những gì bạn làm và cách bạn tương tác. Ý nghĩ là chúng ta thực sự ở vị trí để thực sự nắm bắt trợ lý giọng nói đàm thoại đó.
Nguồn từ Chỉ tự động
Tuyên bố miễn trừ trách nhiệm: Thông tin nêu trên được cung cấp bởi just-auto.com độc lập với Cooig.com. Cooig.com không tuyên bố và bảo đảm về chất lượng và độ tin cậy của người bán và sản phẩm.