W ostatnim tygodniu 2024 r. media takie jak iFanr odwiedziły siedzibę Vivo w Dongguan, aby porozmawiać z wiceprezesem wykonawczym i dyrektorem operacyjnym Vivo, Hu Baishanem. Omówili dynamikę rynku, postęp i zastosowania AI oraz przyszły kierunek i planowanie produktów Vivo. Obejmowało to przemyślenia na temat rynku składanych ekranów, plany i poglądy na temat okularów MR, robotów humanoidalnych, okularów AI i mocną stronę Vivo: obrazowanie.

Poniżej znajduje się podsumowanie rozmowy na poziomie produktu (zredagowane przez iFanr w celu zwiększenia czytelności):
Teleobiektyw i wideo mają pole do poprawy; sztuczna inteligencja mobilna ma jeszcze długą drogę do przebycia
P: Jaki jest Twój pogląd na obecny stan AI? Czy AI zastąpi obrazowanie jako główny argument sprzedaży smartfonów w przyszłości? Czy flagowe telefony osiągnęły szczyt możliwości obrazowania?
Hu Baishan: Porozmawiajmy najpierw o obrazowaniu. Naszym ostatecznym celem jest zastąpienie większości scenariuszy z aparatami DSLR, więc nadal jest sporo miejsca na poprawę.
Jak wspomniałem wcześniej, główny aparat X200 Pro został zmniejszony z 1-calowego sensora poprzedniego flagowca do 1/1.28-calowego sensora, ale wrażenia użytkownika nie pogorszyły się. Stało się tak, ponieważ moc przetwarzania chipa i algorytmy obrazowania poczyniły znaczne postępy. Wskazuje to, że wrażenia użytkownika głównego aparatu osiągnęły przyzwoity poziom. Gdybyśmy mieli go ocenić, zakładając, że konwencjonalna lustrzanka cyfrowa ma 100 punktów, nasz główny aparat ma około 80 do 85 punktów.
Jednak pod względem teleobiektywu i wideo nadal istnieje znaczna luka w porównaniu do lustrzanek cyfrowych. Jeśli będziemy kontynuować punktację, aparat główny ma 80 do 85 punktów, podczas gdy teleobiektyw ma około 60 punktów, ledwo przechodząc.
W scenariuszach koncertowych, przy 10-krotnym zoomie, nasz X200 Pro sprawdza się dobrze, a przy 20-krotnym możesz rozpoznać osobę, która fotografuje z zewnątrz w nocy. Jednak użytkownicy nadal wahają się, czy udostępniać te zdjęcia w mediach społecznościowych, ponieważ jakość nie jest wystarczająco dobra, ale 10-krotne jest prezentowalne.
W obszarze teleobiektywów nasze obrazowanie smartfonowe jest dość odległe od lustrzanek cyfrowych. Naszym celem jest ulepszenie teleobiektywu do poziomu 80 punktów w ciągu 3 do 5 lat, a ta możliwość nadal istnieje. Chociaż wykorzystanie przestrzeni wewnętrznej smartfonów osiągnęło swój limit, gdzie jeszcze możemy się poprawić? Czułość czujników obrazu nadal można zwiększyć za pomocą technologii, a w dużych modelach i algorytmach obrazowania jest znaczne pole do poprawy. Dlatego jestem przekonany, że Vivo może osiągnąć 80-punktowy teleobiektyw w przyszłości.
Fotografia jest stosunkowo statyczna, więc algorytmy mają więcej miejsca do działania, ale wideo jest dynamiczne. Dodanie wielu algorytmów do wideo wywarłoby ogromną presję na zużycie energii. Oczywiście, jest tu również miejsce na poprawę. Chipy są teraz na poziomie 3 nm, a następna generacja będzie na poziomie 2 nm. Chipy SoC, a nawet przyszłe dedykowane chipy do przetwarzania obrazu, będą się rozwijać. Naszym następnym krokiem jest zastosowanie możliwości algorytmu dużego modelu do wideo, ale ogólna logika wideo jest dynamiczna, więc możliwości ulepszania algorytmu nadal będą słabsze.
Niezależnie od tego, czy chodzi o teleobiektyw, czy wideo, wciąż jest spora odległość od spełnienia wysokich wymagań użytkowników, a sama technologia ma znaczne pole do rozwoju. Dlatego obrazowanie pozostaje kluczowym obszarem zainteresowania przyszłych flagowych smartfonów.
Jeśli chodzi o AI, rzeczywiście, rozwój dużych modeli był szybki w ciągu ostatnich dwóch lat. Wracając do samego telefonu, AI nadal ma swoje ograniczenia. Największym problemem telefonów jest niewystarczająca moc obliczeniowa. Dzielę mobilną AI na trzy etapy:
Pierwszym etapem jest wzbogacenie poprzednich funkcji o możliwości AI. Na przykład w ostatnich czasach cały przemysł mobilny cieszył się dużą popularnością w usuwaniu AI, funkcji, która istniała ponad dekadę temu, ale była źle wykonywana z powodu prymitywnych algorytmów.
W przeszłości możliwości rozpoznawania głosu przy użyciu głębokiego uczenia miały wskaźnik powodzenia wynoszący co najwyżej 90%. Przy takim wskaźniku powodzenia można by stwierdzić, że rozmowy nie mogłyby trwać przez wiele rund, ponieważ każdy krok zniekształcałby zbyt wiele. Wraz z pojawieniem się generatywnych dużych modeli, rozpoznawanie głosu i możliwości rozumienia semantycznego znacznie się poprawiły. Mieliśmy funkcję o nazwie Phone Secretary, wprowadzoną po raz pierwszy w NEX 3, w której ludzie mogli od razu stwierdzić, że to tradycyjna sztuczna inteligencja, a połączenie było rozłączane po kilku zdaniach. Teraz, dzięki wsparciu sztucznej inteligencji, ludzie nie są w stanie stwierdzić, że to mówi sztuczna inteligencja w krótkim czasie.
Nadal opierają się one na udoskonaleniu konkretnej funkcji lub modułu, daleko im do ogólnej sztucznej inteligencji (AGI).
Drugim etapem, jak sądzę, jest integracja dużych możliwości modelu z systemem. Na przykład w przeszłości znalezienie ustawienia funkcji było niemal niemożliwe, ponieważ było zbyt wiele opcji menu, wszystkie pomieszane. W przyszłości, dzięki głębokiej integracji AI z systemem, telefony będą wyraźnie rozumieć Twoje intencje i wiedzieć, co robić dalej, dzięki czemu interakcje telefoniczne będą bardziej inteligentne. Na przykład naszą pierwszą próbą w przypadku „Atomic Island” jest zrozumienie Twoich intencji i zaproponowanie rozwiązań. Ten etap potrwa dość długo, ponieważ doświadczenie użytkownika na tym etapie ledwo może być spełnione przy obecnej mocy obliczeniowej.
Trzeci etap to to, o czym wspominaliśmy na konferencji VDC 2024, PhoneGPT. Funkcją, którą zaprezentowaliśmy, było zamawianie jedzenia na wynos i można było to zrobić pomyślnie. Jednak każdy krok miał tylko 85% wskaźnik powodzenia, a po trzech krokach nie można było kontynuować i zajęło to dużo czasu. To doświadczenie jest tylko modelem, a doświadczenie użytkownika wcale nie jest dobre.
Aby w pełni spełnić wymagania PhoneGPT, zapotrzebowanie na moc obliczeniową nie jest tylko niewielkim wzrostem, ale znacznym. Obecna zintegrowana architektura, architektura pakietów i przepustowość są niewystarczające. Aby w pełni osiągnąć PhoneGPT, cały wymóg możliwości musi być zbliżony do obecnych możliwości szybkiego przechowywania, możliwości po stronie serwera, możliwości przepustowości i architektury SoC, aby mieć szansę.
Jest to podobne do obrazowania. Widzimy, że zapotrzebowanie użytkowników już się pojawiło. Wiele modeli działa na serwerach w chmurze. Nasze wewnętrzne centrum mocy obliczeniowej ma prawie 10,000 130 kart obliczeniowych, a wiele modeli może działać w chmurze, takich jak modele z parametrami 2B, ale ta skala nie może działać na telefonach. Telefony mogą obsługiwać tylko modele z parametrami 3B lub XNUMXB. Tak więc, aby naprawdę osiągnąć PhoneGPT na telefonach, szacuję, że zajmie to co najmniej pięć lat, aby spełnić wymagania dotyczące doświadczenia użytkownika.
Ścieżka AI jest obecnie nadal w drugim etapie. To stopniowa poprawa, a nie skok z 0 do 1. Dlatego AI nie jest znaczącą siłą napędową obecnego cyklu wymiany telefonów, ponieważ użytkownicy nie doświadczyli skoku z 0 do 1. Dopiero gdy taki skok nastąpi i użytkownicy odkryją, że PhoneGPT może robić tak wiele rzeczy, będą mieli silne pragnienie uaktualnienia swoich telefonów.
Ponieważ odpowiadam zarówno za produkty, jak i technologię, to, co ujawniam, powinno odzwierciedlać aktualny poziom naszej technologii lub technologii całej branży.
P: Jakie aspekty odzwierciedlają nową jakość produktywności w branży smartfonów i które części są najważniejsze?
Hu Baishan: Branża smartfonów jest doskonałym przykładem nowej jakości produktywności. Jak rozumiem, nowa jakość produktywności ma trzy cechy: wysoką technologię, wysoką jakość i wysoką dynamikę, wraz z czterema nowymi funkcjami. Według tych standardów smartfony zaliczają się do kategorii nowej jakości produktywności. Przez lata obserwowaliśmy ciągłe aktualizacje nowej technologii w smartfonach.
Skupiamy się głównie na dwóch obszarach: obrazowaniu i sztucznej inteligencji. W dziedzinie obrazowania w ciągu ostatnich pięciu lat ludzie zauważyli szybką poprawę fotografii smartfonowej w różnych warunkach. To był szybki postęp.
Smartfony zastąpiły wiele aparatów cyfrowych, których używaliśmy w przeszłości, zastępując nawet aparaty bezlusterkowe, a w niektórych scenariuszach lustrzanki cyfrowe. Więcej konsumentów jest skłonnych zapłacić za lepsze efekty fotograficzne, wydając więcej pieniędzy na telefony, aby to osiągnąć.
W 2024 roku wypuścimy X100 Ultra i X200 Pro, które nazywamy „magicznymi urządzeniami koncertowymi”. Koncerty odbywają się często w ostatnich latach, a konsumenci chcą uchwycić te piękne chwile. Dlaczego koncerty potrzebują smartfonów? Lustrzanek cyfrowych nie można wnosić na koncerty, więc konsumenci mogą używać tylko telefonów, aby uchwycić te chwile.
Podobnie jest w przypadku AI. AI dopiero zaczyna, ale wzmocniło wiele obszarów smartfonów. Wierzę, że branża smartfonów, jako przedstawiciel nowej jakości produktywności, jest niewątpliwie znacząca. Wierzę również, że przez długi czas smartfony pozostaną podstawowym produktem elektroniki użytkowej, przyczyniając się do nowej jakości produktywności.

Prototyp Vivo MR pojawi się w 2026 r., roboty humanoidalne dojrzeją w ciągu dziesięciu lat
P: Jakie są postępy firmy Vivo w dziedzinie MR (rzeczywistości mieszanej) i robotów humanoidalnych?
Hu Baishan: Postępy w MR są stosunkowo szybkie. Zespół Vivo MR rozrósł się do prawie 500 osób. Naszym celem jest udostępnienie prototypu doświadczenia MR o wysokiej wierności w sklepach Vivo w około kilkunastu miastach w całym kraju do września lub października 2025 r. Od rezerwacji po doświadczenie na miejscu, naszym celem jest stworzenie ujednoliconego procesu, w którym każdy będzie mógł go wypróbować.
W przypadku komercjalizacji musimy przyjrzeć się całemu ekosystemowi MR, który nadal wymaga treści rozrywkowych i gier. Ponieważ Vivo nie produkuje treści, polegamy na ekosystemie, który dopasuje się do nich w odpowiednim czasie. Wiele wskazań wskazuje, że branża zmierza w korzystnym kierunku. Tencent zwiększa inwestycje w treści. Wcześniej chcieli produkować sprzęt, ale ostatnio postanowili skupić się na oprogramowaniu, co jest dla nas dobre.
Wymagam, aby zespół MR znalazł scenariusze, które uważamy za niezbędne. Nie ma znaczenia, czy grupa docelowa jest niszowa, ale dla nich MR musi być niezastąpiony.
Na przykład gry na telefonach lub konsolach są na pewnym poziomie. Kiedy pojawi się MR, użytkownicy zdadzą sobie sprawę, że były poniżej przeciętnej, a doświadczenie znacznie się poprawi. Poza tym, że nie noszą ze sobą urządzeń MR przez cały czas, większość czasu, kiedy mają czas na granie, zwrócą się w stronę MR. To jest niezbędny scenariusz.
W odniesieniu do robotów humanoidalnych, w 2024 r. wspomnieliśmy również o tej koncepcji. Popyt jest jasny: społeczeństwo szybko się starzeje.
Z perspektywy trendu roboty są rzeczywiście kierunkiem. Przeanalizowaliśmy kilka kluczowych ścieżek dla robotów, z których jedną jest percepcja przestrzenna. MR ma silne zdolności percepcji przestrzennej. Gdy MR zostanie dobrze rozwinięty, percepcja przestrzenna robotów nie będzie stanowić problemu.
Roboty wymagają również elastycznych rąk i stóp oraz silnych zdolności podejmowania decyzji. Aby osiągnąć idealnego robota, uważamy, że zajmie to ponad dziesięć lat.
Percepcja przestrzenna i zdolność podejmowania decyzji nie będą idealne w krótkim okresie, ale możliwości rąk i stóp poprawią się stosunkowo szybko, podobnie jak w przypadku robotów przemysłowych wykonujących specjalistyczne zadania.
Stworzenie idealnego robota może zająć od dziesięciu do piętnastu lat, ale możemy go wdrażać etapami. Na przykład możemy zacząć od ograniczonego zakresu, takiego jak roboty linii produkcyjnej, które mogą wykonywać „dwa zadania”, ale mamy nadzieję wykonywać „dziesięć zadań” w przyszłości. Budujemy tę zdolność, ale wydanie produktu nie będzie szybkie.
Nasza obecna logika jest taka, że te roboty, które wewnętrznie nazywamy scenariuszami i użytkownikami napędzanymi popytem, mają jasne potrzeby, ale ścieżka rozwiązań technicznych nie jest w pełni jasna. Podobnie jak w naszej poprzedniej dyskusji na temat obrazowania, użytkownicy chcą fotografii na poziomie lustrzanki cyfrowej. Roboty mają jasne potrzeby scenariuszy użytkownika, ale technologia nie pasuje do nich. W ciągu najbliższych trzech do pięciu lat zrozumiemy stan dojrzałości technologii. Na tej podstawie możemy ustawić produkt z możliwością rozwiązania pewnych lokalnych scenariuszy w tym punkcie środkowym.
Krótko mówiąc, musimy zrozumieć stan technologii w ciągu najbliższych trzech do pięciu lat, w tym możliwości AI. Na podstawie tych możliwości technologicznych możemy dokonać pewnych korekt w idealnych scenariuszach, aby spełnić określone potrzeby. To jest nasz wewnętrzny plan cyklu produktu.
P: Łańcuch branży AR dojrzewa szybciej. Co o tym myślisz?
Hu Baishan: W przypadku produktów AR rozumiemy je w ten sposób: z perspektywy zapotrzebowania użytkowników okulary nie mogą być zbyt ciężkie. Okulary AR z wyświetlaczami są ciężkie, ważą około 40-50 gramów, co nie jest dobrym doświadczeniem. Niektóre okulary AR mają ograniczone możliwości wyświetlania. Jeszcze nie zapuściliśmy się w tę kategorię, ale rozważamy okulary bez wyświetlacza. Niezależnie od tego, nad jaką kategorią produktów pracujemy, musimy zidentyfikować podstawowe potrzeby użytkowników i znaleźć konkretną grupę użytkowników, dla której produkt jest niezbędny. Niedawno rozmawiałem z kolegami z zespołu ds. produktu i zapytałem ich, czy zidentyfikowali niezbędnych użytkowników i scenariusze. Powiedzieli, że znaleźli kilka i brzmiało to rozsądnie.
Wielu użytkowników ma zajęte ręce podczas pracy. Czy potrzebują kogoś, kto im pomoże? Jeśli jest tylko jedna osoba i jej ręce są zajęte, potrzebne jest urządzenie pomocnicze, aby rozwiązać ten problem. Telefony komórkowe lub inne urządzenia nie mogą dobrze rozwiązać tego problemu. Dlatego logika pozycjonowania naszego urządzenia MR jest taka, że jest ono niezbędne dla tej grupy osób i zidentyfikowaliśmy te osoby. Jeśli produkt będzie szybko rozwijał się, pojawi się do końca 2025 r. lub najpóźniej do 2026 r.

Zmiany w popycie na składane ekrany, tempo produkcji będzie się dostosowywać
P: Rynek składanych telefonów, który rozwijał się przez 4 lata, uległ stagnacji lub nawet spadł. Jaki jest plan vivo dotyczący składanych telefonów?
Hu Baishan: Początkowo producenci mieli duże oczekiwania wobec składanych ekranów, ponieważ była to znacząca zmiana w formie produktu. Z perspektywy potrzeb użytkowników, kto używa składanych ekranów?
Jedną grupę stanowią osoby po 45. roku życia, takie jak ja, których wzrok się pogarsza. Składane telefony rozwiązały wiele problemów związanych z prezbiopią, ponieważ potrzebują większych ekranów do czytania wiadomości lub oglądania filmów, co odpowiada potrzebom osób starszych.
Do drugiej grupy należą profesjonaliści medialni, tacy jak ci tutaj obecni. Używają składanych telefonów do obsługi dużej ilości informacji, w tym mnie, do zarządzania firmowymi e-mailami i wiadomościami.
Podczas korzystania z telefonu stacjonarnego, zazwyczaj korzysta się z trybu pionowego. W takim przypadku należy przełączyć się na tryb poziomy. Nie jest to zbyt wygodne rozwiązanie, a wyświetlany tekst jest stosunkowo mały.
Niezależnie od grupy, odpowiada potrzebom konkretnych osób. Tworząc produkty, musimy zrozumieć, kim są niezbędni użytkownicy. Kiedy po raz pierwszy pojawiły się składane ekrany, wielu użytkowników wypróbowało je z ciekawości, ale okazało się, że nie są dla nich odpowiednie.
Mam znajomego, który powiedział, że poza używaniem telefonu do WeChata, wykonywania połączeń i wysyłania wiadomości tekstowych, korzysta głównie z aplikacji Douyin (TikTok), która działa w trybie pionowym, więc składany ekran jest dla niego bezużyteczny i nie kupi kolejnego składanego telefonu.
Po początkowym rozwoju, pozostali użytkownicy są tymi niezbędnymi, jak wspomniano wcześniej. Pojemność rynku dla pierwszej i drugiej grupy jest stosunkowo niewielka. W wielu scenariuszach, takich jak gry, składane ekrany nie są idealne. Mają gorsze odprowadzanie ciepła i gorsze doświadczenie sterowania w porównaniu z telefonami barowymi, więc składane ekrany stały się produktami dla określonych grup. Wielkość rynku zależy od skali tych określonych grup i może ustabilizować się na poziomie około pięciu milionów sztuk.
Czy powinniśmy produkować składane telefony? Tak. Z perspektywy potrzeb użytkowników istnieją takie grupy, ale musimy je kontrolować. W poprzedniej generacji stworzyliśmy dwa modele, jeden skupiający się na obrazowaniu i wydajności, a drugi na opłacalności. Planowaliśmy sprzedaż milionów sztuk, ale skończyło się na setkach tysięcy, co nadal jest ograniczone. Idąc dalej, będziemy corocznie wprowadzać zmiany, poprawiając doświadczenie użytkownika, ponieważ zawsze będą użytkownicy, którzy potrzebują składanych ekranów. Na przykład niektórzy użytkownicy używają jednego telefonu do codziennych interakcji na WeChat i w mediach społecznościowych, a drugiego do aktualizacji giełdowych i zatwierdzania dokumentów.
Ponadto w przypadku małych składanych produktów globalny rynek wzrósł w 2023 r., ale w 2024 r. małe składane produkty wiodących marek spadły o 30–40%. Jest mało prawdopodobne, aby Vivo wypuściło w przyszłości małe składane produkty.

Ceny telefonów flagowych będą nadal rosły, wrażenia z korzystania z telefonów subflagowych są już całkiem dobre
P: Ceny flagowych telefonów nieznacznie wzrosną w 2025 r. Czy wzrost cen będzie kontynuowany w 2026 r.? Ile kosztuje i ile kosztuje vivo balance?
Hu Baishan: Uważamy, że wzrost cen będzie kontynuowany z powodu dwóch czynników. Pierwszy jest jasny: sztandarowa platforma SoC i proces półprzewodnikowy będą się nadal poprawiać, więc wzrosty cen są nieuniknione. Negocjujemy z producentami SoC, aby złagodzić wzrost cen, na przykład poświęcając część marży zysku, aby utrzymać lub spowolnić wzrost cen, np. zwiększając o 41 USD zamiast 68 USD, a pozostałe 27 USD dodając w kolejnym roku.
Drugim czynnikiem jest obrazowanie, takie jak teleobiektywy, które są dalekie od doskonałości. Musimy nadal inwestować co roku. Chociaż przestrzeń pozostaje taka sama, metody wdrażania, takie jak układ soczewek i wdrażanie modułów, ulegną znacznej zmianie. Zmiany te zmniejszą wskaźniki wydajności i zwiększą koszty produktu.
Trend wzrostowy cen telefonów flagowych jest nieunikniony. Dla większości zwykłych użytkowników doświadczenie subflagowe jest już całkiem dobre. Na przykład platforma N-1 (telefony subflagowe wykorzystujące flagowy układ poprzedniej generacji) znacznie poprawiła doświadczenie użytkownika. Możemy również uwzględnić flagowe obrazowanie w produktach platformy N-1, aby sprostać sile nabywczej użytkowników.
Krótko mówiąc, jeśli użytkownicy dążą do uzyskania najlepszych wrażeń w obrazowaniu, sztucznej inteligencji i grach, będą musieli wydać około 68 USD więcej. Jeśli nie dążą do uzyskania najlepszych wrażeń, platforma N-1 oferuje dobry wygląd i przyzwoite wrażenia. Dla użytkowników, którzy nie grają w najbardziej intensywne gry i grają tylko w gry takie jak Genshin Impact, platforma N-1 jest wystarczająca. W przypadku fotografii, jeśli nie potrzebują 20-krotnego zoomu na koncertach i zadowala ich 10-krotny zoom, standardowa seria X może spełnić ich potrzeby.
W związku z tym użytkownicy o dużej sile nabywczej i potrzebie najlepszych doświadczeń przesuną się wyżej, ale nadal będziemy oferować produkty w odpowiednich cenach, zapewniające dobre doświadczenia, aby spełnić potrzeby użytkowników.
Źródło z ifanra
Zastrzeżenie: Informacje podane powyżej są dostarczane przez ifanr.com, niezależnie od Cooig.com. Cooig.com nie składa żadnych oświadczeń ani gwarancji co do jakości i niezawodności sprzedawcy i produktów. Cooig.com wyraźnie zrzeka się wszelkiej odpowiedzialności za naruszenia dotyczące praw autorskich do treści.