Говорещият със смартфони

Mobilecafe, по сп.Fortune 30.11.2012, 15:28

Снимка: Google

Смартфоните и таблетите дават шанс на гласовите интерфейси, след неуспеха им при компютрите

След като през последните пет години се научихме да командваме устройства чрез допир, следващата голяма цел е да правим същото и с глас. Дизайнът може да направи така, че хората да станат по-склонни да говорят с машините, вместо да ги ръчкат.

В последно време има множество сравнения между Apple Siri и Google Voice Search. Технологичният пробив на Microsoft също се появи на челните заглавия. След десетилетия изследвания и фалстартове, с появата на мобилните устройства, съревнованието между гласовите интерфейси става наистина напечено. Победителят ще се превърне в стандарт за следващите години.

Ограниченията на Siri и често комичните й интерпретации на прости инструкции показват, че има още много време, докато се появи ясен победител. За да успеят, големите играчи трябва да създадат услуга, която хората са склонни да използват в своята всекидневна работа.

За това са необходими не само страхотна технология за разпознаване и интерпретиране на изговорените думи, но и опростен интерфейс, възможност алгоритъмът да „усеща" контекста и добре разработен „гръбнак" на цялата система, който да схваща какво иска да направи потребителят. Нито една услуга не отговаря на тези изисквания, поне до момента.

Човешкият фактор

Повечето хора обичат да говорят. Същевременно, когато трябва да говорим на машини, повечето от нас се чувстват смутени: дайте и на най-големия екстроверт микрофон и го гледайте как се умълчава. По същия начин изглежда и човек, който за пръв път се опитва да използва гласови команди - просто не изглежда нито лесно, нито естествено.

Защо става така? Обратната връзка (или по-скоро нейната липса) е сред големите причини. Когато говорим с друг човек, има множество нива на двустранна комуникация - изражението на лицето, езикът на тялото, тонът на гласа и т.н. Непрекъснатата обратна връзка е на централно място в общуването между хората. Същевременно, гласовите услуги я намаляват до минимум.

Друга причина, поради която гласовите команди до този момент не са се ползвали с особена популярност (макар да ги е имало при компютърните програми), е, че просто нямаме нужда от тях, когато сме на своето PC. Когато сме седнали пред компютъра, нашите ръце са заети с комуникацията с него, като клавиатурата определено е доста ефективен способ. Смартфоните променят правилата на играта - когато човек е в движение, той не винаги може да използва свободно и двете си ръце. При това положение е по-вероятно да използва гласа си за управление на дадено устройство.

Най-силните гласове

Със Siri Apple се опитва да преодолее проблема с обратната връзка. Услугата е със собствен характер и чувство за хумор - по този начин „ябълките" се опитват да направят продукта си разпознаваем и то на границата с човешкото. Разговорът със Siri изглежда доста по-нормално като идея на фона на монолозите с продуктите на Google и Microsoft. Apple правят готина не толкова привлекателната иначе идея да говориш на своя смартфон.

Нека сравним този подход с това, което Google прави. Създателите на Voice Search са известни с това, че създават надеждни, ефективни и технически забележителни продукти, които се наместват във всеки аспект от живота на потребителя. Същевременно, Google никога не са създавали нещо забавно или характерно. Гласовото търсене е страхотно за изкопаване на информация от мрежата, но се преодолява по-голяма бариера, отколкото при Siri.

Google Voice Search не е като „асистента" на Apple - при него ударението все още е върху функцията за търсене на информация. Siri, от своя страна, се опитва да помогне на потребителя, което е много повече.

За да бъде наистина равностоен партньор, гласовият интерфейс трябва да има представа за контекста, в който се използва в дадения момент. Siri е дълбоко интегрирана в iOS и заради това има някои данни като локация и събития в календара, но е нужно повече. Голяма част от полезната информация може да дойде от инсталираните приложения, особено тези, свързани със социалните мрежи.

Nuance Communications (едни от хората, заради които въобще говорим за гласовия контрол в iOS) имат отговор на този проблем под формата на собствената им система Nina, която се интегрира в мобилни приложения за обслужване на клиенти. Apple също не спят и планират да интегрират Siri в AppleTV и iPhoto.

Все още, обаче, има да се свърши много работа. На фона на Google, Siri има твърде слаба инфраструктура зад себе си, а понякога гласовият асистент се държи не като възрастен събеседник, а по-скоро като малко дете, което е заучило няколко фрази.

Microsoft са сред пионерите на гласовите услуги при мобилните телефони, но не успяват да се възползват от това. Наскоро шефът на изследователския им екип Рик Рашид демонстрира алгоритъм, който в реално време превежда (при това със собствения му глас) от английски на китайски език.

За съжаление, макар Bing да може да се мери по „обща култура" с Google, все още Microsoft не са в състояние да създадат удобен интерфейс за устройства, в който да вкарат така разработените алгоритми. Поради тази причина, професионалните преводачи и полиглотите още дълго ще могат да спят спокойно.

Персонализация, контекст и намерения

Подходите на Apple, Google и Microsoft към гласовите услуги показват предизвикателствата към настоящите и бъдещите им продукти напълно ясни. Съвременните гласови технологии са високо развити и безумно сложни, но освен това са твърде предвидими. От друга страна, събеседникът на Siri, Google Voice Search и както-ще-се-казва-услугата-на-Microsoft е човек, който се влияе от десетки наглед малки и странични неща.

Apple трябва да „научат" Siri на повече неща, за да може тя е наистина полезна на потребителя в моментите, когато има да прави нещо по-сложно с устройството си. Google трябва да погледнат малко и извън чистата технология, за да може услугата им да придобие „човешки" облик. Microsoft имат ноу-хау и възможности, но все още нямат реален продукт.

За всички играчи, които тепърва ще се включват в битката на гласовите интерфейси трябва да е ясно едно - технологията вече е тук, борбата е тя да стигне по подходящ начин до потребителя.