#10YearChallenge не е само Facebook-мода

Mobilecafe 16.01.2019, 17:32

Снимките "Преди и сега" са ресурс за AI, не просто meme

#10YearChallenge - вероятно вече сте забелязали най-новия тренд във Facebook, Instagram и Twitter, който призовава всички да публикуват колажи със свои снимки в стил "Преди и сега", от преди 10 години и от днес. Предизвикателството вече се сдоби с масова популярност, забавно е и провокира приятна носталгия, а десетки знаменитости вече се включиха в него с подбрани свои фотографии.

И все пак, ако последната година на скандали около Facebook ни е научила на нещо, то е, че пътят към злоупотребата с лични данни е покрит с добри намерения. Показателен факт е, че екипът на Cambridge Analytica беше получил неразрешен достъп до милиони профили чрез напълно невинен app с въпросник, наречен "This Is Your Digital Life".

Разбира се, това не означава, че #10YearChallenge е нещо опасно, само по себе си.

Но хипотетичният сценарий за използването на десетки хиляди лични фотографии за трениране на изкуствен интелект е напълно реалистичен. Той е показателен пример за проблем, на която хората би трябвало да обърнат внимание - колко много данни за себе си споделяме публично, без да се замисляме за последиците.

Представете си следния сценарий: искате да тренирате алгоритъм за разпознаване на лица според възрастови характеристики, по-конкретно - по фактора "възрастова прогресия" (т.е. как биха изглеждали хората, когато остареят). В идеалния случай, ще ви бъде нужна мащабна и точна база данни, с множество снимки на множество различни лица. Би помогнало, ако фотографиите са заснети в специфичен времеви период - например, с 10-годишна разлика.

View this post on Instagram

2009/2019 No big deal. 😭

A post shared by Busy Philipps (@busyphilipps) on Jan 13, 2019 at 4:49pm PST

Естествено, може да претърсите Facebook за публично-достъпни профилни снимки и да прегледате датата на публикуването или метаданните на изображението, които пазят датата и часа на създаване. В този огромен набор обаче ще има твърде много излишна информация. Невинаги хората публикуват снимките си в хронологична последователност. Мнозина от потребителите във Facebook изобщо не показват лицата си, а използват абстрактни картинки, комикси, колажи с думи, и т.н. EXIF данните от фотографиите понякога не са достъпни или не са достоверни. Сканираните файлове на стари хартиени снимки са подобен пример.

С други думи, би било изключително полезно, ако можехте да получите достъп до богата колекция с изчистени, ясни и грижливо подбрани фотографии на едни и същи лица.

Точно това представлява #10YearChallenge - потребителите услужливо допълват информация за контекста ("това съм аз през 2008 г., а това съм аз през 2018 г."). В доста случаи, снимките са придружени и с обяснителен текст ("Снимката от 2008 г. е направена от Мартин, когато бяхме студенти в еди-кой-си университет, а снимката от 2018 г. е от екскурзията ми в Лондон..").

Тоест, сега се генерира още по-богата база данни от внимателно подбрани снимки на лица с приблизителна разлика от 10 години.

Вярно е, че повечето от тези изображения вече са публични, споделени са доброволно от потребителите, а не са откраднати от тях. Освен това много от снимките под хаштага #10YearChallenge са неизползваеми за целите на машинното обучение, защото се подиграват с кампания по един или друг начин. Специалистите и изследователите на бази данни обаче знаят как да се справят с този проблем - колкото по-рано са публикувани снимките, толкова по-висока е вероятността да отговарят на правилата на предизвикателството, преди да са се появили шегите, ироничните meme-та и нерелевантните публикации.

Що се отнася до фалшифицираните кадри, алгоритмите за разпознаване на изображения вече са достатъчно интелигентни, за да различават човешките лица. Ако пуснете снимка на котката си от преди 10 години и сега, машината няма да я допусне в извадката.

View this post on Instagram

challenge accepted 😝 #glowupchallenge #howharddidaginghityouchallenge

A post shared by Janet Jackson (@janetjackson) on Jan 13, 2019 at 1:54pm PST

Добре, но какво лошо има в ползването на безобидни снимки от Facebook за трениране на изкуствен интелект? Нищо особено, дори може да се каже, че този процес е неизбежен. Генералният извод обаче е друг - трябва да подхождаме с малко повече внимание към съдържанието, което споделяме.

В най-оптимистичния сценарий технологията за лицево разпознаване може да бъде изключително полезна, например - за издирване на безследно изчезнали деца. Колкото по-дълго са в неизвестност, толкова по-вероятно е лицата им да са се променили, така че да не отговарят на старите си снимки. През 2018 г. полицията в Ню Делхи използва подобна технология и успя да издири близо 3000 деца за 4 дни.

В реалистичния случай, алгоритъмът вероятно ще се ползва за по-практични цели, например - за таргетиране на реклами. Скоро може да се появят рекламни панели, които ползват вградени сензори и камери, за да адаптират съдържанието към съответната възрастова група. Това приложение на технологията не е много вълнуващо, но може да помогне значително на рекламния бизнес. Все пак, смесването на подобен тип данни с информация за местоположението, потребителското поведение, реакциите и покупателната способност е практика, която заслужава да бъде подложена на внимателен дебат.

Както с всяка нова технология - има и вероятност тя да се ползва недобросъвестно. Някой ден възрастовата прогресия може да се превърне във фактор при определянето на застрахователните вноски. Ако лицето ви остарява по-бързо, отколкото при връстниците ви, ще бъдете класирани в по-рискова група, с по-висока цена на застраховката.

От 2016 г. Amazon разполага с технология за разпознаване на лица в реално време, като продава услугата си на полицейски управления и служби за сигурност. Няма обаче гаранции, че полицията ще прилага този ресурс само за откриването на издирвани лица, а не срещу политически активисти или други хора.

Какъв е изводът? Толкова ли е страшно, че някой е споделил свои снимки от преди 10 години на стената си във Facebook? Опасни ли са алгоритмите за лицево разпознаване, базирани на възрастта? Не точно.

Просто хората са най-богатият източник на данни за повечето нови технологии, които се появяват по света. Трябва да го имаме предвид, независимо от специфичния случай на #10YearChallenge, и да действаме със съобразителност в онлайн-средата.

Хората са свързващото звено между физическия и дигиталния свят. Човешкото поведение стои в основата на най-интересната част от Internet of Things. Данните ни са горивото, което захранва този бизнес и му дава възможност да се развива. Затова е добре да се отнасяме с уважение към собствения си ресурс.