Как личното пространство изчезва онлайн

Ако непознат се приближи към вас на улицата, бихте ли му дали името си, вашия ЕГН, номера на социалната осигуровка и имейл адрес? Надали.

И все пак хората често оставят всякакъв вид лична информация в Интернет, която позволява подобни идентифициращи данни да бъдат открити по дедукция. Услуги като Facebook, Twitter и Flickr са океани от лични дребни подробности - изпратени и получени поздравления за рождени дни, училищни и служебни слухове, снимки от семейни почивки, гледани филми...

Компютърните специалисти твърдят, че подобни изглеждащи безвредно частици разкриваща информация могат все повече да бъдат събрани и обобщени от компютри, за да се създаде образ на самоличността на човека, понякога стигащ до подробности като номера на социалната осигуровка или ЕГН.

"Технологията е направила традиционното определение за лично идентифицируема информация отживелица," казва Маниша Митал, един от директорите на поделението за защита на личната информация във Федералната търговска комисия.

"Може да се открие кой е определен човек и без нея."

В университетски проект на Масачузетския технологичен институт, привлекъл известно внимание миналата година, Картър Джърниган и Мерам Мистрий анализират повече от 4000 профили на студенти в Facebook, включително връзки към техни приятели, които са казали, че са хомосексуални.

Двамата са били в състояние да предскажат със 78-процентна точност дали профилът е принадлежал на хомосексуален мъж.

До момента този тип изчерпателно издирване на данни, разчитащо на сложни статистически корелации, е основно в областта на университетските изследвания, не на крадците на самоличност и занимаващите се с маркетинг.

Но Федералната търговска комисия се притеснява, че правилата за защита на личната информация не са се развивали със същите темпове като технологиите. Агенцията се събра преди дни на третия си пореден семинар по този въпрос.

Притесненията им далеч не са преувеличени. Миналата есен Netflix наградиха с $1 млн. екип статистици и компютърни специалисти, които победиха в тригодишно състезание за анализ на историята на наеманите филми от 500 000 клиенти на услугата - и за подобряване на точността на предсказване на софтуера на Netflix за препоръчване на нови заглавия с поне 10 процента.

Миналата седмица Netflix обявиха, че са се отказали от плановете си за второ състезание - съобразявайки се с опасенията за защитата на личната информация, изложени от FTC и от частен съдебен ищец.

През 2008 г., двама изследователи от Тексаския университет показаха, че потребителските данни, предоставени за първото състезание, въпреки че са били "изчистени" от имена и друга директна информация за идентификация, често биха могли да бъдат "де-анонимизирани", като статистически се анализират личните характерни модели на определяне на рейтинг на филмите и препоръчвани заглавия.

В социалните мрежи хората могат да увеличат защитата си срещу идентификация, като възприемат стриктен контрол на личната информация в личните профили. Но действията на отделните хора според учените рядко са достатъчни, за да защитят личната информация във взаимно свързания свят на Интернет.

Може и да не разкривате лична информация, но вашите приятели и колеги онлайн може да го направят вместо вас, упоменавайки вашето училище, работодател, пол, местоположение и интереси. Моделите на социална комуникация според изследователите разкриват много неща.

"Личната защита на информацията вече не зависи от отделни хора," казва Харолд Абелсън, професор по компютърни науки в MIT "В днешния онлайн свят това, което майка ви ви е казвала, е истина - но дори важи още повече: хората наистина могат да съдят за вас по вашите приятели."

Събрана заедно, общата информация за всеки отделен човек може да оформи характерен "социален подпис," казват изследователите.

Способността на компютрите да идентифицират хората само на база социалните модели на поведението им бе демонстрирана миналата година в изследване от същите двама учени, които разбиха анонимната база данни на Netflix: Виталий Шматиков, професор по компютърни науки в Тексаския университет и Арвинд Нараянан, който понастоящем е изследовател в Станфордския университет.

Чрез изследване на връзките между различни онлайн акаунти, учените показаха, че биха могли да идентифицират повечет от 30 процента от потребителите на микроблогинг услугата Twitter и онлайн услугата за споделяне на снимки Flickr, дори и когато акаунтите са с премахната идентифицираща информация като имена на акаунтите и имейл адреси.

"Когато се свържат тези големи маси данни, малка частица от нашето поведение и структурата на социалните ни мрежи може да бъде идентифицираща, казва Шматиков.

Дори още по-притеснително за защитниците на личната информация е изследването на двама учени от университета "Карнеги Мелън". В публикуван миналата година доклад Алесандро Акуисти и Ралф Грос съобщават, че биха могли точно да предскажат пълните деветцифрени номера на социалните осигуровки на 8.5 процента от хората, родени в САЩ между 1989 и 2003 г. - почти пет милиона души.

Номерата на социалните осигуровки се тачат много от крадците на самоличност, доколкото те се използват както за идентифициране, така и за оторизиране на банкови трансфери, кредитни карти и други финансови транзакции.

Изследователите от "Карнеги Мелън" са използвали публично достъпна информация от много източници, включително профили в социални мрежи, за да стеснят търсенето си на два елемента от данните, решаващи за идентифицирането на хората - рождените дати и щата, в който са родени те.

Това им помага да получат първите три цифри от номера на всяка социална осигуровка, които правителството определя според местоположението. Оставащите шест цифри се определят чрез методи, които правителството не разкрива, но те са свързани с това кога човекът кандидатства за получаването на въпросния номер. Изследователите са използвали прогнозни сведения за тези кандидатствания, както и друга публична информация, от рода на номерата на осигуровките на починали хора, след което са стартирали продължителни цикли на статистическа корелация и дедукция, за да изчислят частично правителствената система за определяне на номерата.

Със сигурност резултатите от изследванията на Акуисти и Грос подсказват за потенциален, а не реален риск. Но непубликувани техни изследвания се занимават с това как престъпници биха могли да използват подобни техники за широкомащабни схеми за кражба на самоличност.

Защитниците на личната информация се притесняват, че новите граници на събиране, обмен и издирване на данни са в голямата си част нерегулирани. Те се боят от "онлайн дискриминационни практики", където продукти и услуги се предлагат на определени потребители, но не и на други, на база статистически дедукции и предсказания за хората и тяхното поведение.