Проблемы конфиденциальности могут сорвать беспрецедентный план использования данных Facebook для изучения выборов

Сотрудники Facebook работают, чтобы уменьшить распространение дезинформации, которая может повлиять на выборы.

NOAH BERGER / AFP / Getty Images

Проблемы конфиденциальности могут сорвать беспрецедентный план использования данных Facebook для изучения выборов

Джеффри МервисСеп. 24, 2019, 16:50

Гэри Кинг извлек выгоду из идеального выбора времени для продажи Facebook благодаря идее поделиться сокровищницей своих данных с учеными. Но сейчас часы работают против усилий Кинга и других, направленных на то, чтобы предотвратить развал инновационного проекта, цель которого - лучше понять, как распространение информации в Facebook влияет на выборы и политические институты по всему миру. Ключевой момент преткновения: защита конфиденциальности пользователей Facebook.

В марте 2018 года Кинг, специалист по количественным исследованиям в Гарвардском университете, посетил штаб-квартиру Facebook в Менло-Парке, штат Калифорния. Средства массовой информации только что опровергли информацию о том, что британская фирма Cambridge Analytica продавала анкеты избирателей кандидатам на основе личной информации, непреднамеренно предоставленной миллионами пользователей Facebook. Получающийся скандал был отрезвляющим уроком для Facebook о том, как не делиться своими данными с посторонними.

Кинг предложил Facebook лучший способ обмена данными. Его план был разработан с учетом высоких этических и интеллектуальных стандартов при достижении трех важных целей: сохранение конфиденциальности пользователей Facebook, защита коммерческой тайны компании в отношении управления ее данными и отсутствие каких-либо ограничений на то, что исследователи могут публиковать из этих данных.

Новый подход, считает Кинг, может трансформировать количественную социальную науку, предоставляя исследователям доступ к действительно большим данным, а не к опросам и небольшим выборкам, которые традиционно были их основной диетой. Это также столкнулось бы с серьезной проблемой, стоящей перед полем: частные компании теперь обладают гораздо большей информацией о том, как ведут себя люди, чем правительства. И исследователям нужен был лучший доступ к этим данным.

Чиновники Facebook вежливо выслушали подачу Кинга, но не дали никаких обещаний. Он решил, что вычеркнул.

Затем он вспомнил недавно: «Я был в своем гостиничном номере, собирал вещи, чтобы пойти домой, когда получил электронное письмо от людей, с которыми я только что встречался». Это поставило вопрос: «Что мы можем сделать с этим?» на скандал с Кембриджской аналитикой. Чиновники компании, которые с тревогой наблюдали, как цена акций Facebook резко упала в результате разоблачений, были явно обеспокоены тем, как скандал может повредить репутации компании.

Через несколько дней Кинг получил повторный телефонный звонок. «Эй, не могли бы вы изучить результаты выборов 2016 года и сказать всем, что мы не изменили результат?» - спросил его чиновник из Facebook. «И если мы сделали что-то не так, скажите нам, что делать, и мы сделаем это, например, прямо сейчас». Кинг говорит, что его первая реакция была: «Думаю, потеря 100 миллиардов долларов в рыночной капитализации фокусирует разум».

«Важная новая модель»

Звонок послал Кинга и Нейта Персили, профессора права в Стэнфордском университете в Пало-Альто, штат Калифорния, в их стремление поддержать план Social Science One, некоммерческой организации, которая станет онлайн-сайтом для исследователей, чтобы получить доступ к любым данным, опубликованным Facebook., Его первый проект позволил бы исследователям взглянуть на то, как 2 миллиарда пользователей Facebook поделились веб-сайтами, обсуждающими президентские выборы в США 2016 года, а также демократическими институтами по всему миру.

Наборы данных будут содержать веб-адреса или URL-адреса, которые пользователи Facebook опубликовали совместно, некоторые характеристики этих URL-адресов и совокупную информацию об участниках, включая их возраст, пол, местоположение и политические предпочтения. Он обещал стать золотым прииском для исследователей, изучающих, при каких условиях и кем поддельные новости распространяются по Интернету.

9 апреля 2018 года Эллиот Шрейдж, высокопоставленный руководитель Facebook, объявил о новой инициативе, которая, как он написал, «поможет провести независимое, заслуживающее доверия исследование роли социальных сетей в выборах». В своем блоге Шраге назвал это «важным новым модель для партнерства между промышленностью и научными кругами ». И хотя он не упомянул Cambridge Analytica, скандал был явно у него на уме. «Те же инструменты Facebook, которые помогают политикам связываться со своими избирателями… также могут быть использованы для манипулирования и обмана», - написал он.

Основы подняться на борт

В апрельском объявлении 2018 года также перечислены семь благотворительных организаций, которые будут финансировать эту инициативу. Консорциум был собран Ларри Крамером, президентом Фонда Уильяма и Флоры Хьюлетт, расположенным всего в нескольких милях от штаб-квартиры Facebook в Менло-Парке. Фонд недавно расширил крупную демократическую инициативу, названную «Мэдисонская инициатива», которая была сосредоточена на изучении Конгресса, чтобы уделять больше внимания дезинформации в области цифровых технологий.

«Я помню, как наш менеджер программы дрожал от волнения», - вспоминает Крамер, когда услышала о новом партнерстве. «Мы только что определили отсутствие доступа к данным в качестве нашей основной проблемы для Мадисонской инициативы, а затем, бум, вот эта сокровищница, которая позволит нам делать то, что, по нашему мнению, необходимо сделать».

Крамеру удалось получить подписку на Фонд Альфреда П. Слоуна, Фонд Лауры и Джона Арнольда, Фонд Чарльза Коха, Фонд Джона С. и Джеймса Л. Найта, Фонд демократии и Сеть Омидьяр. Все они заинтересованы в функционировании демократий, говорит он. Их идеологическое разнообразие - Кох поддерживает несколько консервативных причин, в то время как Сеть Омидьяр является откровенно либеральной - также было важно.

«Мы согласились с тем, что нам нужно внешнее финансирование для этой работы», - вспоминает Крамер. «Потому что, если бы он финансировался Facebook, люди не доверяли бы результатам. Так обстоит дело сегодня ». Организации договорились выделить в общей сложности 11 миллионов долларов на 1-летний пилотный проект, который будет управляться Советом по социальным наукам (SSRC), нью-йоркской некоммерческой организацией, которая также будет управлять процесс грантов.

«Эта структура имела смысл, и люди, управляющие ею, были первоклассными», - говорит Крамер. «И это началось отлично».

В июле 2018 года SSRC объявил конкурс предложений, а в апреле выделил гранты в размере 50 000 долларов каждой из дюжины команд ученых. (Вторая группа из 13 команд была выбрана, но еще не объявлена.) Первый раунд проектов включает в себя исследования того, как активность в Facebook могла повлиять на участие общественности и недавние выборы в Тайване, Чили, Бразилии и Германии, а также как пользователи по-разному реагируют на основные и вводящие в заблуждение интернет-источники новостей.

Спешите и подождите

Но как бы Крамер надеялся, что уникальное сотрудничество между Facebook, Social Science One и спонсорами будет процветать, он считает, что, возможно, было ошибкой двигаться так быстро с самого начала. «Все это разворачивалось очень быстро», - говорит он. Теперь ясно, говорит он, что все участники недооценили время, которое потребуется, чтобы найти приемлемый способ защиты конфиденциальности пользователей Facebook. «Почти все возникшие проблемы [вокруг конфиденциальности] возникли потому, что у нас действительно не было времени пересечь все буквы Т и поставить точки на« И », как мы обычно это делали бы», - говорит Крамер.

Такие грантополучатели, как Джошуа Такер, профессор политологии и науки о данных в Нью-Йоркском университете в Нью-Йорке, заплатили за эту поспешную цену. В январе его команда сообщила об исследовании, которое показало, что пожилые люди делили в семь раз больше дезинформации, чем миллениалы. Результаты показывают, что цифровая грамотность может быть важным фактором того, насколько хорошо люди могут определить достоверность того, что они читают в Интернете.

Но этот проект основывался на традиционных исследованиях с людьми, которые согласились поделиться своим поведением в Интернете. И Такер хотел пойти дальше, связав общедоступные данные, которые он получил от Reddit и Twitter, с непубличными данными пользователей, предоставленными Facebook. По его словам, данные Facebook позволят команде «проверить некоторые наши гипотезы» о том, как новости, включая дезинформацию, распространяются на различные платформы социальных сетей.

Он добавил, что данные по общим ссылкам считались низко висящими фруктами с точки зрения защиты конфиденциальности, поскольку они содержали только сводную информацию.

«Это может сказать вам, что мужчины в возрасте от 25 до 35 лет, проживающие в штате Нью-Йорк, имели общую ссылку 1000 раз, в то время как женщины Северной Дакоты в возрасте старше 65 лет делились данными шесть раз», - объясняет он об обещанном наборе данных. «Но он не будет содержать ваш идентификатор Facebook или хэштег, сопровождаемый кучей вещей о вас».

На данный момент, однако, Такер, который также возглавляет один из четырех консультативных комитетов, которые помогли распространить информацию о Social Science One, не может получить доступ к этим данным. Это потому, что Facebook еще не выяснил, как обеспечить конфиденциальность, прежде чем публиковать данные.

По словам представителей King и Facebook, проблема конфиденциальности стала понятна почти сразу. В частности, они осознали, что традиционные методы обеспечения конфиденциальности, основанные на анонимности, более не являются адекватными. Компьютерные ученые показали, что они могут идентифицировать лиц, включенных в анонимные наборы данных, используя огромную вычислительную мощность для объединения маскированных данных с другой личной информацией, которая уже доступна для общественности в Интернете.

Учитывая такие возможности, эксперты по конфиденциальности заявили Facebook, что «они разбили данные на части с точки зрения демографических групп и количества раз, когда [веб-адреса передавались]», поясняет один из сотрудников Facebook. Чтобы обеспечить конфиденциальность, компании пришлось бы добавить столько статистического «шума» к данным, что результаты были бы слишком искажены, чтобы быть полезными для исследователей, говорит чиновник.

Facebook решил, что ответом будет использование различий в конфиденциальности. Это математический подход для добавления шума, который не позволяет постороннему узнать, содержится ли личная информация человека в определенном наборе данных, и, таким образом, обеспечить его конфиденциальность. На операционном уровне, пояснил представитель Facebook, это означало, что «нам нужен новый набор компьютерных серверов, с новыми типами безопасности и с дифференциальной конфиденциальностью, применяемой к наборам данных».

Но достижение этой цели требует времени. «Дифференциальная конфиденциальность является передовой технологией, - говорит Кинг. «Это очень важная разработка, но это не значит, что есть программное обеспечение, которое абсолютно работает и адаптировано ко всем статистическим методам. Таким образом, мы поняли, что у нас был год или больше работы, которую мы не планировали ».

«Помните, это исследование», добавляет Кинг. «Если бы это было легко, это было бы просто назвать поиском».

Такер говорит, что сотрудники знали, что вошли в «довольно неизведанные воды», когда была заключена сделка в Facebook. «Первоначальный план состоял в том, чтобы позволить исследователям работать с агрегированными данными, а затем решить острейший вопрос о дифференциальной конфиденциальности», - говорит он. «Но это стало несостоятельным».

По его словам, стремление к дифференциальной конфиденциальности связано со снижением доступности данных. Но сделать это «в обмен на математическую гарантию конфиденциальности», добавляет он, - это цена, которую он готов заплатить.

«Революция» в ожидании

В конце прошлого месяца консорциум финансирования и SSRC решили, что время истекло. В открытом письме в SSRC спонсоры написали, что они «рекомендуют приостановить процесс предоставления грантов до тех пор, пока не станут доступны дополнительные данные. … Некоторые или все из нас могут пожелать рассмотреть вопрос о расширении или возобновлении поддержки, если появятся новые данные достаточного импорта и ценности ».

Одновременно SSRC опубликовал заявление, согласное с этой рекомендацией и описывающее, как оно «свернет проект к концу 2019 года». Уже профинансированные исследователи получат возможность сохранить свои гранты, а те, кто во втором раунде будут профинансированы, если они смогут завершить проект «с имеющимися данными».

В некоторых сообщениях средств массовой информации об этих объявлениях задержка является еще одним примером того, как Facebook возвращается к обещанию. Чиновники Facebook отвергают эту оценку, заявляя, что компания с самого начала ясно дала понять, что конфиденциальность является ее высшим приоритетом.

Такер, Крамер и Кинг говорят, что они верят, что Facebook делает все возможное, чтобы проложить путь для доступа исследователей. «Я не думаю, что они тормозят», - говорит Такер. «Все хотят, чтобы это исследование было сделано. Но это просто очень сложно ».

Крамер говорит, что он не защищает действия Facebook. «Мне все равно, если [задержка] поможет или повредит» компании, говорит он. Но он считает, что Facebook заслуживает некоторого уважения за попытку.

То, как все это окажется, может повлиять на то, присоединятся ли другие цифровые гиганты, такие как Google, к таким усилиям по обмену данными. «Когда мы начинали, - сказал Крамер, - мы надеялись, что это произойдет с Facebook, а затем пригласим другие социальные медиа-компании, работающие с похожими данными, присоединиться и помочь нам получить всестороннее представление. Но ни один из них не был заинтересован.

Официальный представитель Google подтверждает, что компания отказалась участвовать, когда к ней обратился Social Science One. «Мы решили подождать и посмотреть, что произойдет с Facebook», - говорит Клемент Вулф, глобальный лидер в области государственной политики в Сан-Франциско, штат Калифорния, для гиганта социальных сетей. «И мы очень заинтересованы в том, как это закончится».

«Если Facebook преуспеет, - говорит Такер, - это может коренным образом изменить типы онлайн-данных, к которым могут получить доступ исследователи, и вопросы, которые могут задавать люди, не являющиеся сотрудниками этой платформы. Сотрудники Facebook могут сделать это сейчас, но мы не можем ».

Около двух десятков сотрудников Facebook потратили весь прошлый год на решение этой проблемы и добились значительных успехов. Например, на прошлой неделе Facebook предоставил данные с дифференциальной защитой около 32 миллионов адресов веб-сайтов, которые пользователи Facebook публично делили более 100 раз за последние 2 года. Данные включают в себя информацию о том, был ли зарегистрирован адрес, содержащий поддельные новости, спам или разжигание ненависти, и сколько раз он передавался без щелчка.

Этот релиз предвещает хорошие результаты для проекта, говорит Кинг, который считает приостановку финансирования лишь ударом по пути к расширению сотрудничества между крупными интернет-компаниями и учеными. «Данные превосходят поле», - говорит он. «А у общественных наук гораздо больше данных, чем когда-либо прежде. Но большинство данных находятся внутри компаний, и они используют их в своих целях. Поэтому у нас, как у ученых, нет другого выбора, кроме как заключить какое-то соглашение с частным сектором ».

* Исправление, 25 сентября, 10:25: эта история была обновлена, чтобы исправить название Совета по исследованиям в области социальных наук.