Революция открытых данных (перевод из The Economist)

Текст: The Economist. Перевод: Григорий Николаев, «Спутник и Погром»

nys6-cover

Одним прошлогодним вечером техасец Джим Рич вернулся с баскетбольного матча домой и почувствовал в ноге сильную боль. Его жена Розмари, медсестра, подозревала, что дело тут не в ушибе. Розмари ввела симптомы в приложение iTriage. Программа предположила, что Джим страдает от синдрома межфасциального пространства, что может привести к гангрене или параличу. Миссис Рич сумела убедить мужа немедленно съездить в больницу. Через несколько часов Джим лег на срочную операцию.

Приложение, которое спасло ногу мистеру Ричу, использовало данные, предоставленные правительственными учреждениями. В случае iTriage — предоставленные четырьмя государственными медицинскими организациями. Шесть лет назад Америка стала первой страной, где все данные, собранные государственными службами, находятся в открытом доступе. Исключение делается для личной информации и информации, имеющей отношение к национальной безопасности. На сайте data.gov было размещено более 200 тысяч наборов данных, собранных более чем 170 организациями. Вскоре еще 70 стран выложили собранные ими данные в открытый доступ; по большей части это сделали богатые и хорошо управляемые государства, но среди них были и страны побеспокойнее — к примеру, Индия. Группа Open Knowledge, расположенная в Лондоне, утверждает, что с помощью программного обеспечения CKAN, разработанного в 2010 году, в открытый доступ попало более одного миллиона наборов данных.

Расписания транспорта, полицейские отчеты, данные о загрязнении окружающей среды, налоговые записи — все это пригодилось населению открытых стран; позволило государству лучше служить своим гражданам, подстегнуло развитие стартапов и попросту сделало жизнь людей лучше и легче. Но пока что неясно, приведет ли это к полной трансформации государственных механизмов. Чтобы такая трансформация все же произошла, энтузиазм сторонников открытых данных должен переродиться в холодный прагматизм.

На бесплатном можно сделать деньги

Уже существуют фирмы, сделавшие на открытых данных состояние. Zillow, сайт по продаже недвижимости, и Garmin, разработчик навигационного программного обеспечения, оцениваемые в 7 миллиардов долларов, были созданы на основе данных, собранных госслужбами. Но, по уверениям Лауры Люшезе, сотрудницы Etalab, консультативного органа, созданного французским правительством, именно небольшие фирмы и компании выгадают на открытой информации больше всего. К примеру, некто, планирующий открыть в Нью-Йорке кофейню, теперь сможет проверить Business Atlas города и найти удобный для себя район. Интерактивная карта укажет, по каким улицам ежедневно передвигается наибольшее число пешеходов, в каких районах проживает больше всего молодежи, а в каких — открывается все больше новых ресторанов.

Сегодня пассажиры общественного транспорта в сотнях городов могут с помощью приложений на своих смартфонах проверить расписание автобусов и проложить маршрут из точки А в точку В. Некоторые из этих приложений, например Citymapper, могут даже рассчитать стоимость и расход калорий в пути. Досье на врачей и данные о больницах позволяют будущим пациентам удаленно выбрать себе место лечения. Программа CheckThatBike! помогает пользователям проверить, не был ли украден их велосипед. GPS, навигационная система, когда-то разработанная для вооруженных сил США, теперь везде — от приложений для знакомств в интернете до собачьих ошейников.

Во многих городах власти предлагают гражданам сообщать о дырах в асфальте, перегоревших фонарях и прочих насущных городских проблемах с помощью смартфонов. Ранее в этом году добровольцы с OpenStreetMap, этакой Википедии карт, помогли французскому правительству создать национальную адресную базу, приложив для этого поистине титанические усилия. 25 миллионов адресов, разбросанных по записям шести разных госслужб, были проверены на географическую точность.

В результате государство сбросило лишний груз. Например, после того, как британское правительство опубликовало список государственных контрактов на 2010 год, один из чиновников заметил, что один и тот же доклад был оплачен сразу несколькими департаментами; сумма, потраченная на повторные заказы, составила 4 миллиона фунтов стерлингов или 6 миллионов долларов. В Словакии и Украине увеличилось количество фирм, участвующих в государственных тендерах. Власти Сан-Франциско подсчитали, что в результате открытого доступа к транспортным данным города уменьшилось количество звонков в справочные, что сэкономило городской казне 1 миллион долларов.

Открытые данные помогают и в борьбе с коррупцией. В прошлом году мексиканский аналитический центр IMCO обнаружил, что в образовательной системе работает 1400 учителей, рожденных в один день в 1912 году. Само собой, от этих «мертвых душ» быстро избавились. Британские и нигерийские власти воспользовались в расследовании дел по отмыванию денег выложенными в открытый доступ бухгалтерскими отчетами. Сайт OpenCorporate предлагает список собственников более 90 миллионов компаний; этими данными пользуются юристы, налоговики и общественные активисты.

Всё это, конечно, повод для радости. Но, оценив количество выложенной в открытый доступ информации, разумно будет спросить: а почему это так мало повлияло на мир? На это есть четыре причины. Первая: выложенные в открытый доступ данные часто бесполезны. Вторая: предприниматели, могущие превратить эти сырые данные в прибыль, часто жалуются на сложность интерфейса баз данных. Третья: лишь немногие люди способны найти и продуктивно использовать эти данные. И четвертая, последняя причина: люди боятся вторжения в свою личную жизнь.

По мнению Джоэла Гурина, сотрудника вашингтонского аналитического центра Centre for Open Data Enterprise, четыре пятых всего объема такой информации бесполезны. К примеру, США выложили в открытый доступ список последних фраз, произнесенных приговоренными к смертной казни в штате Техас. В открытом информационном массиве часто нет метаданных — ярлыков и описаний, без которых выложенная информация часто не имеет смысла. В некоторых развивающихся странах качество выложенной госслужбами информации настолько низко, что предприниматели предпочитаю собирать данные самостоятельно.

Поиск по базам данных — весьма трудоемкое занятие. Очень часто нельзя понять, какая из баз верная, притом что многие из них содержат одну и ту же информацию. Те из них, что были созданы для административных целей, еще не перешли на более удобный интерфейс, позволяющий сортировать, анализировать и сравнивать информацию. Некоторые базы часто являются уже устаревшими — особенно это касается, к примеру, списков государственных расходов.

Геэвин Старкс, сотрудник некоммерческой организации Open Data Institute, в числе основных проблем указывает малую компьютерную грамотность чиновников, активистов и журналистов. Проблема даже не в том, что эти люди не обладают специальными навыками; по словам Старкса, многие из них попросту не умеют интерпретировать данные. В пример Гэвин приводит британских членов парламента, большинство из которых не сумели решить математический тест, включающей две задачи, связанные с вероятностями.

На сегодняшний день основная проблема открытых данных — боязнь распространения информации о личной жизни. Государства, выкладывающие в открытый доступ информацию о личности, включая медицинские записи, налоговые ведомости и информацию об образовании, по словам Мартина Тисне, сотрудника благотворительной организации Omidyar Network, «ступили на минное поле». Подобная информация очень ценна: медицинские записи могут помочь врачам создавать индивидуальные лечебные программы для каждого из пациентов. Но скандал, связанный с распространением личной информации, ударит по всей идее открытых данных. Публичный скандал недавно вынудил Национальную службу здравоохранения Великобритании отказаться от повторного использования анонимной информации, предоставленной самими пациентами.

Общественные активисты и сторонники открытых данных объединили силы для решения этой проблемы с предпринимателями и бюрократами. Разработанные ими решения уже работают, а непрерывно растущее количество информации используется во благо.

Поначалу чиновники торопились выложить все данные в открытый доступ, не озаботившись проверкой качества информации. Но это длилось недолго. Организации вроде Open Knowledge создают списки самых ценных баз данных и функций, которые позволят сделать доступ к этим базам поистине свободным. Среди этих функций и пожеланий — свободные лицензии и машиночитаемая форма. Многие из государств сверяются с этими списками при подготовке к публикации информации в открытом доступе.

Обмен контактами между администраторами баз данных и аналитиками, программистами и прочими гиками происходит все чаще. Потребители узнают друг от друга о том, какие из баз наиболее верны; чиновники учатся делать подобные базы наиболее удобными для использования. «Хакерские марафоны», связанные с открытыми данными, привлекают сотни добровольцев и начинающих предпринимателей. Подобные марафоны 21 февраля, в день, объявленный энтузиастами Днем открытых данных, прошли более чем в двух сотнях городов по всему миру. Все больше инвесторов обращает внимание на эти марафоны, что повышает шанс того, что новые идеи станут основой новых компаний. Американский «фестиваль медицинских данных», проведенный министерством здравоохранения США в 2010 году, собрал всего 45 участников; всего через два года за 100 мест на фестивале, позволяющих показать свои новые разработки полуторатысячной толпе, боролись уже 230 компаний.

Некоторые из таких фестивалей просто просят гиков и энтузиастов предложить свои лучшие идеи. (Одно из таких соревнований британское правительство назвало «Show us a better way» (Посоветуйте лучший способ). Другие же ставят своей целью решение определённых проблем и задач. В этом году власти США провели серию ярмарок идей, которые могли бы помочь справиться с эпидемией ожирения, создать способ визуализировать информацию о загрязнении водоемов и облегчить изучение миллионов газет XIX века.

Множество благотворительных организаций пытаются обучить людей эффективным методам использования информации. Они выпускают книги, устраивают семинары и создают инструменты, позволяющие визуализировать краткое содержание баз данных. BudgIT, стартап, преобразующий неудобочитаемые бюджетные отчеты в понятные таблицы и графики, сегодня обучает нигерийских политиков тому, как использовать сетевые инструменты для оценки прогресса в выполнении проектов, финансируемых государственным бюджетом. Подобные образовательные программы часто финансируются НКО и различными агентствами по развитию, принадлежащими более богатым государствам.

Сохраняя тайну

Но проблема распространения информации о личной жизни стоит все так же остро. Некоторые активисты и эксперты утверждают, что практически любую информацию можно очистить и сделать анонимной. Другие же сомневаются в самой возможности анонимизации данных: с ростом информационных массивов становится все легче сличать данные из разных источников и выяснять имена и детали личной жизни. По словам господина Гурина, все закончится тем, что перед нами встанет вопрос — каким количеством информации о себе мы будем готовы рискнуть ради, например, повышения эффективности медицинской помощи. Разные страны ответят на эти вопросы по-разному: в Швеции, к примеру, все налоговые ведомости выложены в открытый доступ в неотредактированном виде, подписанные реальными именами налогоплательщиков.

Пока что невозможно предсказать, куда приведет мир революция открытых данных. В 1983 году Рональд Рейган открыл доступ к информации GPS после того, как советская ракета сбила авиалайнер над Южной Кореей. В тот момент никто и помыслить не мог, что когда-нибудь доступ к этой информации поможет водителям прокладывать маршрут, одиноким людям — найти свою любовь, а рассеянными владельцам домашних животных — отыскать своих сбежавших питомцев.

nys-general

Оригинал материала на сайте The Economist