Open data

РосКомСвобода на ОГФ2020 рассказываем про открытые данные о пандемии и праве на приватность

17.12.2020 16:16:33 |

Автор: admin

РосКомСвобода совместно с Инфокультурой весь день вела на Общероссийском гражданском форуме (ОГФ'2020) площадку Право на приватность и открытость.

Собрали для вас самое важное их всех секций: про приватность, открытые данные в здравоохранении, открытый код, распознавание лиц и слежку.

Ключевые цитаты из выступлений:

Все видео выступлений

Ссылки на полные обзоры в конце статьи.

В рамках дискуссии Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии коронавируса спикеры попытались ответить прежде всего на два вопроса есть ли баланс между интересами государства и общества и, если нет, как его достигнуть. Пожалуй, все они сошлись во мнении, что баланса нет.

Руководитель РосКомСвободы Артём Козлюк прямо заявил, что баланса между интересами государства и общества не сложилось. Налицо нарушение личного цифрового пространства, тайны связи, отсутствие защиты коммуникаций. Всё это было и до пандемии, но во время неё тенденции усилились. Спикер обозначил ключевых правонарушителей в этих сферах это государство, корпорации и киберпреступники.

Кто же акторы нарушения наших цифровых прав, нашего права на приватность? Это государства, корпорации и киберпреступники.

У каждого из них свои цели и методы. По мнению Козлюка, у общества нет рычагов давления на госорганы и потому в качестве самозащиты гражданам остаются повышение цифровой грамотности и инструменты общественного давления в виде подачи исков, участия в кампаниях, подписания петиций. К слову, у Роскомсвободы есть кампания против слежки через распознавание лиц Bancam. В рамках неё мы требуем ввести мораторий на массовое распознавание лиц, пока система видеонаблюдения не станет прозрачной и подотчётной и не будет иметь гарантии защиты от подобных злоупотреблений. Вы можете помочь нам, присоединившись к кампании и подписав петицию на сайте Change.org.

Координатор проекта Pandemic Big Brother Алёна Рыжикова на примере, собственно, Pandemic Big Brother рассказала о конкретных перекосах в мерах, принятых государствами по всему миру. В частности, она выделила массовые штрафы и даже аресты за т.н. коронафейки (информацию о пандемии, противоречащую официальной) и распознавание лиц, которое стали применять в отслеживании нарушителей карантина, вплоть до автоматического штрафа на основании его результатов. Подобное, по её словам, практикуют не только в России, но и во многих других странах.

Массово стали использовать распознавание лиц не только для борьбы с преступностью, но и для отслеживания нарушителей карантина.

Pandemic Big Brother интерактивная карта, на которой фиксируются случаи нарушения цифровых прав граждан, такие как введение слежки, цензуры и контроля за коммуникациями.

Юристы РосКомСвободы готовы помочь всем, кто пострадал из-за незаконной слежки. Ваши обращения вы можете присылать на адрес legal@roskomsvoboda.org

Руководитель юридической практики РосКомСвободы Саркис Дарбинян рассказал, что происходит с точки зрения прав в России, и назвал это вируспруденциией или законорей. По его словам, законодатели десятилетиями думали о том, как защитить детей, как бороться с терроризмом, но совершенно забыли о вирусах. Поэтому в этой области у нас не сложилось практики: нормативно Россия оказалась неготовой к использованию современных технологий вроде геолокации, мобильных приложений, распознавания лиц.

Те законы, которые долго писали, никак не были приспособлены для ситуации пандемии. Российские законодатели о чем только не думали: они думали, как спасти нас от террористов, как спасти наших детей, но они совершенно забыли, что существуют вирусы.

Единственный подходящий закон о защите во время чрезвычайных ситуаций. Он, к слову, не содержит ничего об ограничении прав, которые власти применяли с таким упорством, но только то, что должны делать МЧС и другие органы по координации своих действий во время ЧС. Федеральная власть не хотела рисков и потому поступила хитро, а именно: переложила все решения на субъекты. Как результат Москва начала принимать свои законы, которые вошли в диссонанс с федеральным законодательством. Даже если бы ковида не существовало, его стоило бы придумать, по крайней мере для московских властей, которые годами держали эти технологии под сукном и ждали возможность начать их использовать, сказал Дарбинян. По его словам, различные технологии для слежки у московской мэрии были давно, и пандемия послужила спусковым крючком для их использования.

В секции Открытые данные как инструмент общественного контроля борьбы с пандемией эксперты среди прочего рассказывают, можно ли доверять сайту Стопкоронавирус.рф и почему в общественном здравоохранении с открытыми данными всё плохо.

Кандидат биологических наук, независимый аналитик Алексей Куприянов представил доклад об общественном аудите государственной статистики. С 13 марта эксперт собирает данные по распространению коронавирусной инфекции по России. В апреле он стал публиковать их и в Фейсбуке на страничке инициативной группы Watching Covid-19.ru, где вместе с коллегами, в том числе другими докладчиками Алексеем Ракша и Борисом Овчинниковым, выкладывает аналитику. Основные источники данных Стопкоронавирус.рф и СМИ, на первых порах ещё бюллетени Роспотребнадзора.

Задачи инициативы резервное копирование данных, расчёт их характеристик (к примеру, доля смертей, ускорение и замедление эпидемии), наработка аналитической инфографики для осмысления ситуации и методов выявления манипуляций с данными. Первое на удивление не менее важно, чем всё остальное, поскольку в России нет ресурсов, которые бы давали полную картинку по эпидемии, с самого начала, в динамике. Тот же сайт Стопкоронавирус.рф не имеет памяти: каждый месяц он начинает с начала, а данные за минувшие месяцы уходят.

Куприянов отметил, что это первая пандемия, по которой так много открытых данных, но, к сожалению, они не очень достоверны. Аналитик выявил две главных фальсификации, из-за которых доверять информации невозможно:
избыточное сглаживание данных, когда показатели долгое время находятся на одном уровне (собянинский коридор);
дагестанский скачок, когда все вдруг резко выздоровели (в других регионах тоже такое было, например, в Марий Эл, где добились отрицательного количества заболевших).

Эта пандемия развивается благоприятно в плане открытости данных, но она совершенно проиграна в плане достоверности данных.

Для получения более точных данных, по мнению учёного, необходимы:
машиночитаемые данные;
доступ к дезагрегированным данным;
расширение спектра доступных параметров;
смещение акцента с агрегирования на валидацию.

Для исправления ситуации эксперт советует, например, Росстату как можно раньше опубликовать данные по смертности по датам смерти, а не регистрации, а Роспотребнадзору максимально подробно раскрыть данные по госпитализации (к примеру, количество людей на интенсивной терапии). Последнее поможет гражданам в принятии рациональных решений, уверен Куприянов.

Граждане подросли, а государство обращается с нами по-прежнему, как с малыми детьми, за которых надо всё решать, не предлагать разумные действия, а просто приказывать, посетовал аналитик. Но такая модель устарела, и теперь людьми надо вести более вдумчивый диалог, заявил он.

Поистине ужасную картину обрисовал проректор Высшей школы организации и управления здравоохранением Николай Прохоренко, рассказав о недостоверных данных в общественном здравоохранении. По его словам, чем больший интерес представляют данные, тем больше с ними происходит фальсификаций. Эксперт заявил, что в России неточные данные по численности населения, смертности, заболеваемости, потребности в объёмах медицинской помощи, обеспеченности кадрами и плохая обратная связь от населения.

В качестве причин недостоверной статистики спикер назвал:
дефекты нормативной базы;
дефекты управления;
закрытость и несистемность статистики и аналитических данных;
недостаток квалификации;
избыточно сложную систему финансового обеспечения в системе ОМС со смещёнными приоритетами;
разрозненность государственной, частной и ведомственной медицины;
личный интерес в сокрытии или фальсификации данных;
существование рынка с неформальной оплатой медицинской помощи;
политизированность.

Общая численность населения неточна, например, из-за разницы между переписью населения и учётом за обозначаемый период. Также есть проблема подсчёта числа людей в регионах с интенсивной трудовой миграцией. Заболеваемость трудно исчислять из-за проблем диагностики, неучтённости повторных диагнозов и пр. Что касается смертности, то 74% врачей подтверждают в опросах те или иные манипуляции с кодировкой смертности, в двух случаев из трёх это происходит под административным давлением.

Чем больше интерес к какому-то статическому показателю, тем больше этот показатель фальсифицируется.

По потребности в объёмах медпомощи последние исследования проводились ещё в СССР. Заявленные объёмы медорганизаций не обеспечены финансами, они непрозрачны и определены не научными методами. По обеспеченности кадрами нет единых, полных и научно обоснованных нормативов нагрузки. Многие нормативы сформированы 30-40 лет назад и отстают от возможностей современных технологий. Штатные расписания не соответствуют нормативам по медперсоналу. Нагрузка по ставкам искажена требованиями исполнения майских указов президента и не соответствует фактической.

Что касается обратной связи от населения, здесь не проводятся исследования жалоб и запросов (например, на лекарства) от пациентов, нет достоверных данных по употреблению алкоголя и курению, занятию спортом.

Для решения проблем спикер предлагает:
сформировать единую научно обоснованную систему управленческого мониторинга;
открыть данные для профессионального сообщества;
упростить и устранить дублирование отчётности;
изменить управленческий вектор с наказания на мотивацию;
упростить порядок оплаты медпомощи.

Однако, по мнению эксперта, наведение порядка требует ресурсов и высокой квалификации. Достоверная информация может ухудшить показатели управленцев, поэтому большинство акторов системы не заинтересованы в научно обоснованных и прозрачных статистике и аналитике.

В рамках дискуссии Ответственные алгоритмы: как открытость способна повлиять на легитимность технологий в обществе? эксперты ответили на вопросы, ухудшает или улучшает безопасность открытый код и кто может его контролировать.

Генеральный директор Zecurion Алексей Раевский порассуждал о том, должен ли код быть открытым с точки зрения безопасности. По его мнению, нельзя однозначно ответить, ухудшает или улучшает ли безопасность открытие исходных кодов. Надо понимать, что в открытых кодах сразу же найдут много дыр, которые придётся оперативно закрывать.

Важно не то, как мы открываем алгоритмы и как их впоследствии сертифицируем, а важно то, каковы последствия использования этих алгоритмов. Не должно быть такого, что, например, штраф начисляется автоматически на основе решения алгоритма.

Помимо этого высокоуровневые логические хакеры могут, используя открытый код, обмануть систему в своих целях. Самый простой пример приложение для автомобилистов, которое показывает, где стоят камеры, следящие за превышением скорости. С точки зрения водителей приложение удобно, потому что позволяет ездить, как хочется, и снижать скорость только там, где камеры. С точки же зрения общей безопасности, наверное, было бы лучше, если такого приложения не было и владельцам автомобилей приходилось бы постоянно думать о подстерегающих неизвестно где камерах и возможных штрафах.

Директор АНО Информационная культура Иван Бегтин говорил об общественном контроле за алгоритмами в аспекте безопасности раскрытия кода. По его словам, большая часть госсистем на данный момент не использует умные алгоритмы, но переход к принятию решений на основе ИИ постепенно происходит и у них. Примеры тому Банк России, Росфин, Правительство. Там, где есть трансфер денег, это используют, резюмировал спикер. Хотя происходит это крайне непублично.

Пока государство приближается к использованию ИИ, компании его уже внедряют ИИ. Однако у государства есть проблема работа с уклоном в наказания.

Если дошёл до суда, тебя либо оштрафуют, либо посадят, но оправдан ты не можешь быть. Главная функция адвоката развалить дело до суда. Шансов, что тебя оправдают, мало. Что хорошего в алгоритме, у которого выборка будет изначально тебя посадить, размышляет Бегтин.

Однако нерелевантную выборку можно поправить. Для этого, к примеру, в ЕС разрабатывается стандарт проверки алгоритмов, по которому ответственность за ИИ несут его разработчики. Если система что-то неправильно распознала оштрафуют её авторов.
Раскрыть данные можно и нужно, убеждён Бегтин. Но в России пока некому проверять их и следить за искусственным интеллектом. Для этого нужно повышать квалификацию чиновников.

Глава юридической практики Роскомсвободы, управляющий партнер Digital Rights Center Саркис Дарбинян тоже посетовал, что юриспруденция не развивается экспертно, она давно уже не наука.

По его словам, депутаты действуют в духе Давайте примем закон, а подзаконные акты о том, как их применять, напишет правительство.

Население не особенно доверяет государственным информационным системам, потому что те не раскрывают протекающие внутри процессы. Мы только догадываемся, как всё работает, но кто, когда загружает данные, как использует, с какой целью не знаем. Это ярко иллюстрируют кейсы Сергея Межуева и Антона Леушина первые известные нам случаи ошибки распознавания лица.

Поэтому право должно развиваться постепенно, с учётом специализированных знаний. Это, кстати, одна из причин, почему РосКомСвобода требует ввести мораторий на массовое распознавание лиц: в этой области нет правового и социологического исследования, хотя понятно, под прицелом камерам человек ведёт себя по-другому, нежели без них. Присоединиться к кампании против распознавания лиц можно здесь.

Гости секции Гражданские инициативы по приватности и открытости в период пандемии коронавируса представили конкретные проекты, рассказали о проведённых ими исследованиях и тестах, и даже посвятили в детали расследования, касающегося утечек данных из госструктур. Подобное об этом читайте по ссылке ниже, а сейчас мы расскажем, что сделала непосредственно РосКомСвобода.

Журналист Андрей Каганских продолжил тему приватности и рассказал об утечках данных московской системы распознавания лиц и как благодаря РосКомСвободе в полиции раскрыли занимавшихся пробивом по лицу сотрудников. Он интересовался темой давно, предположив, что, поскольку данные из всех госсистем утекают, скорее всего, сольют их и с камер распознавания лиц. В ноябре 2019 года он обнаружил, что, хоть система и не была запущена в полном объёме, с неё уже появились утечки:

Работали всего 2% камер, но с них уже вовсю банчили данные на чёрный рынок.

Об этом стали писать СМИ, которым Департамент информационных технологий Москвы отвечал одно и то же, хотя это явно противоречило объективной реальности: Доступ к данным ЕЦХД [Единый центр хранения и обработки данных Москвы прим. ред.] имеют только уполномоченные сотрудники органов исполнительной власти и правоохранительных органов.

К началу пандемии система видеонаблюдения заработала полноценно. Весной данные на чёрном рынке стали доступны за 1 тыс. долл. За полгода чиновники так и не остановили утечки данных с московских камер. РосКомСвобода мониторила ситуацию всю весну, а летом провела эксперимент: волонтёр Анна купила полное досье на себя за 15 тыс. руб. Кроме того, выяснилось, что барыги на чёрном рынке на просьбу показать, как работает слив данных, предоставили данные шести человек просто в качестве примера. Если бы я был полицейским, это было бы шесть эпизодов в уголовном деле, сказал Каганских.

ДИТ отвечает, что система анонимна, но на деле возможны так называемые корреляционные атаки, когда фотографии сопоставляются с данными из других систем, в результате чего личность человека раскрывается. Так, в МВД есть система, которая сверяет изображения с данными из системы Российский паспорт. Получается, что анонимность системы по факту формальна. Можно использовать две системы и фото человека и на выходе получить досье на него.

В ноябре мэрия выделила 237 млн на реформу этой системы. Но можно израсходовать раз в 10 меньше денег на систему безопасности МВД, которая просто будет запугивать коррумпированных полицейских, которые сливают данные на чёрном рынке, считает Каганских. По его мнению, власти хотят исправить техническую часть системы, в то время как надо работать над юридической. Полиция, ДИТ не контактируют с людьми, поэтому расследование удалось провести благодаря тому, что полиция любит сливать данные на чёрный рынок и зарабатывать. Зарабатывать, кстати, гроши. Мы только догадываемся, как работает система распознавания лиц. К слову, это ярко иллюстрируют кейсы Сергея Межуева и Антона Леушина первые известные нам случаи ошибки этой системы.

Данные с камер малая часть рынка пробива, где много коррумпированных сотрудников разных ведомств, а также провайдеров и инсайдеров, отметил спикер.
Ни у одной страны нет такой торговли данными, заявил журналист:

В России есть огромная системная проблема со сливами: сотрудники силовых ведомств постоянно что-то сливают. Это значит, что службы безопасности МВД и ФСБ плохо справляются о своей работой.

Разработчик плагина CensorTracker РосКомСвободы Вадим Мисбах-Соловьёв представил инструмент для противодействия слежке в интернете.

CensorTracker умеет следующее:
определять наличие домена в реестрах ОРИ и заблокированных сайтов;
проверять блокировки по закону о суверенном Рунете;
предоставлять доступ к заблокированным доменам.

Таким образом, плагин показывает ресурс ориентирован на пользователя или на государство: сливает ли он государству данные по первому зову или же публично отказался от этого.
Для поиска домена в реестрах плагин раз в несколько часов скачивает актуальные слепки на основе реестров в локальный кэш при установке и проверяет наличие в слепках домена сайта, который открыт в текущей вкладке.

При проверке блокировок по закону о суверенном Рунете плагин собирает статистику о недоступности сайта: если сайт недоступен у нескольких человек, вероятно, его блокируют, хотя он может и не быть в соответствующем реестре.

Предоставляя доступ к заблокированным доменам, CensorTracker предлагает открыть сайт через прокси РосКомСвободы, а также составляет локальный PAC-файл (понятный браузеру список сайтов и через какой прокси их открывать) и подсказывает его браузеру.

Мы гарантируем приватность пользователей, заявил Мисбах-Соловьёв.

Если хотите обезопаситься от утечек, вам нужно знать, как собирают ваши данные и куда отдают. Этот плагин полезен в плане информирования, убеждён программист.

Читайте подробные обзоры с секций по ссылкам ниже:
Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии коронавируса здесь.
Открытые данные как инструмент общественного контроля борьбы с пандемией здесь.
Ответственные алгоритмы: как открытость способна повлиять на легитимность технологий в обществе? здесь.
Гражданские инициативы по приватности и открытости в период пандемии коронавируса здесь.

Подробнее..

Категории: Информационная безопасность , Конференции , Искусственный интеллект , Законодательство в it , Пандемия , Блог компании роскомсвобода , Роскомсвобода , Распознавание лиц , Открытые данные , Здравоохранение , Приватность , Слежка за пользователями , Open data , Информационная культура , Слежка за гражданами , Открытый код , Privacy

День открытых данных 2021. Онлайн

01.03.2021 20:22:05 |

Автор: admin

1-6 марта приглашаем на мероприятия, приуроченные к Международному Дню открытых данных 2021.

Это крупнейшее ежегодное международное событие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества. Организатором Дня открытых данных в России выступает АНО Информационная культура.

Рассказываем, какие мероприятия мы приготовили для участников в этом году.
Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических онлайн мастер-классов по работе с открытыми данными.

1 марта, мастер-класс Вскрываем декларации. Как при помощи регулярных выражений привести Wordовскую табличку к пригодной для анализа форме. Доступна видеозапись.
2 марта, мастер-класс О чем говорят депутаты Госдумы? Анализ текстовых данных на Python.
3 марта, мастер-классы по работе с геопространственными данными и картами для новичков и профи.
4 марта, мастер-класс по поиску открытых данных от DataMasters.
5 марта, мастер-класс Российская официальная статистика: как сделать работу с данными удобнее, а данные понятнее?.
5 марта, мастер-класс Визуализация данных в ObservableHQ.

6 марта пройдет онлайн-конференция День открытых данных.

В центре внимания вопросы о том, что происходит с открытостью в России и мире и как использовать данные для эффективного решения конкретных проблем и задач общества. В дискуссиях примут участие не только российские эксперты, но и представители крупнейших международных проектов, продвигающих ценности и идеологию открытых данных: Global Data Barometer, The Humanitarian Data Exchange.

В программе дискуссии и выступления:

Дискуссия. Бизнес на открытости: зачем заниматься открытым кодом и открытыми данными
Дискуссия. Как инструменты оценки влияют на открытость государства?
Дискуссия. Доступность данных о госфинансах
Дискуссия. Данные переписи населения 2021: приватность vs. польза для общества
Выступления. Что происходит с тематикой открытости в мире?

Программа и регистрация: opendataday.ru/msk. Трансляция будет доступна и бесплатна для всех желающих.

Подробнее..

Категории: Openstreetmap , Визуализация данных , Python , Open source , Data science , Data analysis , Regular expressions , Regexp , Открытые данные , Web scraping , Osm , Data visualization , Open data , Блог компании «информационная культура» , Infographic , Observablehq , Geospatial

Из песочницы Камчатка, экологическая катастрофа. Cмотрим из космоса

08.10.2020 12:16:26 |

Автор: admin

От спутников через открытые данные к мертвым котикам. Грустно, но, к сожалению, такая вот тема и КПДВ.

Хочу рассказать об интересном ресурсе по открытым данным и опыте его использования. Тем более появился актуальный, хоть и печальный повод для его применения.

Недавно прочитал статью в немецком журнале об этом ресурсе, и тут пришли новости с Камчатки об экологической катастрофе с неизвестным происхождением (https://www.kommersant.ru/doc/4519234). Данные из СМИ противоречивые. В т.ч. в Интернете начали ходить спутниковые снимки места загрязнения (https://twitter.com/MitvolTV/status/1312313457862205443). Что эти снимки показывают поле для самых широких интерпретаций.

Решил посмотреть на эту область и событие под углом взгляда европейских научных спутников, используя возможности доступа к открытым данным.

Сразу подчеркну, я специалист в области ИТ. Экология, спутники и метеорология далекие от меня темы. Поэтому интрерпретация отдельных результатов и инструментов на данном ресурсе, возможно, будет неточной. Пробуйте сами, в комментариях будет интересней.

В рамках программы Европейского Союза по открытым данным имеется открытый доступ и к спутниковым данным от ESA (https://en.wikipedia.org/wiki/European_Space_Agency). Речь идет о спутниках типа Sentinels исследовательской программы Copernicus (https://www.d-copernicus.de, немецкий язык), всего 6 типов спутников, имеющих различные датчики, камеры и характеристики. Основные области применения вполне мирные и полезные: контроль атмосферы, окружающей среды морей и океанов, земельных площадей для сельского хозяйства, контроль изменения климата, катастроф и кризисов. Именно, последний пункт и был выбран как повод для данной статьи. Интересный пример использования в этой области: моделирование загрязнения океана через выбросы с кораблей.

Адрес рассматриваемого ресурса: https://code-de.org.

Это не просто доступ к снимкам, это комплексная платформа по анализу и обработке данных, в т.ч. в интерактивном режиме в т.н. EO-браузере, который и будет рассмотрен в данной статье. Кроме этого на ресурсе имеется доступ к процессорным мощностям для обработки данных. Всего, на ресурсе доступно около 15 Петабайт данных.

Комментарий: это только одна из точек входа к спутниковым данным указанной программы, все возможные варианты представлены здесь: https://scihub.copernicus.eu/.

Регистрация на сайте быстрая и удобная, даже не требуется подтверждения email.

Опишу здесь работу только со встроенным браузером по снимкам со спутников. Это отличная точка входа для не-специалистов. Быстро, удобно и достаточно понятный доступ к данным.
Немного в сторону: также есть доступ по API, в целом платформа построена на облаке AWS от Амазона.

1. SEARCH

Первый шаг определение критериев поиска необходимых снимков (когда, где, как).

Рис. Браузер по снимкам. Начинаем с поиска.

Здесь читаем описания спутников и выбираем, откуда будем смотреть данные. Я выбрал почти все спутники, за исключением архивных (видимо, уже отлетали). Точный выбор спутников скорее за специалистами.

Представлено несколько десятков типов спутников. Это не только снимки видимого диапазона, как в гугле. Есть, например, и инфракрасный диапазон.

Примеры спутников. Спутник типа Sentinel-1: радарные датчики типа SAR в диапазоне C-Band, разрешение около 10-40 м.

Рис. Спутник типа SENTINEL-1

Другой спутник типа Sentinel-2: мультиспектральный инструмент (MSI), 13 спектральных диапазонов, различных разрешений от 10 до 60 м. В т.ч. в инфракрасном диапазоне.
Слева на карте определяем интересуемую область.

У меня выбрано побережье около Петропавловско-Камчатского, в районе Халактырского пляжа, который упоминается в СМИ в свете рассматриваемой экологической проблемы.

Указываем даты: я выбрал с начала сентября и до текущей даты 4 октября.

Тут же указываем процент облачности: например 30%. Система автоматически отфильтрует только те снимки, на которых процент облачности соответствует заданному. Удобно!

Жмем внизу Search, и система переходит в следующую вкладку с отфильтрованными результатами.

2. RESULTS

Здесь мы видим, что найдено 10 результатов по 10 датам. Т.е. именно в эти даты указанные спутники сделали измерения выбранной области, и в этот момент облачность была вполне достаточной для измерений. По каждому снимку указана дата, время и процент облачности.

Рис. Вкладка с результатами поиска

У меня всегда выдавался один снимок в один день, примерно в одно время. Разобрался, когда ознакомился подробнее с режимами и территорией съемок, см. ниже. Это непростая тема. Важно, что это не геостационарные спутники, т.е. территория съемок непостоянная.

Не так много результатов, как я ожидал. Пробовал увеличивать облачность, но существенного увеличения количества снимков не заметил.

Комментарий: в результатах не нашел информации по спутнику, с которого сделан данный снимок. Идентифицировать тип спутника можно только на следующем шаге, в заголовке снимка.
Белым цветом на снимках выделены области, которые просто не попали в области измерений. У разных спутников разный типы съемок, на следующем рисунке схематично показано, как формируется кадр съемки у SENTINEL-1 (https://sentinel.esa.int/web/sentinel/missions/sentinel-1/instrument-payload):

Рис. Принцип картографирования для одного из типов спутников, по полосам.

Это принцип необходимо хотя бы примерно понимать, чтобы разобраться, почему получаются те или иные снимки по поиску.

На следующем рисунке объяснение, как часто проводятся измерения в зависимости от территории:

Рис. Принцип временного распределения снимков.

Как видим, территория Европейского Союза в приоритете (смотрим выше, чьи спутники) по частоте снимков 1 день, остально примерно в 2-4 дня, что и видим в результатах поиска.
Более того для различных территорий используются и различные режимы съемок и измерений. Например, для территории Северного, Балтийского морей используются свои настройки.

Комментарий: важно не задавать в поиске слишком большую территорию, иначе в результаты могут попасть белые зоны на интересующей области.

Для детального анализа выбираем нужный день (снимок), жмем VISUALIZATION.

3. VISUALIZATION
В зависимости от выбранного снимка и соответствующего типа спутника будет представлен список с различными возможностями для анализа изображения. Я не специалист в данной теме, аббревиатуры для меня незнакомые. Основные инструменты анализа ориентированы на измерение погодных условий, поверхности земли, рек, морей и т.п. Они могут и должны быть интересными и для анализа экологических ситуаций.

Отмечу, что снимки уже прошли определенную картографическую цифровую обработку, т.е. это не сырые данные со спутника. Доступ к сырым данным, возможно, имеется через API.

Пример списка фильтров, результатов измерений для снимка со спутника типа SEN2COR:

Рис. Список инструментов по просмотру и анализу снимков, данных.

Выбирая один из типов анализа, на карте справа интерактивно будут отображаться соответствующие результаты (см. примеры ниже). Скорость обновления вполне приличная, у меня было около 1-2 c.

Чуть подробнее об одном виде анализа NDWI или NDVI. NDVI (Normalized Difference Vegetation Index) нормализованный относительный индекс растительности простой показатель количества фотосинтетически активной биомассы (обычно называемый вегетационным индексом). https://en.wikipedia.org/wiki/Normalized_difference_vegetation_index
Подчерку, что мне сложно судить насколько этот тип анализа может помочь в рассматриваемой ситуации на Камчатке. Взял для примера.

Все снимки в виде файлов можно скачивать или получать ссылки.

Отметил, что на части снимках есть вполне приличное разрешение, сравнимое со снимками из Google Maps. Можно заметить и плавающие средства.

Рис. Удобно, на календаре сразу отмечены дни, по которым найдены данные.

Далее приведены выборочно результаты прочих инструментов анализа, интерпретировать детально мне уже сложно. Я использовал их, скорее, для сравнительного анализа по дням и территории.

Рис. Исходное отображение без инструмента обработки

Рис. С классификацией по алгоритму от ESA

Уверен, на розовый цвет здесь нет смысла реагировать. Сравнивал со снимками других территорий.

Рис. С оценкой уровня влажности.

Комментарий: можно было бы использовать этот инструмент для анализа наводнений после известных московских дождей.
Внимание: это не снимок для отображения зоны поражения! Это результаты анализа по влажности (moisture index).

Рис. Это как раз NDVI, описанный выше.

4. По ситуации с экологией на побережье

Результаты моего небольшого экспресс анализа по данным в период с 01 по 30 сентября.
Вышеприведенные снимки сделаны в области рассматриваемого побережья около Петропавловска-Камчатского. Всего найдено около двух десятков снимков с различных спутников при достаточно хорошей облачности.

Смотрел около часа, проводил сравнительный анализ по дням, по соседним территориям, по различным инструментам анализа. Пытался быть экспертом, хотел увидеть аномалии.
Что-то примечательное все-таки разглядеть не удалось. Часть обработанных снимков выглядит несколько подозрительно, однако, это точно не связано с обсуждаемой экологической проблемой. При уменьшении масштаба (бОльшая территория снимка) и по результату сравнительного анализ с другими соседними областями там похожие визуальные эффекты. В СМИ эти области не упоминаются.

Возможно, европейские специалисты с помощью автоматических алгоритмов классификации уже что-то смотрели по нашему случаю. Если найдут мы точно услышим. См. заголовок (нет, не наброс).

Из интересного увидел некий объект.

Рис. Объект Х

Если увеличить:

Судите сами. Может быть местные подскажут, что это.

Итого

Открытые данные дошли до космоса и планеты Земли. Это крайне интересно. Особенно радует, что вокруг выстраивается целая инфраструктура по доступу и анализу.

Продуманный, удобный инструмент доступа к интересным данным со спутников как для специалистов, так и для широкого круга любителей науки, экологии, спутников, подходит и для школьников, студентов.

Этот ресурс может дать более интересные результаты в руках профильных специалистов: экологов, географов, метеорологов, прокуроров. Будет интересно взглянуть на их анализ. В т.ч. в контексте темной истории с камчатским пляжем. Всем здоровья, чистого воздуха, рек и морей!

Подробнее..

Категории: Экология , Космонавтика , Космос , Открытые данные , Open data

Из песочницы Информационная среда на принципах Open Data

12.09.2020 18:14:51 |

Автор: admin

Предлагаемая информационная среда является своего рода децентрализованной социальной сетью. Но в отличии от многих существующих решений данная среда имеет ряд полезных свойств помимо децентрализации и создана на базе достаточно простых и стандартных технических решений (email, json, текстовые файлы и немного блокчейна). Что позволяет любому желающему с базовыми знаниями программирования создавать свои сервисы для данной среды.

Универсальный идентификатор

В любой онлайн среде идентификаторы пользователей и объектов являются одной из ключевых элементов системы.

В данном случает в качестве идентификатора пользователя выступает email, который уже фактически стал общепринятым идентификатором для авторизации на сайтах и других сервисах (jaber, openId).

Фактически идентификатор пользователя в данной онлайн среде это пара login+domain, которая для удобства записывается в привычном для большинства виде. При этом для большей децентрализации каждому пользователю желательно иметь свой домен. Что близко принципам индивеба, где в качестве пользовательского идентификатора используется домен. В нашем случае к своему домену пользователь добавляет никнейм что позволяет создавать несколько аккаунтов на одном домене (для друзей, например) и делает систему адресации более гибкой.

Такой формат идентификатора пользователя не привязан к какой-либо сети. Если пользователь размещает свои данные в TOR сети то можно использовать домены в зоне .onion, если это сеть с DNS системой на блокчейне то домены в зоне типа .bit. В итоге, формат адресации пользователей и их данных не зависит от сети, через которую они передаются (везде используется связка login+domain). Для желающих использовать в качестве идентификатора bitcoin/ethereum адрес можно доработать систему под использование псевдо email адресов вида xaca1b7c8126806f672f9dbee4951527bb0f2c4e4@ethereum.blockchain

Адресация объектов

Данная онлайн среда фактически является набором объектов, которые описаны в структурированном машиночитаемом виде, ссылаются на другие объекты и привязаны к определённому пользователю (emailу) или проекту/организации (домену).

В качестве идентификаторов объектов используются urn в пространстве имён urn:opendata. Например, профайл пользователя имеет адрес вида:

urn:opendata:profile:user@domain.com

Комментарий пользователя имеет адрес вида:

urn:opendata:comment:user@domain.com:08adbed93413782682fd25da77bd93c99dfd0548

где 08adbed93413782682fd25da77bd93c99dfd0548 случайный sha-1 хэш, выступающий в роли id объекта, а user@domain.com владелец данного объекта.

Принцип публикации пользовательских данных

Имея под управлением свой домен пользователь может достаточно просто публиковать свои данные и контент. И в отличии от индибеба, для этого не требуется создавать сайт с html страницами, в которых встроены семантические данные.

Например, базовая информация о пользователе размещается в файле datarobots.txt, который находится по адресу вида

http://55334.ru/konstantin@55334.ru/datarobots.txt

И имеет содержание такого формата:

Object: userServices-Enabled: 55334.ru,newethnos.ruEthnos: newethnosDelegate-Tokens: http://55334.ru/konstantin@55334.ru/delegete.txt

То есть фактически это набор строк с данными вида ключ->значение, спарсить которые простая задача для любого человека с базовыми знаниями программирования. А редактировать данные при желании можно через обычный блокнот.

Более сложные данные (профайл, комментарий, пост и т. д.), имеющие свой urn отдаются в виде JSON объекта по стандартному API (http://personeltest.ru/away/opendatahub.org/api_1.0?lang=ru), которое может находиться как на домене пользователя, так и на стороннем сайте, которому пользователь делегировал хранение, публикацию и редактирование своих данных (в строке Services-Enabled файла datarobots.txt). О подобных сторонних сервиса написано ниже.

Простая онтология и JSON

Онтология коммуникационной среды является относительно простой, по сравнению с онтологиями отраслевых баз знаний. Так как в коммуникационной среде существует относительно небольшой набор стандартных объектов (пост, комментарий, лайк, профайл, отзыв) с относительно небольшим набором свойств.

Поэтому для описания объектов в такой среде достаточно использовать JSON вместо более сложного по структуре и парсингу XML (важно не забывать про необходимость низкого порога входа и масштабируемость).

Для получения объекта с известным нам urn необходимо обратиться к домену пользователя, либо сторонним сервисам, которым пользователь делегировал управление его данными.

В данной онлайн среде каждый домен, на котором существует онлайн-сервис, также имеет свой datarobots.txt размещённый по адресу вида example.com/datarobots.txt с подобным содержанием:

Object: serviceApi: http://newethnos.ru/apiApi-Version: http://opendatahub.org/api_1.0

Из которого мы может узнать, что получить данные об объекте можно по адресу вида:

http://newethnos.ru/api?urn=urn:opendata:profile:konstantin@55334.ru

JSON объект имеет такую структуру:

{    "urn": "urn:opendata:profile:expample@55334.ru",    "status": 1,    "message": "Ok",    "timestamp": 1596429631,    "service": "example.com",    "data": {        "name": "John",        "surname": "Gald",        "gender": "male",        "city": "Moscow",        "img": "http://domain.com/image.jpg",        "birthtime": 332467200,        "community_friends": {            "example1@domain.com": "1",            "example2@domain.com": "0.5",            "example3@domain.com": "0.7"        },        "interests_tags": "cars,cats,cinema",        "mental_cards": {            "no_alcohol@main": 8,            "data_accumulation@main": 8,            "open_data@main": 8        }    }}

Сервисная архитектура

Сторонние сервисы необходимы для упрощения процесса публикации и поиска данных конечными пользователями.

Выше был упомянут один из видов сервисов, которые помогают пользователю публиковать его данные в сети. Возможно существование множества подобных сервисов, каждый из которых предоставляет пользователю удобный интерфейс для редактирования одного из видов данных (форум, блог, вопрос-ответ и т. д.). Если же пользователь не доверяет сторонним сервисам, то он может установить на свой домен скрипт сервиса по работе с данными или разработать его самостоятельно.

Помимо сервисов, позволяющих пользователям публиковать/редактировать данные в онлайн среде предусмотрен ряд других сервисов, выполняющих относительно сложные задачи, которые достаточно проблематично реализовать на узлах конечных пользователей.

Одним из видов таких сервисов являются хабы данных ( opendatahub.org/ru пример ), выполняющие роль своего рода веб архива, который собирает все публичные машиночитаемые данные пользователей и предоставляет к ним доступ по API.

Наличие сервисов в такой открытой децентрализованной онлайн среде существенно снижает порог входа для пользователей, так как отсутствует необходимость в установке и настройке собственного узла. В тоже время у пользователя остаётся контроль над своими данными (в любой момент можно сменить сервис которому делегирована публикация данных или создать свой узел).

Если же пользователю вообще не интересно владение своими данными и он не имеет своего домена или знакомого с доменом то по умолчанию его данными управляет opendatahub.org.

За чей счёт всё это?

Пожалуй главная проблема практически всех подобных децентрализованных проектов это невозможность их монетизации на уровне, достаточном для стабильного развития и поддержки.

Для покрытия расходов на разработку и маркетинг в данной онлайн среде используются donate + tokens.

Все пожертвования, которые пользователи вносят внутренним проектам/сервисам являются общедоступными, машиночитаемыми и привязаны к email. Что позволяет учитывать их, например, при вычислении внутрисетевого социального рейтинга и публиковать на страницах пользователей. Когда пожертвования перестают быть анонимными, то фактически пользователи не жертвуют, а скидываются на поддержку общей информационной среды. Также как люди скидываются на ремонт мест общего пользования с соответствующим отношением к тем людям, которые отказались скинуться.

Помимо пожертвований, для привлечения средств используются токены эмитированные в ограниченном количестве (400.000), которые начисляются всем кто вносит пожертвования в основной фонд (ethnogenesis).

Дополнительные функции токенов

Каждый токен является ключом для доступа в данную онлайн среду. То есть пользоваться сервисами и быть частью онлайн среды можно только при наличии хотя бы 1 токена, который привязывается к email.

Токены являются хорошим спам-фильтром из-за своей ограниченности. Чем больше в системе пользователей тем сложнее получить токен и тем более затратно создавать ботов.

Люди, их данные и социальные связи важнее технологий

Описанная онлайн среда технически является относительно примитивным решением. Но более важным в ней являются не столько технологии, сколько люди и создаваемые внутри среды социальные связи и данные (контент).

Создаваемая социальная общность, участники которой имеют свои универсальные идентификаторы (email и свой домен) и структурированные данные (с URN адресами, онтологией и JSON объектами) при появлении лучшего технического решения может перенести все эти данные в другую онлайн среду, сохранив при этом сформированные связи (рейтинги, оценки) и контент.

В данном посте описан один из элементов сетевой самоорганизованной общности, которая помимо децентрализованной онлайн среды включает в себя ряд оффлайн направлений, которые увеличивают пользу от онлайн среды и являются заказчиками, во многом определяющими её функционал. Но это уже темы для других статей, не имеющих прямого отношения к IT и технологиям.

Подробнее..

Категории: Децентрализация , Социальные сети , Децентрализованные сети , Open data

	Русский
	English

Open data

РосКомСвобода на ОГФ2020 рассказываем про открытые данные о пандемии и праве на приватность

День открытых данных 2021. Онлайн

Из песочницы Камчатка, экологическая катастрофа. Cмотрим из космоса

1. SEARCH

2. RESULTS

4. По ситуации с экологией на побережье

Итого

Из песочницы Информационная среда на принципах Open Data

Универсальный идентификатор

Адресация объектов

Принцип публикации пользовательских данных

Простая онтология и JSON

Сервисная архитектура

За чей счёт всё это?

Дополнительные функции токенов

Люди, их данные и социальные связи важнее технологий

Категории

Последние комментарии