Русский
Русский
English
Статистика
Реклама

Открытые данные

Demhack 2 пришел, напрогал, победил

20.04.2021 12:16:22 | Автор: admin

20 и 21 марта 2021 года прошел хакатон проектов в сфере приватности и открытости информации DemHack 2, организованный Роскомсвободой и Privacy Accelerator. Хакатон собрал интересные идеи и талантливых разработчиков, выявил несколько по-настоящему перспективных проектов и наградил два из них! Некоторые решения были высоко оценены жюри и менторами, что дает им отличные шансы на дальнейшую экспертную поддержку, нетворкинг и дальнейшее сотрудничество с бизнес-инвесторами или профильными НКО.

Как готовился и проходил DemHack 2

Demhack 2 - второй - потому что первый состоялся осенью 2020 года. Тогда победителями стали три команды, одна из которых, Amnezia VPN, уже через полгода зарелизила готовое решение - сервис для создания личного VPN на собственном сервере. Проект после хакатона участвовал в Privacy Accelerator и прокачался от идеи до выпуска готового продукта. Сейчас команда Amnezia исправляет баги, дорабатывает новые фичи и готовится выйти на международный рынок!

Второй Demhack было решено проводить так, чтобы разу после его завершения перспективные команды смогли начать дополнительную акселерацию. Как показал опыт, даже лучшие проекты после хакатона остро нуждаются в помощи менторов, объясняющих, как наладить бизнес-процессы, понять потребительские запросы и выпустить продукт на рынок.

Еще одним важным этапом подготовки хакатона стали консультации с экспертами, которые участвовали в фокус-группах и обсуждали актуальные вызовы в сфере прайваси и доступа к информации. По итогам этих обсуждений был сформирован список задач, которые команды могли взять за основу для решения на хакатоне. И многие команды с успехом воспользовались возможностью. Например, в треке Приватность и цифровая безопасность можно было взять задачу и разработать трекер привычек по информационной безопасности или систему проверки разрешений для установленных мобильных приложений, систему обнаружения взлома мессенджеров и пр. А в треке Доступ к информации и свобода передачи данных предлагалось придумать, как мониторить использование технологий слежки за гражданами на основе анализа госзакупок, документировать шатдауны или разрабатывать технологии Internet over gsm.

Кроме списка задач от экспертов, участники могли предложить собственные идеи. Предложенные проекты проходили специальный отбор конкурсной комиссии, которая оценивала их перспективность, а также соответствие ценностям хакатона и актуальность поднятой проблемы.

На хакатон было подано более 70 заявок, которые пришли из из 21 региона России, а также Сербии, Таджикистана, Республики Беларусь, Украины.Сформировалось и приступило к работе на хакатоне 15 команд.

Хакатон проводился полностью онлайн от момента открытия до объявления победителей. Субботним утром 20 марта состоялся старт конкурса, команды встретились со своими наставниками - ведущими менторами, которые сопровождали их на протяжении всего хакатона и следили за развитием проекта. Помимо наставников, команды встречались с узкоспециализированными экспертами. А уже в конце второго дня команды заполнили финальные чек-поинты, сформировали презентацию и вышли на питчинг перед жюри. После презентаций судьи назвали лучшие проекты, а организаторы распределили призы.

Победители хакатона Demhack 2

В треке Прайваси и цифровая безопасность победителем стал проект Security Addon, в лице единственного члена, юного разработчика Захарова Алексея. Он спроектировал приложение, запускающее безвозвратное удаление и шифрование папок в экстренных ситуациях, когда безопасность и приватность на первом месте. Приложение предназначено для использования широким кругом лиц в пов

В треке Доступ к информации и свобода передачи данных лучшими стали ребята из команды mr.bot, предложившие проект Deep Silent, куда входят два андроид-приложения: первое - кнопка SOS делает звонок абоненту и передает DTMF-код; второе - умеет кодировать информацию с помощью высокого и низкого сигнала принимать и обрабатывать ее.

Победитель Security Addon получил приглашение стать резидентом второго набора Privacy Accelerator. А с командой mr.bot взялись далее сотрудничать менторы, в том числе для того, чтобы помочь им найти поддержку заинтересованных организаций и выйти на целевую аудиторию.

Некоторые перспективные проекты хакатона DemHack 2 также получили приглашение в акселератор.

Среди них Nemezida DNT (второе место в треке Прайваси и цифровая безопасность), плагин для браузеров, функционирующих на основе Chromium, который позволяет обеспечить максимальную защиту пользователя от сбора информации о нем и его устройстве. К сожалению, у команды сейчас нет ссылки на активный гитхаб. А также проект Соlaba (третье место в треке Прайваси и цифровая безопасность), который позволяет проверить себя на умение распознавать фишинговые рассылки, проверить свою команду на устойчивость к фишинговым атакам.

Второе место в треке Доступ к информации и свобода передачи данных занял проект Shutdown Scout, веб-сервис для определения скорости соединения и наличия блокировки сетевых ресурсов для каждой страны мира. Третьи в этом треке - команда UNDEFINED, которая разработала систему мониторинга инфраструктуры слежки за гражданами в виде общедоступного ресурса с визуализацией данных.

Проект Kitty Cloud не занял почетного места, но был высоко оценен менторами и судьями хакатона, что дало ему возможность также попасть в новый набор Privacy Accelerator. Проект представляет собой облачное хранилище данных с полным p2p-шифрованием.

Что будет дальше

Новый хакатон не за горами! Мы уже сейчас начинаем готовиться к нему и планируем вскоре встретиться с нашими экспертами для обсуждения новых угроз и трансформаций в сфере прайваси и доступа к информации. Мы обновим карту вызовов и придумаем новые форматы работы.

А еще мы надеемся, что новый хакатон будет - наконец! - оффлайн. И мы сможем не только хорошо поработать и сделать крутые проекты, но и славно потусить все вместе. Как в старые добрые!

Подробнее..

Recovery mode Как свободное программное обеспечение может ускорить цифровизацию

14.05.2021 12:21:34 | Автор: admin

Софт с открытым кодом незаменим при внедрении технологий искусственного интеллекта и больших данных. IT-стартапы уже не используют проприетарные решения. От государства проектам Open Source Software (OSS) нужна грантовая поддержка, универсальная платформа и грамотная политика в сфере подготовки кадров. В России вопросы развития этого направления в 2021 году включены во второй пакет мер поддержки IT-отрасли.

Путь на массовый рынок

Доля проприетарного ПО в глобальном масштабе падает: на OSS для оптимизации расходов переходят и бюджетные учреждения, и бизнес, рассказал старший архитектор WaveAccess Данил Сабиров.

Экосистема OSS Linux, давно обслуживающая большинство серверов в мире, увеличивает проникновение в мобильной и веб-среде, в том числе вследствие прекращения поддержки Windows ряда версий операционных систем.

Зрелость и рост рынка OSS очевидны, в ближайшие пять-десять лет ожидается новый всплеск интереса к этим технологиям, отметил исполнительный партнер Gartner Николай Бутвина на конференции АНО Цифровая экономика.

Николай Бутвина, Gartner:

Уже сложился устоявшийся набор инструментов OSS, которые применяют многие организации для развития своих цифровых платформ. Открытое ПО способно в будущем трансформировать работу компаний и принести дополнительные доходы.

Интерес к OSS обусловлен развитием технологий искусственного интеллекта и машинного обучения, объяснил директор по развитию АНО Цифровая экономика Алексей Сидорюк.

Президент АО ГС-Инвест Сергей Мацоцкий констатировал, что в сегменте больших данных практически все решения основаны на OSS.

Н.Бутвина отметил, что каждая юрисдикция по-своему поддерживает OSS в госсекторе. В Европе снижают стоимость обслуживания инфраструктуры. Китай разработал государственную лицензию для свободного ПО. В Великобритании, Австралии и США стремятся ускорить изменения путем пилотного внедрения разных типовых инструментов OSS.

Платформа для всех российских пользователей

Попытки инициировать закон о преференциях для свободного ПО в ходе госзакупок провалились в 2017 году, напомнил Д.Сабиров. Эксперт пояснил, что действующий реестр российского софта уравнивает закрытое и открытое ПО.

Данил Сабиров, WaveAccess:

Если какой-то OSS-продукт сегодня и выигрывает тендер, то, как правило, создается под конкретную компанию. Как следствие, это решение не имеет широкого распространения, поскольку ограничено функциональностью заказа.

Для решения этой проблемы, как считает С.Мацоцкий, государство должно создать прямой госзаказ, сыграв роль катализатора. Сегодня этот механизм не действует для разработки софта с открытым кодом.

По словам эксперта, российскому комьюнити нужна современная открытая инструментальная OSS-платформа, которую мог бы использовать широкий круг программистов и заказчиков.

Она должна включать определенный перечень программ, доступных как бюджетным или коммерческим организациям, так и любому пользователю, уточнил Д.Сабиров.

У госкомпаний есть планы в части импортозамещения отечественными продуктами. Подобная концепция нужна для OSS, считает старший вице-президент ВТБ Сергей Безбогов.

С.Мацоцкий констатировал, что зачастую госструктуры в России приобретают исключительные права на ПО, но не применяют их:

  • нет переиспользования компонентов софта,

  • отсутствует обмен решениями между ведомствами и сообществом разработчиков.

С.Безбогов рассказал, что ВТБ готов внедрять свободное ПО и даже создал профильный центр компетенций. Но делиться наработками с рынком банк начнет тогда, когда будет решен ряд вопросов с безопасностью, качеством, производительностью и лицензированием открытого софта.

С.Мацоцкий сетует, что идея делать бизнес на основе OSS все-таки чужда многим отечественным компаниям.

Сергей Мацоцкий, ГС-Инвест:

В России не умеют коллаборироваться и отдавать решения бесплатно. Для того чтобы впоследствии заработать на поддержке и доработке. У нас мало примеров реализации этой бизнес-модели, которая создает более высокий уровень доверия и прозрачности в IT-сообществе.

Отечественные OSS-проекты

В России есть хорошие IT-решения и экосистемы, но страна не стала мировым монополистом в производстве ни аппаратного, ни программного обеспечения, ни сервисов, констатировал директор по развитию технологий искусственного интеллекта Яндекса Александр Крайнов.

Развить комьюнити свободного ПО можно только одним способом создав продукт, которым будут пользоваться, говорит С.Мацоцкий. По его словам, два абсолютно конкурентоспособных OSS-кейса мирового уровня имеет Яндекс ClickHouse и CatBoost.

У библиотеки CatBoost есть множество преимуществ, например, поддержка работы с Python и R-языками программирования, работа из командной строки и масштабирование, пояснила технический директор Appreal Group Анастасия Подорожная. Эксперт выделяет еще один продукт Яндекса Tomita-parser инструмент извлечения структурированных данных (фактов) из русского текста. А.Подорожная также отметила широко известное оригинальное решение Mail.Ru Group СУБД Tarantool. Это OSS внедрено, в частности, в Avito, Qiwi, ВымпелКоме и других компаниях.

Д.Сабиров считает, что самым известным и успешным российским OSS-кейсом является Nginx - веб-сервер 1 в мире.

Благодаря своей простоте и надежности разработка завоевала популярность у большого количества пользователей и компаний, среди которых Microsoft, IBM, Google, Adobe, Facebook, Twitter.

Nginx быстро набрал популярность с 2004 года за счет высокой производительности, рационального использования ресурсов и высокой масштабируемости, уточнил в разговоре с RSpectr инженер Gearset Александр Шуляк.

Александр Шуляк, Gearset:

OSS-проекты позволяют пользователям всего мира вносить свой вклад и дополнять исходный код новыми фичами. Из-за этого сложно выделить российские и зарубежные решения. Redux, например, был придуман российским разработчиком Дэном Абрамовым, который в тот момент работал в Лондоне.

Довольно известен проект Far Manager, набравший популярность с распространением Windows. Автором его первой версии является Евгений Рошал.

По мнению эксперта WaveAccess, в мире также востребованы следующие российские OSS-продукты:

  • дистрибутив ALT Linux, который уже несколько лет поставляется в школы России;

  • средство виртуализации на уровне ядра Linux OpenVZ.

Разработчик Devexperts Али Жагпаров выделил компанию Jetbrains и ее проект IntellIJ idea, популярность которого объясняется высоким качеством.

Александр Крайнов, Яндекс:

Наличие уникальных решений в OSS это демонстрация технологической состоятельности государства. У России неплохие шансы для развития открытого ПО, поскольку в стране сильна культура программирования.

Надежды и перспективы

В 2021 году вопросы развития OSS в России включены во второй пакет мер поддержки IT-отрасли, рассказали в АНО Цифровая экономика. Документ сегодня рассматривается в правительстве.

В апреле 2021 года российский регулятор принялрешениео выделении грантов на создание OSS-библиотек для искусственного интеллекта. В этом году сумма таких субсидий на разработку и внедрение отечественного ПО превысила 4 млрд рублей, отметила А.Подорожная.

Управляющий партнер Almaz Capital Partners, член совета директоров ЦРПТ Александр Галицкий констатировал тренд для изменений задан, при этом России не стоит уходить в некую компьютерную самоизоляцию, а нужно интегрироваться в мировое пространство.

Член совета директоров Apache Software Foundation и управляющий проектом Linux Foundation Edge Роман Шапошник объяснил, что РФ не самодостаточна для производства софта. С ним согласился генеральный директор Postgres Professional Олег Бартунов: без полного стека системного ПО, которого нет у России, не построишь цифровую экономику.

Роман Шапошник, Apache Software Foundation:

Закрыть страну в силу технологического превосходства мог бы Китай. Однако Академия наук КНР, напротив, приглашает ученых со всего мира создавать на своей инфраструктуре открытое ПО.

Р.Шапошник уверен, что OSS позволяет компаниям начать жить по-новому, поскольку это новый способ организации труда и захвата рынка.

Показательным является тот факт, что ни один стартап в мире уже не использует проприетарные решения таких глобальных игроков, как Oracle, Microsoft и др., напомнил О.Бартунов. Он также отметил, что России для консолидации рынка нужна крупная отраслевая конференция для OSS-разработчиков. Наподобие глобального форума FOSDEM, который в 2021 году посетило 30 тыс. пользователей. На этом мероприятии Postgres Professional представила мировому сообществу пять докладов. Один из них был посвящен новому типу данных JSON, принятому комитетом по стандартам на глобальном уровне.

Свободное ПО растит кадры

Эксперты говорят о нехватке специалистов как в целом в российской индустрии IT, так и в сфере разработки открытого софта.

Школа системного программирования в этой области практически исчезла в России, и кадры становятся большой проблемой, отметил А.Галицкий. По словам эксперта, на факультете радиоэлектроники в одном из самых сильных вузов Московском физико-техническом университете (МФТИ) сегодня только одна группа из десяти занимается схемотехникой.

Росту комьюнити OSS мешает принятая в российских вузах академическая свобода, когда преподаватель сам выбирает IT-продукты, на основе которых строит учебный процесс.

Олег Бартунов, Postgres Professional:

В большинстве университетов преподают Oracle, Microsoft и редко OSS. IT-гиганты так устроены, что создают экосистему вокруг себя. Молодые специалисты, приходя в компании, строят привычную инфраструктуру зарубежных решений. Они не верят в OSS, поскольку мышление последователя открытого ПО принципиально другое. Такое мировоззрение предполагает, что нужно уметь работать с разными продуктами, их сращивать, взаимодействовать с сообществом.

Подробнее..

Парсер командной строки на .NET5

17.02.2021 10:06:07 | Автор: admin

Сегодня мы собираемся показать вам, как начать парсинг аргументов командной строки. Кстати, это один пост из серии статей о .NET 5. У нас есть еще много интересного.

Приложения командной строки, также известные как консольные приложения, - это программы, созданные для использования из оболочки, например cmd или bash. Они существуют с 1960-х годов, задолго до появления Windows, MacOS или любого другого графического пользовательского интерфейса (GUI).

Обычно, когда вы начинаете изучать язык программирования, самый простой и распространенный стартовый пример -- это приложение Hello world. Подобные примеры в основном выводят на консоль только текст Hello world, используя свои встроенные API. Компьютерное ПО может делать много разных вещей. Иногда у вас будет ввод, который каким-то образом преобразуется в вывод. В нашем примере Hello world нет никакого ввода.

Возьмем C#/.Net. Каждый раз, когда вы создаете новое консольное приложение, вы начинаете с файла Program.cs со статическим методом Main, который является точкой входа в ваше приложение:

...static void Main(string[] args){    Console.WriteLine("Hello World!");}...

Очень важной частью этого кода является определение аргумента string[] args. Это определение параметра, которое содержит все аргументы, которые передаются нашему исполняемому файлу во время инициализации нашего процесса. В отличие от C и C++, имя программы не рассматривается как первый аргумент командной строки в массиве args. Если вам нужно это значение, вы можете вызвать Environment.GetCommandLineArgs().

Если вы привыкли к приложениям командной строки, передача аргументов другим приложениям - очень распространенная задача. Да, вы можете вручную проанализировать эти значения, но если у вас есть несколько параметров, это может быть очень подверженным ошибкам кодом (который в любом случае в основном является шаблонным). Это похоже на проблему, которую кто-то уже мог исправить, не так ли? Поэтому, конечно, мы можем найти библиотеку NuGet, которая поможет нам проанализировать эти аргументы. В этой статье я сосредоточусь на CommandLineParser.

CommandLineParser

CommandLineParser - это библиотека с открытым исходным кодом, созданная Эриком Ньютоном и членами сообщества .NET. Она существует с 2005 года и её скачали более 26 миллионов раз! CommandLineParser предлагает приложениям CLR простой и лаконичный API для управления аргументами командной строки и связанными задачами, такими как определение переключателей, параметров и команд.

Вместо ручного парсинга массива строк args вы можете просто определить класс, который будет парситься для вас библиотекой на основе набора атрибутов, с которыми вы аннотируете класс.

Вместо того, чтобы создавать еще один пример только для демонстрации этой библиотеки, я буду использовать консольное приложение WinML .NET5, которым я поделился в своем предыдущем посте. Вот исходный код. Начнем с этого и добавим NuGet-пакет CommandLineParser:

Давайте создадим новый класс с именем CommandLineOptions:

using CommandLine;namespace ImageClassifier{    public class CommandLineOptions    {        [Value(index: 0, Required = true, HelpText = "Путь к файлу изображения для анализа.")]        public string Path { get; set; }        [Option(shortName: 'c', longName: "confidence", Required = false, HelpText = "Minimum confidence.", Default = 0.9f)]        public float Confidence { get; set; }    }}

Это почти все, что нам нужно для использования этой библиотеки. ValueAttribute и OptionAttribute предоставляются пакетом. Я использую именованные параметры, чтобы было ясно, для чего нужен каждый аргумент. Вернемся к нашему методу Program.cs Main, добавим оператор using, чтобы иметь возможность легко использовать классы пакета в этом файле:

using CommandLine;

Давайте изменим тип возвращаемого значения нашего метода Main на Task. Это означает, что любое возвращаемое нами значение int будет возвращено вызывающей стороне нашего процесса, что обычно указывает на успех/неудачу. В этом примере мы просто вернем 0 в случае успеха и любое другое значение, кроме 0, в случае ошибки:

static async Task Main(string[] args){    return await Parser.Default.ParseArguments<CommandLineOptions>(args)        .MapResult(async (CommandLineOptions opts) =>        {            try            {                // У нас есть полученные аргументы, поэтому давайте просто передадим их                return await AnalyzeFileAsync(opts.Path, opts.Confidence);            }            catch            {                Console.WriteLine("Error!");                return -3; // Unhandled error            }        },        errs => Task.FromResult(-1)); // Invalid arguments}

Здесь вы можете увидеть все изменения по сравнению с предыдущей версией кода.

С этими изменениями приложение корректно анализирует наши аргументы. Для нас даже есть страница помощи, созданная автоматически!

Допустим, вы хотите проанализировать изображение, но хотите получить результат, даже если вы не слишком уверены в нем, скажем, с доверием 30%. Теперь это легко сделать с помощью аргумента -c (--confidence). С этим изображением:

Вы можете получить этот результат, используя --confidence:

> .ImageClassifier.exe C:\Users\alzollin\Downloads\NotALion.jpg --confidence 0.3Image 'C:\Users\alzollin\Downloads\NotALion.jpg' is classified as 'Persian cat'(p=58%).

Заключение

Пакет NuGet CommandLineParser - очень мощный помощник, который упрощает эту часто повторяющуюся задачу до простого декларативного подхода. Кроме того, он даже еще более кастомизируемый, чем я продемонстрировал здесь. Вы можете найти его документацию на их странице GitHub вики.

Подробнее..

Датасет о мобильных приложениях

25.05.2021 12:05:50 | Автор: admin

Вступление

Моя основная работа связана с мобильной рекламой, и время от времени мне приходится работать с данными о мобильных приложениях. Я решил сделать некоторые данные общедоступными для тех, кто хочет попрактиковаться в построении моделей или получить представление о данных, которые можно собрать из открытых источников. Я считаю, что открытые наборы данных всегда полезны сообществу. Сбор данных часто бывает сложной и унылой работой, и не у всех есть возможность сделать это. В этой статье я представлю датасет и, используя его, построю одну модель.

Данные

Датасет опубликован на сайте Kaggle.

DOI: 10.34740/KAGGLE/DSV/2107675.

Для 293392 приложений (наиболее популярных) собраны токены описаний и сами данные приложений, включая оригинальное описание. В наборе данных нет имен приложений; их идентифицируют уникальные идентификаторы. Перед токенизацией большинство описаний были переведены на английский язык.

В датасете 4 файла:

  • bundles_desc.csvсодержит только описания;

  • bundles_desc_tokens.csvсодержит токены и жанры;

  • bundles_prop.csv, bundles_summary.csvсодержат рпзличные характеристики приложений и даты релиза/обновления.

EDA

Прежде всего, давайте посмотрим, как данные распределяются по операционным системам.

Приложения для Android доминируют в данных. Скорее всего, это связано с тем, что создается больше приложений для Android.

Учитывая, что набор данных содержит только самые популярные приложения, интересно посмотреть, как распределяется дата выпуска.

histnorm ='probability' # type of normalization

Следующий график показывает, что большинство приложений обновляются регулярно.

Основные данные были собраны за короткий период времени в январе 2021 года.

Добавим новую фичу - количество месяцев между датой выпуска и последним обновлением.

df['bundle_update_period'] = \    (pd.to_datetime(        df['bundle_updated_at'], utc=True).dt.tz_convert(None).dt.to_period('M').astype('int') -      df['bundle_released_at'].dt.to_period('M').astype('int'))у

Интересно посмотреть, как распределены жанры приложений. Принимая во внимание дисбаланс ОС, я нормализую данные для гистограммы.

Мы видим, что жанры полностью не пересекаются. Особенно это заметно в играх. Для анализа такая ситуация крайне неприятна. Что мы можем с этим поделать? Самое очевидное - уменьшить количество жанров для Android и привести их к тому же виду, что и для iOS путем сведения всех игровых жанров к одному Games. Но я полагаю, что это не лучший вариант, так как будет потеря информации. Попробуем решить обратную задачу. Для этого нужно построить модель, которая будет предсказывать жанры приложений по их описанию.

Модель

Я создал несколько дополнительных фичей, используя длину описания и количество токенов.

def get_lengths(df, columns=['tokens', 'description']):    lengths_df = pd.DataFrame()    for i, c in enumerate(columns):        lengths_df[f"{c}_len"] = df[c].apply(len)        if i > 0:            lengths_df[f"{c}_div"] = \                lengths_df.iloc[:, i-1] / lengths_df.iloc[:, i]            lengths_df[f"{c}_diff"] = \                lengths_df.iloc[:, i-1] - lengths_df.iloc[:, i]    return lengths_dfdf = pd.concat([df, get_lengths(df)], axis=1, sort=False, copy=False)

В качестве еще одной фичи я взял количество месяцев, прошедших с даты выпуска приложения. Идея состоит в том, что на рынке в разные периоды могло быть какое-то предпочтение игровым жанрам.

Для обучения используются данные Android-приложений.

android_df = df[df['store_os']=='android']ios_df = df[df['store_os']=='ios']

Окончательный список фичей модели выглядит следующим образом:

columns = [    'genre', 'tokens', 'bundle_update_period', 'tokens_len',    'description_len', 'description_div', 'description_diff',    'description', 'rating', 'reviews', 'score',    'released_at_month']

Я разделил данные на две части - train и validation. Обратите внимание, что разделение должно быть стратифицировано.

train_df, test_df = train_test_split(    android_df[columns], train_size=0.7, random_state=0, stratify=android_df['genre'])y_train, X_train = train_df['genre'], train_df.drop(['genre'], axis=1)y_test, X_test = test_df['genre'], test_df.drop(['genre'], axis=1)

В качестве библиотеки для модели я выбрал CatBoost. CatBoost - это высокопроизводительная библиотека для градиентного бустинга на деревьях решений с открытым исходным кодом. Основным преимуществом является то, что CatBoost может использовать категориальные и текстовые фичи без дополнительной предварительной обработки. Текстовые фичи для классификации поддерживаются начиная с версии 0.19.1

В Нетрадиционный анализ тональности текста: BERT vsCatBoost я привожу пример того, как CatBoost работает с текстом и сравниваю его с BERT.

!pip install -U catboost

При работе с CatBoost рекомендую использовать Pool. Это удобная оболочка, объединяющая метки и другие метаданные, такие как категориальные и текстовые фичи. Бонусом идет снижение затрат памяти, так как не происходит дополнительная конвертация внутри библиотеки.

train_pool = Pool(    data=X_train,     label=y_train,    text_features=['tokens', 'description'])test_pool = Pool(    data=X_test,     label=y_test,     text_features=['tokens', 'description'])

Напишем функцию для инициализации и обучения модели. Я не подбирал оптимальные параметры; пусть это будет еще одним домашним заданием.

def fit_model(train_pool, test_pool, **kwargs):    model = CatBoostClassifier(        random_seed=0,        task_type='GPU',        iterations=10000,        learning_rate=0.1,        eval_metric='Accuracy',        od_type='Iter',        od_wait=500,        **kwargs    )return model.fit(        train_pool,        eval_set=test_pool,        verbose=1000,        plot=True,        use_best_model=True    )

Текстовые фичи используются для создания новых числовых фичей. Но для этого необходимо объяснить CatBoost, что именно мы хотим от него получить.

CatBoostClassifier имеет несколько параметров:

  • tokenizersиспользуемые для предварительной обработки фичей текстового типа перед созданием словаря;

  • dictionariesиспользуется для предварительной обработки фичей текстового типа;

  • feature_calcersиспользуется для расчета новых фичей;

  • text_processingобщий JSON-конфиг для токенизаторов, словарей и вычислителей, который определяет, как текстовые фичи преобразуются в фичи с плавающей точкой.

Четвертый параметр заменяет первые три и, на мой взгляд, самый удобный, так как в одном указывается, как работать с текстом.

tpo = {    'tokenizers': [        {            'tokenizer_id': 'Sense',            'separator_type': 'BySense',        }    ],    'dictionaries': [        {            'dictionary_id': 'Word',            'token_level_type': 'Word',            'occurrence_lower_bound': '10'        },        {            'dictionary_id': 'Bigram',            'token_level_type': 'Word',            'gram_order': '2',            'occurrence_lower_bound': '10'        },        {            'dictionary_id': 'Trigram',            'token_level_type': 'Word',            'gram_order': '3',            'occurrence_lower_bound': '10'        },    ],    'feature_processing': {        '0': [            {                'tokenizers_names': ['Sense'],                'dictionaries_names': ['Word'],                'feature_calcers': ['BoW']            },            {                'tokenizers_names': ['Sense'],                'dictionaries_names': ['Bigram', 'Trigram'],                'feature_calcers': ['BoW']            },        ],        '1': [            {                'tokenizers_names': ['Sense'],                'dictionaries_names': ['Word'],                'feature_calcers': ['BoW', 'BM25']            },            {                'tokenizers_names': ['Sense'],                'dictionaries_names': ['Bigram', 'Trigram'],                'feature_calcers': ['BoW']            },        ]    }}

Запустим обучение:

model_catboost = fit_model(    train_pool, test_pool,    text_processing = tpo)
AccuracyAccuracyLossLoss
bestTest = 0.6454657601

Только две фичи имеют большое влияние на модель. Скорее всего, качество можно повысить за счет использования summary, но, поскольку этих данных нет в приложениях iOS, быстро применить не удастся. Можно использовать модель, которая может получить короткий абзац текста из описания. Я оставлю это задание в качестве домашнего задания читателям.

Судя по цифрам, качество не очень высокое. Основная причина заключается в том, что приложения часто сложно отнести к одному конкретному жанру, и при указании жанра присутствует предвзятость разработчика. Требуется более объективная характеристика, отражающая несколько наиболее подходящих жанров для каждого приложения. Таким признаком может быть вектор вероятностей, где каждый элемент вектора соответствует вероятности отнесения к тому или иному жанру.

Чтобы получить такой вектор, нам нужно усложнить процесс, используя предсказания OOF (Out-of-Fold). Не будем использовать сторонние библиотеки; попробуем написать простую функцию.

def get_oof(n_folds, x_train, y, x_test, text_features, seeds):        ntrain = x_train.shape[0]    ntest = x_test.shape[0]              oof_train = np.zeros((len(seeds), ntrain, 48))    oof_test = np.zeros((ntest, 48))    oof_test_skf = np.empty((len(seeds), n_folds, ntest, 48))    test_pool = Pool(data=x_test, text_features=text_features)     models = {}    for iseed, seed in enumerate(seeds):        kf = StratifiedKFold(            n_splits=n_folds,            shuffle=True,            random_state=seed)                  for i, (tr_i, t_i) in enumerate(kf.split(x_train, y)):            print(f'\nSeed {seed}, Fold {i}')            x_tr = x_train.iloc[tr_i, :]            y_tr = y[tr_i]            x_te = x_train.iloc[t_i, :]            y_te = y[t_i]            train_pool = Pool(                data=x_tr, label=y_tr, text_features=text_features)            valid_pool = Pool(                data=x_te, label=y_te, text_features=text_features)            model = fit_model(                train_pool, valid_pool,                random_seed=seed,                text_processing = tpo            )            x_te_pool = Pool(                data=x_te, text_features=text_features)            oof_train[iseed, t_i, :] = \                model.predict_proba(x_te_pool)            oof_test_skf[iseed, i, :, :] = \                model.predict_proba(test_pool)            models[(seed, i)] = model    oof_test[:, :] = oof_test_skf.mean(axis=1).mean(axis=0)    oof_train = oof_train.mean(axis=0)    return oof_train, oof_test, models

Обучение трудозатратно, но в результате получили:

  • oof_trainOOF-предсказания для Android приложений

  • oof_testOOF-предсказания для iOS приложений

  • modelsall OOF-модели для каждого фолда и сида

from sklearn.metrics import accuracy_scoreaccuracy_score(    android_df['genre'].values,    np.take(models[(0,0)].classes_, oof_train.argmax(axis=1)))

За счет фолдов и усреднения по нескольким случайным разбиениям качество немного улучшилось.

OOF accuracy: 0.6560790777135628

Я созданную фичу android_genre_vec, копируем значения из oof_train для приложений Android и oof_test для приложений iOS.

idx = df[df['store_os']=='ios'].indexdf.loc[df['store_os']=='ios', 'android_genre_vec'] = \    pd.Series(list(oof_test), index=idx)idx = df[df['store_os']=='android'].indexdf.loc[df['store_os']=='android', 'android_genre_vec'] = \    pd.Series(list(oof_train), index=idx)

Дополнительно был добавлен android_genre, в котором находится жанр с максимальной вероятностью.

df.loc[df['store_os']=='ios', 'android_genre'] = \    np.take(models[(0,0)].classes_, oof_test.argmax(axis=1))df.loc[df['store_os']=='android', 'android_genre'] = \    np.take(models[(0,0)].classes_, oof_train.argmax(axis=1))

После всех манипуляций, можно наконец-то посмотреть и сравнить распределение приложений по жанрам.

Итоги

В статье:

  • представлен новый бесплатный датасет;

  • сделан небольшой EDA;

  • созданы несколько новых фичей;

  • создана модель для предсказания жанров приложений по описаниям.

Я надеюсь, что этот набор данных будет полезен сообществу и будет использоваться как в моделях, так и для дальнейшего изучения. По мере возможностей, я буду стараться его обновлять.

Код из статьи можно посмотреть здесь.

Подробнее..

День открытых данных 2021. Онлайн

01.03.2021 20:22:05 | Автор: admin

image


1-6 марта приглашаем на мероприятия, приуроченные к Международному Дню открытых данных 2021.


Это крупнейшее ежегодное международное событие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества. Организатором Дня открытых данных в России выступает АНО Информационная культура.


Рассказываем, какие мероприятия мы приготовили для участников в этом году.
Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических онлайн мастер-классов по работе с открытыми данными.


  • 1 марта, мастер-класс Вскрываем декларации. Как при помощи регулярных выражений привести Wordовскую табличку к пригодной для анализа форме. Доступна видеозапись.
  • 2 марта, мастер-класс О чем говорят депутаты Госдумы? Анализ текстовых данных на Python.
  • 3 марта, мастер-классы по работе с геопространственными данными и картами для новичков и профи.
  • 4 марта, мастер-класс по поиску открытых данных от DataMasters.
  • 5 марта, мастер-класс Российская официальная статистика: как сделать работу с данными удобнее, а данные понятнее?.
  • 5 марта, мастер-класс Визуализация данных в ObservableHQ.

6 марта пройдет онлайн-конференция День открытых данных.


В центре внимания вопросы о том, что происходит с открытостью в России и мире и как использовать данные для эффективного решения конкретных проблем и задач общества. В дискуссиях примут участие не только российские эксперты, но и представители крупнейших международных проектов, продвигающих ценности и идеологию открытых данных: Global Data Barometer, The Humanitarian Data Exchange.


В программе дискуссии и выступления:


  • Дискуссия. Бизнес на открытости: зачем заниматься открытым кодом и открытыми данными
  • Дискуссия. Как инструменты оценки влияют на открытость государства?
  • Дискуссия. Доступность данных о госфинансах
  • Дискуссия. Данные переписи населения 2021: приватность vs. польза для общества
  • Выступления. Что происходит с тематикой открытости в мире?

Программа и регистрация: opendataday.ru/msk. Трансляция будет доступна и бесплатна для всех желающих.


Подробнее..

OrganicMaps релиз форка Maps.me с открытым кодом

19.06.2021 00:09:06 | Автор: admin
На днях состоялся первый релиз OrganicMaps open-source форка Maps.me, который команда добровольцев готовила больше чем полгода. В этой небольшой заметке мне бы хотелось поделиться краткой историей проекта, за которой я следил в Telegram-чатах и на GitHub и обозначить основные отличия форка от текущей версии Maps.me. Если вы являетесь текущим или бывшим пользователем Maps.me или интересуетесь проектами с открытым кодом с фокусом на приватности без рекламы и сбора данных, то добро пожаловать.



Предыстория


В декабре 2020 года как и многие посетители Хабра я был обеспокоен ситуацией с Maps.me моей основной картографической программой на тот момент. Продажа криптовалютчикам, провальная первая новая версия (по которой казалось, что новоиспечённые владельцы вообще не понимают почему пользователи выбирают Maps.me), позже откат на старую версию, но состояние неопределенности и непонимание чего ожидать в дальнейшем. Так что для начала я просто отключил обновления для старой версии Maps.me, но было понятно, что это временное решение. К счастью, нашёлся доброволец, который создал телеграм-чат для желающих поучаствовать в развитии форка, но дальше чата дело не пошло. Действительно, развитие и поддержка такого сложного приложения на нескольких платформах требует значительного опыта и усилий, по сравнению с какими-то несложными веб-проектами или мобильными программами, которые дают только интерфейс к веб-сервису. Тут и накопленная годами кодовая база на C++/Java/ObjectiveC и нетривиальные алгоритмы поиска/роутинга.

OMaps


Через некоторое время я увидел объявление о начале работы над форком под названием OMaps. Мне сразу приглянулся мощный старт проекта десятки коммитов в день (хоть и от одного разработчика), налаженный на GitHub CI/CD с публикацией на всех платформах, возможность пообщаться с авторами напрямую в чате. Через некоторое время команда расширилась и началась подготовка к релизу, оценить масштаб работ можно по списку задач на GitHub.

OrganicMaps


В ходе подготовки к релизу программа была переименована в OrganicMaps и на днях вышел релиз для Android и iOS.



Интерфейс программы кажется знакомым, программа сохранила все основные функции, из-за которых ее выбирают пользователи:

  • Работа в offline-режиме для всех основных функций: просмотр карт, поиск, навигация
  • Прокладка маршрутов не только для автомобилей, но и для пешеходов и велосипедистов, в некоторых городах есть ограниченная поддержка общественного транспорта
  • Компактные файлы карт
  • Карты на основе OpenStreetMap со всеми его достоинствами (и недостатками)
  • Простой редактор карт, позволяющий добавлять POI


Посмотрим на что сделали упор разработчики в течение почти что полугода готовившие релиз:

  • Убрана вся реклама
  • Убраны трекеры, рекламные SDK и тому подобное
  • Приложение проверено через Exodus Privacy Report и загружено в F-Droid


Как видно, основной фокус разработки был в сторону избавления от отслеживающе-рекламных компонентов. Функции, для работы которых требовался сервер, аккуратно отключены т.к. эта часть не являлась open-source. Удалены и коммерческие данные. Так программа лишилась:

  • POI отелей от Booking.com
  • Отзывов
  • Путеводителей
  • Пробок

Впрочем, многое из этого пропало и из Maps.me.

Выводы


Для меня этот форк оказался предпочтительнее обновлённого Maps.me прежде всего из-за понимания разработчиками своей аудитории и (по крайней мере на данный момент) ориентирования на удобство пользователей, а не на доход с рекламы. Быстрая связь с командой через чат или issue-tracker тоже удобна. Пока непонятно, насколько долго будет продолжаться интенсивная разработка на энтузиазме нескольких авторов, но даже небольших улучшений в комбинации со свежими картами и поддержкой актуальных версий мобильных ОС будет достаточно для удовлетворения потребностей значительного числа пользователей.
Подробнее..

Перевод 6 принципов эффективной визуализации данных

03.01.2021 20:22:24 | Автор: admin

Ключевые принципы создания полезных и информативных графиков


Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.

Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.

Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта Beautiful Evidence, которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.

Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга Exploratory Data Analysis in R Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.

Давайте ближе познакомимся с этими принципами.


Пример визуализации данных на Our World in Data



1. Покажите сравнение (контрольная и экспериментальная группы)


Демонстрация сравнения основа хорошего научного исследования. Доказательства гипотезы всегда связаны с чем-то другим. Возьмём пример: вы говорите: Тёмный шоколад улучшает концентрацию внимания и способность к обучению. Важный вопрос в этом утверждении по сравнению с чем? Без сравнения (относительная гипотеза) утверждение бесполезно.

Один из способов показать сравнение контрольная и экспериментальная группы. Люди одной группы будут есть шоколад, люди во второй группе не будут. Таким образом, вы сможете сравнить влияние шоколада на концентрацию и способность к обучению на основе результатов теста или путём измерения активности мозга.

При создании графиков для презентации вашего исследования вы можете составить график для контрольной и экспериментальной групп с помощью ящика с усами. Таким образом, читатели получают чёткое представление об эффекте эксперимента.

При создании графики для представления вашего исследования вы можете построить график контрольной и лечебной группы с помощью прямоугольной диаграммы. Таким образом, читатели получают чёткое представление о последствиях лечения.

2. Причинно-следственная связь и объяснение


Далее следует объяснение, показывающее причинно-следственную связь в размышлениях над вопросом, на который вы пытаетесь ответить. Если вы показали, что в экспериментальной группе получен эффект, а в контрольной группе его нет, вы должны сформулировать гипотезу из доказательств, почему это так.

Возвращаясь к предыдущему примеру, допустим, что испытуемые из экспериментальной группы получили более высокие баллы по тесту, и это показывает, что тёмный шоколад улучшает концентрацию. Важный вопрос: почему это именно так?

Этот вопрос важен потому, что он помогает поднять другие вопросы, которые могут либо опровергнуть, либо подкрепить вашу гипотезу на протяжении всего исследования.

Чтобы показать причинно-следственную связь или механизм, вы можете измерить активность мозга контрольной и экспериментальной групп и построить графики результатов, показав их рядом. С помощью графика тестовых баллов и графика активности мозга вы увидите причину того, почему принимавшие шоколад испытуемые получили более высокие баллы, т. е. ответ на вопрос, как тёмный шоколад улучшает когнитивные функции.

3. Данные со многими переменными (более двух переменных)


Реальный мир сложен, и отношения между двумя событиями обычно нелинейны. Поэтому в исследованиях у вас есть атрибуты или переменные, которые вы можете измерить. Все эти переменные по-разному взаимодействуют друг с другом. Некоторые из них могут быть путающими, в то время как другие могут быть важными атрибутами, объясняющими взаимосвязь событий.

Как вы уже знаете, корреляция не подразумевает причинно-следственной связи. Поэтому не лучшее решение ограничивать свое исследование только двумя переменными: это приводит к ошибочным выводам. Таким образом, вы должны показать как можно больше данных на своих графиках. Это может помочь вам выявить любую путаницу в ваших данных.

Возьмем парадокс Симпсона, парадокс в вероятностной статистике, когда при объединении групп исчезает тенденция, возникающая в разных группах данных. Чтобы проиллюстрировать:

  • Две переменные отрицательная связь.
  • Три переменные положительная связь (x, y, z) (есть путающие переменные).

4. Не позволяйте инструментам управлять анализом


Хороший рассказчик знает, как удержать внимание людей, рассказывая историю продуктивно. Рассказчик не ограничивается самой историей, но может уникальным образом выразить историю, сочетая различные виды восприятия и включая множество образов, что делает историю живой.

Аналогичным образом хороший визуализатор данных не ограничивается имеющимися под рукой инструментами для работы с визуализацией. Визуализирующий данные человек имеет возможность переключаться от одной формы выражения (например, линий или кругов) к использованию нескольких режимов представления.

Например, вместо того чтобы создавать отчёты, содержащие только текст, используйте инфографику: изображения, диаграммы, слова, числа и т. д., всё это обогатит информацию. Обладая обилием информации и графиков, читатели могут наблюдать множество различных корреляций доказательства в одном месте. Так что помните, что вы рассказываете историю. Не позволяйте инструментам ограничивать ваше мышление. Пусть анализ управляет инструментами, создаёт сногсшибательные, богатые доказательствами графики.

5. Документируйте свои графики соответствующими метками, шкалами и источниками данных


Когда вы впервые смотрите на график, то сначала видите заголовок, а затем метки контекста графика. Без них график не рассказывает ничего. Хорошие отчёты/графики должным образом документируются, при этом каждому графику присваиваются соответствующие шкалы и метки. Источники данных, используемые для создания графиков, также имеют решающее значение. Таким образом, хорошая практика заключается в сохранении кода, который применялся для генерации данных и графиков: это позволяет воспроизводить данные. Это также добавляет достоверности вашим графикам. Более того, сохраняя код, вы можете редактировать график в случае необходимости.

6. Содержание превыше всего


В конечном счёте, независимо от всех вышеперечисленных принципов, без контента, качественного, актуального и целостного, ваша графика будет бесполезна или она будет вводить в заблуждение. Другими словами, мусор внутри, мусор снаружи. Прежде чем сообщать о каком-либо результате, убедитесь, что результат это нечто интересное и важное. Независимо от того, насколько красива или наглядна ваша графика, бесполезные результаты никому не нужны. Нечто интересное это личный опыт или что-то, навеянное Интернетом. В любом случае всегда задавайте вопросы: так идея становится реальностью.

Заключение


Визуализация данных это невероятный навык. Вы можете взять данные и превратить их в красивую графику и сюжеты, рассказывающие людям историю. В эпоху, когда данные растут в геометрической прогрессии, всё большее значение приобретает умение рассказать историю с помощью данных. Это лучший момент, чтобы научиться новому. И резюме принципов:

  1. Покажите сравнение.
  2. Покажите причины.
  3. Покажите многомерные данные.
  4. Объедините как можно больше доказательств.
  5. Опишите и документируйте график.
  6. Убедись, что ваша история интересна.

Больше всего я хочу, чтобы вы вынесли из этой статьи вот что: всегда помните, что нужно начинать с хорошего вопроса, использовать правильный подход и представлять только ту информацию, которая необходима для ответа на ваш хороший вопрос.

Я оставляю цитату американского математика Джона Тьюки, который открыл новую эру статистики:

Простой график привнёс больше информации в сознание аналитика данных, чем любое устройство.

Для более глубокого понимания этих принципов я рекомендую обратиться к книге Роджера Д. Пенга Exploratory Data Analysis in R (ссылку на нее я оставлю чуть ниже).

Ресурсы и ссылки


Если вы хотите узнать больше о визуализации данных, посмотрите эти замечательные бесплатные книги:


Платформы, которые демонстрируют красивые визуализации

Руководства по созданию графиков имеются на этих ресурсах

Ссылки для этой статьи


Спасибо, что прочитали!

image



Подробнее..

Перевод Визуализация пересечений и перекрытий с помощью Python

06.01.2021 12:20:45 | Автор: admin

Изучение вариантов решения одной из самых сложных задач визуализации данных


Преобладающая задача в любом анализе данных сравнение нескольких наборов чего-либо. Это могут быть списки IP-адресов для каждой целевой страницы вашего сайта, клиенты, которые купили определённые товары в вашем магазине, несколько ответов из опроса и многое другое.

В этой статье воспользуемся Python для изучения способов визуализации перекрытий и пересечений множеств, наших возможностей, а также их преимуществ и недостатков.


Диаграмма Венна



В следующих примерах я воспользуюсь датасетом из переписи общества визуализации данных 2020 года.

Я буду работать с опросом, потому что в нём много разнотипных вопросов; некоторые из них это вопросы со множественным выбором и несколькими ответами, как показано ниже.


Источник Datavisualizationsurvey Git

Допустим, мы будем считать каждый ответ. В нашей диаграмме итоговые числа будут больше, чем общее число респондентов, что может вызвать трудности в понимания аудиторией, будут подниматься вопросы, непонимание заставит аудиторию скептически относиться к данным.

Например, если бы у нас было 100 респондентов и три возможных ответа A, B и C.

У нас может быть что-то вроде этого:
50 ответов A и B;
25 ответов А и С;
25 ответов А.


Гистограмма

Выглядит запутанным. Даже если мы объясним аудитории, что респондент может выбрать несколько вариантов ответа, трудно понять, что представляет собой эта диаграмма.

Кроме того, с такой визуализацией у нас нет никакой информации о пересечении ответов. Например, нельзя сказать, что никто не выбрал все три варианта.

Диаграммы Венна


Давайте начнём с простого и очень знакомого решения диаграмм Венна. Я использую Matplotlib-Venn для этой задачи.

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom matplotlib_venn import venn3, venn3_circlesfrom matplotlib_venn import venn2, venn2_circles

Теперь загрузим набор данных и подготовим данные, которые хотим проанализировать.

Вопрос, который мы проверим: Что из этого лучше всего описывает вашу роль в качестве визуализатора данных за прошедший год?

Ответы на этот вопрос распределены по 6 столбцам, по одному на каждый ответ. Если респондент выбрал ответ, в поле появится текст. Если нет, поле будет пустым. Мы преобразуем эти данные в 6 списков, содержащих индексы выбравших каждый ответ пользователей.

df = pd.read_csv('data/2020/DataVizCensus2020-AnonymizedResponses.csv')nm = 'Which of these best describes your role as a data visualizer in the past year?'d1 = df[~df[nm].isnull()].index.tolist() # independentd2 = df[~df[nm+'_1'].isnull()].index.tolist() # organizationd3 = df[~df[nm+'_2'].isnull()].index.tolist() # hobbyd4 = df[~df[nm+'_3'].isnull()].index.tolist() # studentd5 = df[~df[nm+'_4'].isnull()].index.tolist() # teacherd6 = df[~df[nm+'_5'].isnull()].index.tolist() # passive income

Диаграммы Венна просты в понимании и применении.

Нам нужно передать наборы с ключами/предложениями, которые мы будем анализировать. Если это пересечение двух наборов, воспользуемся Venn2; если это три набора, тогда используем Venn3.

venn2([set(d1), set(d2)])plt.show()


Диаграмма Венна

Здорово! С помощью диаграмм Венна мы можем чётко показать, что 201 респондент выбрал А и не выбрал B, 974 респондента выбрали B и не выбрали A, а 157 респондентов выбрали A и B.

Можно даже настроить некоторые аспекты графика.

venn2([set(d1), set(d2)],       set_colors=('#3E64AF', '#3EAF5D'),       set_labels = ('Freelance\nConsultant\nIndependent contractor',                     'Position in an organization\nwith some dataviz job responsibilities'),      alpha=0.75)venn2_circles([set(d1), set(d2)], lw=0.7)plt.show()



venn3([set(d1), set(d2), set(d5)],      set_colors=('#3E64AF', '#3EAF5D', '#D74E3B'),       set_labels = ('Freelance\nConsultant\nIndependent contractor',                     'Position in an organization\nwith some data viz job responsibilities',                    'Academic\nTeacher'),      alpha=0.75)venn3_circles([set(d1), set(d2), set(d5)], lw=0.7) plt.show()



Это здорово, но что, если мы захотим отобразить перекрытия более трёх наборов? Здесь есть пара возможностей. Например, мы могли бы использовать несколько диаграмм.

labels = ['Freelance\nConsultant\nIndependent contractor',          'Position in an organization\nwith some data viz\njob responsibilities',           'Non-compensated\ndata visualization hobbyist',          'Student',          'Academic/Teacher',          'Passive income from\ndata visualization\nrelated products']c = ('#3E64AF', '#3EAF5D')# subplot indexestxt_indexes = [1, 7, 13, 19, 25]title_indexes = [2, 9, 16, 23, 30]plot_indexes = [8, 14, 20, 26, 15, 21, 27, 22, 28, 29]# combinations of setstitle_sets = [[set(d1), set(d2)], [set(d2), set(d3)],               [set(d3), set(d4)], [set(d4), set(d5)],               [set(d5), set(d6)]]plot_sets = [[set(d1), set(d3)], [set(d1), set(d4)],              [set(d1), set(d5)], [set(d1), set(d6)],             [set(d2), set(d4)], [set(d2), set(d5)],             [set(d2), set(d6)], [set(d3), set(d5)],             [set(d3), set(d6)], [set(d4), set(d6)]]fig, ax = plt.subplots(1, figsize=(16,16))# plot textsfor idx, txt_idx in enumerate(txt_indexes):    plt.subplot(6, 6, txt_idx)    plt.text(0.5,0.5,             labels[idx+1],              ha='center', va='center', color='#1F764B')    plt.axis('off')# plot top plots (the ones with a title)for idx, title_idx in enumerate(title_indexes):    plt.subplot(6, 6, title_idx)    venn2(title_sets[idx], set_colors=c, set_labels = (' ', ' '))    plt.title(labels[idx], fontsize=10, color='#1F4576')# plot the rest of the diagramsfor idx, plot_idx in enumerate(plot_indexes):    plt.subplot(6, 6, plot_idx)    venn2(plot_sets[idx], set_colors=c, set_labels = (' ', ' '))plt.savefig('venn_matrix.png')


Матрица диаграммы Венна

Ничего страшного, но это не решило проблему. Мы не можем определить, есть ли кто-то, кто выбрал все ответы, а также невозможно определить пересечение трёх наборов. Как насчёт диаграммы Венна с четырьмя кругами?



Здесь всё начинает усложняться. На изображении выше нет пересечения только синего и зелёного. Чтобы решить эту проблему, вместо кругов мы можем использовать эллипсы.

В двух следующих примерах применяется PyVenn.

from venn import vennsets = {    labels[0]: set(d1),    labels[1]: set(d2),    labels[2]: set(d3),    labels[3]: set(d4)}fig, ax = plt.subplots(1, figsize=(16,12))venn(sets, ax=ax)plt.legend(labels[:-2], ncol=6)



Вот оно!

Но мы потеряли размер критически важную для диаграммы информацию. Синий (807) меньше жёлтого (62), что не очень помогает в визуализации. Чтобы понять, что есть что, мы можем использовать легенду и метки, но таблица была бы яснее.

Есть несколько реализаций пространственных пропорциональных диаграмм Венна, которые могут работать с более чем тремя наборами, но на Python я не смог найти ни одной.

График UpSet


Но есть и другое решение. Графики UpSet отличный способ отображения пересечения нескольких множеств. Они не так интуитивно понятны для чтения, как диаграммы Венна, но делают свою работу. Я воспользуюсь UpSetPlot, но сначала подготовлю данные.

upset_df = pd.DataFrame()col_names = ['Independent', 'Work for Org', 'Hobby', 'Student', 'Academic', 'Passive Income']nm = 'Which of these best describes your role as a data visualizer in the past year?'for idx, col in enumerate(df[[nm, nm+'_1', nm+'_2', nm+'_3', nm+'_4', nm+'_5']]):    temp = []    for i in df[col]:        if str(i) != 'nan':            temp.append(True)        else:            temp.append(False)    upset_df[col_names[idx]] = temp    upset_df['c'] = 1example = upset_df.groupby(col_names).count().sort_values('c')example



При правильном расположении данных нам нужен только один метод, чтобы нарисовать нашу диаграмму, и всё.

upsetplot.plot(example['c'], sort_by="cardinality")plt.title('Which of these best describes your role as a data visualizer in the past year?', loc='left')plt.show()


График UpSet

Потрясающе! Наверху столбцы, показывающие, сколько раз появлялась комбинация. Внизу матрица, показывающая, какую комбинацию представляет каждый столбец, а внизу слева горизонтальная гистограмма, представляющая общий размер каждого набора.

Это большое количество информации, но хорошо организованный макет позволяет легко извлекать её.

Даже с моими плохо написанными метками мы легко можем увидеть, что большинство людей выбрали работать на организацию.

Второй наиболее распространённый ответ даже не отображался на предыдущих диаграммах Венна: количество людей, которые не выбрали ни одного ответа.

В целом визуализация множеств и их пересечений может быть задачей для решения в уме, но у нас есть несколько хороших вариантов её решения.

Я предпочитаю диаграммы Венна, когда имею дело с небольшим количеством множеств, и графики Upset, когда множеств больше трёх. Всегда полезно объяснить, что показывает визуализация и как читать диаграммы, которые вы представляете, особенно в случаях, когда диаграммы не очень дружелюбны.



Визуализация трех наборов



Визуализация шести наборов

image



Подробнее..

На фондовом рынке США сформировался пузырь небывалых размеров

05.02.2021 18:14:24 | Автор: admin

Оценки напрочь оторвались от фундаментального анализа, мультипликаторы находятся на исторических максимумах, скорость эмиссии ценных бумаг зашкаливает и всё это сопровождается безумно спекулятивным поведением инвесторов. Большой кризис неизбежен.

Начать своё повествование я хочу с, казалось бы, очевидного, но сегодня далеко не все осознают, для чего появились акции. Итак, акция это доля в компании. Зачем нужна доля в компании? Для того, чтобы иметь часть её прибыли. Именно поэтому реальная ценность акции обусловлена текущей и будущей прибылью компании-эмитента, которая передаётся акционеру в форме дивидендов.

Некоторые компании выплачивают дивиденды ежеквартально, другие ежегодно, а есть те, которые более десятилетия не делились чистой прибылью со своими акционерами. В конце прошлого века подобное было редкостью, однако с появлением интернета скорость масштабирования бизнеса увеличилась на порядок, и технологические компании взяли за правило реинвестировать всю чистую прибыль в развитие, чтобы в будущем дивиденды были ещё больше.

Повторюсь, ценность любой акции обеспечивает только её реальная или потенциальная дивидендная доходность. Однако ценность не равна стоимости и фактическая цена акции всегда спекулятивная. Объясняется это тем, что ожидания от будущей прибыли компании у всех людей разные, а к тому же каждый человек иррационален по своей природе.

Стали бы вы покупать долю в компании, которая будет окупаться 30 лет без возможности её продать? Уверен, что нет. Но если эта доля за последний месяц была перепродана сотни раз и цена её заметно выросла, возникает желание спекулировать на её стоимости. То есть изначально кто-то поступил иррационально и запустил маховик. Толпа подвергается эффекту лемминга и в такой ситуации реальная ценность перестаёт интересовать рынок. Так возникает экономический пузырь.


Вводная часть закончилась, и я перехожу от абстрактного примера к реальному. В финансовом анализе существуеткоэффициент P/E соотношение капитализации и чистой прибыли. Сегодня компания Tesla оценивается в 1500 годовых прибылей. Другими словами, при сохранении текущего уровня доходов инвестиция в Tesla окупится через полтора тысячелетия.

Однако рынок электромобилей постоянно ширится, а вместе с ним неуклонно растёт выручка компании. Следовательно, доходность будет расти, а срок окупаемости сокращаться. Посему я предлагаю вам порассуждать о том, сколько лет потребуется для возврата инвестиций в акцию $TSLA через дивиденды, которые пока ещё ни разу не выплачивались.

За последние 3 года средний рост продаж Tesla составил 42%. Чем больше компания, тем сложнее сохранять темпы роста, но по убеждению многих, революция на рынке автопрома только начинается. Поэтому давайте предположим, что в последующем продажи Tesla будут только расти, причём на 50% ежегодно. Таким образом в 2030 году выручка Tesla превысит $1,5 трлн это в 3 раза больше, чем у Walmart, самой крупной компании по выручке на сегодняшний день.

Фондовый рынок охватило спекулятивное безумие. Триллионные капитализации это, наверное, самая драматическая вещь, которая когда-либо случалась во всей мировой истории финансов.

Чарльз Мангер

вице-председатель совета директоров Berkshire Hathaway

Пускай в 2030 году Tesla начнёт выплачивать дивиденды, но в каком объёме? Дивидендная политика у всех компаний разная. ВТБ на выплаты дивидендов направляет всего 5% от своего заработка и поэтому оценивается в 3 годовых прибыли. А, например, у P&G показательpayout ratioвыше 55% икоэффициент P/Eуже доходит до 25. В нашем гипероптимистичном прогнозе совет директоров Tesla максимально щедр и будет стабильно направлять на дивиденды 80% чистой прибыли, как это делают в Coca-Cola.

Для оценки окупаемости осталось разобраться с доходностью Tesla. В 2020 году компания впервые отчиталась о годовой чистой прибыли. Такой результат стал возможен исключительно благодаря регуляторным кредитам. Если рассматривать строго операционную деятельность, компания по-прежнему убыточна, и я подробнееписалоб этом в Гроксе. Но сейчас мы отбросим эти формальности и учтём, что Tesla инвестирует огромные средства в расширение производства.

Если мы посмотрим на маржинальность среди крупнейших автопроизводителей в лице Toyota, Volkswagen, Ford и General Motors, то увидим, что ихprofit marginисторически меньше 10%. Однако гений Маска бесконечен, поэтому давайте представим, что в 2031 году маржинальность Tesla дойдёт до 20%. При чистой прибыли в $400 с лишним млрд компания направит на дивиденды более $300 ярдов.

Определив дивидендный доход, мы можем констатировать, что акция стоимостью в $850 при приведённых выше обстоятельствах окупится через 2 года с момента начала выплаты дивидендов. Итого срок окупаемости составит 12 лет. Для этого всего лишь нужно, чтобы выручка Tesla увеличилась в 100 раз, до $3 трлн, чтобы компания стала самой богатой в мире и кратно превзошла по эффективности всю отрасль, пока конкуренты бездействуют.

Удивительно, но не все понимают, что подобный сценарий невозможен или, мягко говоря, статистически маловероятен. Я встречаю мнения долларовых миллионеров, представителей венчурной среды, которые оправдывают стоимость Tesla, сравнивая рост её выручки в процентном соотношении с другими автопроизводителями, словно они не понимают, что +5% к 100 млрд больше, чем +20% к 20. Следующий график очень хорошо визуализирует степень абсурдности подобного мышления.

Сравнение капитализации и выручки автопроизводителейСравнение капитализации и выручки автопроизводителей

Биржевая стоимость Tesla значительно выше капитализации 9 всем известных автоконцернов несмотря на то, что их суммарная выручка в 50 с лишним раз больше, чем у предприятия Маска. При этом каждая из 9 компаний старого толка производит электромобили, и, например, продажи таковых в единицах продукции у Renault и Nissanсоставляютполовину от продаж Tesla.

Напомню, что в 2020 году Teslaдоставилапочти 500 тысяч автомобилей, показав тем самым рост продаж на36%. А Volkswagen за тот же периодпродал5,3 млн автомобилей, среди которых 212 тысяч электромобилей, и это на158%больше, чем в прошлом году. Кстати говоря, продажи Tesla в Европеснизилисьна 10%, а в Германииупалина 36%, хотя местный рынок вырос в 2 раза.

Капитальные расходы и маржинальность EBITDAКапитальные расходы и маржинальность EBITDA

Покупатель акции Tesla приобретает долю в компании по мультипликатору $1,5 млн на каждый проданный автомобиль. Акции компании General Motors торгуются по мультипликатору $9000 за проданный в 2020 году автомобиль.

Фанаты бренда Маска верят в исключительное финансовое превосходство его компании, но маржинальность по ЕБИТДе у Tesla меньше, чем у того же Volkswagen или General Motors. Вы думаете только Маск инвестирует в будущее? Однако у каждой из упомянутых корпораций CAPEX больше, чем у Tesla. Одни лишь бумаги $TSLA это огромный пузырь из сотен миллиардов долларов, а похожих компаний на рынке огромное множество.


Теперь, когда все понимают, что значит компания переоценена, я предлагаю перейти от частного к общему. Согласно TradingView, на биржах США сегодня торгуется более 150 компаний с оценкой выше $1 млрд, у которых капитализация составляет от сотни до нескольких тысяч годовых прибылей. Суммарная биржевая стоимость первых десяти компаний из этого списка превышает $1,5 трлн!

Однако делать какие-либо выводы на основе одногокоэффициента P/Eнеразумно. Может так совпало, что именно в последнее время большинство компаний увеличило капитальные расходы и как следствие у них внушительно просела чистая прибыль. Поэтому давайте посмотрим напоказатель CAPE(Cyclically Adjusted Price/Earning Ratio) иликоэффициент P/E Шиллерапо индексу S&P 500, где вместо earnings берётся средняя прибыль за последние 10 лет, скорректированная на инфляцию.

Коэффициент P/E Шиллера по индексу S&P 500Коэффициент P/E Шиллера по индексу S&P 500

Сегодняшнее значение CAPE превышает таковое перед чёрным вторником, который предшествовал началу Великой депрессии США. Однако мы отчётливо видим, что показатель CAPE был значительно выше в начале нулевых, когда раздувался пузырь доткомов. Кому-то может показаться, что всё ещё не так уж и плохо, но для того, чтобы сделать выводы, нужно мыслить системно и рассматривать целый комплекс метрик. Поэтому я предлагаю вам взглянуть накоэффициент P/S соотношение цены и продаж.

Коэффициент P/S по индексу S&P 500Коэффициент P/S по индексу S&P 500

Значение P/S находится на историческом максимуме. Даже в период бума доткомов оценки по этому показателю были скромнее, и обратите внимание, какие они были в самом начале девяностых. Безусловно, у технологических компаний маржинальность выше, чем у офлайн-бизнеса, и P/S должен был вырасти с появлением интернета. Но сегодня Snowflake оценивается почти в 150 выручек, Zoom в 60, Tesla в 30. А теперь посмотрите на дивидендную доходность по S&P 500.

Дивидендная доходность по индексу S&P 500Дивидендная доходность по индексу S&P 500

До исторического минимума не хватает нескольких десятков базисных пунктов. Хочу подчеркнуть, что последние три графика отражают положение дел только в крупнейших компаниях США из именитого индекса Standard & Poors, где каждая компонента утверждается согласно определённым критериям. Для сравнения, значение CAPE по NASDAQ 100 равно55.33, по Russel 2000 112.98.


При всём при этом есть ещё множество компаний с отрицательной доходностью, для которых P/E не считается в принципе. У меня нет свежих цифр, но в 2018 году 83% компаний, вышедших на IPO,были убыточными и это на два процентных пункта больше, чем в 2000 году. А сегодня акции убыточных технологических компаний показывают доселе невиданный экспоненциальный рост.

Индекс убыточных технологических компаний СШАИндекс убыточных технологических компаний США

Для примера акции китайского производителя электромобилей NIO, которые торгуются на NYSE, с прошлой весны выросли в 25 раз. За последний год компания продала всего 43 тысячи автомобилей, а её капитализация составляет $70 млрд! Чистый убыток NIO по TTM (Trailing Twelve Months) равен $999 млн при объёме продаж в $1,8 млрд. То есть глубоко убыточная компания оценивается в 40 годовых выручек!

Похожая ситуация также наблюдается по отношению к другому китайскому производителю электромобилей XPeng. Расходы данной компании почти в два раза больше доходов и в пропорции она переоценена даже больше, чем NIO. При выручке в $520 млн и чистом убытке в $420 млн её капитализация выше $23 млрд. Такой офлайновый бизнес имеет P/S равный 44.

Фирмы, которые теряют деньги: их капитализация и убыткиФирмы, которые теряют деньги: их капитализация и убытки

Отдельно хочется упомянуть IPO AirBnB. До пандемии венчурная оценка сервиса доходила до $31 млрд, а после опустилась до $18 млрд. Однако на отрытии торгов биржевая стоимость AirBnB превысила $100 ярдов. Вы только вдумайтесь в это: всего за несколько месяцев компания, бизнес-модель которой построена на путешествиях людей, в эпоху пандемии и карантинов, выросла в стоимости в 5 с лишним раз.

Примечательно ещё то, что рынок почему-то оценил AirBnB значительно дороже Booking Holdings и Marriott, капитализация которых составляет 85 и 40 миллиардов долларов соответственно. В ноябре, когда на сайте Комиссии по ценным бумагам США появился проспект IPO, япубликовалсравнительную таблицу этих трёх компаний.

Выручка Marriott в 2019 году была в 4 с лишним раза больше, чем у AirBnB, выручка Booking Holdings в 3 раза. У Booking даже чистая прибыль была больше, чем выручка AirBnB, и продажи в последние годы росли быстрее в абсолютных числах. Пандемия меньше всего повлияла на структуру доходов AirBnB, но именно эта компания хуже остальных переносит кризис. Обратите также внимание на то, что заскорузлый и неповоротливый, в отличие от новомодных стартапов, Marriott лучше всех оптимизировал косты и оказался максимально гибким во время кризиса.

Не менее ярким случаем иррационального поведения фондового рынка является выход на биржу DoorDash. Именно тогда я впервые сказал про новый пузырь доткомов перед широкой аудиторией. Поэтому процитирую себя же:

DoorDash, один из крупнейших в мире сервисов доставки еды провёл IPO по оценке в $41 млрд. Выручка компании за 9 месяцев составила $1.9 млрд, чистый убыток $534 млн. В первый день торгов акции выросли на 80%, а капитализация теперь превышает $70 ярдов, что составляет 35 выручек по TTM! И это никого не удивляет!

Среди авторитетных людей в рунете я вижу мнение, мол $DASH будет стоить ещё в 10 раз больше, ибо рынок еды очень большой и стабильный. Это, конечно, сильная аналитика субъективная оценка потенциала самой идеи, а не операционки. И так рассуждают реально успешные предприниматели, долларовые миллионеры, причём некоторые из них являются представителями венчурной среды.

Напоминаю вам, что летом этого года Just Eat Takeaway купила исторически прибыльный GrubHub за $7.3 ярда. Отношение стоимости к выручке было меньше в 7 раз! Да DoorDash растёт быстрее, но он никогда не показывал прибыли, а мультипликаторы для одного и того же по своей специфике бизнеса за несколько месяцев выросли многократно! Кстати, Uber приобрёл Postmates в июле всего за $2.65 миллиарда!

В общем, я вам гарантирую, что пройдёт время и словосчетание пузырь доткомов у вас будет ассоциировано не только с началом нулевых.

10.12.2020

Среди компаний, которые выходят на IPO, действительно трудно найти прибыльную.Affirm,Snowflake,Asana,Palantir,Unityи другие, кого я упоминал в Гроксе, ведут сплошную историю убытков. И ладно уже, что по истечению многих лет они так и не научились зарабатывать. Больше беспокоит то, что их коэффициенты оценок превышают таковые для Google, когда он выходил на биржу в 2004.

Поймите правильно, я не говорю, что ничто не должно оцениваться в пропорции дороже Google, ибо нет ничего перспективнее поисковика. Нет. Подобное мышление не имеет ничего общего с аналитикой. Я про то, что предприятие Брина и Пейджа было прибыльным с 2001 года, а его доходы росли на сотни процентов. Если вы загляните вформу S1, поймёте, что Google был денежным станком, который оценили в 25 выручек. Сравните это с современными стартапами, где значение P/S такое же или выше.


Аномальная переоценка по мультипликаторам это лишь самое скромное из того, что сегодня происходит на рынке. В 2020 году состоялось 248 SPAC IPO, в результате которых было привлечено более $83 млрд. По сравнению с 2019 годом количество таких IPO выросло на 500%, а объём привлечённого капитала увеличился в 6 раз.

Объём капитала, привлечённого на IPOОбъём капитала, привлечённого на IPO

Вышеупомянутые цифры определённо свидетельствуют о нездоровом интересе к SPAC, и данный тренд только начинает набирать обороты. Если верить сервисуSPACInsider, а на негоссылаютсяспециалисты Zacks в публикации на сайте Nasdaq, то в 2021 году уже произошло 100 SPAC IPO, через которые подняли $29 млрд!

Для тех, кто не знает SPAC (Special Purpose Acquisition Company) это компания без коммерческой деятельности, которая формируется исключительно для привлечения капитала путём первичного публичного размещения акций.

Популярность такого способа выхода на биржу понятна если на рынке есть оголтелая толпа розничных инвесторов, которая скупает всё подряд, то делиться деньгами с инвестбанкирами и андеррайтерами не хочется. Но качество и количество эмитентов вызывает вопросы.

Самый яркий пример SPAC IPO это скандально известная Nikola, чья капитализация приближалась к $30 ярдам несмотря на то, что компания не имеет ничего ни выручки, ни собственного производства, ни даже продукта. Рынок просто поверил в прототип электрогрузовика, который тожеоказалсяподделкой.

Чтобы вы понимали масштаб безумия, упомяну производителей электромобилей, которые вышли на биржу через SPAC за последние полгода: Nikola, Lordstown, Fisker, Hyliion. Последние три дебютировали на фондовом рынке в октябре. Все, толком не имея продаж, оцениваются в миллиарды.

Стоит ещё сказать про QuantumScape и Romeo Systems, которые производят батареи для электромобилей. А в ближайшем будущем ждите SPAC-размещения Arrival, Lion, Canoo и, возможно, Karma. Вообще, ажиотаж на электромобили напоминает ICO-лихорадку 2018 года, после которой ничего путнего на свет так и не выродилось.


ФРС заливает рынок деньгами и создаёт избыток ликвидности. Именно это в первую очередь способствует росту стоимости активов, несмотря на снижения их доходности. Инвесторы полагаются на благоприятную монетарную политику и нулевые реальные ставки, экстраполированные на неопределенный срок. Но идеальные экономические и финансовые условия не могут длиться вечно.

Я думаю, мы берем в долг у будущего. ФРС подталкивает людей к тому, чтобы больше рисковать, и способствует завышению цен на акции. Это плохо кончится.

Леон Куперман

основатель хедж-фонда Omega Advisers

Посмотрите на кредитное качество публичных нефинансовых компаний по методологии Standard & Poors. В 1980 году было 65 эмитентов с рейтингом AAA, а сейчас их всего 5. Раньше более половины компаний от общего числа находились в А категории, сегодня большинству компаний присвоен мусорный рейтинг (BB и ниже).

Кредитное качество публичных нефинансовых компанийКредитное качество публичных нефинансовых компаний

Однако риски банкротства нисколько не смущают инвесторов. За последние 10 месяцев индекс S&P 500 вырос на 70%. Это более чем в два раза выше нормальной скорости подъёма бычьего рынка. А Russell 2000 за тот же период вырос на 100%, хотя долговая нагрузка по компаниям из этого индекса превысила их доходы до вычета налогов, о чём свидетельствуют данные Societe Generale.

Долговая нагрузка по Russell 2000Долговая нагрузка по Russell 2000

В статье Financial Times с заголовком Fed backstop masks rising risks in Americas corporate debt market мне повстречалась ещё одна интересная цифра: у каждой седьмой компании с капитализацией от $300 млн до $2 млрд выплаты процентов по кредитам и облигациям превышают размер прибыли на протяжении 3 последних лет. Опять же, это сравнимо только с началом нулевых.

Количичество зомби-компанийКоличичество зомби-компаний

ФРС создаёт дурную тенденцию, которой соответствует большой капитал, а розничные инвесторы усиливают ассиметрию и превращают фондовый рынок в казино. Последних не интересует фундументальный анализ в принципе и к 2020 году их стало так много, что они уже задают свой вектор движения цен.

Думаю, вы уже слышали про скоординированные действия аудитории r/wallstreetbets против хедж-фондов и знаете, что творилось с акциями $GME, $AMС, $BB и прочими. Даже котировки Nokia, которая не была в центре внимания сообщества Reddit, скакали на десятки процентов. Подписчики r/wallstreetbets за пару часов смогли поднять её капитализаю с 20 до 50 миллиардов долларов. Это беспрецедентая история, и она будет описана в финансовых учебниках.

Кстати, поопытуДжереми Грэнтэма из GMO на существования пузыря указывают даже такие косвенные факторы, как растущая враждебность по отношению к медведям со стороны быков. В 1929 году игра на понижение влекла за собой риск физической расправы и даже убийства.

Сегодня мы живём в мире, где один твит Илона Маска, выражающий симпатию или похвалу к определённому продукту, может поднять биржевую стоимость её производителя на 10 и более процентов. По крайне мере так было с Etsy и разработчиками Cyberpunk. А после того, как он поставил в профиле своего аккаунта в Twitter хештег#bitcoin, стоимость BTC через полчаса выросла на 15%.

Поведение пользователей Robinhood и подобных приложений не поддаётся никакой логике. Например, в одинмоментони начали скупать акции Hertz, которая находилась в процедуре банкротства, и бумаги выросли в цене в 10 раз. Kodak подорожала в 30 раз на новостях о том, что компания будет производить химические элементы для лечения COVID-19.

А сколько было случаев, когда инвесторы просто путали тикеры? Буквально на днях после эфира Илона Маска в Clubhouse домашние трейдерыподнялиакции тикток-домов Clubhouse Media Group на 100%. То есть многие из них даже не догадывались, что популярная нынче соцесть с голосовыми чатами является частной компанией. То же самоебылос Signal.

Объём маржинального долгаОбъём маржинального долга

Уровень маржинального кредитования достиг исторического максимума, а активность розничных инвесторов на рынке опционов за последний год выросла в 8 раз. Теперь они буквально двигают целые индексы, о чём подробнее написано в статье How the Little Guy Is Fueling the Stock Markets Wild Ride наBarron's.

Всему этому способствует политика количественного смягчения. Согласно исследованию Yodlee, американцы, которые зарабатывают от 35 000 до 75 000 долларов в год,торговалиакциями на 90% больше, чем за неделю до получения своего стимулирующего чека. И они заметно помогают раздувать цены.

Апофеоз

С лета прошлого года рынок развивался ускоряющимися темпами и с нарастающими спекулятивными эксцессами. Почти все показатели находятся на точках экстремума, включая ииндикатор Баффета, который показывает отношение рыночной капитализации к ВВП. Всё это свидительствует о наличии огромного финансового пузыря.

Длинный-предлинный бычий рынок с 2009 года наконец-то созрел в полноценный эпический пузырь. Я полагаю, что это событие будет записано как один из величайших пузырей в финансовой истории, наряду с пузырями Южного моря, 1929 и 2000 годов.

Джереми Грэнтэм

основатель инвестиционной компании GMO

Пузыри возникали и ранее, но они зарождались при аккомодационных денежных условиях в состоянии экономического превосходства. После глобального кризиса, вызванного пандемией, США, как и весь мир, находится в совершенно другом экономическом положении. Сегодняшний пузырь отличается от всех предыдущи тем, что он сформировался при сильном падении ВВП, небывалом росте безработицы, резком сокращении экспорта и множестве социальных проблем.

Прокол в переоцененных секторах и типах активов может начаться в любой момент. Когда это случится, последствия будут болезненными как никогда ранее. Например, Джон Хассман из Hussman Investment Trustожидаетпадение индекса S&P 500 до 70%. Нас ждёт большой финансовый кризис, который рынок не захотел признать ещё прошлой весной. И пока мы все его ждём, я хочу вам нампонить, что the market can remain irrational longer than you can remain solvent.

Большое спасибо всем за внимание. Если вам интересны подобные рассуждения, не вписывающиеся в формат полноценной статьи, то подписывайтесь намой канал Groks.

Подробнее..

Google Books Ngram Viewer как инструмент для ретроспективных исследований

08.02.2021 00:09:10 | Автор: admin
Активность использования термина "transistor" c 1800 года и до наших днейАктивность использования термина "transistor" c 1800 года и до наших дней

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.


Пример с языками программирования удобен ещё и потому, что для них имеются различные официальные рейтинги. Этих рейтингов много, они используют разные способы оценки популярности и естественно дают различающиеся результаты. Эти результаты к тому же подвержены достаточно сильному случайному дрейфу. Если посмотреть результаты разных рейтингов на какую-то конкретную дату, то создаётся впечатление, что мы ничего толком не знаем, и мир непостижим. Но ситуация немного меняется, если рассмотреть всё в динамике. В динамике становится видно, где дрейф, а где проглядывают какие-то реальные закономерности.

Одним из способов составления рейтингов популярности является анализ частоты поисковых запросов. Такой способ при всей его кажущейся наивности, при разумном использовании позволяет получать довольно устойчивые оценки. На этом, например, построен рейтинг языков программирования PYPL. Рейтинг строится на основе анализа запросов для поиска мануалов по тем или иным языкам. Но никакой общепит не сравнится с авторской кухней. Иногда хочется чего-то особенного, чего в существующих рейтингах может не быть. Например, рейтинг PYPL не включает в себя Fortran. Да, этот язык явно не лидер, хотя из других рейтингов известно, что он стабильно входит в верхние 50 строчек по популярности. Не проблема. Аналогичную картинку можно получить самостоятельно, не прибегая к помощи сторонних агентств, используя инструмент Google Trends. Вот, например, если посмотреть в динамике, можно увидеть хвост популярности Fortran (синий) и для масштаба относительно стабильный, хотя и немного снижающийся спрос на Matlab (красный). У Matlab, кстати, отчётливо видны сезонные пики два раза в год. По всей видимости перед зимней и весенней сессиями:

Глядя на такие картинки, невольно обращаешь внимание на левую границу, глубже которой невозможно копнуть, а именно на 2004 год. Поскольку анализируются запросы в Google, заглянуть в более древние периоды истории с помощью этого инструмента не получится. А ведь так любопытно взглянуть на период, когда Fortran был ещё на пике популярности. Но увы, наша машина времени туда попасть не может. Она была запущена на полную мощность только в 2004 году и все более ранние периоды для неё закрыты.

Из-за отсутствия информации по каким-либо другим инструментам ретроспективного поиска, я всегда думал, что возможность заглянуть в более ранние периоды отсутствует. Но, как оказалось, такая возможность имеется, причём инструмент предлагает всё та же компания Google. Называется он Google Books Ngram Viewer. Это инструмент статистического анализа информации, содержащейся в массиве книг из Google Books. В некотором смысле это гениальное решение, ведь печатные книги существуют уже несколько столетий, и имея их полные оцифрованные тексты, вполне можно использовать их как источник статистической информации о прошлых исторических периодах. Теперь хотя бы понятно, зачем Google создал и поддерживает проект Google Books. Общая цель здесь та же, что и поиска, и у сервисов: владение информацией. Но, к счастью, с нами готовы поделиться какой-то её частью.

Что предлагается:

Предлагается поисковая строка, куда нужно вводить запрос. Вводим запрос получаем график популярности данного слова в книгах. Начиная с 1800 (!!) года и до нашего времени. Поисковые запросы можно вводить через запятую тогда мы получим несколько линий на графике, соответствующих данным понятиям, и сможем оценить их динамику. Вот, например, тот же Fortran:

По умолчанию поиск чувствителен к регистру, то есть Fortran (написание названия для современных версий языка) и FORTRAN (написания названия для старых версий) это будут два разных слова. Можно выключить чувствительность к регистру, либо использовать арифметические выражения над введёнными поисковыми запросами, то есть написать FORTRAN+Fortran:

Инструмент статистический, не абсолютно точный, про это не стоит забывать. Например, для того же Фортрана мы увидим какие-то микровсплески ещё до публикации первой версии языка:

Также, как и упоминание о транзисторах ещё до их официального появления:

Любопытно было бы иметь возможность увидеть эти аномальные публикации, они могут представлять интерес. Но пока что такой возможности не предусмотрено.

Если не придираться к деталям, а смотреть какие-то общие тенденции, то в целом всё выглядит довольно реалистично. Например, можно увидеть, как упоминание Fortran в литературе сменяется на MATLAB:

Поскольку поиск по умолчанию выдаёт все вхождения заданного слова, забота о корректном учёте синонимов лежит на пользователе. В некоторых случаях провести такое разделение невозможно. Так, например, поиск просто по слову chip очевидно выдаёт слишком много случаев, когда слово употреблялось в других значениях, а поиск по слову microchip, хотя и явно точнее, не учитывает всех вариаций наименования предмета и не может использоваться для корректного количественного сопоставления с другими сущностями:

Например, если мы решим таким образом сопоставить популярность в литературе таких слов как Fortran+FORTRAN, MATLAB и Julia, то для первых двух это явно будет название языка программирования, а в последнем случае в первую очередь что-то совсем другое, включая различные имена собственные:

В этой смеси выделить именно язык программирования Julia проблематично. Введя дополнительное слово, мы сильно урежем допустимые вариации его использования, а не вводя получим неразделимую смесь. На данном этапе это неустранимое ограничение данного сервиса. В будущем конечно хотелось бы иметь возможность поиска понятий с учётом их смысла, примерно как в Google Trends. Искренне надеюсь, что прямо сейчас ведётся работа в этом направлении, просто результат ещё недостаточно хорош для показа.

Но всё-таки, даже с учётом различающейся вариативности контекстов сравниваемых слов, какую-то картину всё же можно получить. Например, сравнивая выдачу по таким понятиям, как electric, software и experiment мы увидим чёткую картину по использованию понятия software, которое не применялось до середины XX века, немного размытую картину по понятию electric поскольку оно могло использоваться в различных смыслах и контекстах, вплоть до художественной литературы, и примерно одинаковый уровень для experiment. Видимо, эксперименты производили и обсуждали на страницах книг с 1800 года и до наших дней с примерно одинаковой частотой. В последние десятилетия даже чуть реже, чем раньше:

Гораздо более чёткую картину даёт использование уникальных слов-маркеров, для которых известно, в связи с чем и в какое время их могли употреблять, а в какое ещё не могли. Таким образом, кстати, можно ещё и проверить адекватность выдачи. Вот пример для Stalingrad, Sputnik и perestroyka:

Ну что же, все пики вроде бы на своих местах. Интереса к перестройке в мировой литературе было явно меньше, чем к первым запускам спутников Земли. Похоже на правду.

Если взять какие-то более размытые понятия, например, genetic и neural, то даже несмотря на какой-то шум от возможного использования этих слов в других смыслах, виден явный подъём с середины XX века:

Интересно также оценить отражение вклада отдельных личностей в совокупность мировых печатных материалов. Но получится это далеко не со всеми деятелями, а только с имеющими какие-то необычные фамилии и не имеющими других известных однофамильцев. Вот, например, вклад Циолковского (одного из основоположников космонавтики и выдающегося философа-космиста) и Вистелиуса (основоположника математической геологии). Циолковский явно имеет большую известность и цитируемость в западной литературе:

Но даже если взять какую-то уникальную персоналию, то выдача будет зашумлена всем, что потом назвали в её честь. Вот пример по ключевому слову Lomonosov:

Явно в начале здесь вклад самого Михаила Васильевича (наверное, какие-то ссылки на его работы), потом названного в честь него университета, а потом ещё города и суперкомпьютера.

Для кириллических понятий можно осуществлять поиск по массиву русскоязычной литературы, но поскольку в Google Books пока что не очень большой её охват, а также есть риск, что распознавание текста выполнено не настолько качественно, как и для англоязычной, данную возможность пока скорее стоит рассматривать как демо-версию будущих возможностей сервиса.

По настройкам:

Можно сужать период охвата, можно менять набор текстов, по которым ведётся поиск, включать-выключать чувствительность регистра, менять степень сглаживания графиков. Есть некоторые выражения для поисковой строки, позволяющие реализовать некоторые специальные приёмы при поиске, наподобие арифметических действий над запросами. Есть и другие, они описаны на специальной странице.

Можно задавать только часть слова или искать по корням, учитывая его различные формы, можно указывать, какой частью речи должно являться искомое слово, осуществлять логические операции, чтобы отфильтровывать что-то лишнее. В принципе, возможности сервиса достаточны даже для каких-то лингвистических исследований, например, для анализа изменений норм языка.

Какие на данный момент есть проблемы:

1) Не учитывается контекст запроса. С одной стороны это хорошо, заставляет исследователя самого строить модель возможного использования слова. Поиск идёт более осознанно. С другой стороны, некоторые сущности без контекста разделить просто нельзя, то есть сейчас некоторые операции анализа просто нельзя выполнить, так как поиск по слову выдаёт неразделимую смесь нескольких понятий.

2) Нельзя перейти к конкретным текстам. И просто ради любопытства, и для проверки качества распознавания и поиска было бы интересно увидеть аномальные встречи заданного слова, когда его по идее ещё не должно было возникнуть. Возвращаясь к тому же Фортрану увидеть его упоминания до выхода первой версии.

3) Есть риск смещённости оценок из-за возможной неоднородности охвата оцифрованной литературы. Например, если имеется неоднородность по охвату различных областей знания, языков, исторических периодов. Было бы интересно увидеть какое-то процентное соотношение базы поиска к общей информации, хранимой в данный момент всеми библиотеками.

4) В принципе невозможно искать неразделимые термины и персоналии. Например, если будем искать по фамилии Толстой, то очевидно встретим след как от Льва Толстого, так и от Алексея Толстого, а также других выдающихся носителей этой фамилии. И начиная с какой-то даты их уже невозможно будет разделить. Для идеальной поисковой системы будущего, поисковая машина должна не просто учитывать контекст, а понимать запрос.

Какие промежуточные выводы можно сделать:

1) Объекты с уникальными и неизменными именами гораздо проще найти и оценить. Создавая новый язык программирования, программу или какое-то другое произведение давайте ему уникальное имя и старайтесь потом не менять.

2) Носители уникальных фамилий находятся в более выигрышном положении в плане обнаружения их заслуг (и в проигрышном в плане маскировки среди однофамильцев). Если у вас неоднозначно записываемая фамилия, то чем раньше вы определитесь с её эталонным написанием, тем проще будет потом найти ваши работы.

3) Практика наименования одного объекта в честь другого в долгосрочной перспективе может приводить к сложности оценки вклада как первого, так и второго. По крайней мере, при использовании поисковых машин, не умеющих понимать контекст вопроса

На этом всё. Надеюсь, данная заметка была полезна. Инструмент работает, и при осознанном использовании позволяет лучше понимать мир и его динамику. При не очень осознанном использовании может просто использоваться как игрушка. Но игрушка всё-таки развивающая. Почему бы и нет.


В ходе работы пришла пара интересных мыслей:

1) Наверное, примерно так и должна быть устроена мировая библиотека будущего. Фактически, это уже её прототип.

2) Сервис позволяет оценивать вклад отдельных понятий в общую совокупность всех записанных человеческих текстов, то есть фактически когда-либо высказанных мыслей представителей нашей цивилизации. Но как назвать эту совокупность?

Подробнее..

Аналитика возраста воздушного флота российских авиакомпаний

01.04.2021 16:06:37 | Автор: admin

Сегодня вашему вниманию представлена исследование(аналитика) возраста воздушного флота российских авиакомпаний, представленных на российском рынке для осуществления коммерческих перевозок. Полный список можно посмотреть тут.

Мотивация, планирование, выборка

Время от времени мы не раз слышим о том, что какой-нибудь борт самолета то задерживается, то возвращается в аэропорт, то совершает аварийную посадку, в большинстве случаях это происходит из-за технических неисправностей. В данном исследовании мы не хотим связать возраст воздушного парка гражданской авиации с их безаварийной эксплуатацией и прекрасно понимаем, что главное это профессиональное техническое обслуживание техники и оборудования, но вместе с тем мы не можем отрицать того, что у каждой техники есть свой ресурс.

Для начала хочется обозначить, что будем подразумевать под российскими авиакомпаниями те, которые есть в официальном списке эксплуатантов. В исследовании были отобраны топ российских авиакомпаний - Аэрофлот, Алроса, Аврора, Азимут(Azimuth), АзурЭйр(AzurAir), ИрАеро, НордСтар(NordStar), НордВинд(NordWind), Икар(PegasFly), Победа(входит в группу Аэрофлот), РэдВинг(RedWings), Россия(Rossiya), РоялФлайт (RoyalFlight), S7(АК Сибирь), СмартАвиа(SmartAvia), Уральские авиалинии(UralAirlines), Ютэйр(Utair), Якутия(Yakutia), Ямал(Yamal). Данная выборка охватывает 85% авиапарка российских авиакомпаний. В этот список не попала авиакомпания ГазпромАвиа у которой имеется большой авиапарк, но причина исключения - это отсутствие возраста в большинстве данных, что не представлялось возможным определить среднее значение, но модели авиапарка у компании очень разнообразны и интересны, но об этом позже.

Для получение данных о возрасте воздушного флота был использован сервис flightradar24 в закрытой части, пришлось брать бесплатный пробный период. Наше исследование конечно было бы более репрезентативно если мы использовали официальные технические паспорта воздушных судов, но такой возможности пока нет :)

Инструменты аналитики

В нашем исследовании будем применять стандартные инструменты для этого - язык программирования python с библиотеками numpy, pandas для анализа данных, библиотеки plotly для визуализации результата, и инструмент Тableau для дашборда, google sheets для первоначальной обработки и наш любимый brain.

Процесс обработки данных

Итак, наш исследуемый датафрейм содержит 7 переменных(колонок) и 834 строки. Посмотреть его можно тут.

Посмотрим гистограмму и посмотрим распределение данных.

Давайте сразу же посмотрим среднее значение и медиану возраста всей выборки. Получается среднее(mean) = 10.61 лет, медиана(median) = 9.0 лет.

Сгруппируем и отсортируем наш dataframe, чтобы вывести значения всех авиакомпаний с их средним и медианным значением и другими показателями описательной статистики.

Код
ages = data.groupby(by='airlines').age.describe()ages.sort_values(by='count', ascending=False)
Описательные статистики значений возраста, количество воздушных судов в разрезе каждой авикомпании.Описательные статистики значений возраста, количество воздушных судов в разрезе каждой авикомпании.

Из представленного результата мы видим, что топ-5 авиакомпаний с наибольшим количеством авиапарка это:

самый молодой флот у авиакомпаний:

Азимут (Azimuth) - среднее(mean) 2,9 лет, медиана(медиана) 3 года;

Победа - среднее(mean) 3,5 лет, медиана(медиана) 3 года;

Аэрофлот - среднее(mean) 5,1 лет, медиана(медиана) 5 лет;

S7 - среднее(mean) 9,5 лет, медиана(медиана) 9 лет,

Поговорим и о старичках флота, которые трудятся, как мы можем заметить это:

АзурЭйр (AzurAir) - среднее(mean) 20,3 года, медиана(медиана) 20 лет, минимальное значение - 13 лет, максимальное значение 30 лет.

Теперь отсортируем наиболее часто повторяющийся тип авиалайнеров и выведем топ-10 из них.

Код
data.type.value_counts().to_frame('count').head(10)
Количество часто встречающихся авиалайнеровКоличество часто встречающихся авиалайнеров

Как можно видеть пятёрка наиболее часто встречающиеся судов это:

Airbus A320

Sukhoi Superjet 100

Boeing 737

Airbus A321

Топ-3 производителей авиалайнеров выглядит так:

Среди типов авиалайнеров был обнаружен Boeing 737 MAX, эксплуатация которых была приостановлена по решению международных воздушных организаций. Такие авиалайнеры были замечены у компаний S7, NordStar, UralAirlines, Utair,

Boeing 737 MAX

и один единственный новый авиалайнер Airbus A350-941 с регистрационным номером VQ-BFY в Аэрофлоте :)

Airbus A350-941

кстати, по сводке flightradar24 данный авиалайнер частенько летает маршрутом Москва - Майами(США) - Москва :)

А в завершении нашего исследования, как и говорил ранее, давайте поговорим о воздушном флоте авиакомпании ГазпромАвиа :) Итак, что мы имеем вернее они имеют, а имеют они 50 единиц флота в который входят такие разнообразные и интересном марки и модели как:

Airbus Helicopter H135 - 5 единиц;

Airbus Helicopter H155 - 1 единица;

Dassault Falcon 900 - 6 единиц;

Dassault Falcon 7X - 5 единиц;

Dassault Falcon 8X - 2 единицы;

и вот эта интересная модель Let L410UVP-E20 Turbolet

В завершении хочется напомнить, что вся представленная информация основываются на полученных данных с сервиса flightradar24, поэтому, возможно часть воздушного флота не попала в выборку, а часть была внесена сервисом с ошибками, всё может быть, но общее представление о возрасте флота российских авиалиний думаю получен ;)

И конечно же на десерт красивый dashboard на Tableau, который можно посмотреть тут.

Всем всего хорошего, ваш konstatic :)

Подробнее..

Инвестирование в отраслевые фонды в Экселе

03.02.2021 12:13:25 | Автор: admin

Написать эту статейку меня побудила замечательная серия многоуважаемого @abak "Теория инвестиций для начинающих". В качестве конфетки внизу даю ссылку на табличку, получающую текущие цены на европейские фонды, их прибыльность и другие параметры из интернета. Кроме того мне хотелось бы немного расширить изначальную статью с точки зрения начинающего инвестора, инвестирующего из дома и лишенного вкусностей внутренней кухни Дойче банка.

Предостережение: Автор ни разу не спец в скрэпинге интернет-сайтов и инвестициях. Всё что здесь описывается делалось для души и на коленке. Автор никому ничего не обещает, а лишь делится собственным опытом и мыслями по поводу инвестиций, в частности в отраслевые фонды. Ещё одна цель дать пищу для размышлений, а не предоставить рецепт от всех болезней. Всё, что здесь описано, добывалось автором путём проб и ошибок, а, как известно: Срубленные головы стремительно умнеют. Потому, главный посыл статейки: Не бояться экспериментировать.


Почему фонды

Хотя вся необходимая информация и доступна и бесплатна, докопаться до реально работающих схем, приносящих доход, каждому приходится самому. Та пена, которую все ежедневно видят на баннерах типа: Покупай акции такие-то и продавай такие-то не имеют ничего общего с реальной жизнью. В частности, реклама фондов, рассылаемая банками (Вложись в супер-ETF и обрети целых 4.5% годовых!!!), оказала на автора противоположное действие и отложило инвестиции в фонды на три года. Прежде чем перейти к фондам я остановлюсь на минусах акций и облигаций.

Акции:

  • Трудно установить точку входа и выхода из позиции. Все индикаторы вроде для того и существуют, но на практике не работают.

  • Анализ всяких технических вкусностей вроде ROE (см. finance.yahoo.com, раздел Statistics и Financials), а также прибылей за определённые промежутки времени, по аналогии с выложенной таблицей для оценки фондов, даёт прибыльность меньшую, нежели фонды.

  • Высокая волатильность.

  • Абсолютно непонятна логика/психология рынка: Почему если в новостях говорят о том, что у фирмы был хороший или плохой год, курс может как упасть, так и подняться. Где логика?

  • С акциями такое чувство, будто все фирмы мухлюют с отчётностью (привет, Wirecard!)

Облигации:

  • Низкая доходность

  • Можно по недосмотру нарваться на что-то экзотическое, например на облигацию, которая погашается по мере приближения к моменту погашения, зато

Куча плюсов облигаций:

  • Они понятны: время их действия ограничено, купоны выплачиваются регулярно, купив облигацию сегодня и продав по тому же курсу завтра, получаешь прибыль с купона.

  • Можно играть на курсах, зная, что по истечению времени действия облигации будет выплачена полная её стоимость (а может и не выплачена, если по облигации случился дефолт).

  • В случае дефолта, владельцы облигаций обладают преимуществом при получении имущества обанкротившейся фирмы (проданного конечно, никто не пришлёт Вам по почте старый стул). Правда выплат по дефолтным облигациям можно ждать лет десять: года три назад я с удивлением увидел в поиске облигаций Lehman Brothers.

Поэтому я выбрал

Фонды

Точнее отраслевые фонды. В отличие от индексных фондов, в которые входят взвешенные акции определённого индекса, в отраслевых фондах намешана любая солянка. Главное, чтобы вкладчики были довольны.

Чтобы облегчить себе, а теперь уже и вам, жизнь, я составил табличку на старом добром Экселе, которая грабит данные с сайта ariva.de. Так как странички иногда меняют формат и наполнение, то табличка требует постоянного ухода, что я постараюсь и делать через GitHub. В общем, снимаю шляпу перед теми, кто занимается скрэпингом профессионально: это редкостное болото, вытянуть из которого что-то дельное очень не просто.

Таблица

Для тех, кто никогда не работал с Selenium в Экселе, существует библиотека SeleniumBasic. Коротенькое описание установки для работы с ней приведено здесь. По нажатии на Update, таблица загружает данные о прибыли ценной бумаги (ЦБ) с сайта ariva.de.

Внутренности таблицы:

Таблица настроена на работу с запятой в качестве разделителя между целой и дробной частями числа. Американский формат записи, через точку, не тестировался.

Табличка подробнее
  • WKN (Колонка C): Немецкий аналог Международного идентификационного кода ценной бумаги (ISIN), только короче. ISIN настолько международный, что finance.yahoo.com им не пользуется, предпочитая свои, мериканьские, обозначения. Дикари-с. WKN-единственный обязательный входной параметр таблицы.

  • Favorites (Колонка D): Если ячейка пуста, и чек-бокс Update only favorites отмечен, то для ускорения данная ЦБ будет пропущена. Раз в неделю я обновляю данные по всем ЦБ, но чаще всего только по тем, которые меня интересуют.

  • Страна (Колонка E): Страна не всегда обновляется корректно. В таких случаях ячейка со страной остаётся пустой.

  • Отрасль (Колонка F): Довольно грубое деление по отраслям. На немецком, так что гугл транслейт в помощь. Используется чтобы равномерно распределить ЦБ по разным секторам экономики.

  • Benchmark (Колонка G): Из какого индекса набраны акции.

  • Валюта (Колонка H): Тут всё понятно. Сайт видимо переводит всё в евро, а потому иные валюты я пока не встречал.

  • URL (Колонка I): В случае отсутствия автоматически обновляется по WKN.

  • Прибыль ЦБ за определённый период (Колонки J - N): Прибыль за 3/6 месяцев, 1/3/5 лет. Зелёным цветом помечены ЦБ из верхнего 85% перцентиля, красным из нижнего 15% перцентиля.

  • Время обновления (Колонка O): Если ЦБ уже была обновлена сегодня, то при повторном обновлении (тоже сегодня) она будет пропущена.

  • Остальные колонки говорят сами за себя: Цена в евро (Колонка P), Альфа (Колонка Q), Бета (Колонка R): Отношение Шарпа (Колонка S).

  • Сортировка осуществляется автоматически, выбором соответствующего критерия лист-боксом. Для сортировки важны данные после ключевого слова Sorting в колонке A. Категории перечислены в ячейках A59:A67, после которых (колонка B) идут формулы выбора соответствующей колонки для сортировки и вид сортировки, по возрастанию (TRUE) или убыванию (FALSE).

Цель таблицы: Обновить данные и предоставить мне и вам удобные сортировки по разным критериям:

  • 3m/6m/1yr/3yrs/5yrs: Доходность ЦБ за данный период в процентах. В принципе меня обычно интересует только доходность за последние 3 месяца.

  • Положение (место) в каждой категории (3m/6m) вычисляется в колонках AB:AI.

  • Ну и в колонке AJ находится сумма всех категорий. Теоретически, чем меньше число, тем больший доход принесёт фонд. Стоит также отменить, что в сумму входят так же значения альфа и бета и отношение Шарпа, хотя они не являются линейнозависимыми. В общем можно и альфа и бета выкинуть.

В качестве простеньких бонусов:

Часто задают вопрос: А откуда следует, что если фонд давал прибыль в прошлом, то он будет давать прибыль и в будущем? Для ответа нарисуем график прибыли между 6 месяцами и 3 месяцами (условное будущее) и между годом и 6 месяцами (прошлое). Как видно из графика, чем больше прибыль в прошлом, тем больше прибыль и в будущем. Если убрать сильно выпадающие точки в верхней части графика, то коэффициент корреляции будет ещё выше: 0.2. Для автора этот результат был откровением, так как автор ожидал более хаотичного распределения точек. И, не забываем, что посредине, между 6 месяцами и годом был кризис в виде ковида. Выпадающие две верхних точки относятся к зелёной энергетике, т. Е. к хайпу в настоящий момент. Конечно, хотелось бы, чтобы наклон был больше, но ведь растёт!

Второй график зависимость прибыли за год и отношения Шарпа. Красивый результат, прямо как иллюстрация из учебника. Впрочем, ничего удивительного, добавить волатильность и будет прямая линия.

Как работает табличка

Сперва несколько простых напоминаний, которые все знают, но без которых никуда:

  • Инвестиции: в недвижимость, акции, фонды, образование, золото - это всегда риск. Поэтому просто необходимо оставлять неприкосновенный запас на экстренный случай.

  • Ждать кризиса, чтобы вложиться на низких ценах, или бояться кризиса, это примерно как откладывать по тем же причинам рождение детей. Кризис будет, и будет он завтра, а сегодня необходимо инвестировать (ну и параллельно делать детей).

Конечно у каждого свой стиль жизни и потому свой стиль инвестирования. На семейном совете было решено часть сэкономленных в прошлом средств частями перевести в ценные бумаги и больше туда ничего не докладывать.

Что я стараюсь делать:

  • Продаю ЦБ только не ранее 3 месяцев после покупки. Даю каждой ЦБ шанс показать на что она способна. А могу и продать и раньше хозяин счёта всё-таки я, а не табличка.

  • Если ЦБ лежит на счету уже более 3 месяцев и выбывает из первой десятки, то могу её продать и купить что-то из первой пятёрки.

  • Когда наступает время очередного зуда и хочется продать или купить или и то и другое, я залезаю на finanzen.net/ariva.de в раздел Fonds/ETFs в разделы Fonds-Suche и ETF-Suche (поиск по фондам и ETF), ищу фонды с максимальной прибыльностью за год и вношу их в табличку. Таким образом проблема попасть на фонд вроде индексного фонда японского рынка и зависнуть на десятилетия в минусах практически невозможна.

Что я стараюсь не делать:

  • Вкладываться в иные валюты, нежели евро и доллар. Если посмотреть в долгосрочной перспективе, все региональные валюты (рубль, турецкая лира, ранд, бразильский реал) постоянно снижаются. Единственное наверное исключение это юань, но в него вложиться надо сильно постараться китайские рынки так и остаются за китайской же стеной. Видимо по традиции боятся варваров с севера, и правильно делают.

  • Вкладываться в хайп: Руки, конечно, чешутся, но Тесла/Биткоин не для меня. Если хотите, чтобы Тесла/Биткоин обрушилась, напишите мне и я их куплю. Убытки поделим пополам :-)

  • Меня смущают фонды, не торгующиеся на бирже (пример: green benefit Global Impact Fund). Да, он есть в моей копилке, но его покупка растянулась на три дня, так что быстро избавиться от него в течение 10 минут и по нужной цене скорее всего не удастся.

  • Не связываюсь с акциями и облигациями европейских фирм: К ним у меня никакого доверия после банкротства AirBerlin и Sympatex, чьи дефолтные облигации до сих пор висят мёртвым грузом на моём счету. Только моя медлительность спасла меня от покупки Wirecard прямо перед их дефолтом. Да и Баффета недавно немцы обидели.

  • Я не вкладываю в ЦБ дополнительных денег и вот почему (это лишь моё видение, оно не критично, у каждого свой стиль инвестирования):

  • Фонд должен приносить деньги мне, а не я ему. Поэтому 10% прибыли я вывожу и вкладываю в покупку золота, наличной валюты (можно и в тушенку/патроны, зависит от фантазии), в НЗ, на случай если всё обрушится.

  • Не получается откладывать 10% с зарплаты получается наверное намазываем на хлеб слишком много масла и моемся горячей водой.

А это ни тепло, ни холодно:

  • Комиссия инвестиционной компании (ИК): Не особо обращаю внимания на комиссию. В некоторых случаях она достигает 5%, но и отдача фонда в таком случае может быть неплохой.

  • StopLoss-ы: Иногда применяю, но чаще нет. Их иногда внезапно срывает, после чего позиция откатывается на старые значения. Но уже без меня.

  • Продавать всё во время кризиса. Да, в этот раз (март 2020) стоп-лоссы сработали как часы и я всё быстро распродал, в основном с прибылью. Но потом рынки достаточно быстро восстановились и я еле успел вложиться. Так что вышло то на то.

  • Можно застраховать фонды через Put-опционы. Тут у меня двойственная позиция:

  • Покупать: Автор предпочитает спать спокойно и видеть, что счёт в ИК не зависит от падения рынка.

  • Не покупать: Автор предпочитает спать спокойно, а не подгадывать момент, когда рынок упал с целью продать опцион.

  • В общем, и так и эдак плохо. Реально, последние две мои покупки опционов закончились потерей денег, ну а в сумме: плюс/минус ноль.

Количество фондов: Не имеет значения, главное в верхней трети таблицы. Сейчас 7. Инвестирую каждый раз приблизительно одну и ту же сумму денег, чтобы потом легче было посмотреть где и сколько выиграл/проиграл.

Инвестиционный диапазон: В моём случае, редко какой фонд задерживается более чем на год, но я инвестор скорее нервный, чем рисковый.

Доходность за три года приблизительно 21% годовых. Дело в том, что треть денег сейчас находится в связанном состоянии в акциях. В будущем буду потихоньку от них избавляться и переводить в отраслевые фонды.

Риски

  • Доллар обрушится, обрушится: Честно говоря, не верю по одной причине:

  • Штаты собирают налоги со всего мира: Вот с какого бодуна мне приходится регулярно заполнять форму W-8BEN и посылать её в ИК, хотя я ни разу не гражданин США, а лишь купил их акции или АДР (американские депозитарные расписки)?

  • А вдруг будет новый кризис?

  • Кризис будет, но, экономика сейчас достаточно устойчива. Проверено корона-вирусом.

  • А вдруг завтра война?

  • Очень возможно, учитывая события 2014 года. В этом случае все накопления превратятся в ничто и именно на этот случай 10% прибыли и откладываются в НЗ (золото/тушенка/патроны). Автор до сих пор с содроганием вспоминает прочитанные в школе рассказы очевидцев о блокадном Ленинграде, когда за золото выменивали килограмм требухи типа лёгких.

  • А как на счёт искусственного раскачивания лодки, вроде того что сделали с GameStop?

  • Вот это действительно рискованно. Надеюсь у них хватит такта остановиться. А вообще, вся ситуация с GameStop сильно напоминает Россию в февральскую революцию, когда кучке большевиков удалось расшатать за пару месяцев огромную империю. Есть в Reddite что-то анархо-большевицкое.

Заключение

Вся информация, имеющаяся в статье, получена из открытых источников и ни разу не секретная. Кроме того, табличка скорее корова Шрёдингера неизвестно, жива она, или уже мертва, узнать это можно только опытным путём, начав инвестировать.

Ссылка на табличку

Будьте здоровы!

Живите богато!

Подробнее..

Recovery mode Что происходит с молодежной наукой в России?

13.02.2021 00:15:04 | Автор: admin

В этой статье я хотел бы проанализировать основные проблемы молодежной науки в России. Я выделил следующие:

  • слабая связность системы высшего образования при низком уровне гибкости

  • отсутствие науки как таковой в провинциальных ВУЗах

  • плохое техническое оснащение

  • проблемное и недостаточное финансирование

  • преобладание государственного финансирования

  • избыток научных сотрудников, ригидность мышления профессоров и низкое качество публикаций

  • слабая обратная связь

  • слабая культурная поддержка отечественной науки и неспособность сложившейся системы образования создавать качественные проекты.

Под катом я постарался изложить некоторые факты по молодежной российской науке. Сравнивать я буду на собственном опыте прохождения двух курсов аспирантуры в России и в Германии, на опыте своих коллег и знакомых.


Слабая связность системы высшего образования при низком уровне гибкости

Вообще, всё начинается с высшего образования. Даже в моём не самом плохом ВУЗе - СПБГЭТУ ЛЭТИ - немалый процент лекций вёлся по принципу успей переписать, что говорит препод. В западной науке уже не раз было показано, что простое начитывание лекций гораздо менее эффективно, чем методы, при которых преподаватель коммуницирует с обучающимися (Bligh, D.A., 1972. Whats the Use of Lectures?). Неэффективные лекции - первое, что дискредитирует всю систему высшего образования перед глазами студента.

Следующая проблема заключается в том, что процесс обучения 1-2 курсов не ориентирован ни на что. Несмотря на то, что высшая математика плотно используется во всех областях науки и техники, часто лекторы базовых дисциплин излагают материал, как самодостаточный, без примеров из будущей области деятельности. Кажется странным не упоминать, что матрицы используются в разработке игр, в навигации, в нейронных сетях. Что комплексные числа активно применяются в обработке изображений и звука. Что знание интегралов и производных поможет познакомиться с основополагающими темами машинного обучения. Однако, так часто и происходит. Образование неконсистентно и фактически не способно качественно подготовить инженера или научного сотрудника. На выходе часто получается выпускник с сильно фрагментированными знаниями. Такой человек часто просто не имеет целостной картины своей будущей деятельности, чтобы начать плодотворную научную деятельность.

С переходом в аспирантуру всё становится ещё немного страннее. Чтобы поступить в аспирантуру необходимо сдать экзамены по специальности и иностранному языку. Но после поступления в аспирантуру человеку необходимо снова пройти курс английского. Более того, оказывается, что немалое количество кандидатов наук плохо знает английский, но сдали экзамены по языку в аспирантуре на отлично.

Кроме этого, предполагается, что аспирант должен после поступления пройти курс по философии и истории науки и по педагогике. Но зачем? Мои немецкие коллеги не проходили таких курсов, что не мешает им публиковаться в журналах первого квартиля и вести лекции. Да и давайте будем честны - хороших преподавателей философии и педагогики очень мало.

Кроме этого, аспиранту при поступлении необходимо сдать экзамен по специальности. Но что делать междисциплинарным ученым? Как создавать лаборатории с междисциплинарными исследователями? Почему процесс отбора кандидатов нельзя в большей мере доверить профессору? Все эти вопросы отражают негибкость системы.

Отсутствие науки как таковой в провинциальных ВУЗах

В провинциальных вузах наука практически мертва. Рассмотрим для примера вуз УГТУ. Вуз находится в небольшом городе Ухте в республике Коми. Ухта по идее должна быть довольно богатым городом, заинтересованным в науке, ведь она осуществляет нефтепереработку, транзит нефте- и газопродуктов. Однако же если посмотреть на отчеты за 2018 год, то мы увидим печальную картину - весь УГТУ выиграл 1 (один) грант на 500 тысяч рублей. Моя немецкая лаба в 20 человек показывает результаты в десятки раз лучше, чем целый ВУЗ с 245 человек профессорско-преподавательского состава.

Плохое техническое оснащение

Техническое оснащение лабы, где мне предлагали работать в России не идёт ни в какое сравнение с тем, где я работаю сейчас. В моей немецкой лабе у меня есть кабинет на два человека с одной доской, двумя широкими столами, с двумя шкафами, удобными креслами. В СПИИРАНе большая часть кабинетов представляла собой скорее склад советской мебели и дешевых компьютерных стульев. Я не уверен, что уважающие себя люди согласятся работать в таких условиях.

С другой же стороны, в моей немецкой лабе профессор ради эксперимента спокойно закупил 20 VR-очков. Каждомусотруднику может быть предоставлен хороший ноутбук + компьютер в кабинет. Как думаете, в какой из этих лаб учиться комфортнее?

Проблемное и нестабильное финансирование

Вообще говоря, трудно заниматься наукой, если ты не уверен в завтрашнем дне. Найти реальные данные о том, сколько зарабатывают ученые, не очень просто. Вот, к примеру, одна моя знакомая-физик из Екатеринбурга сказала, что в прошлом году у человека со степенью зарплата вышла в среднем 40 тысяч в месяц. И это ещё был удачный год. А вот результаты опроса из их института:

Вам не кажется, что 20-40 тысяч рублей для человека, который 10 лет учился на физмате (бакалавр+магистр+аспирантура), это немного мало? При этом выплачиваемый оклад составляет лишь 16 тысяч рублей.

По данным Росстата в 2018 году среднемесячная зарплата у научных работников была около 53 тысяч рублей. Интересно, может ли такая затрата полностью покрыть потребности ученого и обеспечить его качественным отдыхом?

Преобладание государственного финансирования

Одна из крайне интересных особенностей, которую выделяет сборник ВШЭ Наука в цифрах за 2018 год, это бюджетно-ориентированная модель поддержки науки.

А интересна она еще и потому, что в немецких лабах многие исследования делаются в рамках частных фондов, что частично подтверждает необходимость большего негосударственного финансирования. Так, к примеру, моя стипендия в 1500 евро тоже выплачивается из частного фонда.

В России же у меня был выбор - либо оплата из гранта профессора в рамках его проекта, либо никакой оплаты. Заниматься собственной темой и получать нормальные деньги мне не предлагали. В принципе заниматься своим проектом мне тоже не особо позволяли. А это ведет нас к следующему пункту.

Избыток научных сотрудников, ригидность мышления профессоров и низкое качество публикаций

В России сложно начать делать исследование в аспирантуре по своей собственной теме. С одной стороны, аспиранту могут не выделить зарплату. Живи на стипендию в 7 тысяч рублей и не в чем себе не отказывай. Как совмещать качественное исследование с работой - большой вопрос. С другой стороны профессора просто могут не поддержать твою тему. Здесь самое время привести пару историй из жизни.

История 1

Где-то в 2016 году я поступил в СПИИРАН. Пришел с горящими глазами к профессору В. Попросился к нему в лабу он занимался тогда онтологиями и немного безопасностью, я с похожей темой и пришел. Обсудили тему, он согласился стать научником. Я поступил, прихожу через несколько месяцев обсудить тему, которую мы согласовали, а в ответ: "Ну, мы же это давно согласовали, тогда всё по-другому было, будешь работать над другой темой, твоя тема мне неинтересна."

История 2

Через год я пришел к профессору Александру М. Я хотел спросить его мнения, как мне лучше подготовиться к гранту Умник. Моя тема состояла в том, чтобы попробовать придумать механизм безопасности для встраиваемых гипервизоров. М. в ЛЭТИ когда-то вёл у нас безопасность информационных систем.

Пожалуй, это был один самых неприятных разговоров в СПИИРАН. Сначала профессор стал мне говорить, что у меня ничего не получится, что исследовать там нечего, что грант у меня выиграть не удастся (удалось). Потом он начал говорить, что я плохо программирую, потому что не пользуюсь дебаггером. А потом он предложил мне поработать у них секретарем за 13 тысяч рублей.

И таких профессоров немало. Многие не хотят позволять аспирантам работать над собственными темами аспирантов, многие могут нагрубить в лицо.

При этом по отчетам ВШЭ у нас высокое абсолютное количество научных сотрудников, а количество цитируемых публикаций ниже среднемирового. По цитируемости Россия идет рядом с Бразилией в пересчете на одну публикацию (2017).

Слабая обратная связь

Здесь я хотел бы отметить, что государство разрушает механизмы обратной связи. Так, к примеру, если в 2018 году отчет ВШЭ намекает на то, что высокая доля финансирования науки государством не есть хорошо, то в 2021 году на сайте ВШЭ (куда отсылает Росстат) тот же факт приводится скорее как достижение.

Кроме этого, государство продолжает пытаться зарегулировать сферы близкие к науке. Так, к примеру, сейчас в рассмотрении находится законопроект О просветительской деятельности. Крайне размытый и нечеткий, авторы законопроекта сами толком не могут его прокомментировать. Законопроект прошёл два чтения, несмотря на возражения со стороны деятелей науки.

Слабая культурная поддержка отечественной науки и неспособность сложившейся системы создавать качественные проекты

Удивительное дело, но два крупнейших гранта в области культуры особо не поддерживают науку и пропаганду просвещения. Так, к примеру, конкурс молодежных грантов для физ. лиц предусматривает следующие направления:

Студенческие инициативы:

развитие студенческих клубов;
студенческое самоуправление;
студенческие отряды.

Добровольчество:

экологическое волонтерство;
событийное волонтерство;
инклюзивное добровольчество;
культурно-просветительское волонтерство;
патриотическое волонтерство;
медицинское волонтерство;
волонтерство в чрезвычайных ситуациях.

Развитие социальных лифтов:

мероприятия, направленные на развитие Soft-Skills навыков;
содействие в трудоустройстве;
профориентация молодежи.

Инициативы творческой молодежи:

архитектура, дизайн, урбанистика;
литература и история;
театр и кино;
музыка и хореография;
художественное творчество.

Патриотическое воспитание:

гражданско-патриотическое воспитание молодежи;
сохранение традиционной культуры и ремесел народов страны;
сохранение исторической памяти;
поисковые движения.

Спорт, ЗОЖ, туризм:

продвижение здорового образа жизни в молодежной среде;
развитие физической культуры и спорта;
развитие внутреннего молодежного туризма и краеведения.

Профилактика негативных проявлений в молодежной среде и межнациональное взаимодействие:

содействие укреплению межконфессионального и межнационального согласия в молодежной среде;
поддержка молодежи, находящейся в трудной жизненной ситуации;
противодействие курению, алкоголизму, наркомании в молодежной среде;
профилактика и противодействие экстремизму.

Укрепление семейных ценностей:

семейные ценности среди молодежи;
поддержка и развитие семейных мероприятий;
развитие клубного семейного движения.

Молодежные медиа:

создание и проведение Медиашкол, в том числе для начинающих блогеров и видеоблогеров;
создание и развитие молодежных СМИ;
развитие молодежных новостных и образовательных блогов;
проведение мероприятий для специалистов сферы медиа;
создание теле/радиопередач и каналов.

Обратите внимания, что поддержки проектов связанных с наукой вообще нет. Распределение средств Росмолодежью тоже вызывает большие вопросы (1, 2, 3).

В президентских грантах всё немного получше:

Тут науку, образование и просвещение совместили в одно направление. При этом остальные направления кажутся частично дублирующими друг друга.

Всё становится хуже, когда мы переходим к проектам от государства. Так, к примеру, Россия - страна возможностей предлагает такие проекты:

Есть проекты связанные с инженерией: студ. олимпиада Я - профессионал, WorldSkills Russia, Международный инженерный чемпионат CASE-IN. Но это инженерные проекты, это не наука. В России по факту нет установленной цели пропагандировать науку и прогресс. Заметного движения в этом направлении от государства тоже не видно.

При этом попытки государства улучшить образовательные процессы не удаются из-за низкой компетентности участников процесса. Примерами могут служить: вышеупомянутый закон о Просветительской деятельности или сайт для иностранцев без качественной английской версии, выполненный в гугл-переводчике:

А иностранцам искать эти города на карте (6 картинок)

Стоимость же закупки на изготовление сайта - 229 млн рублей.

Кстати, будет произведена ещё и мобильная версия, порядок стоимости закупки у неё тот же.

Вместо заключения

Мне бы очень хотелось знать, что можно с этим знанием делать. Видно, что проблему не получится исправить простым вливанием денег. Или может быть всё в российской молодежной науке совсем не плохо? Что конкретно нужно сделать, чтобы улучшить ситуацию в науке?

Подробнее..

Нужно больше датасетов. Музыка, IT-скилы и котики

11.02.2021 18:04:31 | Автор: admin

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам целых 3 датасета от команд, которые также вышли в финал.

Все они разные: кто-то исследовал музыкальный рынок, кто-то рынок труда IT-специалистов, а кто-то и вовсе домашних кошек. Каждый из этих проектов актуален в своей сфере и может быть использован для того, чтобы что-то усовершенствовать в привычном ходе работы. Датасет с котиками, например, поможет судьям на выставках. Датасеты, которые необходимо было собрать студентам, должны были представлять собой MVP (таблица, json или структура каталогов), данные должны быть очищены и проанализированы. Посмотрим же, что у них получилось.



Датасет 1: Скользим по музыкальным волнам с Data Surfers


Состав команды:

  • Плотников Кирилл project manager, разработка, документация.
  • Тарасов Дмитрий разработка, сбор данных, документация.
  • Шадрин Ярослав разработка, сбор данных.
  • Мерзликин Артём product manager, презентация.
  • Колесниченко Ксения предварительный анализ данных.

В рамках участия в хакатоне участниками команды было предложено несколько различных интересных идей, но мы решили остановиться на сборе данных о российских музыкальных исполнителях и их лучших треках с ресурсов Spotify и MusicBrainz.

Spotify музыкальная платформа, пришедшая в Россию не так давно, но уже активно захватывающая популярность на рынке. Кроме того, с точки зрения анализа данных, Spotify предоставляет очень удобное API с возможностью запроса большого количества данных, в том числе их собственных метрик, например таких, как danceability показатель от 0 до 1, описывающий, насколько трек подходит для танцев.

MusicBrainz это музыкальная энциклопедия, содержащая максимально полную информацию о существующих и существовавших музыкальных коллективах. Своего рода музыкальная википедия. Данные с этого ресурса нам были необходимы для того, чтобы получить список всех исполнителей из России.

Сбор данных об артистах


Мы собрали целую таблицу, содержащую 14363 уникальных записи о различных исполнителях. Чтобы в ней было удобно ориентироваться под спойлером описание полей таблицы.

Описание полей таблицы
artist имя артиста или название группы;
musicbrainz_id уникальный идентификатор артиста в музыкальной базе данных Musicbrainz;
spotify_id уникальный идентификатор артиста в стриминговом сервисе Spotify, если он там представлен;
type тип исполнителя, может принимать значения Person, Group, Other, Orchestra, Choir или Character;
followers количество подписчиков артиста на Spotify;
genres музыкальные жанры артиста;
popularity индекс популярности артиста на Spotify от 0 до 100, который рассчитывается на основе популярности всех треков артиста.


Пример записи

Поля artist, musicbrainz_id и type извлекаем из музыкальной базы данных Musicbrainz, так как там есть возможность получить список артистов, связанных с одной страной. Извлечь эти данные можно двумя способами:

  1. Постранично парсить раздел Artists на странице с информацией о России.
  2. Достать данные через API.
    Документация MusicBrainz API
    Документация MusicBrainz API Search
    Пример запроса GET на musicbrainz.org

В ходе работы выяснилось, что API MusicBrainz не совсем корректно отвечает на запрос с параметром Area:Russia, скрывая от нас тех исполнителей, у кого в поле Area указано, например, Izhevsk или Moskva. Поэтому данные с MusicBrainz были взяты парсером непосредственно с сайта. Ниже пример страницы, откуда парсились данные.


Полученные данные об артистах из Musicbrainz.

Остальные поля получаем в результате GET запросов к эндпоинту.При отправке запроса в значении параметра q указываем имя артиста, а в значении параметра type указываем artist.

Сбор данных о популярных треках


Таблица содержит 44473 записи о самых популярных треках российских артистов, представленных в таблице выше. Под спойлером описание полей таблицы.

Описание полей таблицы
artist имя артиста или название группы;
artist_spotify_id уникальный идентификатор артиста в стриминговом сервисе Spotify (по нему можно будет джойнить таблицы, так как это spotify_id из таблицы с артистами);
name название трека;
spotify_id уникальный идентификатор трека в стриминговом сервисе Spotify;
duration_ms длительность трека в миллисекундах;
explicit содержит ли текст трека нецензурные выражения, может принимать значения true или false;
popularity индекс популярности трека на Spotify *;
album_type тип альбома, может принимать значения album, single или compilation;
album_name название альбома;
album_spotify_id уникальный идентификатор альбома в стриминговом сервисе Spotify;
release_date дата выхода альбома;
album_popularity индекс популярности альбома на Spotify.

Особенности аудио
key предполагаемая общая тональность трека, целые числа накладываются на нотацию звуковысотных классов, 0 = C, 1 = C/D, 2 = D и т.д.;
mode указывает модальность трека, мажор 1, минор 0;
time_signature предполагаемый общий тактовый размер композиции;
acousticness мера достоверности от 0,0 до 1,0 того, является ли трек акустическим;
danceability описывает, насколько трек подходит для танцев от 0,0 до 1,0;
energy представляет собой перцептивную меру интенсивности и активности от 0,0 до 1,0;
instrumentalness определяет, содержит ли трек вокал, принимает значения от 0,0 до 1.0;
liveness определяет присутствие аудитории при записи, принимает значения от 0,0 до 1,0;
loudness общая громкость трека в децибелах, типичный диапазон значений от -60 до 0 дБ;
speechiness определяет наличие произнесённых слов в треке, принимает значения от 0,0 до 1,0;
valence описывает музыкальную позитивность, передаваемую треком, принимает значения от 0,0 до 1,0;
tempo предполагаемый общий темп трека в ударах в минуту.

Подробно о каждом параметре можно прочитать здесь.


Пример записи

Поля name, spotify_id, duration_ms, explicit, popularity, album_type, album_name, album_spotify_id, release_date получаем с помощью GET запроса на https://api.spotify.com/v1//v1/artists/{id}/top-tracks , указывая в качестве значения параметра id Spotify ID артиста, который мы получили ранее, а в значении параметра market указываем RU. Документация.

Поле album_popularity можно получить, сделав GET запрос на https://api.spotify.com/v1/albums/{id}, указав album_spotify_id, полученный ранее, в качестве значения для параметра id. Документация.

В результате получаем данные о лучших треках артистов из Spotify. Теперь задача получить особенности аудио. Сделать это можно двумя способами:

  1. Для получения данных об одном треке нужно сделать GET-запрос на https://api.spotify.com/v1/audio-features/{id}, указав его Spotify ID как значение параметра id. Документация.
  2. Чтобы получить данные о нескольких треках сразу, следует отправить GET запрос на https://api.spotify.com/v1/audio-features, передавая Spotify ID этих треков через запятую как значение для параметра ids. Документация.

Все скрипты находятся в репозитории по этой ссылке.

После сбора данных мы провели предварительный анализ, визуализация которого представлена ниже.



Итоги


В результате у нас получилось собрать данные по 14363 артистам и 44473 трекам. Объединив данные из MusicBrainz и Spotify, мы получили наиболее полный на текущий момент набор данных о всех российских музыкальных исполнителях, представленных на платформе Spotify.

Такой датасет позволит создавать B2B и B2C продукты в музыкальной сфере. Например, системы рекомендаций промоутерам исполнителей, концерт которых можно организовать, или системы помощи молодым исполнителям в написании треков, которые с большей вероятностью станут популярными. Также при регулярном пополнении датасета свежими данными можно анализировать различные тенденции в музыкальной индустрии, такие как формирование и рост популярности определённых трендов в музыке, либо проводить анализ отдельных исполнителей. Сам датасет можно посмотреть на GitHub.

Датасет 2: Исследуем рынок вакансий и выявляем ключевые навыки с Ежу понятно


Состав команды:

  • Пшеничный Андрей сбор и обработка данных, написание аналитической записки о датасете.
  • Кондратёнок Павел Product Manager, сбор данных и описание его процесса, GitHub.
  • Щербакова Светлана сбор и обработка данных.
  • Евсеева Оксана подготовка итоговой презентации проекта.
  • Елфимова Анна Project Manager.

Для своего датасета мы выбрали идею сбора данных о вакансиях в России из сферы IT и Телеком с сайта hh.ru за октябрь 2020 года.

Сбор данных о скилах


Самым важным показателем для всех категорий пользователей являются ключевые навыки. Однако при их анализе у нас возникли трудности: эйчары при заполнении данных о вакансии выбирают ключевые навыки из списка, а также могут вносить их вручную, а следовательно, в наш датасет попало большое количество дублирующих навыков и некорректных навыков (например, мы столкнулись с названием ключевого навыка 0,4 Кb). Есть ещё одна трудность, которая доставила проблем при анализе получившегося датасета, только около половины вакансий содержат данные о заработной плате, но мы можем использовать средние показатели о заработной плате с другого ресурса (например, с ресурсов Мой круг или Хабр.Карьера).

Начали с получения данных и их глубинного анализа. Далее мы произвели выборку данных, то есть отобрали признаки (features или, иначе, предикторы) и объекты с учетом их релевантности для целей Data Mining, качества и технических ограничений (объема и типа).

Здесь нам помог анализ частоты упоминания навыков в тегах требуемых навыков в описании вакансии, какие характеристики вакансии влияют на предлагаемое вознаграждение. При этом было выявлено 8915 ключевых навыков. Ниже представлена диаграмма с 10 наиболее популярными ключевыми навыками и частотой их упоминания.


Наиболее часто встречающиеся ключевые навыки в вакансиях из сферы IT, Телеком

Данные получили с сайта hh.ru с помощью их API. Код для выгрузки данных можно найти тут. Вручную выбрали признаки, которые нам необходимы для датасета. Структуру и тип собираемых данных можно увидеть в описании документации к датасету.

После этих манипуляций мы получили Dataset размером 34 513 строк. Образец собранных данных вы можете увидеть ниже, а также найти по ссылке.


Образец собранных данных

Итоги


В результате получился датасет, с помощью которого можно узнать, какие навыки являются самыми востребованными среди IT специалистов по разным направлениям, и он может быть полезен для соискателей (как для начинающих, так и для опытных), работодателей, hr-специалистов, образовательных организаций и организаторов конференций. В процессе сбора данных были и трудности: слишком много признаков и они написаны на низкоформализируемом языке (описание навыков для кандидата), половина вакансий не имеет открытых данных о заработной плате. Сам датасет можно глянуть на GitHub.

Датасет 3: Наслаждаемся многообразием котиков с Команда AA


Состав команды:

  • Евгений Иванов разработка веб-скрапера.
  • Сергей Гурылёв product manager, описание процесса разработки, GitHub.
  • Юлия Черганова подготовка презентации проекта, анализ данных.
  • Елена Терещенко подготовка данных, анализ данных.
  • Юрий Котеленко project manager, документация, презентация проекта.

Датасет, посвящённый котам? Да почему бы и нет, подумали мы. Наш котосет содержит образцы изображений, на которых сфотографированы кошки различных пород.

Сбор данных о котиках


Изначально для сбора данных мы выбрали сайт catfishes.ru, он обладает всеми нужными нам преимуществами: это свободный источник с простой структурой HTML и качественными изображениями. Несмотря на преимущества этого сайта, он имел существенный недостаток малое количество фотографий в целом (около 500 по всем породам) и малое количество изображений каждой породы. Поэтому мы выбрали другой сайт lapkins.ru.




Из-за чуть более сложной структуры HTML скрапить второй сайт было несколько сложнее первого, но разобраться в структуре HTML было легко. В итоге нам удалось собрать со второго сайта уже 2600 фотографий всех пород.
Нам не потребовалось даже фильтровать данные, так как фотографии кошек на сайте хорошего качества и соответствуют породам.

Для сбора изображений с сайта нами был написан веб-скрапер. Сайт содержит страницу lapkins.ru/cat со списком всех пород. Сделав парсинг этой страницы, мы получили названия всех пород и ссылки на страницу каждой породы. Итеративно пройдя в цикле по каждой из пород, мы получили все изображения и сложили их в соответствующие папки. Код скрапера был реализован на Python с использованием следующих библиотек:

  • urllib: функции для работы с URL;
  • html: функции для обработки XML и HTML;
  • Shutil: функции высокого уровня для обработки файлов, групп файлов и папок;
  • OS: функции для работы с операционной системой.

Для работы с тегами мы использовали XPath.



Каталог Cats_lapkins содержит папки, названия которых соответствуют названиям пород кошек. Репозиторий содержит 64 каталога для каждой породы. Всего в датасете содержатся 2600 изображений. Все изображения представлены в формате .jpg. Формат названия файлов: например Абиссинская кошка 2.jpg, вначале идёт название породы, затем число порядковый номер образца.



Итоги


Такой датасет может, например, использоваться для обучения моделей, классифицирующих домашних кошек по породам. Собранные данные могут быть использованы для следующих целей: определение особенностей по уходу за котом, подбор подходящего рациона для кошек определённых пород, а также оптимизация первичной идентификации породы на выставках и при судействе. Также котосет может использоваться и бизнесом ветеринарными клиниками и производителями кормов. Сам котосет находится в свободном доступе на GitHub.

Послесловие


По итогам дататона наши студенты получили первый кейс в своё портфолио дата-сайентиста и обратную связь по работе от менторов из таких компаний, как Huawei, Лаборатория Касперского, Align Technology, Auriga, Intellivision, Wrike, Мерлин АИ. Дататон был полезен ещё и тем, что прокачал сразу и профильные хард- и софт-скилы, которые понадобятся будущим дата-сайентистам, когда они будут работать уже в реальных командах. Также это хорошая возможность для взаимного обмена знаниями, так как у каждого студента разный бэкграунд и, соответственно, свой взгляд на задачу и её возможное решение. Можно с уверенностью сказать, что без подобных практических работ, похожих на какие-то уже существующие бизнес-задачи, подготовка специалистов в современном мире просто немыслима.

Узнать больше про нашу магистратуру можно на сайте data.misis.ru и в Telegram канале.

Ну, и, конечно, не магистратурой единой! Хотите узнать больше про Data Science, машинное и глубокое обучение заглядывайте к нам на соответствующие курсы, будет непросто, но увлекательно. А промокод HABR поможет в стремлении освоить новое, добавив 10 % к скидке на баннере.



image



Подробнее..

Открытые данные. Авиационно-космические музеи США и России. Хьюстон у нас проблемы

01.03.2021 18:19:29 | Автор: admin
Авиационный музей это всегда очень интересно (и очень дорого). И это история. История развития технологий, промышленности, страны, мира. История побед и поражений. Это место где интересно всем. Используя открытые данные сравним Авиационные музеи США и России. Открытые данные Открытое государство.

Начнем с количества, а потом плавно (надеюсь) перейдем к качеству.

На портале открытых данных Министерства Культуры России размещен набор данных Музеи и галереи. Воспользуемся им.

Для работы с набором используем мобильное приложение под iOS Наша Москва. Это пока единственный в App Store мобильный клиент различных порталов открытых данных России.

Выбираем в главном меню приложения портал Министерство Культуры, находим набор Музеи и галереи.



Видим 4445 записей (объектов).

К сожалению, в наборе нет поля указывающего на то, о чем коллекция музея, поэтому легко найти все музеи с предметной областью авиация и космонавтика не получится. Проблема. Придется помучиться.

Посмотрим на набор внимательно.

Нужного поля нет, но есть время работы каждого музея по всем дням недели и часовой пояс где он размещен. Один день недели одно поле Нет, это нам тоже не поможет. А вообще кому это расписание надо? Извините, отвлекся.

Чтобы выбрать все музеи с соответствующей тематикой придется искать все записи содержащие слово авиа.

В меню приложения есть функция Поиск. Условие для поиска авиа.

Нашли 56 объектов. Хорошая цифра.

Смотрим, но в найденный список, кроме музеев с нужной тематикой попали и другие, в частности все музеи и выставки в которых просто упоминаются авиаконструкторы как земляки и объекты с адресами содержащими слово авиа. То есть, не все найденное авиа музей.
Открывать для просмотра каждую найденную запись для подсчета общего число музеев желания нет.

Лучше поищем записи содержащие слово космос найдено 29.

Та-же ситуация как и первом случае, наличие мусора (не все золото, что блестит).

Посмотрим на пересечение найденных списков.

Пробуем найти все музеи по условию космос + авиа. Находим только три объекта. Немного.

В этом случае только два из них нам подходят:

  1. Государственный музей истории космонавтики в г. Калуга;
  2. Центр Авиация и Космонавтика (ВДНХ павильон Космос) (не помню, чтобы там внутри павильона были самолеты, но поверим).

Третий объект не имеет никакого отношения к цели поиска (опять мусор), это Доммузей скульптора Опекушина, он просто расположен на проспекте Авиаторов у автостанции ТЦ Космос (бывает).

То есть количество мусора здесь составляет 33%.

Все найденные записи пересматривать нет желания, поэтому приняв, что 33% это мусор, и сложив авиа плюс космос (56 + 29) Итого: 83 объекта.

Уберем мусор (Учитывая рассуждения про его примерное количество) и будем считать, что в России, согласно открытым данным Министерства Культуры, порядка 60 музеев c авиакосмической тематикой (думаю не обидел).

Теперь обратимся к открытым данным США.

Для этого не будем искать и анализировать наборы данных, а воспользуемся приложением под iOS Open COSMOS, в котором уже используется соответствующий набор данных (музеи США с авиационной и космической тематикой).



Кроме описания, ссылки на сайт и содержания экспозиции каждого объекта, в приложении есть вид на музей сверху (карты вид со спутника), поэтому в достоверности информации сомневаться не приходится. Все объекты очевидны, то есть актуальны.

Сначала общая цифра.

По данным из сводной таблицы внутри этого приложения количество музеев с авиационной и космической тематикой в США более 360

Внушает



Посмотрим на них более внимательно.

Из 360 классический вариант музея 295 объектов.

Самый интересный и большой из них (личное мнение) это Национальный музей ВВС США.



Российский аналог, музей ВВС в Монино, Московская область. Правда по количеству экспонатов в коллекции музей в Монино раз в десять меньше. При этом все экспонаты в США под крышей, а вот в России под снегом. Но об этом чуть ниже.

Остальные 60 составляют:

  • 10 (NASA Visitors Center) очень далекий, далекий аналог российских ведомственных музеев отдельных предприятий (за забором) которые в свою очередь выросли в России из Музеев трудовой славы (которые ранее были обязаны быть на каждом предприятии). Как пример, ведомственный музей НПО Энергии.

Только в США в эти Visitors Center вход свободный (но платный), а вот в музей НПО Энергии попасть с улицы не просто. И пусть простит меня NASA за такое сравнение (ничего лучшего в голову не пришло).

Для примера фото подобных объектов. Это одно из зданий в Космическом центре имени Линдсона Джонсона (Хьюстон, Техас):







и Космический центр имени Джона Кеннеди (мыс Канаверал, Флорида):





  • 39 (Static Display) это реальные самолеты (sr-71, B-52, U-2, A-10 и т.д.) выставленные в парках, у дорог, на территории военных баз и т.д U-2 (Static Display):




Этот самолет виден на карте в нижней части экрана:



На одной стоянке может быть установлен больше чем один объект. Это как раз видно на предыдущем фото в его верхней части.

В России тоже такие есть, вот только не знаю пытался ли кто-нибудь создать их каталог или нет (но на портале открытых данных их точно нет, если ошибаюсь подскажите).

  • 9 (Storage) места хранения бывших в употреблении аппаратов. Просто на хранении или ожидающих в очереди на разборку и утилизацию (но при этом туда можно прийти и посмотреть).
  • Ниже фото с подобного места хранения расположенного на авиабаза ВВС США Девис-Монтен (Туcон, Аризона)





И вид сверху (карта):



Попасть сюда очень просто.

Приезжаете в музей авиации и космонавтики Пима, расположенный в Тусоне, штат Аризона,и покупаете в нем трёхчасовую экскурсию на авиабазу (им все равно из какой страны вы приехали).



9 (Naval Ship) авиационные музеи на базе морских военных судов в основном авианосцев. Авианосцев в виде музеев в России вообще нет. Есть за пределами страны. В Китае Почему не у нас, не знаю)
Как пример, авианосец Мидуэй в Сан-Диего, Калифорния:





Думаю с количеством все понятно. В США 360, в России 60. Похоже у них больше В шесть раз. Мы тут явно проиграли.

Теперь поговорим о качестве экспозиций.

Большая часть музеев в США частные, не государственные.

Как пример вот список экспонатов частного музея в Сиэтле (Museum of Flight) (Вашингтон):
Конкорд, МиГ-15, МиГ-17, МиГ-21, Як-9, Союз ТМА-14, Lockheed M-21 (A-12 Blackbird), Боинг 737, Боинг 747, Боинг 787, Мессершмит 109 и так далее. (Откройте сайт музея и посмотрите).

О чем это говорит?

  • Ответ: им некуда тратить деньги не подходит Деньги всегда есть куда тратить. Например можно купить яйца Фаберже.
  • Думаю, более правильный ответ у них есть деньги и им это интересней, чем приобретение яиц Фаберже.

А может правда яйца все уже скуплены, вот и приходится брать то, что осталось.

Немалое количество частных музеев состоит из летающих экспонатов. Хотите посмотреть на MиГ-17 в полете добро пожаловать в США.

Вот он красавец со звездами.



В России не слышал про такое (и не видел) если не прав просьба поправить и рассказать где их можно увидеть.

Кроме перечня музеев, в приложении Open COSMOS приведены основные экспонаты в каждом из них.
Поищем наших (но бывших) соотечественников.
Оказывается они (то есть мы) очень хорошо там представлены.
В музеях США можно посмотреть на:
АН-2, ИЛ-2, ИЛ-14, КА-26, ЛА-9, МиГ-15, МиГ-17, МиГ-19, МиГ-21, МиГ-23, МиГ-25, МиГ-29, МИ-24, И-15, И-153, И-16, ПО-2, СУ-7, ТУ-2, Як-3, Як-9.
Достойная экспозиция



У нас тоже кое что можно увидеть от них:

Douglas A-20:



Bell P-63, North American B-25, Piasecki CH-21 (вертолет) (в музее ВВС Монино).

Всего 4 экспоната, из которых 3 относятся к периоду Великой Отечественной.

Извините, забыл, есть еще у нас в музее ВВС (Монино) довольно точная копия B-29 (ниже на снимке B-29 в Национальном музей ВВС США):



а на этом снимке он в Монино, уже в виде Ту-4:



Именно после этого самолета Туполев почему-то стал заканчивать все свои основные разработки на цифру четыре, (Ту-104, Ту-114, Ту-124, Ту-134, Ту-144, Ту-154) говорят суеверие, чтобы везло как с Ту-4

Извините отвлекся, вернемся к экспонатам.



В музеях США только МиГ-29 8 единиц (на фото в Национальном музее ВВС США он здесь стоит под крылом B-1):



МиГ-15, МиГ-17 и МиГ-21 и не пересчитать.



Такое впечатление, что из России есть прямые поставки их в США. Как списали, так сразу и отправляют. И по всей видимости не бесплатно.

Хотелось бы и в наших музеях посмотреть например на F-86, F-4, F-94, F-104, F-16 и так далее. Но увы, обратные поставки их техники в нашу страну пока не налажены.

Нет их в наших музеях. А у них наши есть. Похоже мы опять не первые.

Может в области немецких авиационных экспонатов из времен Великой Отечественной у нас нет проблем?

Должны же быть трофеи.

Вполне возможно в этой части исторического материала мы первые?

В музеях США выставлены немецкие (Вторая Мировая) Messerschmitt Me.262:



Me.163:



Me.328, Bf.109, ракеты V-1 (ФАУ-1) как обычная:



так и пилотируемая версия (да была и такая Fi-103r Reichenberg), V-2 и даже Bachem Ba 349 (именно на этом аппарате впервые но неудачно была осуществлена попытка вертикального управляемого полета на жидкостном ракетном двигателе), различные варианты Heinkel и Focke-Wulf.

Причем все эти экспонаты не единичны, их много и представлены они в различных музеях страны. Более того, часть из них есть в живом, летающем состоянии. У них представлена очень и очень большая коллекция машин того времени.

А в России? В Музее техники Вадима Задорожного есть немецкий Messerschmitt Bf.109 1 штука.
И все Такое впечатление словно вторая мировая была на территории Северной Америки, а не в Европе. И все трофеи достались им.

В этой области опять сравнение не в нашу пользу.

Теперь личный взгляд на внутреннею организацию музеев.

Она тоже очень разная.

У нас в основном это площадки с табличками под экспонатами.

В США большая часть основных музеев представлена в виде экспозиций по периодам привязанным к мировым и локальным конфликтам (Первая мировая Вторая Холодная война Корея Вьетнам Куба Космическая гонка), это логично понятно и при этом вокруг каждого экспоната в США присутствует какая либо история.



Вот (музей ВВС США в Дэйтоне) рассказ об угнанном из Корее МиГ-е:



У них в любом музее можно понять историю появления экспоната без гида, всегда есть соответствующая информация



и много дополнительной визуализации.



У нас, без гида, только посмотришь на железо и прочитаешь, в лучшем случае, его наименование и имя главного конструктора.

Наш основной музей в Монино выстроен бессистемно. (Внимание это личное мнение! Можно спорить. Очень интересно.)

Есть несколько зданий в которых сделана попытка рассказать о ранних этапах в развитии отечественной авиации (не мировой) с очень бедной экспозицией, несколько ангаров с экспонатами возле которых присутствуют только небольшие таблички с описаниями, и поле, со стареющими и умирающими под открытым небом самолётами и вертолетами.



Причем в расстановке на поле опять же нет никакой логики.

Формально это просто площадка с техникой (Static Display), приходи и смотри. Но вряд ли ты что то познаешь новое. Очень жаль.

И конечно полное отсутствие представителей мировой авиации, тут вам не там.

Но история авиация, ее тренды, не формировались одной страной, она интересна в полной картинке.

Вот как раз этого у нас и нет. Искренне жаль.

А у них есть.

Вот картинка из музея на мысе Канаверал (NASA Visitors Center):



Все в наличии и Королев и Гагарин и Союз под потолком:



У нас в ведомственном музее НПО Энергии тоже есть Apollo (модель) но кто ее видел? (Кроме меня. Шутка.)

И на этом все.

И по особым экспонатам, Made in USA.

У них выставлены SR-71:



F-22:



F-117:



b-2:



все в отличном состоянии (как только с завода)

Интересно и размещение музеев в США.

Поскольку в открытых данных есть координаты, то можно в приложении посмотреть на размещение определенных групп музеев.

Вот так разбросаны музеи на основе морских военных судов (авианосцев).



Тут все логично по периметру страны. Выбирай ближайший и езжай смотри.

Если же говорить про текущее состояние этих кораблей то стоит напомнить, что 11 сентября именно такой авианосец музей (Intrepid) в Нью-Йорке был использован под временный штаб во время атаки террористов.



Музей то он музей, но как в песне это наш бронепоезд. Стоит на запасном пути!
То есть по периметру страны равномерно размещена целая группа подобных бронепоездов.

А вот в каких штатах расположены музеи на основе ракетных площадок (Missile site). Смотрим на маленькую карту в верхней части:



Сразу видно как в США расположены стратегические ракетные войска.

Хотите узнать кто и откуда внимательно смотрит за остальным миром. Посмотрите на каких площадках (Static Display) выставлены U-2 и SR-71.

Это штаб квартира ЦРУ здесь SR-71:



а вот военная база здесь и SR-71 и drone к нему:



и левее (на карте уже а приложении) можно увидеть U-2. На самой же базе прекрасно видны сверху большие беспилотники. Небольшое приятное дополнение к действующей экспозиции при просмотре карт сверху.

Может быть именно и поэтому нет у нас подобного. Посмотрел на размещение музеев и сразу все понял. То есть мы бы могли, но не сейчас. Когда-нибудь потом.

Но раз своих не построили может пришло время начать покупать в США не только современные гаджеты, но авиационные музеи?

Вывод:



Хьюстон у нас проблемы.
Подробнее..

Возглавляя тренды, часть вторая

24.01.2021 14:08:22 | Автор: admin

Всем привет! На связи Павел Красовский, заместитель директора Центра стратегических инноваций в Ростелекоме. О важности собственной методологии для оценки перспективных технологий я писалв предыдущем посте, вкратце нам нужно понимать, по каким именно критериям оценивается важность и актуальность того или иного тренда. Сторонние исследования базируются на непрозрачных методах, поэтому Хочешь сделать хорошо сделай сам.

Методология

Краеугольным камнем нашей методологии является тот очевидный факт, что на пути развития человечества, особенно в цифровую эпоху, уже аккумулировано огромное количество информации. Всё это, от знаний о технологиях промышленных революций прошлого века до самых свежих идей, уже оцифровано и где-то заботливо хранится.

Причем намбыло важно, чтобы для каждого этапа развития тренда существовал источник, которому мы можем доверять, иначе это ставит крест на всей методологии. Мы выявили несколько источников, которые являются самоорганизующимися и самообновляемыми системами, куда авторам выгодно размещать информацию:

Научная среда.
Ученые, исследующие ту или иную область, сами заинтересованы активно писать научные статьи. Тут тебе и прокачка собственного рейтинга, и индекс цитируемости, и позиции значимых журналов, и многие другие плюшки.

Изобретения и патенты.
С патентами вообще всё просто: первым запатентовал что-то стоящее до пенсии обеспечен. И вся информация о патентах публична, т.к. все хотят застолбить поляну.

Создание стартапов.
Стартапы, за редким исключением, сами заинтересованы раскрывать информацию об объёме привлеченных средств, т.к. это показывает капитализацию другим инвесторам и помогает стартапу поднять ещё раунды.

Позиции крупных игроков отрасли.
Компании заинтересованы в распространении горячих вакансий, чтобы скорее их закрыть. Со СМИ все понятно при выпуске нового продукта любая компания всеми правдами и неправдами пытается залезть в СМИ.

А ещё кто-то из китов может взять и купить тот или иной стартап. Или пойти и начать делать свой стартап в этой же отрасли и по такой же теме. Это мы тоже отслеживаем как по профильным ресурсам, так и по новостям и ресурсам для HR. Причем тут HR? Когда крупная компания не покупает стартап, а решает делать свой по нужной теме, она начинает наращивать компетенции, читай нанимать спецов из нужной отрасли. И тут уже имеет смысл оценивать базы вакансий и резюме, совокупность вакансий = спрос на технологию и тренд, совокупность резюме = предложение. Это всё можно собрать, посчитать, посмотреть на пересечения и перегибы и найти причинно-следственные связи. Так работают эти источники много лет, значит, им можно доверять.

Вообще, в идеале бы глубоко изучитьна эту тему социальные сети, но они пока не дают необходимого уровня доступа для сбора подобной информации. Особенно Facebook, после событий с Cambridge Analytica.

Пока, за три года, мы прогнали через систему 4,8млн. научных публикаций, 2,4 млн. патентов, информации об инвестициях на сумму$2,3 трлн, 2 млн. вакансий и 7 млн. резюме, около 1 млн. публикаций в СМИ и столько же поисковых запросов.

Как оцениваем

Понятное дело, что как бы сильно ни был натаскан ИИ, какие бы подробные модели мы ни строили, работа системы это первый этап фильтрации. Всё, что мы получаем с помощью наших роботов и апишек, потом направляется на лингвистическую оценку, а затем машинное обучение всё это кластеризует и считает.

Технологический стек исследования трендов:

Сначала из массива вычленяются наиболее частотные и релевантные данные, которые уже можно начинать считать трендами. По хэштегам научных статей строится подробный список трендов, который расширяется по инвестициям и патентам, там тоже довольно много слов для анализа, в итоге получается порядка 2-3 тысяч трендов. На основе кластерного анализа соединяем вершины, и машина начинает подсказывать, что вот тут и вот там вполне себе возможен тренд. На выходе уже список примерно из 200 штук вместо 3 тысяч.

Эти 200 трендов мы уже отсматриваем вручную и отбрасываем какие-то откровенно общие. Допустим, выдала нам машина интернет или software, такой уровень абстракции нам ни к чему. После просмотра всего списка остаются уже 100-120 трендов.

Процесс выявления трендовПроцесс выявления трендов

Процесс выявления трендов

Да, кстати, о лингвистическом анализе. Всё было бы сильно проще, если бы каждый термин использовался только в своем значении, без синонимов и аббревиатур. Но, как вы знаете, ситуация выглядит иначе. Где-то интернет вещей будет назван интернетом вещей, в других источниках IoT, в патентах sensor network, machine type communication и так далее. В общем, кто во что горазд, поэтому мы адаптируем терминологию под конкретный вид источника: под каждый составляется уникальное именно для него семантическое ядро, и тренд привязывается к определенному лексикону.

Потом берём полученные семантические ядра и прогоняем все данные через систему, получая количественные оценки не только по разным трендам, но и отраслям, странам, организациям.

Пока мы хорошо изучили отрасль телекома (мы же из телекома), но подобное возможно для любой отрасли. К слову, мы потихоньку начинаем предоставлять различным компаниям доступ к нашему продукту.

Где всё это можно использовать

Во-первых, это точно пригодится любому аналитику и стратегу в его текущей работе. Во-вторых, такое любят лица, принимающие решения. На основе всех наших данных можно строить большое количество разных графиков.

Например, высокоуровневый список вида Топ-100 чего-нибудь, который топы любят смотреть, чтобы понимать во что инвестировать. Практический смысл у таких рейтингов следующий. Есть у компании некий бюджет который она готова потратить на инновации. И ей нужно определить во что вкладывать. Искусственный интеллект? Блокчейн? Беспилотные автомобили? Или может квантовые компьютеры? Подобные списки помогают сравнивать перспективность разных технологий между собой. Конечно, после построения таких списков необходима их верификация и аналитическая интерпретация, но опираться на них вполне можно.

По итогам 2019 года список Топ-15 трендов выглядит так:

Искусственный интеллект второй год подряд занимает 1-е место в общем рейтинге (за последний год отрыв от мобильных сетей только увеличился). В 2019 году неплохой рост показали облачные технологии, поднявшись с 10-го на 4-е место, и технологии дополненной реальности, поднявшись с 24-го на 14-е место.

По каждой технологии мы готовим такие карточки:

Анализируя полученную информацию можно получить много инсайдов. Например, анализируя данные по искуcственному интеллекту и квантовым технологиям, мы обнаружили интересную закономерность: начиная с 2015 года в научных публикациях появляется термин quantum machine learning (использование квантовых компьютеров для анализа данных с помощью машинного обучения). А в 2019 году каждая 15-я научная статья по квантовым технологиям содержала отсылки к искусственному интеллекту. Это говорит о том, что ученые озабочены проблемой нехватки текущих вычислительных мощностей для дальнейшего развития ИИ и, судя по всему, квантовый компьютер станет решением этой проблемы.

5G за год из инновации превратилась в зрелую технологию, которая оказывает достаточно сильное влияние на другие технологии: в странах с первыми коммерческими сетями 5G увеличилась патентная и инвестиционная активность в сфере VR.

В этом году мы заметили, что за все пять лет наблюдений больше всего вырос тренд на беспилотные автомобили. Инвестиции в беспилотники держатся на высоком уровне два года подряд значит технология достаточно созрела для массового использования. Осталось решить вопросы отсутствия необходимой инфраструктуры и нормативных ограничений.

Ещё одним открытием для нас стали технологии убеждения (persuasive techniques) смесь из привычных ИТ-сервисов и психологических приемов. В 2019 году было сразу несколько крупных инвестиций и рост вакансий в этой области. Основное применение приложения, посвящённые здоровому образу жизни и образовательные сервисы. Другим применением является использование этих технологий в избирательных кампаниях, яркий пример: небезызвестная Cambridge Analytica в 2018 году. Похоже, что среди технологий двойного назначения прибыло.

Мониторинг трендов отличный инструмент для наблюдения за технологическим развитием стран. Вот как, например, выглядит борьба США и Китая за мировое лидерство, которое последние пять лет планомерно захватывал Китай:

Китай абсолютный мировой лидер по патентам и научным публикациям: каждый второй патент и каждая четвертая научная статья в сфере ИКТ китайские. Лидерство США сохраняется только в области инвестиций.

Отслеживать тренды важно ещё вот почему: вы помните, как быстро на рынок ворвались Apple Watch, став первой в мире маркой по узнаваемости часов чуть ли не за два года, обогнав классические цифровые бренды? Вроде как случилось это довольно быстро и внезапно. На самом деле Apple начала активно патентовать технологии для них за десять лет до выхода первой модели часов.

Поэтому нужноотслеживать технологии на ранних этапах, когда они только зарождаются. Такие технологии мы тоже научились выявлять, мы называем их слабыми сигналами. Обычно такие технологии растут очень быстро (на десятки и сотни процентов в год), но это происходит за счётэффекта низкой базы, и нужно перебрать очень много мусора, чтобы найти действительно стоящий тренд. Потому что на этапе наращивания научной базы ещё не понятно будет ли обсуждаемая технология таким же прорывом, как ИИ, или это очередной МММ. Но со слабыми сигналами сложнее потому, что они очень незаметны на общем фоне, у них слишком низкие показатели.

Вот, что мы выявили по итогам 2019 года:

Но вот будем ли мы с вами в скором времени пользоваться благами точной медицины или эластокалорического эффекта вопрос остаётся открытым.

Больше аналитики по итогам Мониторинга трендов цифровизации можно получить из наших ежегодных отчётов, доступных по ссылкездесь.

Про планы

Мы продолжим делать количественные оценки трендов на ежегодной основе. К тому же этот процесс уже внедрен в стратегическое планирование Ростелекома, на основе мониторинга трендов мы получаем список технологий, которые компания планирует в ближайшее время развивать.

Каждый год стараемся увеличить количество анализируемой информации, добавляем новые характеристики, влияющие на веса в источнике, и расширяем список источников (например, думаем включить капитализацию компаний, количество просмотров статей и подобное). А также работаем над улучшением качества наших моделей и алгоритмов, чтобы минимизировать ошибки классификации и кластеризации.

Рассказывая про проект на разных конференциях, мы поняли, что он востребован у наших партнёров и коллег. Поэтому сделали из него продукт для внешнего пользования, который называетсяTeqViser. Так что, если для ваших задач подобные аналитические инструменты представляют интерес, уверен, что совместно мы сможем сделать что-то крутое, чего до нас никто не делал.

Подробнее..

Новый сервис от Google ставит под вопрос защиту персональных данных

20.03.2021 12:10:38 | Автор: admin

Google планирует заменить cookie на новую технологию сбора информации о пользователях для рекламодателей. В Евросоюзе опасаются монополии IT-гиганта в области обезличенных данных (ОД) и деанонимизации. Представители бизнеса и эксперты соглашаются с тем, что американская компания только формально будет соблюдать законы стран о защите персональных данных (ПД). По факту Google получит IT-инструмент не только маркетингового, но и идеологического манипулирования гражданами.

Cookie vs FLoC

Организация Electronic Frontier Foundation (EFF), защищающая права пользователей в интернете,раскритиковалановую разработку Google Federated Learning of Cohorts (FLoC), которая придет на замену cookie. По мнению экспертов EFF, новая технология не позволяет сохранять анонимность.

IT-гигант в январе этого годапредставил FLoC систему таргетирования на основе интересов пользователей. IT-продукт будет реализован на базе Chrome. На данный момент он уже включен в качестве экспериментальной функции в следующую сборку браузера и будет запущен в марте этого года.

FLoC будет собирать данные о пользователях через установленный в гаджетах браузер, обезличивая их с помощью машинного обучения, а затем передавать деперсонализированную информацию на серверы компании. Разработчики уверяют, что в данных не будет конкретной истории поиска или посещений сайтов.

Основная цель FLoC создать на стороне браузера маркетинговый полуфабрикат, который бы классифицировал пользователей по определенным когортам (группам). Эта информация позволит выстраивать компаниям таргетированную рекламную стратегию для продвижения своих товаров. Для сервера пользователь становится не Иваном Ивановым, а представителем определенной целевой группы. Например, ценителем антиквариата и оперы, рассказывает RSpectr ведущий аналитик СёрчИнформ Леонид Чуриков.

В EFF отмечают, чтоGoogle, решая проблему с cookie, создает новые болевые точки.

У cookie сложился токсичный имидж. Людям не нравится, когда за их действиями наблюдают. Тем более что их даже не уведомляли о сборе данных во время веб-активности, объясняет Л.Чуриков.

Эксперт отметил, что регуляторов в ЕС, в свете европейского регламента по защите персональных данных (GDPR) и других законов о приватности, смущает возможность по cookies однозначно идентифицировать пользователя. В свою очередь, бизнес начал испытывать проблемы из-за регламента, который обязывает уведомлять пользователей о сборе данных. В итоге они чаще отказываются их предоставлять. Как результат, без веб-портрета клиента начала падать эффективность рекламы и объемы продаж, поэтому разработка нового решения ожидаемое для рынка событие FLoC довольно хитрый инструмент. Формально данные полностью обезличиваются, но их сбор происходит по старой схеме: информация о действиях пользователя, его местонахождении, устройстве.

Леонид Чуриков, СёрчИнформ:

Процедура обезличивания с внесением в когорту предполагает сбор, сравнение данных с другими, анализ, группировку пользователей по интересам. Таким образом, персональная информация все равно попадает в Chrome, а значит в Google. Это одна из главных претензий к FLoC с точки зрения безопасности и этики. Технология выглядит как попытка уйти от ответственности по GDPR (и перед пользователями, и перед регуляторами). К тому же ведет к монополизации большого объема чувствительных данных в руках крупного игрока. Притом что с партнерами и рекламодателями Google чистыми данными больше не делится компания может получить конкурентное преимущество, предлагая более персонализированную рекламу.

Инженер-программист Рексофт Максим Жук подтверждает, что через обезличенные когорты можно вычислить возраст, пол, гастрономические и политические предпочтения пользователей. Когда подобные данные разрозненно собираются разными сайтами, из них сложно восстановить цифровой портрет человека. Но при наличии владельца единого хранилища информации задача становится довольно тривиальной, поясняет эксперт.

О том, как это происходит, порталу RSpectr рассказал генеральный директор IT-компании Omega Алексей Рыбаков: При регистрации с помощью почты или при аутентификации через аккаунт Google сайт может соотнести FLoC-группу по интересам с введенными ПД. Это значит, что информация уже не будет обезличена. При наличии данных о нескольких пользователях из одной когорты есть большая вероятность, что у них будут общие признаки. Соответственно, подобная информация о пользователе может быть раскрыта на основе FLoC-группы.

Google опасается, что малое количество людей в когортах по интересам позволит деанонимизировать пользователей, поэтому в каждой категории должно быть несколько тысяч людей, отметил в разговоре c RSpectr преподаватель Moscow Digital School Олег Блинов.

"Вседержитель" данных

Казалось бы, в одну группу попадает много людей, что снижает их идентификацию. Но браузер также передает сайтам данные об устройстве пользователя. ОД будут идти с конкретного серийного номера аппарата, что упростит алгоритм деанонимизации, сообщил RSpectr руководитель центра бизнес-аналитики RAMAX Group Сергей Левашов.

О.Блинов добавляет, что деперсонализация возможна благодаря тому, что будет пересечение неуникальных характеристик, например, IP-адреса и когорты.

Можно отключить передачу большей части этих данных, но нельзя запретить полностью. Как правило, большинство пользователей даже не знают о возможности отключения этой функции. Именно эти детали позволяют отсеять других пользователей из группы интересов и идентифицировать конкретного человека. Таким образом, FLoC-технология может применяться для деперсонализации под самые разные задачи.

Президент ассоциации РУССОФТ Валентин Макаров сообщил, чтоGoogle стремится стать самым крупным держателем обезличенных и персональных данных.

Представитель Рексофт считает, что это более серьезная проблема, чем сам факт деанонимизации.

Максим Жук, Рексофт:

Владельцем всех пользовательских данных будет одна организация. Не общественная, а частная компания. Это дает власть над информацией, даже если она обезличена. Важным свойством интернета является децентрализованность, которая обеспечивает высокий уровень устойчивости. Усиление одной корпорации это путь к воплощению в жизнь антиутопии. IT-гиганты давно идут по собственному пути к доминированию в области владения ОД, и FLoC это крупный шаг Google в этом направлении.

Эксперт считает, что будет правильно, если исходный код нового IT-решения будет открытым, что защитит данные пользователей от прямого сбора.

При этом аналитики признают, что группирование ПД и торговля их обезличенными пачками действительно один из самых простых в реализации способов преодолеть проблемы cookies. При внедрении FLoC все останутся при своем: браузеры, коммерция продолжат собирать данные, регуляторы номинально получат деперсонализацию. Главные проблемы FLoC создаст для здоровой конкуренции в бизнесе, но с учетом лоббистских возможностей крупных корпораций, мнение более мелких игроков рискует остаться неуслышанным, делает выводы Л.Чуриков.

Кого защитит закон

Учитывая, что сформированные FLoC-когорты могут являться идентификаторами человека, сбор таких данных без согласия пользователей в России запрещен, рассказала RSpectr консультант по информационной безопасности Cross Technologies Наталья Иванова. Также гражданам необходимо знать сроки такой обработки, цели и основания. Говоря о согласованности FLoC с европейскими нормами защиты данных, эксперт подчеркнула, что разработка Google может попасть под ограничения GDPR, касаемые профилирования данных. При нарушении этих требований будет нарушен регламент GDPR.

В последние годы по всему миру происходят изменения законодательной базы в отношении сбора и защиты ПД, но каждая из стран делает акцент на кардинально разных моментах.

США всегда стремятся обезопасить своих граждан и их персональные данные с позиции противодействия терроризму и кибератакам. В этом ключе они опасаются, что раскрытая информации может быть использована против государства.

Власти США в 2020 году обязали YouTube, Facebook, Google и другие компании рассказать о методах сбора и обработки ПД, поскольку западные IT-платформы не раз оказывались в центре подобных скандалов, рассказывает А.Рыбаков.

Алексей Рыбаков, Omega:

Например, Google тайно собирал личные данные о лечении пациентов и следил за своими сотрудниками. Twitter сливал рекламодателям телефонные номера и адреса электронной почты. YouTube для показа рекламы собирал данные о детях, а Facebook информацию о пользователях, и предлагал на этом заработать. В США до сих пор отсутствует федеральный закон, охватывающий все штаты, который бы регламентировал защиту персональных данных.

Летом 2020 года Европейский суд в Люксембурге отменил соглашение о трансфере данных между ЕС и США, известное как Privacy Shield (Щит конфиденциальности). Причина опасения по поводу слежки со стороны американских властей. В итоге был вынесен запрет на хранение персональных данных граждан ЕС на территории США, что американцам, конечно, не понравилось, сообщил А.Рыбаков.

Со стороны Евросоюза стоит ожидать пояснений европейских регуляторов о том, должны ли сайты получать отдельное согласие от пользователей на сбор информации для группы по интересам, отметил О.Блинов.

Еврокомиссия ЕС представила новые правила, позволяющие компаниям получать доступ к ОД граждан для развития новых цифровых сервисов. Эти изменения похожи на решение Google. Эксперты считают, что IT-компаниям ЕС будет сложно конкурировать с предложением американского digital-гиганта.

Рекламировать нельзя манипулировать

В Google утверждают, что с новой системой FLoC рекламодатели получат конверсию на уровне 95% за каждый вложенный в продвижение доллар.

В EFF считают, чтоесли данные о когортах сможет получить любой сайт, то возрастут риски агрессивного таргетинга в отношении пользователей.

Поэтому граждане должны сами решать, какую информацию передавать каждому сайту. Если браузеры не будут качественно фильтровать конфиденциальные данные и на их основе будет формироваться реклама, то она может привести к репутационным рискам для пользователя. Например, будет предлагаться товар на основе информации о состоянии здоровья, предполагает Н.Иванова.

Эксперты также отмечают риски нецелевого использования новой технологии.

Валентин Макаров, РУССОФТ:

Таргетированная реклама оказывает целенаправленное воздействие на пользователя, независимо от его желания. При этом она может применяться как для продвижения товаров, так и для формирования идеологии и любых моделей поведения.

О.Блинов не исключает контроля со стороны государств. Если вы периодически заходите на сайты госуслуг, то может быть собрана информация о вашей когорте. На ее основе построят предположения, какие конкретно сайты вы посещали, чем интересуетесь, считает эксперт.

Для бизнеса FLoC тоже станет расширенным по функционалу инструментом. Компании смогут узнавать о пользователях значительно больше, чем знали до этого. Сейчас бизнесу доступна информация только о действиях посетителя в их интернет-магазине. Технология FLoC предполагает, что группа по интересам формируется на основании всех посещаемых человеком сайтов. Получив вашу когорту, интернет-магазин может узнать, чем вы интересуетесь за его пределами, отмечает О.Блинов.

Подробнее..

Открытые данные в России в 2021 году

10.06.2021 10:07:14 | Автор: admin

Открытые данные в России, официально существуют уже 8 лет, 10 июня 2013 года был мой пост на хабре о принятии соответствующего закона.

Что изменилось за эти годы? Стало ли лучше или хуже? Работают ли порталы открытых данных? Публикуются ли данные?

Для тех кто интересуется состоянием открытых данных в России, я решил актуализировать цифры и собрать в виде набора фактов:

  • за 2020 год на федеральном портале открытых данных (data.gov.ru) было опубликовано 223 набора данных, за 5 месяцев 2021 года - только 2 набора данных

  • всего с 2020 года объём этих 225 наборов данных - 405 мегабайт из которых более 390 мегабайт - это данные Минкультуры России и ФНС России (и то есть подозрение что цифры завышены потому что в реестре наборов данных есть дублирующиеся записи. Скорее всего реально данных значительно меньше)

  • лишь 9 178 наборов данных из 24 002 опубликованы федеральными органами власти, остальные региональными и муниципальными

  • 10 ФОИВов не опубликовали ни одного нового набора данных с 2013 года (за 8 лет)

  • 20 ФОИВов не опубликовали ни одного нового набора данных с 2015 года (за 6 лет)

  • 42 ФОИВа не опубликовали ни одного нового набора данных с 2017 года (за 4 лет)

  • 68 ФОИВов не опубликовали ни одного нового набора данных с 2019 года (за 2 года)

  • иначе говоря в 2020 и 2021 года лишь 6 ФОИВов разместили хотя бы один новый набор данных на портале открытых данных

  • некоторые ФОИВы, при этом, кое что опубликовали на своих сайтах, но куда меньше чем раньше и чем могли бы

  • общий объём опубликованных данных на портале data.gov.ru оценить сложно, сайт не даёт статистики, API сайта очень куцое, требуется очень много запросов сделать чтобы подсчитать хоть самые приблизительные цифры, но они будут невелики.

  • параллельно этому на сайтах и FTP серверах органов власти опубликовано открытых данных, оценочно, на 20 терабайт в форме архивов. Количественно - это сотни наборов данных, качественно - это данные большого объёма.

  • безусловные лидеры по масштабам раскрытия данных - Минкультуры, ФНС России, Федеральное казначейство, Минфин России. Даже при том что тенденции там не только к раскрытию, текущие объёмы доступных данных очень велики.

  • источники наиболее крупных наборов данных:

    • Сайт ФНС России (nalog.ru)

    • Портал открытых данных Минкультуры России (opendata.mkrf.ru)

    • Портал госзакупок (zakupki.gov.ru)

    • Единый портал бюджетной системы (budget.gov.ru)

    • ФИАС (fias.nalog.ru)

  • не удалось добиться раскрытия детальной статистики по учреждениям/территориям. Например, нет муниципальной статистики по преступности, качестве образования, качестве здравоохранения.

  • в ряде субъектов федерации закрывают порталы открытых данных. Например, его закрыли в Московской области

  • в других субъектах федерации перестали публиковать новые наборы данных, это касается и портала открытых данных Москвы и десятков других субъектов федерации (чуть ли не всех)

Выводы можно сделать самостоятельно. Нельзя сказать что открытость "схлопывается", но ситуация скорее тревожная. Открытость данных обеспечивают лишь ограниченное число органов власти которые и до легализации открытых данных публиковали немало данных. А вот при сборе сведений из разного рода реестров лицензий, сведений о юр лицах, по прежнему, в 75% случаях приходится писать скрейперы, а не выгружать машиночитаемые открытые данные.

Если видите что какие-то события не упомянуты, смело добавляйте новые факты.

Подробнее..

Винный гид России. Аналитика

11.03.2021 20:12:02 | Автор: admin

Эта статья, как ни странно, про российское вино.

Она абсолютно пятничная и по смыслу, и по духу. Почему же я публикую её сегодня? Потому что завтра в это время я буду пить вино, а значит мне будет не до статей. Так что держите пятничную статью в четверг. Надеюсь, она будет интересна любителям вина. Особенно российского.

Месяц назад Роскачество презентовало очередной выпуск ежегодника "Винный гид России". Он посвящен (внезапно!) российским винам. Но не всем, а лишь находящимся в ценовом сегменте до 1000 рублей и широко представленным в обычных продуктовых сетях. В общем, винные снобы могут сразу пройти мимо, речь пойдет о самом что ни на есть масс-маркете.

Гид доступен в печатном и электронном виде. Последний представляет собой, по сути, рейтинг вин, которые можно отфильтровать по различным критериям. Это позволяет легко найти конкретное вино, его оценку и прочую информацию о нем. Но вот на более общие вопросы с помощью этого сайта я ответить не смог. А именно:

1. Какова картина в целом? Большинство вин откровенно плохи? Или наоборот прекрасны?

2. Не хочу запоминать и искать конкретные вина. Какие винодельни стабильно показывают достойное качество?

3. Как цена влияет на качество? Есть ли разница между вином за 150 рублей и за 500? А за 500 vs 1000?

Но раз есть сайт с данными, значит их можно спарсить и ответить на все свои вопросы самостоятельно.

Так что все те, кому интересен мир российского вина, и кто не воротит нос при фразе "вино дешевле 1000 за бутылку", добро пожаловать под кат!

Помните, что чрезмерное употребление алкоголя, в том числе вина, вредит вашему здоровью. Употребляйте ответственно или не употребляйте вовсе.

Немного сувениров из недавней поездки по российским винодельнямНемного сувениров из недавней поездки по российским винодельням

Оглавление

Пара слов о методологиях

Общая картина

Рейтинг виноделен

Как влияет цена на оценку?

Итоги

Пара слов о методологиях.Ю

Предупреждение о рекламе (её отсутствии)

В тексте будет много ссылок и упоминаний, в том числе на конкретные вина, сайты, людей и т.д. Ничто из этого не является рекламой, меня никто об этом не просил и, тем более, мне не платил.

Как относиться к самому Роскачеству в целом я не знаю, никогда не интересовался его работой. Но главный идеолог и автор конкретно этого проекта Артур Саркисян. Человек несомненно уважаемый и авторитетный в мире российского виноделия.

Подробная методология исследования изложена на сайте Роскачества. Для тех кому лень читать, приведу ее вкратце ниже. Кому лень читать даже это просто запомните:

дегустация была слепой, вино оценивалось до 100-балльной шкале (не Паркера, но похожей). Чем выше балл, тем лучше: 81 балл и больше очень хорошо, 71 и меньше очень плохо. Всё вино российское, из масс-маркета, ценник <=1000 рублей. Исследовались: тихие красные, белые, розовые; игристые, ликерные.

Методология исследования Роскачества (краткое изложение)

Вина закупались в обычных продуктовых сетях. Цена почти всех до 1000 рублей. Повторюсь, если вы считаете, что за такие деньги пить вино в принципе нельзя вы не целевая аудитория ни данного исследования, ни данной статьи :) Впрочем, ниже по тексту будет пара аргументов против такой позиции.

Всего 5 категорий: тихие красные, тихие белые, тихие розовые; игристые, ликерные.

Внутри этих категорий отдельных номинаций по уровню сахара не было, красное полусладкое и красное сухое в итоге попадало в один рейтинг. К сожалению, до конца непонятно, как именно отбирались вина, но очевидно, что в рейтинг вошла далеко не вся продукция виноделов (и не всех виноделов), подходящая под заданные условия.

После закупки проводилась слепая дегустация от группы экспертов, на основе которой выставлялась оценка по 100-балльной шкале. Нет, это не шкала Паркера, как можно было бы подумать, а шкала из ГОСТ32051-2013 Продукция винодельческая. Методы органолептического анализа. И трактовка у нее (по версии Роскачества) тоже своя:

  • менее 71 балла вина с явными недостатками;

  • менее 78 простые "плоские" вина без явных недостатков;

  • менее 81 нормальные вина "на каждый день";

  • 81 и выше хорошее вино, на которое стоит обратить внимание

Вам кажется, что шкала занижена? Давайте не спешить с выводами, посмотрим на результаты.

После выставления оценок они специальным образом обрабатывались и усреднялись, чтобы избежать выбросов и прочих необъективностей.

Все данные были взяты мною с сайта Роскачества, никак не изменялись и не модифицировались. Исключение названия брендов, они были приведены к единообразию (удалил разные варианты названий одного и того же бренда: например, "ZB" и "Золотая балка" стали просто "ZB" и т.д.). Гид доступен за три года 2018-2020, я брал данные всех трех лет, поскольку вина в разных годах не повторяются.

Говнокод и исходные датасеты выложены тут, при желании можете брать и пользоваться.

Связан ли я как-то с винной отраслью и производством? Нет, я не работаю с вином ни в каком качестве (разве что утилизатором на собственной кухне) и считаю себя дилетантом в этой области. Все мои суждения и выводы могут быть банальны, наивны или ошибочны.

Напоследок стандартное для моих статей примечание:

Стандартное примечание

Здесь и далее речь идет лишь о данных, указанных в "Винном гиде России". Выборка не является репрезентативной для всех вин России и тем более других стран. Приведенные оценки вин не являются истиной в последней инстанции. На другом конкурсе 70-балльное вино из Гида может получить под 100 очков, а конкретно вам не понравиться настолько, что вы его выльете в раковину. Это нормально.

Для удобства я буду говорить вина в среднем стоят N рублей и получают R баллов. Но в действительности это означает: вина, включенные в Винный гид России, в среднем по информации из Винного гида России стоят N рублей и получают по оценке экспертов Винного гида России R баллов

Общая картина

Для начала посмотрим, какие вообще вина участвовали в исследовании:

Распределение вин по типу и уровню сахараРаспределение вин по типу и уровню сахара

Больше всего, как и ожидалось, красных, белых и игристых (суммарно почти тысяча образцов). Откровенно сладких среди них почти не встречается, а вот полусладких еще достаточно. Особенно среди игристых (традиционно для российского рынка). Тем не менее, две трети белых/розовых и 80% красных вина сухие, что не может не радовать.

Про сахар

Как влияет уровень сахара на оценки мы поговорим чуть позже. Но поскольку в самом гиде вина не разделяются на подкатегории исходя из сладости, мы тоже разделять не будем.

Какие же оценки ставились этим винам?

Распределение оценок вин по типам. Линии нижняя граница уровней вин согласно классификации РоскачестваРаспределение оценок вин по типам. Линии нижняя граница уровней вин согласно классификации Роскачества

Ликерные в среднем получают оценки чуть выше (вероятно, связано с многолетним опытом виноделов в этой сфере Солнечная долина, Массандра занимаются креплёными винами с позапрошлого века). У остальных все четко: 1-2 квартили простые вина, 2-3 повседневные, 4 хорошие. Согласно трактовке оценок от Роскачества, конечно же.

На первый взгляд всё адекватно. Но меня очень смущает, что ни одно вино не добралось даже до 88 баллов. Почему?

Может, оценки ГОСТа настолько жесткие, что 90 это уже великое вино, а всё что выше недостижимые высоты, вин для которых еще не создали? Но на самом деле, согласно самому ГОСТу (а не Роскачеству) градация оценок следующая:

  • 71 и выше хорошо

  • 86 и выше очень хорошо

  • 100 превосходно (я не понял, зачем делать целый уровень под одну оценку, ну да ладно).

То есть лишь единицы из рассматриваемых вин дотянулись хотя бы до уровня "очень хорошо", если пользоваться трактовкой из ГОСТа.

Тогда, может, вина у нас в исследовании больно дешевые, а потому посредственные, вот и не смог ни один образец из 1000 дойти даже до 90 баллов?

На первый взгляд, адекватная гипотеза, ибо подавляющая часть вин имеет цену ниже 500 рублей за бутылку, а медиана 350, что даже меня, крайне демократичного в подобных вопросах, немного смущает:

Распределение цены за 0.75л (руб.)Распределение цены за 0.75л (руб.)

Но вот, например, трехсотрублевый брют от Фанагории получает 90 баллов на авторитетном Decanter World Wine Awards (к вопросу о том, что недорогие вина не бывают хорошими). А в нашем рейтинге он получает всего 80.73! Почти 10 баллов разницы! И если посмотреть результаты конкурса, можно найти и кучу других примеров недорогих российских вин с высокими оценками (например, Саперави от Шато Тамань за те же 300рэ с теми же 90 баллов).

Итак, у меня нет ответа на вопрос, почему оценки Гида настолько консервативны. Лишь гипотезы:

  • система оценок ГОСТа очень жесткая. Настолько, что никто никогда не дотягивает до уровня "очень хорошо" и это нормально. Чтобы это проверить, надо найти результаты других винных конкурсов, использовавших эту систему, но я таковых не нашел;

  • недорогие вина в большинстве своем очень средние и ожидаемо не дотягивают до уровня "очень хорошо". На международные конкурсы при этом посылается какое-то особое вино, которое берет медали. В эту гипотезу верится слабо: уж из 1000 образцов хоть парочка, да должна быть за 90, а про "подложные вина" и вовсе похоже на теорию заговора;

  • дегустаторы знали, что образцы российские вина из масс-маркета, поэтому осторожничали в оценке, чтоб не поставить слишком высокую.

Если у вас есть другие версии или вы достоверно знаете в чем дело пожалуйста, поделитесь в комментариях.

Тем не менее, вин с откровенными недостатками оказалось всего ничего, а значит можно что-то из этого выбрать! И если для этого лень запоминать конкретные вина, нам поможет следующий раздел.

Рейтинг виноделен

Посмотрим, какие винодельни лучше остальных. Для этого взглянем на средний рейтинг их вин. Но важны не только высокие оценки сами по себе, но и их стабильность. Поэтому я позволил себе исключить из рейтинга винодельни, имеющие менее 5 оцененных образцов (это позволит уменьшить шум в данных). Для полноты информации на последней вкладке представлен рейтинг по всем винодельням, но его обсуждать мы не будем. Также я вывел в табличку стандартное отклонение, чтоб показать (не) стабильность получаемых оценок.

Белое вино

В топе не нуждающиеся в особенном представлении "зубры" с юга материковой России Мысхако, многострадальная Юбилейная (надеюсь, недавнее вхождение в концерн Абрау даст ей новую жизнь), Фанагория и Шато Тамань. Выделяется Поместье Голубицкое, ибо по объемам производства оно сильно уступает вышеозвученным конкурентам. Первая крымская винодельня встречается на 6 месте и замыкает число тех, кто перевалил за 80 баллов. Причем, обратите внимание, какой высокий относительно остальных у Alma Valley разброс оценок. Связано это с их заигрываниями с полусладкими и сладкими винами, которые и "тянут вниз" в плане оценок (зато, уверен, "тянут вверх" в плане выручки). Поэтому на второй вкладке я отдельно составил рейтинг без учета сладких и полусладких вин, так сравнение будет более честным. Альма сразу же и поднимается повыше, и СКО уменьшает.

Замыкает рейтинг Долина. Насколько я понимаю, основная часть их продукции, это разлитый балк (кстати, недавний закон сильно усложняет жизнь производителям, использующим заграничный виноматериал, так что не факт, увидим ли мы её уже в следующем ежегоднике).

Товарищи по дну рейтинга Коктебель, до сих пор находящийся в процессе модернизации и перехода собственности, а также Усадьба Саркел их вина я вообще был удивлен обнаружить в Гиде, совсем небольшая частная винодельня.

Красное

Знакомые всё лица! На этот раз в топе еще одни крымчане Esse, а также Усадьба Мысхако. Её не стоит принимать за обычное "Мысхако". "Усадьба..." старое название новой гравитационной винодельни Chateau Pinot. Я был у них недавно на экскурсии (остался очень доволен увиденным), и именно поэтому знаю об этих перипетиях с названиями, иначе точно запутался бы.

А среди сухих в лидеры вышла уже известная нам винодельня Альма (кстати, тоже "гравитационщики"). И снова с не стабильными оценками (на этот раз даже среди сухих). На ней я тоже побывал и был приятно удивлен производством и планами развития. Кроме объема вложенных в производство сил и денег винодельня интересна тем, что производит айсвайны (единственные в России по классической технологии) и TBA (не помню, единственные ли в России или нет).

Alma valley. Фото из недавней поездкиAlma valley. Фото из недавней поездки

Розовое вино

Розовых вин мало, поэтому разбивать на отдельные вкладки не буду. Комментировать тоже не буду.

Игристые

Без сюрпризов, в топе Шато Тамань, знаменитое Абрау-Дюрсо, Фанагория. Новое лицо Aristov (на самом деле это подбренд Кубань-вино, но объединять их я посчитал неправильным). Крымчане Инкерман и Золотая Балка замыкают ТОП "восьмидесятников" наравне с Мысхако.

Ликерные

Позволил себе в этом рейтинге включить в ТОП крупных производителя всего с 4 образцами, ибо такие высокие и стабильные баллы от производителя из Дагестана для меня открытие.

Остальные строчки без особых сюрпризов недавно сменившая владельцев (и потому вызывающая тревожные чувства) Массандра и вполне себе стабильная Солнечная долина берут многолетним качеством и многолитровым количеством.

Итого

Если вам лень запоминать какая винодельня в каком вине хороша, то абсолютными чемпионами во всех основных категориях (красное, белое, игристое) являются идущие ноздря-в-ноздрю Фанагория, Мысхако и Шато Тамань:

.

Зависимость оценки от цены

Зависит ли оценка от цены за бутылку? Линейная регрессия говорит нам, что очень слабо:

У розового и ликерного коэффициенты и вовсе не значимы, у других вин хоть и значимы, но R-squared нигде не поднимается выше 0.1

То, что цена вина складывается далеко не только из его органолептических свойств не новость. Начиная с какого-то момента вы платите за бренд, за терруар, за редкость, за имя винодела и т.д. и т.п. Вообще говоря, тема ценообразования в винной индустрии слишком сложная и выходит за рамки этой статьи и моих познаний.

Более того, в принципе нельзя ожидать связи "вино в 7 раз дороже значит будет в 7 раз лучше". Минимальная граница не дефектного вина по ГОСТу 56 баллов. А максимально можно набрать не более 100. Получается, что наибольшая разница в оценке, которую мы можем зафиксировать между минимально приемлемым и великим вином 2 раза. При том, что цена на них может отличаться на порядки.

Это так же автоматически означает, что наилучшее соотношение цена-качество всегда будет у дешевых вин и использовать его "в лоб" не стоит. На первом графике распределение оценок вин по ценовым сегментам с шагом в 200 рублей, на втором сколько баллов рейтинга приходится на 1 рубль.

Распределение оценок вин по ценовым сегментам. Сколько рейтинга приходится за 1 рубльРаспределение оценок вин по ценовым сегментам. Сколько рейтинга приходится за 1 рубль

Такой артефакт можно попробовать полечить отнормировав рейтинг (чтобы самое плохое вино имело 0 баллов, а самое хорошее 100) и поиграв с ценой (например, логарифмируя). Но принципиально картину на наших данных это не изменит я проверял. Да и смысл, плачу в магазине то я рублями, а не ln(RUB).

И все же на этом графике важно отметить, что в самом дешевом сегменте чуда не произошло вина за 150 рублей покупать не стоит, в оценках резкий провал. А вот дальше, как нам и говорила регрессия, эффект от увеличения цены не такой явный, а порою и нулевой.

Так что, стоит ли брать вино за 300-400 рублей и не париться, поскольку качество все равно будет сопоставимо с более дорогими? Не знаю, каждый решит для себя сам. Понимаю, что многим обсуждение подобного уровня цен покажется смешным, но данные есть данные. И лично меня они подтолкнули, пускай, не к переходу на более дешевые вина, но к проведению пары слепых дегустаций с винами из разных ценовых сегментов. По крайней мере, это может оказаться интересным.

Хоть связь между ценой и рейтингом мне достоверно обнаружить и не удалось, но зато удалось найти влияние другого фактора. Это, конечно же, сахар.

Полусухих, экстра-брютов и сладких вин слишком мало, чтобы всерьез их рассматривать, а вот сухие с полусладкими сравнить можно (к тому же, это классическое для нашей страны противостояние).

Распределение оценок в зависимости от уровня сахараРаспределение оценок в зависимости от уровня сахара

Различия стат значимы (t-test, MW, p_value<0.01; правда, для белых вин t-тест выдал p_value=0.03, но не будем придираться).

Хоть различия и значимы, внимательный читатель заметит, что они совсем небольшие. Но это не значит, что полусладкое вино почти не отличается от сухого, просто критерии приемки у таких вин наверняка отличаются. И то что допустимо для п/сл неприемлемо в сухом.

Итоги

Во-первых, очень круто, что государственные структуры все больше идут в открытые данные, причем делают это качественно. На сайте Роскачества можно посмотреть исчерпывающую информацию о каждом исследованном вине от стоимости, до скана протокола исследования. Такая открытость всегда приятна. На прошлом месте работы я и сам участвовал в государственном проекте, связанным с открытыми данными (статья на Хабре). И знаю, что порою это совсем не просто. Тем приятнее, что это направление развивается.

В этом году Гид так же вышел и в печатной версии (счастливым обладателем которой я стал благодаря тг-каналу "Вино и люди"). К ней тоже лично у меня нет нареканий ни по качеству печати, ни по содержимому. Её приятно и просто держать в руках, и читать.

Хотя у меня остались вопросы о распределении оценок (см. выше), а так же хотелось бы видеть еще бОльшую и репрезентативную выборку, я рад, что такой проект существует и сделан со знанием дела.

Если же говорить об утилитарных целях исследования, то абсолютными лидерами в общем зачете стали такие винодельни как Фанагория, Мысхако и Chateau Tamagne. Что не исключает лидерства других производителей в отдельных категориях Голубицкое, Альма, Абрау-Дюрсо и др.

Серьезной же зависимости оценки вина от его цены выявить не удалось, разве что лишний раз убедились, что вино за 150 рублей лучше не брать. Ну и сухие в среднем лучше полусладких (вот так открытие).

Так что идеальный выбор вина на основании представленных данных бутылка сухого от Фанагории за 500 рублей. Шучу, конечно. Идеальный выбор у каждого свой.

Надеюсь, моя статья была познавательна и подогрела чей-нибудь интерес к российским винам. У нашего виноделия несомненно куча проблем, но оно самобытно, интересно и, я верю, имеет огромный потенциал.

Спасибо за внимание. Пейте российское любое хорошее вино и помните: in vino veritas, in aqua sanitas!

Подробнее..

FAQ чатбот COVID-19 спустя год

19.03.2021 18:12:20 | Автор: admin

Предисловие

Около года назад я решил написать чат-бота, который отвечает на часто задаваемые вопросы о COVID-19. В тот момент многим показалось, что моя идея не более чем хайп, который спустя короткий промежуток времени потухнет. Однако, оказалось, что спустя год, данная тема только набирает обороты. В этой статье я расскажу о том, как мы создавали чат-бот для консультации по вопросам COVID-19 по просьбе МВД (BMI) Германии, а также выражу идею о создании аналогичного проекта в России.

Зачем нужен этот чатбот?

На протяжении всей пандемии (и сейчас) информационные источники предоставляют большое количество разнородной статистики по заболеваниям, смертям, течении болезни симптомам и т.д. Более того, в личной коммуникации люди нередко (и неосознанно) могут искаженно передавать свой или чужой опыт по тому, как действовать если ты или твои близкие заболели, как интерпретировать статистику, стоит ли вакцинироваться и вообще, что всё это значит? Кончено, наверняка существует единый централизованный источник(и) точной информации, однако найти и опознать их не всегда просто, а если речь идёт о статистических данных, то тут ситуация ещё сложнее.

В связи с этим, возникает потребность в существовании единого и простого в использовании источника информации. Казалось бы, почему, например, горячая линия не является таковым источником? По моему личному опыту (а я несколько раз летал за границу во время пандемии, а также сталкивался с вирусом лицом к лицу), качество услуг горячей линии в моем городе, мягко говоря, не всегда отличное. Долгое время ожидания, неконсистентная информация и т.д. Поэтому, виртуальный ассистент или чатбот, называйте как хотите, более чем достойная альтернатива и отличное решение проблем единства информации и сложности доступа к ней.

Кейс МВД Германии

С Августа 2020 года я являюсь PhD студентом и научном сотрудником в одном из немецких вузов. В мои обязанности также входит помогать моему научруку проводить курс Question Answering & Chatbots. В рамках курса, студенты совместно с реальными организациями из индустрии делают реальные проекты по чатботам в заданном домене знаний. В этом году, одной из организаций было МВД Германии, которое уже на тот момент имело разработанный простенький FAQ Бот, работающий на немецком языке. Их запрос заключался в разработке функциональности доступа к данным через вопросы на естественном языке (data-driven questions). Например: "Сколько случаев заражений было в прошлый месяц в Берлине"? Фишка в том, что приложение должно было работать не только на немецком, но и на английском, а также определять как большие города (Мюнхен, Гамбург), так и маленькие посёлки и районы.

Результатом работы стало приложение, которое будет в дальнейшем интегрировано в основной функционал чатбота. Демо доступно по этой ссылке: https://coronabot.ins.hs-anhalt.de/

Как видите, запрос на разработку таких вещей не какая-то мимолётная шалость вчерашнего студента, а реальная потребность на государственном уровне.

Личная инициатива

Идея данной статьи заключается в том, чтобы сподвигнуть заинтересованных людей на создание данного приложения в Российской Федерации в рамках совместного сотрудничества. Ведь без партнёрства со стороны государства или больших компаний идея вряд ли получит дальнейшее развитие. Текущая реализация FAQ чатбота на русском языке всё ещё доступна в телеграме. Вы можете с ним пообщаться и сообщить о багах или пожеланиях в комментариях к данной статье -- это поможет нам в дальнейшей разработке.

Обобщая данную статью, решения на базе чатботов могут быть полезны не только в кейсе ковида, а в любых других, например -- государственные услуги.

Спасибо за внимание!

Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru