Русский
Русский
English
Статистика
Реклама

Магистратура

Из студентов в преподаватели интервью с выпускниками магистерской программы JetBrains ИТМО. Часть 2

01.03.2021 18:19:29 | Автор: admin
Продолжаем знакомить вас с выпускниками магистратуры JetBrains и ИТМО Разработка программного обеспечения, которые по завершении обучения пополнили преподавательский состав программы. Во второй части интервью ребята рассказывают подробнее о своих задачах, подходах к преподаванию и дают советы абитуриентам. Первая часть интервью.



Есть ли что-нибудь, что вас раздражает в работе преподавателя?

Дима Х.: Конечно, в любой деятельности есть что-то неприятное. Я вот, вообще говоря, ярко выраженный интроверт: может, на занятии у меня и получается сиять энтузиазмом и будить зомбированных безжалостной нагрузкой студентов, но когда занятие окончено и можно расслабиться, вся энергия иссякает и хочется всю оставшуюся вечность безжизненно смотреть в потолок.

В проверке домашних заданий есть свои радости: когда кто-то придумывает новое решение задачи, которую, как казалось, ты понимаешь от и до, это очень познавательный опыт; когда удалось выявить какой-то огрех, дать хорошую подсказку и увидеть, как в последующих работах студент эффективно ее применяет, это такой момент, ради которого и хочется заниматься преподаванием. Однако не все всегда так радужно, и часто оказываешься перед моральным выбором. Если видно, что студент ничего не понимает и не поймет, стоит его пожалеть и закрыть глаза на мелкие огрехи, за которые других ругаешь, или поддерживать стандарты? Если выпрашивает баллы и искренне верит, что все сделано хорошо, попытаться прийти к общему мнению или наотрез пресечь? Если явно халтурит, делает на минимум, просто хочет получить зачет и забыть про предмет смириться, или все-таки попытаться объяснить в каких-то новых терминах, в чем польза этой дисциплины? Может, просто пустить все на конвейер и упростить процесс сдачи или же досконально проверять и требовать хорошего понимания изучаемых тем? Часто не очевидно, какое решение правильное, а неудачный выбор влияет не только на тебя самого, но и на других людей, которых можно ненароком оттолкнуть от твоей дисциплины.

Леша: Как-то так сложилось, что всеми вещами, которые меня раздражают, я быстро перестаю заниматься. У людей бывает обостренное чувство справедливости, у меня же скорее сильное желание быть в согласии с самим собой. Поэтому я бы ответил так: если бы меня что-то раздражало, я бы точно не занимался преподаванием.

Саша: Немного раздражает, когда студенты не соблюдают формальные договоренности, о которых было сказано заранее. Например, неправильно называют пул-реквесты.

Влад К.: Меня по-настоящему раздражает выкладывать файлики на вики. Да, очень. Любая опечатка или неточность, которую надо поправить, и понеслось правишь TeX, компилируешь, скачиваешь, находишь нужный файл на вики (самое сложное!) и кидаешь туда новую версию. Наверно, это можно как-то автоматизировать, но у нас такого курса не было!

Рома: Пожалуй, отчетность была самым раздражающим фактором. Заполнение табличек редко приносит радость. Еще мне тяжело давалось составление задач, это было для меня своеобразным творческим стрессом.

Очень раздражает списывание. Когда ты студент, ты иначе к этому относишься. Когда я стал преподавателем, я каждый акт списывания расценивал как проявление неуважения ко всем остальным студентам. Возможно, это слишком жестко, но эмоционально у меня именно такая реакция.

Не нравятся студенты, которые не стараются (по моим субъективным ощущениям). Это не вызывает раздражения, скорее просто отбивает охоту с ними взаимодействовать. Не стараться значит не проявлять активность на занятиях, не сдавать задачи или сдавать в последний момент, делать абы как, не исправлять замечаний.

Не нравятся студенты, которые очень много умничают. Я имею в виду тех, кто, обладая глубокими знаниями по теме, не понимают, когда уместно эти знания демонстрировать, и делают это при любом удобном случае. Часто при этом они мешают ходу занятия, а также своим менее опытным и знающим однокурсникам, отвлекая и запутывая их.

А что радует и мотивирует больше всего?

Влад Т.: Возможность познакомиться с новыми людьми, узнать что-то новое. Например, на оценке научно-исследовательских работ. Иногда можно найти людей, которые занимаются теми же вещами, что и ты, но под другим углом.

Дима Х.: Часто бывает понятно, что если бы не твои слова, то студент, может, так бы и не осознал ту или иную мысль. Мой опыт чтения математических книг в одиночку без малейшего понимания, с чего начинать, напомнил мне, как беспомощно себя ощущаешь, когда тебе представлено какое-то последовательное изложение, которое вызывает иллюзию того, что ты его понял, но любые попытки применить только что полученные знания заканчиваются неудачей. Это может вызывать такое отчаяние, что пропадает всякое желание заниматься чем-то новым. Наличие рядом человека, который выслушает твою дурацкую интерпретацию прочитанного и возразит, что нет, все совершенно не так, увеличивает эффективность учебы даже не в разы, а на порядки.
Помимо этого, мне интересно подходить к преподаванию с эдакой научной точки зрения: проверять, что получается, а что нет, что вызывает энтузиазм и понимание, а что проходит мимо ушей.

Леша: Радует, когда я недооцениваю студентов. Я в целом против разного рода ярлыков и простых оценочных суждений о людях, но в работе требуется индивидуальный подход, который я строю на собственных ожиданиях от студентов: вот этот студент очень сильный, ему можно что-то дополнительное рассказать или подискутировать с ним; вот этот послабее, его лучше лишний раз не нагружать, ему и без того сложно. Всегда приятно ошибаться в несправедливо заниженных ожиданиях.

Влад К.: Как и любого человека, которому нравится то, о чем он рассказывает, меня радует, когда кто-нибудь из студентов говорит, что решение задачи красивое.

Расскажите, как именно вы участвуете в преподавании?

Влад Т.: Я проверяю работы на нескольких практических курсах и веду практику на курсе Software Engineering. Раньше я участвовал в собеседованиях приемной комиссии и в оценке научно-исследовательских работ.

Дима Х.: Третий год я веду практические занятия и проверяю домашние задания по функциональному программированию и математической логике. В прошлом году вел практики по курсу Unix и скриптовые языки, но оказалось, что мне больше по душе связанная с языками программирования эзотерика. С текущего весеннего семестра провожу практики по формальным языкам.

Дима Н.: Веду семинары и проверяю домашние задания в курсе по программированию на Java и других JVM-языках.

Леша: Основная моя деятельность в магистратуре лекции и практики по Python, практики по Java и домашние задания по Software Engineering. Еще я периодически читаю аналогичные курсы, но на других, обычно непрофильных программах.

Артем: Помогаю с курсом по С++, который преподается у ребят в магистратуре и CS центре. В основном я занимаюсь всем, что связано с домашними заданиями (проверка, помощь в подготовке условий, автотесты). У нас на курсе процесс проверки решения состоит из двух этапов: автоматические тесты и код-ревью. Студенты далеко не с первого раза успешно проходят второй этап. Преподаватель оставляет комментарии, задает вопросы, а студенты должны исправить решения. Таким образом происходит непрерывный диалог, что, на мой взгляд, очень круто!

Саша: Проверяю у ребят домашние задания по Python. Но если мне наконец предложат прочитать курс лекций по Haskell, я с радостью переключусь на эту деятельность.

Влад К.: Я принимаю участие в проведении двух курсов Алгоритмы и структуры данных и Дискретная математика. И там и там веду практические занятия и проверяю домашние задания. Дополнительно я отвечаю за информационное взаимодействие со студентами и стараюсь отвечать на все возникающие вопросы.

Оба курса схожи по структуре: на практиках студенты получают список задач по теме прошедшей лекции, и мы их вместе обсуждаем. Обычно я даю студентам время подумать и предложить идеи. Если не получается, подсказываю правильное направление и в итоге всегда рассказываю, как должно выглядеть корректное решение. Полученные знания и умения студенты должны применить при выполнении домашних заданий. Решения присылаются в письменном виде, причем у студентов, приславших работы до определенного времени, гарантированно есть возможность исправить мои замечания. Так как замечаний всегда хватает, обычно больше баллов получают те, кто действует превентивно.

Рома: Два учебных года я вел практические занятия на курсе по C++. В мои обязанности входила подготовка материалов для семинаров, их проведение, работа со студентами, проверка заданий, помощь в проведении экзамена. Практически все время я работал в паре с еще одним коллегой, поэтому составлением и проверкой задач я занимался не в одиночку.

Сколько времени в неделю у тебя уходит на преподавание?

Влад Т.: Сейчас где-то 5 часов. Вероятно, будет больше.

Дима Н.: Полтора часа непосредственно на пару, часов пять-восемь на проверки, еще пара часов на подготовку к занятиям.

Леша: В этом семестре занимаюсь преподаванием фултайм, т. к. веду разные курсы и на других программах тоже, иногда с перегибами за 40 часов, но стараюсь не допускать переработок.

Саша: На проверку домашек у половины группы уходит примерно один рабочий день.

Осенний семестр в магистратуре проходил полностью онлайн. Как вы относитесь к этому формату?

Влад Т.: Вполне хорошо. На мой взгляд, это очень подходящий формат для IT-программ. Возможно, даже более подходящий, чем очное обучение.

Дима Х.: Я считаю это совершенно ужасным. Когда четко не видишь лица, невозможно понять, следят ли слушатели за происходящим и понимают ли материал. Опираться в таких делах на инициативу студентов перспектива ненадежная, потому что те, кто действительно ничего не понял, будут винить себя и постесняются задавать вопросы. Так что в основном обсуждение идет с теми, кто уже ощущает себя комфортно и хочет разобраться в происходящем поглубже. Такие разговоры только усугубляют положение совсем потерявшихся студентов. Кроме того, нет возможности вызвать кого-то к доске или самому парой движений руки сотворить какой-то иллюстративный материал.

Дима Н.: С одной стороны, это удобно, с другой я скучаю по личному общению со студентами и по завтракам с коллегами. На эффективность проведения пар смена формата, с моей точки зрения, особо не повлияла.

Артем: На мой процесс взаимодействия со студентами это никак не повлияло, но я думаю, что ребятам сейчас тяжелее. Мне сильно помогали походы в университет тем, что можно было отвлечься от горы заданий, лично пообщаться с ребятами. Остается лишь пожелать нынешним студентам терпения и сил. Ребята, не забывайте отвлекаться от учебы и отдыхать это важно!

Что бы вы посоветовали ребятам, которые планируют поступать на программу?

Влад Т.: Заранее оценить свои силы, не бояться нового и быть готовыми погрузиться в учебу с первых дней. Ну и удачи!

Дима Х.: Откладывайте работу и все свои дела. Если не можете себе этого позволить, то поступайте не сейчас, а тогда, когда сможете. Интенсивность обучения здесь требует полного погружения в процесс.

Дима Н.: Нужно хорошо разобраться, что это за программа, и три раза подумать, прежде чем поступать. Учеба здесь невероятно жесткая, хоть и очень эффективная, и до выпуска добираются только те, кто готов превозмогать себя в течение двух лет.

Леша: Лучше начинать готовиться сильно заранее: регулярно программировать, решать задачи на алгоритмы и повторять базовую математику. И учиться грамотно распределять свое время когда начнется учеба, у вас не будет времени дополнительно осваивать тайм-менеджмент.

Артем: Прежде всего, важно быть уверенными в себе. Подготовиться к вступительным экзаменам достаточно просто, но немаловажно показать свою искреннюю заинтересованность.

Саша: Я бы посоветовал четко решить для себя, готовы ли вы еще два года целиком и полностью посвятить учебе. Если ответ положительный клево, ждем вас на собеседованиях! Если отрицательный, тоже хорошо: в ближайшие пару лет проблем со сном по причине горящих дедлайнов по домашкам у вас не предвидится. :)

Рома: Постарайтесь понять, что является слабым местом, и подтяните его. Если есть проблемы и с практикой, и с теорией, советую подтянуть практику это сильно поможет почти во всех курсах. А еще стоит отучиться делать все в последний момент.

Влад К.: Самое главное быть готовым к тому, что будет очень-очень сложно. Надо морально настраиваться на то, что свободного времени в привычном смысле практически нет: ты либо на паре, либо делаешь домашку, либо ешь/спишь/перемещаешься. Кстати, времени на сон в среднем остается совсем немного. И это, конечно, сказывается на физическом и эмоциональном состоянии. Поэтому внутренняя мотивация учиться должна быть очень сильной.

Еще одна важная вещь, которая существенно может помочь, особенно в первое время постараться освоить необходимый технический минимум для прохождения курсов.

Ну и дерзкий совет: не планируйте поступать просто берите и поступайте!
Подробнее..

Научное программирование в МФТИ

13.05.2021 16:14:30 | Автор: admin

Привет, это Александр Нозик, и этот пост посвящен еще одной "интересной" магистерской программе (на этот раз на физтехе, совместно с JetBrains, Таврида Электрик и целым списком научных организаций). Про интересность вы решите сами, но программа в этот раз действительно уникальная (пока по крайней мере). Называется она Научное программирование (официальное название "Разработка и применение программного обеспечения в физических исследованиях") и расположена на ФПМИ и ЛФИ в МФТИ. Посвящена не отдельно физике, не отдельно программированию, не отдельно computer science, а стыку всего этого.

Если вы уже поняли, что это про вас, то можно бежать читать подробности и заполнять анкету на сайте программы.

Если нет, то читаем дальше.

Зачем это?

Комната в CERN, где был изобретен интернетКомната в CERN, где был изобретен интернет

Дело в том, что все аспекты нашей современной жизни так или иначе связаны с компьютерами и программированием, наука и инженерия не исключение. Ученые и инженеры существенную часть своего рабочего времени посвящают работе с компьютерами. Если мы говорим про науку, то все начинается со стадии проектирования эксперимента. Мы делаем большие объемы математического моделирования, чтобы понять, что вообще можно измерить и как это лучше сделать. В конце концов, мы не можем работать методом тыка. Современные эксперименты очень дороги, и делать их, не зная заранее, что там можно измерить, очень невыгодно. Дальше нам надо собрать данные, для этого используются разнообразные автоматизированные системы управления. Эти данные нужно хранить (а данных может быть очень много, петабайты). К данным нужно обеспечить удобный доступ, организовать резервное хранение, сервисы по индексации и визуализации. В конце концов данные нужно обработать. А тут уже нужно задействовать весь арсенал современных компьютерных методов работы с данными от параллельных и распределенных вычислений до машинного обучения.

В индустрии проблем не сильно меньше. То же самое математическое моделирование, тот же сбор данных, но также добавляется использование автоматических систем проектирования, инфраструктурные проекты и многое другое.

Во всех этих задачах нужно не только знать соответствующие алгоритмы, но и создавать и поддерживать программные инструменты. Практика показывает, что для этого нужно понимать не только прикладное программирование, но и ту область, в которой решения будут применяться (предметную область). В то же время физики и инженеры должны знать прикладное программирование, чтобы работать с современным программным обеспечением и совершенствовать его.

Как это?

Как вы, наверное, уже догадались, тут как раз и включается наша магистерская программа. Она организована на стыке областей, и наша цель научить физиков (и вообще "предметников") программировать, а программистов понимать предметную область. Разумеется, невозможно знать все одинаково хорошо. Но тем не менее мы и наши партнеры верим в то, что в будущем профессия физик-программист (или химик-программист, или биолог-программист), то есть тот, кто не просто может написать скрипт на Python, а умеет создавать и поддерживать прикладное программное обеспечение в предметной области, будет весьма востребована.

Разумеется, тут есть некоторая техническая сложность. Дело в том, что за последние 30 лет пути IT и естественных наук сильно разошлись, и оказывается, что физики плохо владеют IT-инструментами, а IT-шники не знают предметной области. Нам нужны и те и другие, но обучать их нужно по-разному. Поэтому нужно сделать так, чтобы программа была максимально гибкая и могла быть подстроена и под тех, и под других. Решение это минимальный набор общих предметов:

  • Вычислительные методы

  • Анализ данных

  • Научная этика

  • Научный семинар

Остальные предметы выбираются студентом совместно с научным руководителем. Научный руководитель в нашей программе играет ключевую роль, потому что мы пытаемся охватить очень широкую область со множеством узких специализаций, и именно научный руководитель (и компания или институт, стоящие за ним) являются "направляющей", по которой студент будет двигаться. По этой причине руководителя нужно выбрать заранее и убедиться в том, что он (или она) вам подходит и вы подходите ему (или ей). В качестве бонуса от такой процедуры вы можете получить гарантированное поступление в магистратуру МФТИ. Наши промышленные партнеры (JetBrains и Таврида Электрик) готовы оплатить обучение для ограниченного количества студентов, которые прошли собеседования с руководителями, но по какой-то причине не прошли по конкурсу.

Направления работы

Давайте теперь кратко подробно никакого поста не хватит остановимся на темах тех научных руководителей, которые участвуют в программе.

Математическое моделирование в физике частиц

Это направление представлено очень широко, поскольку создатели программы выходцы из этой области.

Максим Долгоносов из ИКИ РАН и ВШЭ представляет широкое направление, связанное с моделированием космических детекторов и высокоэнергетических процессов в атмосфере (с заходом в физику плазмы). Над этой проблемой сейчас также работает очень активная группа в МФТИ под руководством Егора Стадничука и Екатерины Свечниковой из ИПФ РАН.

Художественное видение реакторной модели возникновения наземных гамма-всплесков. Автор: Екатерина СвечниковаХудожественное видение реакторной модели возникновения наземных гамма-всплесков. Автор: Екатерина Свечникова

Игорь Анатольевич Пшеничнов из ИЯИ РАН является ведущим мировым специалистом по фотоядерным реакциям, физике ядер-спектаторов и моделированию на платформе Geant4 как для экспериментов в физике частиц, так и для прикладных исследований, например медицинской физики. Ученики Игоря Анатольевича работают в МФТИ.

Кроме того существует широкий спектр задач в физике частиц (в основном в международных коллаборациях), требующих навыков работы с Geant4 (С++).

В лаборатории Nuclear Physics Methods JetBrains Research мы Александр Нозик и Roland Grinis также занимаемся разработкой новых экспериментальных инструментов для моделирования процессов (в основном на Kotlin и с использованием разных новых технологий.

Моделирование на сетках

Айно Константиновна Скасырская является уникальным специалистом по сеточным расчетам разного рода (гидродинамика, термодинамика, расчет механических напряжений, электромагнитные поля). Для таких расчетов нужно не только хорошо разбираться в решении дифференциальных уравнений на сетках, но и владеть современными коммерческими пакетами, такими как ANSYS и COMSOL. Ученики Айно Константиновны чрезвычайно востребованы в промышленности.

Анализ данных в астрофизике и физике космических лучей

На данный момент этой задачей занимаются сразу две не связанные между собой группы, сотрудничающие с нашей магистерской программой: Олег Евгеньевич Калашев из ИЯИ РАН и Дмитрий Костюнин из DESY (Германия). Обе группы занимаются анализом данных с крупных международных экспериментов, таких как Telescope Array, Tunka-rex и HESS, с использованием современных компьютерных методов, включая машинное обучение.

Иллюстрация из сборника "Физики шутят"Иллюстрация из сборника "Физики шутят"

Программное обеспечение для крупных проектов

Лев Шагалов курирует широкий спектр задач от крупной коммерческой компании Таврида Электрик одного из наших основных партнеров. Среди этих задач есть как разработка высоконагруженных распределенных систем последнего поколения для управления электросетями, так и разработка и внедрение "умных" алгоритмов в энергетической отрасли.

Константин Герценбергер является главой группы программного обеспечения в эксперименте BM@N на коллайдере NICA и занимается разработкой и поддержкой всех программных систем эксперимента. Петр Климай в рамках этой же коллаборации занимается системами хранения, индексации и визуализации больших объемов данных.

Игорь Хохряков входит в коллаборацию TANGO-controls и вместе со мной занимается разработкой распределенных гетерогенных систем сбора данных нового поколения и системами визуализации для них (кому интересно, пойдите посмотрите тут и тут.

Разработка инструментов для научных вычислений

Ильмир Усманов из JetBrains (отделение в Мюнхене) входит в команду Kotlin language research и занимается проектированием и оптимизацией элементов компилятора Kotlin, нужных в том числе для высокопроизводительных вычислений.

Roland Grinis в плотном сотрудничестве с лабораториями JetBrains Research и Kotlin scientific community занимается разработкой и интеграцией инструментов для высокопроизводительных тензорных вычислений и их использованием для реализации прикладного моделирования.

Еще?

Разумеется, тут описано далеко не все, чем планируется заниматься в рамках магистратуры. В одной только нашей лаборатории еще много работы по визуализации данных, распределенным вычислениям и куче всего.

Демонстрация библиотеки VisionForge. Визуализация трэков мюонов в подземном эксперименте Muon MonitorДемонстрация библиотеки VisionForge. Визуализация трэков мюонов в подземном эксперименте Muon Monitor

Список руководителей постоянно обновляется. Кроме того, если у вас есть задача по научному программированию, под которую у нас не нашлось руководителя, то пишите нам, мы поищем. Ну и разумеется, можно приходить со своим руководителем.

Для того, чтобы примерно понять, о каких задачах идет речь, можно заглянуть сюда и посмотреть тестовые/стартовые задачи, оставленные нашими руководителями с пометкой "Магистратура".

Как к нам попасть?

Для начала надо заполнить анкету. В ней укажите свою контактную информацию и тех руководителей, с которыми вы хотели бы работать. Подача анкеты ни к чему вас не обязывает. Вы можете зарегистрироваться, пройти собеседование с руководителем и решить, что вам хочется чего-то другого.

Более подробная и актуальная информация есть на сайте.

Задать вопросы и обсудить разные аспекты научного программирования можно в телеграм-группе нашей лаборатории

Подробнее..

Личный опыт подготовка к магистратуре JetBrains в Университете ИТМО и первые впечатления

16.05.2021 16:07:51 | Автор: admin

Всем привет! На связи Антон Клочков, студент первого курса корпоративной магистратуры JetBrains Разработка программного обеспечения на базе Университета ИТМО. Я хочу рассказать, как выбирал программу, и главное оправдались ли мои ожидания.

Northern Eurasia Regional Contests 2017. Антон в центре снимка [прим. ред.]Northern Eurasia Regional Contests 2017. Антон в центре снимка [прим. ред.]

Пара слов о себе

Я из небольшого города в Хабаровском крае Советской Гавани. В школьные годы участвовал в разных олимпиадах, но занимал только призовые места, и дальше региона мне пройти не удавалось. Пишу код с восьмого класса, разработкой занимаюсь с первого курса вуза.

Школу я закончил весьма успешно: золотая медаль и 276 баллов по ЕГЭ дали возможность поступить в Университет ИТМО, чем я и воспользовался. Выбрал бакалаврскую программу Программирование и интернет-технологии, где познакомился с множеством замечательных людей и расширил свой кругозор в области разработки программного обеспечения.

В конце второго курса я присоединился к 3D4Medical в роли R&D Engineer занимался оптимизациями графического движка, разрабатывал внутренние инструменты и реализовывал фичи для приложения компании Complete Anatomy. К началу четвертого курса я сменил акцент с разработки в сторону машинного обучения и перешел в другую компанию BrainGarden, где развивал проекты, связанные со SLAM (Simultaneous localization and mapping) и computer vision. Меня устраивал уровень зарплаты и был очевиден карьерный путь. Однако пробелы в области алгоритмов и в некоторых разделах математики не давали покоя. Я понимал, что магистратура возможность устранить эти пробелы, и решил выбрать для себя подходящую программу.

Выбор и поступление

На корпоративную программу JetBrains я подал документы после тщательного обдумывания и сравнения с аналогами. Критерии были следующие:

  1. Есть предметы, имеющие отношение и к разработке, и к машинному обучению. У меня был опыт работы с задачами по deep learning, и хотелось развиваться в этом направлении.

  2. Программа базируется в Санкт-Петербурге он мне очень нравится своим спокойствием и доступностью цивилизации.

  3. Большинство преподавателей являются очень хорошими специалистами в отрасли, либо работают в ней прямо сейчас.

  4. Программа актуальна. Мне жалко тратить свое время на учебу, когда полученными знаниями можно воспользоваться, только если работаешь с технологиями времен СССР.

  5. Дисциплины последовательны. Знания должны дополняться от семестра к семестру сперва нужно пройти фундаментальные предметы, а потом те, что базируются и отталкиваются от них.

В итоге в поле зрения оказалась моя нынешняя программа, а также Машинное обучение и анализ данных из петербургского кампуса НИУ ВШЭ. Знакомые студенты обеих программ заверили, что оба варианта очень сложные и интересные. Но Университет ИТМО был мне ближе по духу, поэтому я сделал выбор в его пользу.

В отличие от большинства ребят из моего потока, я поступил без экзаменов. Еще во время учебы в бакалавриате я занимался научной деятельностью, и к концу четвертого курса у меня были статьи, которые я приложил к заявке для конкурса портфолио. Однако этот способ мог и не принести результата, поэтому параллельно с подачей документов я все-таки готовился к вступительным. По большей части это были курсы на платформе Stepik, который рекомендуют абитуриентам организаторы программы в Telegram-чате. С этого года их учитывают в качестве первой части вступительного испытания (см. перезачет онлайн-курсов, а со всеми траекториями поступления можно ознакомиться на сайте магистратуры). К счастью, я прошел по конкурсу портфолио и два месяца ждал начала обучения, один из которых потратил на военные сборы.

Немного про учебу

У каждого потока есть кураторы. Они решают проблемы с расписанием, делают обучение комфортным и независимым от бюрократии. С учетом достаточно интенсивного обучения еще и помогают знакомиться с одногруппниками и устраивают разные внеучебные активности. В целом к ним можно обратиться и по жизненному вопросу, они поддержат и подскажут.

Наша учеба началась с весьма ламповой встречи, на которой мы ели пиццу и познакомились друг с другом. К сожалению, из-за коронавируса таких встреч за весь семестр было две. Даже сейчас, когда многие университеты вернулись к очному обучению, мы продолжаем заниматься дистанционно. Дело в том, что большинство преподавателей программы сотрудники JetBrains, а компания заботится об их здоровье и старается минимизировать личные контакты.

Тем не менее, даже на дистанте преподаватели дают материал на высшем уровне. Например, мне кажется, что Александр Владимирович Смаль (ведет курс Алгоритмы и структуры данных) изобрёл великолепную технику преподавания. Когда требуется большое количество выкладок на доске, он использует планшет и стримит с него экран, на котором пишет. Выглядит это так:

Еще я столкнулся с совершенно новой для себя областью функциональным программированием. На этом курсе мы сначала изучали лямбда-исчисление и программирование на Haskell. Было интересно, сложно, но мы справились благодаря отличным лекциям от Дениса Николаевича Москвина и подробным практическим занятиям.

Опытный комментатор остановит меня здесь и скажет: Что-то у вас там слишком всё сладко. И будет прав. Как и везде, проблемы есть: что-то недопонял, что-то не успел, что-то не понравилось. Но всё это решаемо. Если вам не нравится, как проходит курс, можно обсудить это с кураторами и повлиять на изменения в нем. Что-то недопонял пишешь преподавателю, и с тобой обсудят волнующую тебя тему. Так обучение становится благоприятным для развития.

Научно-исследовательская работа

Кроме лекций и практик каждый семестр студенты выполняют научно-исследовательскую работу (НИР). Стоит сказать, что это один из самых интересных аспектов нашей магистратуры. Студенты получают темы от компаний: JetBrains, Яндекс, ВКонтакте и других, выбирают себе приглянувшиеся и под контролем сотрудников компании работают над ними. В частности, в первом семестре я взял тему Generative adversarial audio denoiser в компании MynaLabs.

В рамках этого НИРа мне нужно было погрузиться в то, как устроен аудиосигнал, какие методы его обработки существуют, а также изучить природу шумов в аудиосигнале и обучить глубокую нейронную сеть, которая очищала аудио от шумов. Мой научный руководитель предложил обучить HiFi-GAN использовать один из последних подходов для подавления шумов в аудио. Если вы не знаете, что такое GAN, то общую информацию можно найти здесь.

Для обучения мне выделили отдельную видеокарту на корпоративных серверах и обеспечили необходимыми данными. В течение всего семестра я созванивался с научным руководителем: мы обсуждали проблемы, пути их решения, я описывал текущие результаты. В общем, мой НИР ничем не отличался от реальной работы в компании. В результате мне частично удалось обучить HiFi-GAN. Кажется, что за более длительное время я смог бы добиться и лучших результатов, но в целом я доволен проделанной работой.

Что в итоге

Программа, на которой я учусь, оказалась действительно сложной. Под этим словом каждому стоит понимать свое. Людям не из ИТ-сферы скорее всего будет сложно и с точки зрения материала, и с точки зрения нагрузки. Если у вас есть опыт в разработке и знание базового курса алгоритмов не переживайте, вам тоже будет нелегко. Объем заданий очень большой. Стоит быть готовым к тому, что первый семестр пройдет в режиме постоянной кропотливой работы. С крепким математическим бэкграундом, алгоритмическими знаниями и многолетним опытом тоже можно поступать, но проще от этого вам, скорее всего, не будет: порой задачки, с которыми нужно разбираться, имеют весьма нетривиальное решение.

Для меня самым ценным в магистратуре является отношение между преподавателями и студентами. Первые заинтересованы в том, чтобы мы чему-то научились, и стараются давать годный материал под уровень студентов например, подстраивают темп чтения, чтобы было комфортно слушать лекции и практики. Вторые активно изучают и обсуждают материал, плюс поддерживают дружную атмосферу даже на удаленке. Если попытаться уложить мой опыт в рамки чеклиста, получатся следующие рекомендации для тех, кто думает о поступлении:

Оцените свою мотивацию. Эта программа реально сложная. Поэтому подумайте дважды, а то и трижды, зачем она вам. Я не пытаюсь отговорить, просто на одном желании долго не протянуть.

Начните готовиться уже сейчас. Если вы прошли онлайн-тест, стоит готовиться к устному вступительному экзамену. Не надо зубрить, надо понимать. Проверяют не столько на знания, сколько на понимание сути. Само собой, формулу биномиальных коэффициентов нужно и знать, и понимать,как вывести.

Приготовьтесь уйти с работы. Да, как бы грустно это ни звучало, но работу очень сложно совмещать с первым курсом магистратуры. Есть уникумы, которым удавалось работать на полставки со второго семестра, но о тех, кто делал это на первом, я не слышал. В нашем наборе все либо брали долгосрочный отпуск, либо увольнялись.

В целом мои ожидания от магистратуры оправдались. Изначально я скептически относился к уровню сложности программы. Мне казалось, что ракету построить сложно, а учиться вряд ли. Но здесь я просчитался. С другой стороны, я получаю актуальные знания, которые мне обязательно пригодятся. Уверен потому, что проецируя знания на мой предыдущий опыт работы, я нахожу более элегантные решения для разных задач. Сейчас я понимаю, что делал не так, и как следовало бы. А потраченное время окупится в будущем.


Что еще есть у нас в блоге на Хабре:


Подробнее..

Оптические чипы в чашке Петри и квантовые сети магистратура мегафакультета фотоники ИТМО

10.07.2020 18:18:20 | Автор: admin
Сегодня мы расскажем, что изучают магистры и чем занимаются выпускники факультета. Также поговорим об их знаковых работах вроде гиперболических плазмон-поляритонов.


Фото Университета ИТМО

Пара слов о мегафакультете фотоники


Он объединяет четыре факультета: прикладной оптики, лазерной фотоники и оптоэлектроники, фотоники и оптоинформатики, а также физико-технический. Здесь изучают технологии, связанные с обработкой светового излучения и оптических сигналов.

Если информационные технологии это индустрия настоящего, то фотоника индустрия будущего. Объем глобального рынка фотоники в настоящий момент составляет 550 млрд долларов, но уже к 2023 году достигнет примерно 800 млрд долларов, что обеспечивает рост потребности в квалифицированных специалистах, в том числе и в России

Владислав Бугров, директор мегафакультета фотоники

На фото: Владислав Бугров
Сотрудники, магистранты и аспиранты синтезируют материалы с несуществующими в природе оптическими и электромагнитными свойствами, разрабатывают квантовые технологии. Например, в 2017 году на мегафакультете запустили первую в России и СНГ квантовую сеть. Это система передачи данных, информация в которой транслируется с помощью фотонов и надежно защищена от прослушки и хакерских атак.

В перспективе технологию будут использовать банки. Они получат еще более защищенные каналы связи между отделениями и подразделениями. Применение квантовым сетям также найдут спецслужбы и телекоммуникационные компании.

В начале лета группа инженеров под руководством специалистов Нового физтеха ИТМО также предложила метод выращивания оптических чипов в обычной чашке Петри. Для волновода специалисты выбрали фосфид галлия, а для микролазера галогенидный первоскит. Материалы помещают в чашку с раствором перовскитных чернил, и на волноводе вырастает источник света. После этого лазер с волноводом оставляют на подложке и создают основу для оптического чипа. Дальность излучения такой системы превышает возможности аналогов с серебряными или кремниевыми нановолноводами. Размер элементов чипа при этом в три раза меньше.

Нафизико-техническом факультете ИТМОведутся фундаментальные и прикладные исследования в области нанофотоники, радиофизики, физики твердого тела, а также междисциплинарные исследования на стыке физики, химии, информатики, биологии. Они включают метаматериалы, оптоэлектронику, адресную доставку лекарств, топологическую фотонику, биофотонику, оптомеханику, беспроводную передачу энергии, радиофизику и другие направления. На факультете есть шесть международных лабораторий, оснащенных современным исследовательским оборудованием, в которых работает большой коллектив молодых ученых

Юлия Толстых, инженер физико-технического факультета

Студенты также занимаются научной работой её результатом часто становятся публикации в тематических журналах (Nature Communications, Journal of Physics, Nanophotonics и других) и выступления на международных конференциях.

Расскажем о направлениях научных изысканий магистрантов мегафакультета.

Нанофотоника и метаматериалы


Здесь изучают новые материалы с уникальными оптическими свойствами и методы оптического управления то, как свет взаимодействует с веществом.

Студенты бакалавриата и магистратуры с самых первых семестров учебы попадают на научную практику в лаборатории и моментально все схватывают. Зачастую они уже гораздо лучше разбираются в отдельных вопросах, и они уже объясняют детали работы это чудесно

Георгий Зограф, аспирант физико-технического факультета ИТМО

Они проводят как теоретические, так и практические исследования результаты получают признание на мировом уровне. В 2015 году нашим студентам совместно с преподавателями удалось предсказать существование нового типа электромагнитных поверхностных волн гиперболических плазмон-поляритонов. Позже догадки подтвердили экспериментально, и за последние пять лет эти электромагнитные состояния обнаружили в микроволновом, инфракрасном и оптическом диапазонах.


Фото: Whos Denilo ? / Unsplash

В перспективе они могут стать носителями оптического сигнала и использоваться в системах обработки и передачи информации.

Во время обучения в магистратуре мы с коллегами теоретически предсказали новый тип электромагнитных поверхностных волн, которые сегодня известны в мире как гиперболические плазмон-поляритоны. В 2015 году по результатам этой работы опубликовали статью в авторитетном журнале Physical Review B, при этом редакторы журнала особо выделили и рекомендовали нашу работу

Олег Ермаков, выпускник и куратор программы Нанофотоника и метаматериалы

На фото: Олег Ермаков
Университет ИТМО сотрудничает с большим количеством партнеров международным центром НИЦ нанофотоники и метаматериалов, научно-исследовательскими лабораториями и вузами.

На факультете еженедельно проводятся открытые семинары по актуальным проблемам в радиофизике, оптике и теоретической физике с участием зарубежных и российских ученых.

У студентов есть возможность поехать на международные научные стажировки с обучением на английском языке и получить двойной диплом от одного из европейских университетов. Магистры получают навыки, необходимые для работы в крупных профильных компаниях, специализирующихся на оптических технологиях это Samsung, Bosch, Huawei и Corning.

Некоторые студенты решают запустить собственные проекты в этом случае факультет оказывает поддержку. Ряд выпускников решает продолжить заниматься наукой и продолжает академическую карьеру в образовательных учреждениях России, Китая, Америки, Сингапура, Австралии и других стран.

Во время обучения в бакалавриате и при поступлении в магистратуру у меня не было и мысли о том, что я буду ученым я просто любил физику. Передо мной снова стал важный выбор куда именно поступать в аспирантуру. Я получил предложения от нескольких европейских университетов, но все-таки решил продолжить карьеру в ИТМО. За время обучения в аспирантуре ИТМО я также много работал и представлял свои результаты за рубежом. В частности, за последние два года у меня было три стажировки в Техническом университете Дании и две стажировки в Институте фотонных технологий имени Лейбница в Германии. Кроме того, я посетил ряд конференций и симпозиумов не только в различных городах России, но и во Франции, Италии, Дании и даже Сингапуре

Олег Ермаков

Физика полупроводников


Образовательная программа основана в партнерстве с Физико-техническим институтом им. А. Ф. Иоффе. Студенты этого направления изучают теорию фотонных структур, оптику твердого тела, электродинамику метаматериалов, физику полупроводниковых наноструктур, а также линейную и нелинейную магнитофотонику и наноплазмонику.

Магистранты могут выбрать для себя специализацию курсы по теоретической или экспериментальной физике (хотя посещать занятия по обоим направлениям не возбраняется). Теоретический трек подразумевает углубленное изучение отдельных разделов квантовой механики, а также численные методы в физике полупроводников. Что касается экспериментального трека, то он включает цикл лабораторных работ для ознакомления с технологией производства полупроводниковых структур.


Фото: Karsten Wrth / Unsplash

Студентами и преподавателями вуза уже были реализованы несколько проектов в этой области. В 2017 году они разработали новое покрытие для солнечных батарей на основе аморфного кремния. Инженеры изменили структуру верхнего электрода солнечного элемента в него погрузили стеклянные объекты в форме капли размером в микрометр. Они фокусируют свет в слое полупроводника и снижают отражение лучей.

Этот метод позволяет сформировать структуру электрода, буквально выстраивая его по атомам. Образуется очень качественное покрытие, дающее хорошую проводимость. В результате общая эффективность солнечной батареи увеличивается на 20%. Такой электрод со стеклянными вкраплениями можно использовать для тонких солнечных батарей на основе не только аморфного кремния, но и любых других материалов

Михаил Омельянович, аспирант Нового физтеха ИТМО

Помимо Нанофотоники и метаматериалов и Физики полупроводников, у нас есть две программы по физике на базе мегафакультета фотоники Светодиодные технологии и оптоэлектроника и Информационные технологии в теплофизике. Подробнее о них расскажем в следующий раз.



О других направлениях магистратуры:



Подробнее..

От разработки навигационных систем до управления надводными судами магистратура мегафакультета компьютерных технологий

18.07.2020 22:06:54 | Автор: admin
Расскажем, о направлении Системы управления движением и навигация в Университете ИТМО.


Фото Joline Torres / Unsplash.com

Зачем заниматься этой темой


Порой перемещение по городу становится испытанием. По данным Техасского института транспорта, за год автолюбители в США в среднем тратят 54 часа на стояние в пробках. Но для городов вроде Лос-Анджелеса эта цифра достигает 119 часов. Российские водители проводят в пробках примерно 41 час.

Все это выливается в дополнительные расходы на топливо, временные затраты и замедляет развитие экономики. Но неудобства в городах испытывают не только автолюбители. Страдают велосипедисты, пешеходы, а сильнее всего люди с ограниченными возможностями. Они не могут перемещаться по необорудованным дорожкам и несут дополнительные расходы. В Великобритании инвалиды ежемесячно тратят на 500 фунтов больше среднего, чтобы передвигаться на такси.

Отмеченные проблемы сами по себе не решаются. Наукой и разработкой систем в этой области занимаются специалисты по управлению движением и навигации и тем самым приносят пользу обществу. Так, инженеры из MIT представили алгоритм, который помогает развозить учеников по государственным школам Бостона. В итоге удалось сэкономить 5 млн долларов на топливе эти деньги направили на развитие учебных программ. Специалисты в сфере управления движением также участвуют в разработке беспилотников. В перспективе они сделают поездки менее напряженными.

Если говорить о прикладных проектах вроде различных навигаторов, здесь появляется все больше разнообразия. Такие проекты помогают и пешеходам строят наиболее приятные маршруты для перемещений по городу без лестниц и затяжных подъёмов, но с пандусами для инвалидных колясок.


Фото Linda Sndergaard / Unsplash.com

В этой экспертной области можно построить карьеру. Такие специалисты востребованы в крупных ИТ-компаниях. Наш выпускник Роман Яналов сейчас работает над беспилотными автомобилями в Яндексе он пишет системное ПО и драйвера для лидара. Некоторые начинают проектировать собственные продукты сейчас в Университете ИТМО разрабатывают беспилотный авиационный комплекс для зондирования местности. Его будут применять при строительстве железных дорог.

Что мы предлагаем студентам


Мы делимся опытом со слушателями магистерской программы Системы управления движением и навигация. Преподаватели готовят студентов к проектированию компонентов для навигационных комплексов, работе с микропроцессорной техникой и моделированию систем управления.

Поступить на это направление могут специалисты, обладающие знаниями в сфере управления движением. Но мы ждем и представителей других технических специальностей, желающих сменить профиль программа обучения рассчитана на учащихся разного уровня подготовки.

Магистранты могут выбрать одну из трех специализаций:

  • Проектирование информационно-навигационных систем;
  • Разработка ПО для навигационных систем;
  • Синтез алгоритмов для управления надводными судами.

Лекции читают ученые из международной организации Академия навигации и управления движением. Практику студенты проходят в АО Концерн ЦНИИ Электроприбор. Компания закрепляет за каждым магистром своего ментора, который помогает им с рабочими задачами они связаны с разработкой навигационной аппаратуры и обработкой данных.

При желании учащиеся могут пройти практику в иностранных вузах Университете Тампере и Технологическом институте в Карлсруэ. Они расположены в Финляндии и Германии соответственно.

Выпускники магистратуры работают крупных отраслевых предприятиях в ЦНИИ Электроприбор, НПО Аврора, ОКБ Электроавтоматика и АО Навис. Они разрабатывают системы управления для самолётов, надводных судов и космических аппаратов. Но некоторые студенты решают продолжить научные изыскания и идут в аспирантуру Университета ИТМО.

Как поступить


Чтобы поступить на Системы управления движением и навигацию нужно:


Если у вас есть вопросы, связанные с образовательным процессом, позвоните или напишите напрямую сотрудникам отдела магистратуры. Они дадут вам ответы и постараются помочь.



Что еще у нас по теме учебного процесса в IT и не только:



Подробнее..

Оптоэлектроника, светодиоды и лазеры магистратура мегафакультета фотоники Университета ИТМО

31.07.2020 14:18:55 | Автор: admin
Продолжаем рассказывать о программах факультета, проектах студентов и выпускников, а также оборудовании лабораторий рентгеновских лазерах и электронных микроскопах.


Фото Andrew FastLizard4 Adams / Flickr.com

Светодиодные технологии и оптоэлектроника


Оптоэлектроника лежит в основе систем связи, солнечных панелей, твердотельных светильников, медицинский и навигационных приборов. Ключевую роль здесь играют лазерные технологии.

По этой теме в Университете ИТМО нас открыта индустриальная магистратура Светодиодные технологии и оптоэлектроника. Она формирует набор навыков, позволяющий работать и строить научную карьеру в самых разных сферах деятельности, связанных с данной областью.

Как проходит обучение. Базу программы составляют курсы Фотоника и Современные тенденции развития оптоэлектроники. Первый посвящен физическим основам и принципам работы приборов, второй знакомит студентов с задачами оптоэлектроники. Ключевые предметы Солнечная фотовольтаика, Полупроводниковые лазеры и приборы на их основе и Светодиодные нанотехнологии. Курсы здесь читают специалисты профильных предприятий.

Помимо теории, студенты, разумеется, реализуют практические проекты и выполняют лабораторные работы они проходят в учебной лаборатории. В начале года на Хабре мы проводили по ней фотоэкскурсию, где привели примеры коммерческих проектов, в них можно принимать участие.

Студенты также реализуют проекты на базе Международного научного центра (МНЦ) функциональных материалов и устройств оптоэлектроники. В его состав входит шесть международных лабораторий с лучшим оборудованием. Например, там есть сканирующий электронный микроскоп Tescan MIRA-3 для получения изображений с разрешением до 1,2 нм. Другое устройство European XFEL крупнейший в мире рентгеновский лазер на свободных электронах. Он помогает решать задачи в области фундаментальной и прикладной науки, а также медицины.


Факультет лазерной фотоники и оптоэлектроники Университет ИТМО

Где работают выпускники. Многие из них устраиваются в профильные организации и компании-партнеры Университета ИТМО. Это холдинг GS Group, выпускающий оборудование для цифрового ТВ, или Connector Optics производитель эпитаксиальных пластин для высокоскоростных вертикально-излучающих лазеров (VCSEL) и фотодиодов. Магистры работают в ГК Хевел и Клевер, где разрабатывают солнечные элементы и светодиоды. Некоторые выпускники продолжают научные изыскания и поступают в аспирантуру Университета ИТМО и других технических вузов.

Информационные технологии в теплофизике


Здесь изучают энерго- и ресурсосберегающие технологии, методы повышения энергоэффективности зданий и управления тепловыми процессами. Факультет занимается и возобновляемой энергетикой полупроводниковыми преобразователями энергии, тепло-насосами и другими установками.

Обучение. Базовые дисциплины теплофизика и термодинамика. Также программа затрагивает компьютерные технологии, математическое моделирование и энергоэффективность процессов.

Где работают выпускники. Факультет сотрудничает с большим количеством компаний, занятых в сфере сжиженного природного газа, его хранения и транспортировки. Также студенты трудоустраиваются на оптико-механические предприятия. Среди них ЛОМО, ЦНИИ Электроприбор, Электроавтоматика и другие компании. Студентов на практику и в штат.

Среди компаний-работодателей есть как тяжеловесы, входящие в структуры Росатома, Газпрома, Новатека с местами для трудоустройства, так и небольшие компании, которые предлагают сотрудникам быстрый карьерный рост и гибкую систему оплаты труда, зависящую от эффективности специалиста. Студенты, которые ищут себе подходящее место работы, уже сами могут выбрать, что им больше подходит стабильность или быстрые победы и взлёты

Андрей Никитин, декан факультета низкотемпературной энергетики

Как поступить


Для поступления в магистратуру по направлениям Светодиодные технологии и оптоэлектроника и Информационные технологии в теплофизике нужно:


Вы всегда можете написать или позвонить сотрудникам отдела магистратуры они помогут разобраться с формальностями и дадут ответы на вопросы об образовательном процессе.



Что еще у нас есть по теме учебного процесса:



Подробнее..

Какие образовательные возможности предлагает новый центр Инфохимии в Университете ИТМО

07.12.2020 00:13:08 | Автор: admin

Ранее на Хабре мы обсудили тему молодежной робототехники и междисциплинарный подход к развитию в этой области. Сегодня сфокусируемся на несколько ином направлении и поделимся нашей беседой с Екатериной Скорб, директором центра инфохимии Университета ИТМО, приглашенным профессором в Гарварде и групп-лидером в институте Макса Планка.

На фото: профессор Екатерина Скорб. Источник: news.itmo.ru На фото: профессор Екатерина Скорб. Источник: news.itmo.ru

Послушать беседу:Apple PodcastsЯндекс.МузыкаPodfmАудиоверсия на YouTube.

Какими могут быть разработки в этой области

Таймкод 00:24

Екатерина: Мы занимаемся новым направлением междисциплинарной инфохимией. Эта область затрагивает все, что связано с кодированием, хранением и обработкой информации на молекулярном уровне. Когда в таком контексте звучит слово информация, вы понимаете, что химик должен находится там, где понимают, что такое теория информации, поэтому я работаю в Университете ИТМО. Здесь в какой-то момент проявили интерес к естественно-научному направлению, а потом интегрировали его с инженерной и математической базой.

В нашем центре химики предлагают новые подходы к решению сложных проблем занимаются информацией в самоорганизующихся системах, изучают их синтетические аналоги и проводят фундаментальные исследования в этой области. Одно из направлений осциллирующие реакции и электрохимические системы. С ними удобно работать. Мы смотрим, как их запускать синхронно и настраивать систему так, чтобы получить порядок из хаоса.

Дмитрий: Как я понимаю, такие исследования пригодятся в целом спектре отраслей от хранения данных до разработки новых вычислительных систем и медицинских гаджетов?

Екатерина: Если мы перейдем к управлению на молекулярном уровне, применение будет очень широким. Мы надеемся, что сможем продвинуться в этом направлении. Пока работаем с биологическими системами ищем те, на основе которых можем предложить предсказательные модели и новые подходы например, занимаемся разными типами биопленок.

Когда возникла проблема бактерий, устойчивых к антибиотикам, ученые начали разбираться, как они живут и коммуницируют. Выяснилось, что они делают это с помощью небольших молекул передают друг другу сигналы, запускающие процесс размножения, как только попадают в благоприятные условия. Мы можем взять подобную систему в качестве модели допустим, запускать автокаталитическое размножение схожим образом, потом выделять такие молекулы [либо ингибиторы] периодически.

Так можно найти различные подходы для отправки сигналов биологическим системам. Но хорошо бы вообще делать большую часть всего этого математически. Тут можно вспомнить Алана Тьюринга и его работу похимическимосновамморфогенеза, которую любят биологи.

Поэтому сейчас мы разбираемся с этой темой с точки зрения теории информации, чтобы понять, сможем ли мы управлять и использовать такие системы для вычислений. Подобные исследования возможны только в связке с людьми, которые специализируются на данных областях знаний.

Проектирование для потребителя

Таймкод 05:31

Дмитрий: Вы работаете с темой на фундаментальном уровне, чтобы объяснить, как добиться такого эффекта и воспроизводить его?

Екатерина: Я иногда говорю, что мы собираем биологические и химические системы, которые работают так же хорошо, как системы транзисторов. Например, мы делаем локальные градиенты и посылаем локальные сигналы, а потом смотрим, как происходит синхронизация в нашей химической и биологической системе, описываем математические зависимости. Какие-то процессы запускаем не на одном электроде, а одновременно на 25-30 электродах. Находим состояния и режимы, когда несинхронные процессы приводят к синхронизации в системе.

Если говорить простыми словами, то настраиваем все так, чтобы можно было использовать такую химико-биологическую систему в потребительском сегменте. Допустим, в диагностике.

Дмитрий: Наклейка на кожу, которая будет показывать результат определенных измерений?

Екатерина: Или будет мониторить концентрацию натрия и калия, которая связана с обменом веществ, а вы будете понимать, все ли в порядке. Пока мы пытаемся выявить некие корреляции. Один из последних примеров показал, что у людей в арабских странах содержание меди ниже среднего. Возможно, это связано с рационом. Но если вы измеряете не только медь, но и цинк, кальций, магний, натрий и делаете это постоянно в формате носимого устройства, анализ с помощью систем ИИ позволит выявить закономерности и специфику целевых групп. Например, признаки определенных заболеваний или спортивных тренировок. От этих выводов можно отталкиваться для разработки тренировочных программ и стратегий лечения пациентов.

Дмитрий: Такой подход упростит и сам процесс сбора данных.

Екатерина: Да, мы работаем над этим. С коллегами мы занялись не только проектированием химических сенсоров, но и функциональных приборов сделали прототип портативного потенциостата. Далее его можно миниатюризировать, переводить в гибкие форматы.

Кто еще занимается такими задачами

Таймкод 12:33

Дмитрий: Получается, у вас в комплексе теоретические и практические разработки?

Екатерина: Да. Как раз для этого и поддержали наш центр инфохимии. Теперь это не только моя группа, которая занимается фундаментальными проблемами. Есть весьма прикладные цифровизация пищевых технологий, разработка и внедрение портативных устройств и другие.

Дмитрий: Уже идет работа над продуктом.

Екатерина: Да. Тут еще важно, что все это очень понятно для магистров и аспирантов. Они сами проявляют инициативу и подают заявки на гранты. Основное финансирование РНФ и РФФИ, но я надеюсь, что в какой-то момент будет поддержка и от меценатов, которых заинтересуют амбициозные задачи, и они начнут инвестировать в исследовательскую деятельность.

На фото: профессор Екатерина Скорб. Источник: news.itmo.ru На фото: профессор Екатерина Скорб. Источник: news.itmo.ru

Здесь я чуть больше двух лет. До этого долго работала в институте Макса Планка, где у меня была научная группа. Еще в Гарварде, у самого цитируемого химика современности Джорджа Уайтсайдса. Занималась фундаментальным направлением, таким как возникновение жизни на Земле. Эту работу поддерживал фонд Саймонса.

Будет отлично, если у нас появятся похожие примеры. Допустим, инвесторы заинтересуются разработкой искусственной клетки и самовоспроизводящихся систем.

Такие задачи можно решать только с помощью усилий междисциплинарных групп. Как только нам вместе удается выявить зависимости и построить предсказательные модели для сложных систем, мы их подтверждаем и запускаем дальнейшие разработки.

Дмитрий: Расскажите, пожалуйста, подробнее о центре, различиях специалистов по профилю и о том, как вы вовлекаете младших коллег в свою деятельность.

Екатерина: Наша группа выросла из химико-биологического кластера там есть две образовательные программы. Мы пропагандируем подход, который условно можно назвать образованием через науку. У ребят есть серьезные исследования, каждый ведет свой проект и отвечает за него. Магистры это основа, но есть и аспиранты, и постдоки.

Тем, кто хотел бы присоединиться к одной из групп

Таймкод 15:36

Я готова работать с любым человеком, кому интересна инфохимия. Задачи найдем. Мы ждем хороших химиков и математиков, если у них есть интерес к междисциплинарной работе. На текущий момент коллектив вырос до нескольких независимых групп. Два моих постдока получили свои РНФ-гранты на запуск научных групп. Потом выделилась еще пара групп химометрики и биомиметики. Сейчас все они оформились в научных центр инфохимии.

Еще у нас появилась группа вычислительной химии. Она помогает транслировать студентам многие вопросы, которые невозможно решить с моделями. Все, что в водных растворах; выпадение осадка; изменения системы в процессе адаптации. Можно говорить и о разработке самозалечивающихся материалов и о том, как собрать имплантаты внутри живых организмов.

Взаимодействие с медиками привело к тому, что мы запустили группу биоэлементологии, занялись функциональным питанием. Все это у нас происходит достаточно органично.

Все-таки альтернативы текущим разработкам всегда нужны, и я решила, что мне было бы интересно что-то предложить и сделать в направлении инфохимии. В мире мало кто этим занимается, потому как нужен тесный контакт со специалистами разного профиля, но как раз здесь в Университете ИТМО такая возможность есть. Допустим, если вы хотите заняться темой наноструктурирования поверхностей, системами умной доставки, которые можно регулировать светом, током, а они самоадаптируются в целевой среде например, очищаются от бактерий. Ресурсы для этой работы и научные группы у нас есть.

На фото: профессор Екатерина Скорб. Источник: news.itmo.ru На фото: профессор Екатерина Скорб. Источник: news.itmo.ru

Дмитрий: Могли бы вы что-то порекомендовать с точки зрения пререквизитов и бэкграуда для тех, кто хотел бы присоединиться к вам? Каких людей вы ждете в своем новом центре?

Екатерина: Мы ждем тех, кто готов доводить дело до конца публиковаться в высокоимпактных журналах или выводить на рынок и условные прилавки аптек свои сенсоры. Если это хороший химик, у нас есть возможность научить его современным подходам в математике и программировании. В обратной ситуации покажем модельные биологические и химические системы, дадим базис для решения сложных проблем. Нужно быть готовыми учиться.

Дмитрий: Возможны оба исходных направления?

Екатерина: Да. Мы хотим распространить такой подход и на бакалавров, а потом и школьников. Чтобы они знакомились с научными проектами. Так, в школе 239 уже есть химбио-направление. Мы хотим видеть выпускников таких образовательных учреждений у себя в университете.

Дмитрий: Приличный горизонт планирования для подготовки новых специалистов.

Екатерина: Если вы понимаете, что прорывы ожидаются в междисциплинарных областях, то это перспективный подход. Но в Университете ИТМО мы предлагаем не только это, а еще и обширную инфраструктуру для развития софт-скиллз и личностного роста.

Больше возможностей

Таймкод 26:58

Дмитрий: Все-таки междисциплинарный подход во многом подразумевает обучение на лету и передачу знаний из рук в руки. Учебников по последним достижениям, конечно, не бывает.

Екатерина: Поэтому мы и говорим, что это образование через науку. Мы вовлекаем наших учеников в подготовку публикаций для высокоимпактных журналов, еще они могут поехать на практику. Одни уже поработали в Гарварде, другие взаимодействовали с коллегами из института Макса Планка. Это стажировки в топ-10 вузах мира, если необходимо для проекта.

Мы не говорим о научном туризме. Наши подопечные вовлечены в значимые проекты и осознают свою ответственность, а мы показываем им передний край науки.

Дмитрий: Они продолжают заниматься своей научной работой и расширяют базу за счет таких стажировок. Не меняют направление, не переключаются ради какой-то разовой поездки.

Екатерина: Да, но это требует согласования. Например, моя группа сотрудничает с NUS, и мы всегда обсуждаем со студентами, как сделать такое взаимодействие максимально продуктивным. Допустим, с точки зрения научных публикаций. Хотя по большей части многим и не требуется куда-то обязательно ехать. У нас можно сделать все, что связано с электрохимией и аналитической химией лаборатории прекрасно оборудованы. Необходимость стажировок определяется с помощью индивидуального подхода к тому, чем занимается каждый из студентов.

Дмитрий: Пока все это возможно при поддержке государства.

Екатерина: Фонды государственные. Но вообще-то это фактически мы налогоплательщики. Поэтому я считаю, что нужно рассказывать о науке, а проекты, нацеленные на продукт, могут заканчиваться выгодными конкурентными разработками с привлечением соинвесторов.

У нас есть опыт таких переговоров, хотя формальностями больше занимаются юристы, а мы специализируемся на том, что до нас мало кто делал в этой области. Наша группа третья из тех, что занимаются инфохимией, помимо группы Джорджа Уайтсайдса и польских коллег.

Прорывы ожидаются именно в таких естественнонаучных направлениях. В мире понимают, что подобный подход перспективен. Так, в научный совет нашего центра входит Жан-Мари Лен, нобелевский лауреат и основоположник супрамолекулярной химии. Я думаю, что такое взаимодействие необходимо для развития.

Мы работаем над контролируемыми электрохимическими осциллирующими системами и системами доставки веществ, когда есть каскад реакций и периодическое выделение. К прикладным и фундаментальным исследованиям в этих областях в мире есть большой интерес.

Как выглядит рабочий день Екатерины Скорб

Таймкод 37:38

Дмитрий: Если смотреть на ваше взаимодействие с международным сообществом и коллегами здесь, как выглядит ваш рабочий день? Как вам удается найти время, чтобы разобраться, чем занимается каждый из ваших подопечных?

Екатерина: Даже если я что-то не успеваю, я делаю все по максимуму. Зачастую мне хватает и четырех часов сна. В начале дня в лаборатории мы проводим общее совещание или обсуждаем тематические проекты. До этого ребята присылают все свои наработки к текущему моменту мы смотрим, что сделано, планируем развитие. Далее идут индивидуальные встречи. Мы садимся и думаем, что уже можно оформить в научную статью, как она будет выглядеть и так далее.

Какая-то часть времени уходит на написание научных проектов и административные моменты. Иногда бывают интервью. Как то, которое мы записываем сейчас. Я считаю, что это важно.

Еще мы организуем встречи в духе Art&Science со специалистами из других сфер деятельности.

По мере завершения рабочего дня это чтение и подготовка своих статей, какие-то переговоры.

Кроме меня у студентов есть менторы на уровне других групп-лидеров, постдоков и аспирантов. Но мне всегда нужно понимать, что у всех есть задачи, как минимум, на две-три недели. Тогда можно оценивать прогресс и видеть, что человек делает максимум из того, что можно было бы осуществить, исходя из имеющихся ресурсов. Мы действительно много вкладываем в наших учеников. На этот счет моя совесть чиста. Мы делаем общее дело, и я надеюсь, что все, кто идут рядом, делают для этого максимум. Тогда и получаются интересные результаты.


Другие интервью в нашем подкасте:


Подробнее..

SIT Masters Insights Что дает магистратура в Швейцарии и сколько это стоит?

26.06.2020 14:09:33 | Автор: admin
Если вы задаетесь подобным вопросом, то специально для вас основатели Schaffhausen Institute of Technology (SIT) проведут вебинар, на котором расскажут об особенностях новой магистерской программы института. Магистратура SIT это реальная возможность для выпускников вузов различных стран (в том числе России и СНГ) получить образование мирового уровня, соответствующее требованиям рынка и запросам общества. Краткая информация о вебинаре, а также ссылка на регистрацию под катом.



Ни для кого не секрет, что выпускникам вузов часто не хватает квалификации, а корпорации не могут найти достойных кандидатов на роли CTO или CISO. Например, по данным АПКИТ за 2020 год потребность в IT-специалистах высокой квалификации в России уже сейчас составляет 222 тысячи сотрудников, а к 2024 году общая годовая потребность цифровой экономики страны в высококвалифицированных кадрах увеличится на четверть практически до 300 тысяч человек в год. А исследование Microsoft и IDC за 2019 показало, что 96% ИТ-шников России и Центральной и Восточной Европы недостаточно квалифицированы.

Логично, что кто-то должен предложить решение для этой проблемы. Этим летом объявили набор учащихся на новую программу Schaffhausen Institute of Technology (SIT), которая была создана для подготовки необходимых бизнесу ИТ-специалистов. SIT ведет разработки в таких стратегических сферах, как квантовые технологии, новые материалы, машинное обучение и киберзащита самых востребованных на сегодня отраслях науки и технологий. Международный научно-исследовательский университет находится в Шаффхаузене современном высокотехнологичном хабе Европы, где размещают свои штаб-квартиры многие технологические компании.Об этом можно подробнее узнать в одном из наших прошлых постов.

SIT находится в Швейцарии, но является международным проектом. Получить в нем магистерское образование могут талантливые выпускники вузов разных стран мира. Подать заявку на зачисление по магистерской программе Computer Science and Software Engineering может любой резидент Восточной Европы (включая Россию и СНГ) или Южной Азии. Для подачи документов достаточно иметь степень бакалавра по профильному направлению, а также владеть английским языком на необходимом для обучения уровне (умение понимать собеседника и выражать свои мысли на английском). Стоимость обучения в SIT находится на одном уровне с ТОП-10 российскими техническими вузами, а для самых талантливых студентов и победителей конкурсов предоставляются скидки на обучение и стипендии.

Кстати, прямо во время обучения студенты SIT могут проходить стажировку в крупных технологических компаниях (в том числе и в Acronis), принять участие в реальных проектах с официальным трудоустройством и зарплатой. Также менторы вуза могут помочь с основанием и запуском своего собственного высокотехнологичного стартапа как консультациями, так и привлечением личных связей.

SIT Masters Insights


Чем отличается магистратура SIT? Как будет построен учебный процесс? Каковы уникальные особенности специально разработанной программы? Вебинар SIT Masters Insights, с нобелевским лауреатом Константином Новоселовым запланирован как раз для ответов на эти и другие вопросы. 30 июня в 11:00 МСК на русском языке будет проведено мероприятие специально для русскоговорящих специалистов и выпускников вузов. Вы сможете узнать все из первых рук, а также задать свои вопросы.

Константин Новоселов и Сергей Белоусов

Программа вебинара:

  • 11:00 Future of Computing, Сергей Белоусов, доктор технических наук, основатель и CEO Acronis, основатель SIT;
  • 11:25 Translation of Science, Константин Новоселов, лауреат Нобелевской премии по физике 2010, Председатель стратегического попечительского совета SIT;
  • 11:45 New Era of Tech Business, Станислав Протасов, Президент и сооснователь Acronis
  • 12:05 Панельная дискуссия со студентом SIT, сессия вопросов и ответов

Вся актуальная информация о событии, а также обязательная регистрация: здесь.
Подробнее..

Разбор вступительного теста этого года в корпоративную магистратуру JetBrains на базе Университета ИТМО

12.10.2020 14:18:52 | Автор: admin
Вступительное испытание на корпоративную магистерскую программу JetBrains на базе Университете ИТМО начинается с онлайн-теста. Летом мы опубликовали разбор нескольких математических задач из теста 2019 года, а сегодня представляем разбор одного из вариантов прошедшего набора.



Несколько слов о том, как устроен тест. Абитуриенты получают ссылку на закрытый курс на платформе Stepik.org. Далее у них есть несколько недель на то, чтобы приступить к решению. Тест состоит из 12 задач, на них отводится два часа. Решать задачи можно в произвольном порядке, за каждую из них начисляется один балл. Проходной балл меняется от года к году. В этот раз он был довольно низким задачи получились сложные. Кураторы программы сделали выводы и постараются к следующему набору подготовить задачи полегче.

Задача 1


Найдите уравнение касательной к кривой $xy=6\cdot\exp(2x-3y)$ в точке $(3, 2)$. Ответ запишите в виде $ax+by=c$, где $a, b, c$ целые несократимые числа и $a>0$ (без пробелов и скобок), например, $2x+3y=7$.

Когда в задаче спрашивается про касательную к графику функции, то это почти всегда связанно с вычислением производной. В данном случае требуется найти производную для неявно заданной функции. Будем считать, что $y$ это функция от $x$. Продифференциируем обе части равенства $xy=6\cdot\exp(2x-3y)$ по $x$. Получаем

$ y + xy' = (2 - 3y')\cdot 6\cdot \exp(2x - 3y).$

Это позволяет выразить производную $y'$ через $x$ и $y$.

$ y' = \frac{12\cdot \exp(2x - 3y) - y}{x + 18\cdot \exp(2x - 3y)}. $

Теперь можно вычислить значение производной $y'$ в точке $(3,2)$. Обозначим это значение $\alpha$.

$ \alpha = \frac{12\cdot \exp(0) - 2}{3 + 18\cdot \exp(0)} = \frac{10}{21}. $

Это значение задаёт тангенс угла наклона касательной к кривой в точке $(3,2)$. Осталось вспомнить, что уравнение прямой можно задать в виде $y=\alpha x + b$. Зная, что прямая должна проходить через точку $(3,2)$, мы можем вычислить $b$:

$2 = \frac{10}{21}\cdot 3 + b.$

Следовательно, $b=\frac{4}{7}$. Получаем, что уравнение искомой прямой имеет вид:

$y = \frac{10}{21}x + \frac{4}{7}.$

Приводим его к требуемой форме домножив на 21 и получаем:

$10x - 21y = -12.$


Задача 2


На плоскости нарисованы две кривые, заданные многочленами второй степени.


Найдите площадь замкнутой области, которая ограничена этими кривыми. Если такой области нет, то нужно вывести число 0.

Вход
На первой строке три целых числа $a_1$, $b_1$, $c_1$, задающие первую кривую $f(x) = a_1 x^2 + b_1 x + c_1$, на второй строке три целых числа $a_2$, $b_2$ и $c_2$, задающие кривую $g(x)=a_2x^2+b_2x+c_2$. Все числа по модулю не превосходят $10$.

Выход
Площадь замкнутой области, ограниченная $f(x)$ и $g(x)$.
Ответ должен быть вычислен с точностью 5 знаков после запятой.

Это задача на программирование, но с некоторой математической составляющей. Чтобы вычислить площадь искомой области, можно вычислить площадь под графиками функций $f(x)$ и $g(x)$ на отрезке между точками пересечения и вычесть одну из другой. Можно поступить проще: сразу рассматривать функцию $h(x) = f(x) - g(x)$ и вычислить площадь под графиком этой функции между её корнями. Это немного упростит задачу. Предлагается следующий алгоритм:

  1. вычисляем коэффициенты $h(x) = ax^2 + bx + c$,
  2. проверяем, что получился квадратный многочлен ($a\neq 0$), и что он имеет два различных корня (дискриминант больше нуля), если нет возвращаем ноль,
  3. вычисляем корни $r_1$ и $r_2$, $r_1<r_2$
  4. вычисляем площадь под графиком $h(x)$ между $r_1$ и $r_2$,

    $ \int\limits_{r_1}^{r_2} h(x)\,dx = (ax^3/3+bx^2/2+cx)\Big|_{r_1}^{r_2}. $

  5. возвращаем модуль этого значения, т.к. при $a>0$ интеграл будет отрицательным.

Далее идёт реализация этого алгоритма на Питоне

# считываем коэффициенты f(x) и g(x)a1, b1, c1 = map(int, raw_input().split())a2, b2, c2 = map(int, raw_input().split())# вычисляем коэффициенты h(x)a = a1 - a2b = b1 - b2c = c1 - c2# проверяем наличие корнейd = b * b - 4 * a * cif a == 0 or d <= 0:    print(0)    exit(0)# вычисляем корниr1 = (-b - math.sqrt(d)) / (2.0 * a)r2 = (-b + math.sqrt(d)) / (2.0 * a)# первообразная для h(x)def H(x):    return a*x*x*x/3.0 + b*x*x/2.0 + c*x# вычисляем определённый интеграл и выводим его модуль в требуемом форматеprint("{:.5f}".format(math.fabs(H(r2) - H(r1))))


Задача 3


В пространстве $\mathbb{R}^5$ задано стандартное скалярное произведение, $L$ подпространство, заданное как линейная оболочка векторов $a_1=(2,0,-1,-2,0)$, $a_2=(1,-1,0,1,-1)$, $a_3=(1,3,0,1,-1)$. Найти ортогональную проекцию вектора $x=(3,1,-1,2,0)$ на подпространство $L$ вектор $x_L$ и ортогональную составляющую $x_M$ этого же вектора ($x_L+x_M=x$).

В ответ напишите сумму координат вектора $x_M$ (например, для вектора $(1,2,3,2,1)$ сумма координат будет 9).

Ответ укажите с точностью до двух знаков после точки. При необходимости округлите по правилам математики.

Заметим, что вектора $a_1$, $a_2$ и $a_3$ ортогональны (это можно проверить вычислив попарные скалярные произведения), но не нормированы. Давайте найдём проекцию $x$ на каждый из трёх векторов.

$ \mathrm{proj}_{a_1}x = \frac{x\cdot a_1}{|a_1|} = \frac{3}{\sqrt{9}} = 1. $

$ \mathrm{proj}_{a_2}x = \frac{x\cdot a_2}{|a_2|} = \frac{4}{\sqrt{4}} = 2. $

$ \mathrm{proj}_{a_3}x = \frac{x\cdot a_3}{|a_3|} = \frac{8}{\sqrt{12}} = \frac{4\sqrt{3}}{3}. $

Таким образом

$x_L = 1\cdot \frac{a_1}{|a_1|} + 2\cdot \frac{a_2}{|a_2|} + \frac{4\sqrt{3}}{3} \cdot \frac{a_3}{|a_3|} = \frac{1}{3}\cdot a_1 + a_2 + \frac{2}{3} \cdot a_3. $

Осталось выразить $x_M$

$ x_M = x - x_L = x - \frac{1}{3}\cdot a_1 - a_2 - \frac{2}{3} \cdot a_3. $


В ответе нужно записать сумму координат $x_M$. Можно было бы сначала вычислить $x_M$, а потом сложить его координаты, но можно ещё проще: воспользуемся тем, что сумма координат суммы векторов, равна сумме сумм координат каждого из слагаемых.
Для получения ответа, вычислим суммы координат для каждого из векторов отдельно и сложим их с соответствующими коэффициентами:

$ 5 - \frac{1}{3}\cdot (-1) - 0 - \frac{4}{3} \cdot 4 = 5 + 1/3 - 8/3 = 8/3 \approx 2.67. $


Задача 4


Обозначим за $w(k)$ комлексный корень степени $k$ из единицы с минимальным положительным аргументом (аргумент = угол в полярной форме комплексного числа). Например, $w(4) = i$.

Найдите минимальное положительное целое $x$, являющееся решением следующего уравнения.

$ \left(w(28)\cdot w(14)\right)^x = w(7)^4. $


По определению $w(k)$ можно вывести явную формулу: $w(k) = e^{\frac{2\pi}{k}\cdot i}$ (тут мы используем показательную форму записи комплексного числа, это соответствует $w(k) = \cos(2\pi/k) + i\sin(2\pi/k)$). Подставляем это в уравнение и получаем:

$ \left(e^{\frac{2\pi}{28}\cdot i}\cdot e^{\frac{2\pi}{14}\cdot i}\right)^x = \left(e^{\frac{2\pi}{7}\cdot i}\right)^4 \quad\implies\quad e^{\frac{3x\pi}{14}\cdot i} = e^{\frac{8\pi}{7}\cdot i}. $

Остаётся решить уравнение на показатели. Тут нужно помнить, что $e^{2\pi i} = 1$. Поэтому, получаем уравнение

$ \frac{3x\pi}{14}\cdot i = \frac{8\pi}{7}\cdot i + 2\pi k\cdot i. $

Домножаем на $14$ и делим на $\pi i$. Получается следующее уравнение в целых числах, где нас интересует решение с минимальным положительным целым $x$.

$ 3x = 16 + 28k. $

Проверив $k=0,1,2$, находим ответ $x = 24$ при $k=2$.

Задача 5


Маленькому мальчику Ване на кружке по системам счисления задали следующую задачу: перевести число $X$ в системе счисления $s_1$ в систему счисления $s_2$. Недолго думая, он позвал на помощь своего лучшего друга Петю, который славился тем, что замечательно умел считать до $10$ на пальцах. После нескольких бессонных ночей ребята общими усилиями справились с задачей.

Однако, на следующем занятии Ване задали похожую задачу, где $X$, к сожалению, превышало $10$. Тогда ребята решили обратиться к старшей сестре Пети с просьбой написать универсальную программу, которая решает задачу для любых $X$, $s_1$ и $s_2$. Ваша цель выполнить просьбу Вани и Пети.

Входные данные
Во входных данных вашей программе дается три числа: исходное число $X$, основания систем счисления $s_1$ и $s_2$ ($2 \le s_1,s_2 \le 10$). Число $X$ в десятичной системе счисления не превышает $2 \times 10^9$.

Выходные данные
В выходных данных должно быть число $X$, записанное в системе счисления $s_2$, или $-1$, если входные данные некорректны (число $X$ во входных данных не является корректной записью числа в системе счисления $s_1$).

Это задача на перевод числа из одной системы счисления. Если нам дано число $x = \overline{a_{n-1}a_{n-2}\dotsc a_{0}}$ в системе счисления с основанием $s_1$, то его значение можно вычислить, как

$ x = a_{n-1}s_1^{n-1} + a_{n-2}s_1^{n-2} + \dotsb + a_0. $

Это же можно вычислить по схеме Горнера:

$ x = (\dotsc(a_{n-1}s_1 + a_{n-2})s_1 + \dotsb + a_1)s_1 + a_0. $

Для того, чтоб перевести $x$ в число $\overline{b_{n-1}b_{n-2}\dotsc b_{0}}$ в системе счисления по основанию $s_2$, нужно повторить эту процедуру в обратном порядке. Тогда цифра $b_i$ будет вычисляться по формуле

$ b_i = \lfloor x / s_2^i\rfloor \bmod s_2. $



Ниже представлена реализация этой идеи на Питоне.
# считываем входные данныеxstr, b, c = raw_input().split()s1 = int(b)s2 = int(c)# проверяем входные данные и преобразуем в числоx = 0for c in xstr:    if int(c) >= s1:        print(-1)        exit()    x = x * s1 + int(c)# переводим в заданную систему счисленияres = ""if x == 0:    res = "0"else:    while x > 0:        res = str(x % s2) + res        x = x // s2     print(res)


Задача 6


Про студентов магистерской программы Software Engineering известно, что они дружат друг с другом так, что каждый студент дружит не более чем с 3 другими, и для любых двух студентов верно, что они либо дружат друг с другом, либо есть студент, который дружит с ними обоими.

Какое максимальное число студентов на магистерской программе Software Engineering?

Задача на комбинаторику и теорию графов. Рассмотрим одного студента. Он сам дружит не более, чем с тремя студентами. Каждый его друг имеет не более 2 других друзей. Других студентов по условию быть не может. Получаем, что всего не более $1 + 3 + 3\cdot 2 = 10$ студентов. Осталось проверить, что такую граф существует, но это несложно сделать на листочке.


Левая вершина рассматриваемый студент, правее три его друга и шесть друзей друзей. Цвета рёбер значения не имеют и нужны только для понятности картинки.

Задача 7


Сколько различных решений имеет следующее уравнение $x_1+x_2+x_3+x_4=50,$
если известно, что $x_1\in\{1,2,3,\dotsc\}$, $x_2\in\{2,3,4,\dotsc\}$, $x_3\in\{0,1,2,3,\dotsc\}$, $x_4\in\{0,1,2,3,\dotsc\}$?

Это простая задачка на три цикла числа небольшие, результат можно быстро посчитать короткой программой.

count = 0for x1 in range(1,51):    for x2 in range(2,51):        for x3 in range(51):                if x1 + x2 + x3 <= 50:                    count = count + 1print(count)

Но писать программу необязательно, ответ не так сложно вычислить аналитически (на тесте такого требования не было). Для этого заметим, что исходная задача эквивалентна следующей.
Сколько различных решений имеет следующее уравнение $x_1+x_2+x_3+x_4=47,$
если известно, что $x_1,x_2,x_3,x_4\in\{0,1,2,3,\dotsc\}$?
(Мы вычли $1+2$ из правой части и добились того, чтобы все переменные начинались с нуля.)

Это уже типовая задача. Нам нужно разбить последовательность $n=47$ предметов на 4 части. Для этого нужно вставить $k = 3$ перегородки. По формуле для разбиения получаем

$\binom{n+k}{k} = \binom{50}{3} = \frac{50\cdot 49\cdot 48}{3!} = 50\cdot 49\cdot 8 = 1960.$



Задача 8


Найти длину кривой $x^{2/3}+y^{2/3}=9$, заключённой в первой четверти.

Ответ укажите с точностью до двух знаков после точки. При необходимости округлите по правилам математики.

Это задача на вычисление длины кривой. Длина кривой вычисляется через определённый интеграл

$ \int\limits_a^b \sqrt{1 + (y')^2}\, dx. $

В нашем случае, $a = 0$, $y = (9 - x^{2/3})^{3/2}$. Для вычисления $b$, точки пересечения с осью абсцисс, нужно подставить $y=0$: получаем $x = 9^{3/2} = 3^3 = 27$. Вычислим $y'$:

$ y' = -\frac{2}{3}\cdot \frac{3}{2}\cdot x^{-1/3}\cdot \sqrt{9 - x^{2/3}} = -\sqrt{9x^{-2/3} - 1}. $

Вычисляем интеграл:

$ \int\limits_0^{27} \sqrt{1 + 9x^{-2/3} - 1}\, dx = \int\limits_0^{27} \sqrt{9x^{-2/3}} \, dx = \int\limits_0^{27} 3x^{-1/3} \, dx = \left(\frac{9}{2}\cdot x^{2/3}\right)\Bigg|_0^{27} = 81/2 = 40.5 $


Задача 9


На вход программе подаётся строка, содержащая слова, разделённые пробелом. Слово это последовательность латинских символов, окружённая пробелами или границами строк.

Для всех слов, которые встречаются в тексте более одного раза, программа должна вычислить минимальное количество слов между повторениями.

Вход
Строка, содержащая последовательность строчных латинских символов, разделённых пробелами.

Выход
Выведите все слова, которые встречаются более одного раза, и минимальное количество слов между их повторениями, в формате
слово: число

Выведите эту информацию в том порядке, в котором слова встречаются в тексте в первый раз.

Это чисто программистская задача на использование массивов, словарей и сортировок. Ниже представлено решение этой задачи на Питоне с комментариями.
# считываем входную строку и разбиваем на словаwords = raw_input().split()# заводим необходимые словариidx  = {}  # хранит номер последнего вхождения словаdist = {}  # хранит минимальное расстояние между повторениямиfirst = {} # хранит номер первого вхождения# проходим по словам и вычисляем минимальное расстояние для каждого словаfor i in range(len(words)):    if words[i] in idx:        if dist[words[i]] > i - idx[words[i]] - 1:            dist[words[i]] = i - idx[words[i]] - 1    else:        first[words[i]] = i        dist[words[i]] = 2 * len(words)  # замена +бесконечности    idx[words[i]] = i # массив для хранения слов, которые встречаются более одного разаgood = []for k in dist:    if dist[k] < len(words):        good.append((k, dist[k], first[k]))        # упорядочиваем массив по номеру первого вхожденияgood.sort(key=lambda t: t[2])# выводим результатfor t in good:    print("{}: {}".format(t[0], t[1]))


Задача 10


В студенческом общежитии ИТМО очень сложно устроена локальная сеть местный администратор не любит роутеры, потому сетевые кабели протянуты напрямую между некоторыми компьютерами (для этого в некоторые компьютеры пришлось установить дополнительные сетевые карты).

Вам, как новичку в общежитии, хочется выяснить как все устроено. Поэтому вы можете выбрать любые два компьютера и получить ответ на вопрос проложен ли между ними провод?. Вам бы хотелось узнать можно ли в общежитии передать информацию с любого компьютера до любого другого по проводам.

Какое минимальное количество вопросов необходимо задать чтобы гарантированно получить ответ, если всего в общежитии установлено 32 компьютера?

Задача на теорию графов. Тут нужно показать, что какую бы стратегию мы не выбрали, нам придётся перебрать все пары компьютеров, т.е. задать $32\cdot 31/2 = 496$ вопросов. До этого нетрудно догадаться, и для ответа на тест этого достаточно. Тем не менее, давайте постараемся разобраться, почему это так.

Довольно легко придумать следующую простую идею, которая всё объясняет: если мы про какую-то пару компьютеров не спросили, например, не спросим про пару $\{12,17\}$, то давайте рассмотрим сеть, в которой компьютер $17$ соединён только с компьютером $12$. Если не спросить про $\{12,17\}$, то мы не можем быть уверены, что $17$ соединён хоть к каким-то компьютером. Это рассуждение объясняет, почему нужно спросить про все пары компьютеров, и приводит к правильному ответу. Только вот это рассуждение не является корректным. Проблема заключается в том, что мы неявно предполагаем, что наши вопросы не зависят от ответов на предыдущие вопросы. Когда мы предлагаем рассмотреть сеть, в которой компьютер $17$ соединён только с компьютером $12$, то это уже другая сеть, нежели та, на которой мы не спросили про пару $\{12,17\}$. На разных сетях вопросы могут быть устроены по-разному. Другими словами, это рассуждение позволяет доказать, что не существует пары компьютеров $\{a,b\}$, про которую мы не спросим ни для какой конфигурации сети. При этом, если для каждой конфигурации сети существует какая-то пара, про которую мы не спрашиваем, то это не противоречит нашему рассуждению.

Корректное объяснение может выглядеть, например, так. Предположим, что вместо честного ответа на вопросы об устройстве сети, нам отвечают таким образом, чтобы заставить нас задавать как можно больше вопросов (такое доказательство называется рассуждением о противнике (adversary argument)). Как ему это сделать? Можно придерживаться следующей стратегии: отвечать Да только в том случае, если ответ Нет будет означать, что сеть несвязна. Давайте покажем, что при такой стратегии ответов нам всегда придётся спросить про все пары компьютеров. Рассмотрим граф, в котором вершины соответствуют компьютерам, а рёбра тем парам, для которых мы получили ответ Да. Заметим, что при такой стратегии ответов на вопросы получившийся граф будет ациклическим. Действительно, если в какой-то момент в графе появился цикл, то это означает, что мы получили ответ Да на вопрос про некоторую пару $\{a,b\}$, про которую можно было ответить Нет, ведь $\{a,b\}$ уже связаны другими рёбрами, т.е. ответ Нет на вопрос о $\{a,b\}$ не означает несвязность сети. Теперь предположим, что мы убедились в связности сети не спросив про все пары. Это значит, что полученный граф представляет собой дерево содержащее все 32 вершины. Пусть $\{a,b\}$ пара компьютеров, про которую мы не спросили. Давайте добавим ребро $\{a,b\}$ к дереву. Так как в дереве уже были пути между всеми парами вершин, то новое ребро добавит цикл.


Рассмотрим этот цикл и выберем на нём ребро, про которое мы спрашивали последним. Пусть это ребро $\{c,d\}$. Спрашивая про пару $\{c,d\}$ мы получили ответ Да. По нашей стратегии нам отвечают Да только, если ответ Нет означал бы несвязность графа. Но это противоречит тому, что про пару $\{a,b\}$ мы ничего не спрашивали: можно было бы ответить Нет на вопрос о $\{c,d\}$ и всё равно добиться связности графа за счёт ответа Да на вопрос об $\{a,b\}$. Это противоречит предположению о выбранной стратегии ответов на вопросы.

Задача 11


Школьник Ваня приболел, и его мама решила вызвать врача домой. У врача есть статистика по району, где живет Ваня. У $90\%$ больных детей этого района грипп, у остальных $10\%$ ветрянка. Других болезней в этом районе не зафиксировано.

Один из основных симптомов ветрянки это сыпь, она появляется в $95\%$ случаях заболевания ветрянкой. Однако, во время гриппа она тоже возможна и появляется в $8\%$ случаях.

Осмотрев Ваню, врач обнаружил сыпь. Какова вероятность того, что у Вани ветрянка?

Ответ укажите с точностью до двух знаков после точки. При необходимости округлите по правилам математики.

Это задача на теорию вероятностей и формулу Байеса. Обозначим следующие события: $A$ у Вани грипп, $B$ у Вани ветрянка.

$\Pr[A] = 0.9,\quad \Pr[B] = 0.1.$

Пусть $C$ это наличие сыпи. Известно, что

$\Pr[C\mid B] = 0.95,\quad \Pr[C\mid A] = 0.08.$


Нас просят оценить условную вероятность $\Pr[B\mid C]$. По теореме Байеса:

$\Pr[B\mid C] = \frac{\Pr[C\mid B]\cdot\Pr[B]}{\Pr[C]}.$

Вероятность выпадения сыпи можно вычислить по формуле полной вероятности:

$ \Pr[C] = \Pr[C\mid B]\cdot\Pr[B] + \Pr[C\mid A]\cdot\Pr[A] = 0.95\cdot 0.1 + 0.08\cdot 0.9 = 0.167. $

В результате получаем:

$\Pr[B\mid C] = \frac{0.95\cdot 0.1}{0.167} \approx 0.57.$


Заключение


Надеемся, что этот разбор поможет абитуриентам программы подготовиться к онлайн-тесту. Для самостоятельной проверки предлагаем прорешать второй вариант. Все материалы вступительных испытаний опубликованы на сайте программы. Там же вы сможете найти полное описание процесса поступления. Не забывайте, что за успешным прохождением онлайн-теста следует устный этап вступительного испытания.

PS. Внимательный читатель заметит, что в разборе 11 задач, а в тесте их должно быть 12. Одна из задач оказалась технически сложной, и мы решили её не разбирать, чтобы никого не пугать.
Подробнее..

Как победить букмекеров с помощью ИИ опыт студентов магистратуры Наука о данных

06.05.2021 14:05:14 | Автор: admin

Привет, Хабр! Сегодня хотим представить вам проект студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с университетами) созданный на внутреннем хакатоне, который прошел в марте. Команда поделится решением выбранной задачи предсказание победителя-бойца турнира UFC. Задача отличалась от прочих тем, что после написания модели из неё можно сделать целый продукт, оформив модель в приложение, готовое к использованию конечными пользователями, например теми, кто захочет обыграть букмекеров.


Гипотеза и её проверка

Для нашего проекта мы сформулировали гипотезу, что на победу бойца влияют:

  • физические параметры бойца (его рост, вес, размах рук и ног);

  • возраст бойца (всё-таки со временем физически мы слабеем);

  • разница в опыте соперников (вряд ли какой-то новичок без опыта одолеет Хабиба);

  • характер поведения бойца на ринге (чаще обороняется или чаще нападает);

  • географические параметры (вдруг наш боец не успел адаптироваться к другому часовому поясу).

Основа всех методов проверки модели машинного обучения разделение данных при обучении модели на тренировочную и валидационную выборки. Валидационная выборка потребуется, чтобы понять, что произойдёт, если наша модель столкнётся с данными, которых она раньше не видела.

Принцип разделения прост: мы случайным образом разбиваем свои данные примерно на 70 %, используемых для обучения модели, и 30 % для тестирования модели. Однако есть нюанс... Для предсказания результата боя UFC важно, чтобы тренировочная выборка была раньше тестовой во временном периоде.

Иначе модель будет смотреть в будущее, и на реальных данных модель будет работать некорректно. Этот нюанс мы учли и разбили выборку не случайным образом, а в зависимости от временных периодов.

Разработка проекта

В ходе работы над проектом мы просидели в зуме, а затем в дискорде более 10 часов. Углубились во все тонкости предобработки данных, сделали немного занимательной визуализации и обучили нашу модель.

Примерно 90 % времени мы потратили на обработку данных и остальные 10 % на обучение модели. Пайплайн подготовки данных верхнеуровнево выглядел следующим образом: мы очистили датасет от пропусков и выбросов и обогатили его новыми признаками.

Например, на основе физических характеристик рассчитали другие, а также посчитали кумулятивную статистику для каждого боя и каждого бойца. А ещё для увеличения качества модели вычислили разницу между физическими характеристиками бойцов.

Сбор данных и статистика

Ментор предоставил нам спарсенные данные по истории Боёв UFC и статистику по бойцам. Данные и Jupyter Notebook с бейзлайном модели можно найти по этой ссылке на Kaggle. В связи с тем что сроки у нас были ограничены, мы решили не заниматься дополнительным парсингом фичей, а уделить большое внимание обработке имеющихся данных и генерации новых признаков.

Также в процессе обработки мы собрали немного занимательной статистики по боям: например, на этом бублике можно увидеть распределение боев по категориям, из которой можно увидеть, что мужских боёв гораздо больше, чем женских (увы).

А на этом бублике видим, что бои заканчиваются с равной вероятностью либо нокаутом, либо признанием своего поражения, либо решением судьи.

Предобработка данных

Основная идея обработки данных заключалась в создании единого датасета, содержащего накопительную статистику по каждому из бойцов за все его предыдущие бои и его физические характеристики на момент начала боя. Необходимо было избежать лика в данных, при котором модель могла переобучиться на данных из ещё не состоявшегося боя.

После очистки датасета от пропусков и выбросов в первую очередь мы сгенерировали фичи по каждому из бойцов, связанные с его физическими характеристиками. Поскольку мы имеем информацию по физическим характеристикам бойца на настоящий момент, для корректного обучения модели на данных по боям из прошлого мы использовали фичи, которые не заглядывают в будущее.

Вторым шагом был сбор фичей с кумулятивной статистикой по всем предыдущим боям для каждого из соперников и генерации из получившейся накопленной суммы новых важных признаков, таких как серия побед, сумма побед нокаутами, сумма чистых побед, точность ударов, среднее время боя, KO/TKO и т. д. Это перечень важных показателей по уже проведённым боям, которые обычно публикуются на сайте UFC до начала боя. Затем мы посчитали разницу по физическим характеристикам бойцов, удалили коррелированные между собой величины и законсервировали данные в pkl-файл.

Случайный лес, стекинг, бэггинг и итоговая модель

В качестве первой модели мы решили взять случайный лес, так как эта модель неплохо справляется с ненормализованными данными. Результат ошеломил по сравнению с букмекерскими конторами, процент точности был очень высок, однако не всё так просто

Изначально мы не учли наличие временного ряда, и наша модель тренировалась на данных из будущего перемешанного с прошлым, то есть мы взяли временной ряд и случайным образом поделили данные на тренировочные и тестовые (80/20). Тренировочные для тренировки модели, тестовые для проверки правильности уже тренированной модели.

Процент точности прогноза победы варьировался от 75 до 82%! Но какая разница, если обучение было неправильным?.. Модель не должна смотреть в будущее, как это было у нас. Решить эту проблему удалось достаточно просто: мы вернули даты для нашего датасета и поделили на тренировочные и тестовые по датам: данные до 2018 года взяли за тренировочные, данные после 2018 года за тестовые, и вуаля, точность упала в среднем на 5 %, однако теперь мы в ней хотя бы уверены.

Потюнить модели в достаточной мере не получилось, так как было мало времени. Но получилось попробовать стекинг, бэггинг и другие разновидности моделей с параметрами по умолчанию. Они, к сожалению, не дали результатов лучше, чем стандартный случайный лес, поэтому в качестве итоговой модели мы оставили именно этот алгоритм. Возможно, в будущем после подбора параметров для всех моделей найдётся та, которая окажется лучше.

Посмотреть на модель можно на GitHub.

Для того чтобы модель предсказала победителя на новых данных, нужно эти данные обработать таким же образом, как мы это делали в нашем ноутбуке (Jupyter Notebook) DeepOverfitting-DataPreparing, после этого просто подать эти строчки данных для двух бойцов в predict функцию нашей модели и получить предсказание, либо 0, либо 1, 0 победил 2 боец, 1 победил первый боец.

Итоги

Самое главное мы все выявили свои слабые и сильные стороны, поняли, какие пробелы в понимании работы с временными рядами нам нужно заполнить, и научились распределять нагрузку в команде. После всего проделанного нами пути мы решили, что не остановимся на достигнутом и продолжим развивать наш продукт.

Поэтому мы наметили следующий план:

  1. Улучшим точность предсказаний путем более кропотливой настройки модели.

  2. Проверим нашу текущую модель на предстоящих боях.

  3. Попробуем применить нейронные сети и глубокое обучение.

  4. Разработаем приложение, которое будет в удобном виде показывать, сколько и куда ставить.

  5. Станем кем-то кроме букмекера, кто заработает на ставках. И, конечно, будем писать на Хабре про дальнейшее развитие проекта. Букмекеры, берегитесь, мы идём за вами.

Состав команды работавшей над проектов:

  • Евгения Шикина (г. Видное)

  • Оксана Евсеева (г. Барселона)

  • Максим Щиколодков (г. Москва)

  • Михаил Стриженов (г. Москва)

  • Лев Неганов (г. Москва)

  • Кирилл Плотников (г. Екатеринбург)

Узнать больше про магистратуру можно на сайтеdata.misis.ruи вTelegram канале.

Ну и конечно не магистратурой единой! Если вы хотите узнать больше про data science, машинное и глубокое обучение заглядывайте к нам на соответствующий курсы, будет непросто, но увлекательно.

Узнайте, как прокачаться и в других специальностях и навыках или освоить их с нуля:

Другие профессии и курсы
Подробнее..

Как собрать датасет за неделю опыт студентов магистратуры Наука о данных

24.12.2020 14:22:40 | Автор: admin
Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг в Москве с транспортными, экономическими и географическими метаданными. Исходная гипотеза состоит в том, что близость объекта к транспортным узлам является одним из важнейших показателей и ключевым фактором экономического успеха. Мы попросили команду детально описать свой опыт сбора такого датасета, и вот что получилось.

TLTR: Ближе к концу статьи вы найдёте информативные графики, карты и ссылки.




Немного про сам Дататон


Программа магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online рассчитана на два года т.е четыре семестра и раз в семестр для студентов будет проводиться хакатон, делая обучение больше ориентированным на решение практических задач. Первый хакатон был посвящен сбору датасета, поэтому и назвали его соответственно Дататон.

Всего в Дататоне приняло участие 90 студентов. Перед ними поставили задачу собрать датасет, который может использоваться в продукте, основанном на Data Science.

Идею для сбора датасета предлагали сами студенты, с оглядкой на потребности общества или бизнеса так что актуальность стала одним из главных критериев оценки и выбора победителей.

Оценивать команды позвали менторов практикующих специалистов по Data Science высокого уровня из таких компаний как: Align Technology, Intellivision, Wrike, Мерлин АИ, Лаборатория Касперского, Auriga, Huawei, SkillFactory.

Начало работы над датасетом


При выборе темы для нашего датасета мы руководствовались известным принципом предвидеть значит управлять. Поиск новых гипотез не самая простая задача, особенно когда одними из критериев выступают практичность и ориентация на потребности гипотетического заказчика. Трудно найти неразмеченную область, используя только лишь открытые данные.

Основная работа по сбору и обработке была проделана за 5 дней, остальное время до публикации мы исправляли недостатки, незначительно обогащали датасет и оптимизировали его структуру.

Фундаментальной идеей нашего датасета является гипотеза, что окрестности перспективных транспортно-пересадочных узлов Москвы (далее ТПУ) станут хорошими зонами для развития бизнеса. Что вообще представляет из себя концепция ТПУ?


Источник: stroi.mos.ru

Какие проблемы решает датасет?


Основная гипотеза тривиальна и лежит на поверхности. Больший интерес представляют уточняющие вопросы от потенциального предпринимателя, которые можно задать, основываясь на ней. Например:

  • Я хочу открыть новую торговую точку по адресу X, сколько прямых конкурентов будет вокруг?
  • В окрестностях какого из строящихся ТПУ будут самые благоприятные условия для развития торговой точки?
  • В каких условиях сейчас работают мои непосредственные конкуренты?
  • Будет ли моя торговая точка входить в зону охвата уже существующего или строящегося ТПУ?
  • Мои клиенты используют автомобили, где лучше разместиться, чтобы им было удобнее посещать мой магазин?

Таких вопросов может быть множество. Более того, часть из них порождает целое дерево уточняющих вопросов, которые играют важную роль при создании нового бизнеса или расширении действующего.

Наш датасет может служить основой для аналитики и обучения линейных или логистических регрессий, задач классификации или кластеризации. Он подходит для наглядной визуальной демонстрации действующих объектов торговли и услуг в Москве с привязкой к крупным транспортным узлам города. Мы уверены, что он содержит множество скрытых данных, которые ждут, когда их обнаружат.

1. Описание источников


1.1 Источники


В датасете были использованы следующие данные с сайта Портал открытых данных правительства города Москвы:


Другие источники:


1.2 Структура датасета


Основу структуры данных составляют уникальные объекты торговли и услуг, каждому из которых соответствует набор метаданных, включающих в себя такие сведения, как:

  • Информация о ближайшем ТПУ.
  • Информация о районе размещения.
  • График работы и транспортная доступность.
  • Данные о стоимости коммерческой недвижимости в районе.
  • Данные о зоне охвата и размере объекта.

Часть данных представлена в виде словарей, что связано с вложенностью отдельных признаков. Например, ряд ТПУ представляет собой комплекс из отдельных объектов наземного и подземного транспорта, и рассматривать их по отдельности нелогично. Но при необходимости эти вложенные объекты легко могут быть извлечены, что мы и выполняем при визуализации объектов на карте.

Для сложных вложенных объектов мы использовали списки и словари, поскольку организованный доступ к такой структуре значительно проще, нежели парсинг строковых объектов. В целом датасет содержит большое разнообразие типов данных.


Это пример не только объединения, но и неточности отдельных полей, о чем будет следующий раздел

1.3 Качество данных и проблемы при их сборе


Качество исходных данных в целом оказалось удовлетворительным, но недостаточным для реализации всех наших амбиций. В ходе проверки мы обнаружили, что Москва значительно уступает по этому показателю ряду мировых столиц. Также мы заметили некоторые ошибки и неточности, которые пришлось обрабатывать как отдельные выбросы или оставлять на совести авторов источников.

  • Сведения по статусу и срокам сдачи отдельных ТПУ можно считать устаревшими.
  • Обнаружилась путаница в единичных случаях указаниях широты и долготы, из-за чего некоторые объекты убегали в другие страны.
  • Данные о пассажиропотоке опубликованы с неточностями в форматировании, отдельные записи явно сильно завышены. Яркий пример данные по пассажиропотоку на станции Авиамоторная. Цифра в 400 000 пассажиров в сутки кажется явно завышенной, впрочем, как и в ряде других случаев. Беглый поиск показал, что реальная цифра может быть в разы меньше. Исправить такие артефакты крайне сложно.
  • Данные о ценах на коммерческую недвижимость пришлось собирать в ручном режиме.


Пример спорных данных

2. Обработка данных


2.1 Данные об объектах


После предварительной оценки имеющихся в распоряжении первичных данных (а это были данные об объектах торговли, услуг и ТПУ на территории Москвы) мы поняли, что ключевым элементом нашего датасета будут уникальные объекты торговли и услуг, которые мы объединили в единый центральный датасет. Всего мы получили более 78 000 записей, для которых помимо уникального ID и названия имеются сведения о:

  • Времени работы.
  • Типе объекта.
  • Принадлежности к сетевым объектам.
  • Адресе и координатах расположения.
  • Административной принадлежности.

2.2 Данные об административном делении


Эту информацию, в том числе географические и демографические параметры, мы обнаружили на Википедии в относительно актуальном состоянии на начало 2020 года. Мы автоматизировали процесс выгрузки сведений путём написания собственной функции для парсинга html-страниц. Незначительными трудностями, с которыми мы столкнулись, стали:

  • Использование специальных символов для сносок.
  • Необходимость приведения всех данных к общим единицам измерения.

В дальнейшем мы нашли геоданные о границах районов. Эта информация оказалась очень полезна при визуальном отображении слоев на карте.

2.3 Данные о зонах охвата


Зоны охвата являются не объективной оценкой, а лишь одной из теоретических методик оценки эффективности того или иного объекта торговли. Мы обнаружили методику оценки, которая разделяет объекты на 4 группы. В нашем случае достаточно было ввести лишь 3 из них маленькие, средние и большие. Разделение мы осуществляли путем анализа типов и названий объектов. Например, приставка Гипер- с большой долей вероятности соответствует большому объекту. Исходя из размера мы определили зону, в радиусе которой торговый объект является привлекательным для клиентов.

2.4 Данные о ТПУ


В имеющемся датасете под ТПУ подразумевается любой транспортный объект, которых на территории Москвы более 250. Поэтому нам пришлось объединять их в комплексы, исходя из названий и расстояний между ними. Сведения об объектах включают в себя такие данные, как:

  • Административные данные и географическое расположение.
  • Типы транспорта.
  • Год сдачи и статус объекта (от проекта до завершения).
  • Ближашая станция.

В теории они легко объединяются в кластеры, но на практике обнаружился ТПУ Планерная, который рушил всю систему. Одна станция находится в районе метро Речной вокзал, а вторая за Химками. Расстояние между ними составляет около 6 км, и очевидно, что учитывать их как единый комплекс при расчёте транспортной доступности нельзя. Подобные отклонения вносят шум в данные и вынуждают создавать сложные алгоритмы обработки.

Каждый полученный комплекс центрирован относительно всех включенных объектов, при этом мы сохранили все данные об исходных ТПУ они хранятся внутри в виде словарей, где ключами выступают оригинальные ID ТПУ.

2.5 Данные о стоимости аренды и покупки коммерческой недвижимости


Этот раздел стал одним из самых сложных, поскольку всё, что связано с недвижимостью, сильно монетизировано и является ценной информацией. В открытом виде актуальные сведения по каждому району получить очень трудно. Риэлторские агентства и торговые площадки не предоставляют бесплатные API, а парсинг торговых площадок был слишком ресурсозатратным в условиях ограничений срока проекта.

Поэтому мы не стали изобретать велосипед, а просто нашли наиболее удобный ресурс и вручную сохранили статистические сведения о стоимости продажи и аренды коммерческой недвижимости для торговых объектов, отдельно стоящих зданий и объектов общего назначения за 2020 год.

Несмотря на значительное количество пропусков и отдельные неточности, эти данные отражают ситуацию на рынке недвижимости и строятся на реальных объявлениях.

2.6 Данные о пассажиропотоке на станциях метро


Эта секция тоже оказалась достаточно проблемной, поскольку изначально идея найти такие сведения в актуальном виде показалась нереальной, а официальные ответы оказалось ждать очень долго (и не факт, что они были бы положительными). Долгое время эта задача оставалось нерешённой, и нам пришлось повторно рассматривать буквально каждую крупицу информации, даже явно устаревшей.

Иронично, что обнаруженная ошибка в старом источнике позволила обнаружить подходящие данные. После повторной проверки мы поняли, что в одном из источников использованы данные за 2019 год, при этом подпись содержит указание на 2016 год. Эта подпись и сбила нас при первой оценке. Актуальность подтвердилась наличием данных по построенным в 2019 году объектам метро.

Впрочем, сами данные тоже оказались не оптимизированы для парсинга. Мы столкнулись с дублями и артефактами типа 100000 тыс. тыс. чел в сутки, которые пришлось отыскивать и приводить к общему виду. Тем не менее, как уже упомянуто в разделе о качестве данных, отдельные показатели по станциям явно завышены и ошибочны. И эту проблему можно решить только уточнением из первоисточника.

2.7 Новые признаки и данные


Собрать числовые или строковые данные мало. Эти данные важно уметь трактовать и выделять на их основе новые параметры или свойства. Поскольку наша гипотеза строилась на принадлежности объекта к ближайшему ТПУ, мы написали алгоритм поиска ближайших объектов и для каждого уникального объекта сопоставили:

  • Параметры ближайшего ТПУ.
  • Расстояние до ТПУ.
  • Радиус охвата объекта.
  • Входит ли ТПУ в зону охвата?
  • К какому классу относится объект?


Небольшой кусок датасета с бинарными признаками

2.8 Итоговый датасет


В результате объединения мы получили датасет размерностью 44 столбца и 78086 строк. В формате Pandas он занимает около 25,9+ MB. Если разбить столбцы на тематические сегменты, то в нём содержатся данные о:

  • Объекте.
  • Близлежащем ТПУ и его составе.
  • Районе объекта.
  • Стоимости покупки и аренды площадей.

2.9 Корреляционная матрица




Что можно сказать по полученной корреляционной матрице?

  • Данные по стоимости коммерческой недвижимости заметно более коррелированы, а значит, использовать их стоит осторожно.
  • Первая идея, которая приходит в голову, создание на их основе новых индексов оценки.
  • Демографические признаки также ожидаемо имеют выраженную положительную корреляцию.
  • Большой отрицательный сдвиг наблюдается между стоимостью коммерческой недвижимости и демографическими признаками районов, что в целом логично.

Остальные взаимосвязи между параметрами не столь явные, и трудно сделать по ним однозначные выводы.

3. Немного визуализаций


3.1 Датасет на карте Москвы


Наконец-то мы дошли до самой интересной части любого датасета, своеобразный момент истины! Апогеем сбора является визуализация данных, где можно не только оценить качество данных, но и найти коллизии, ошибки и выбросы.

Для визуализации мы написали свою функцию, которая использует библиотеку Folium. Метод удобен тем, что достаточно гибко визуализирует практически любые выборки из общего датасета. Параметры функции позволяют гибко настраивать визуальные признаки объектов. Поскольку каждый объект в нашем случае слой, мешающие группы объектов легко отключить и оставить лишь необходимые.

Для большей наглядности на карте реализованы слои в виде административного деления по районам. В нашем случае за стандартное отображение мы приняли плотность объектов на каждый район города.


Пример отображения районов по плотности размещения объектов


Транспортная схема Москвы: здесь отображаются только ТПУ


Пример отображения с объектами в данной выборке всего 10000 объектов из более чем 78 000


Пример отображения объектов по выделенному адресу описание сформировано в виде HTML-кода

3.2 (Не)много графиков


Графики отличный инструмент для анализа. В качестве демонстрации мы подготовили ряд графиков, чтобы наглядно продемонстрировать статистику по наиболее интересным параметрам датасета.

Вот, например, 20 крупнейших торговых сетей Москвы:



А если посмотреть, какие типы объектов самые популярные?



По типам услуг всё не так интересно, зато понятно, сколько всего объектов каждого типа есть в городе.



Теперь чуть более интересные цифры количество объектов при ТПУ.



Руки чешутся посмотреть на самый верхний ТПУ Профсоюзная. Почему бы и да? На этом скриншоте размещаются больше 2000 объектов, для которых этот ТПУ ближайший.



Хорошо, как насчёт того, чтобы узнать, сколько из объектов в городе являются сетевыми? Получается красивый пирог с почти идеальной четвертью. Занятно. Пусть 1 и 0 вас не пугают, это как раз и есть пример бинарного признака, где 1 означает, что объект входит в какую-либо крупную сеть.



Раз уж мы решили строить топы, почему бы не узнать адрес, по которому располагается большее число объектов? Легко!



Найти его не так уж сложно. Список впечатляет:



И напоследок немного более сложной экономической статистики. Что если поделить все ТПУ на группы от проектируемых до уже сданных в эксплуатацию? Какое стандартное отклонение (сигма), в рублях, за аренду торговых площадей или, скажем, при приобретении отдельно стоящих зданий будет в этих группах?



Судя по графикам, разброс цен на аренду и покупку недвижимости около уже построенных ТПУ заметно больше, рынок недвижимости стабильнее в районах со строящимися или проектируемыми ТПУ. Это можно использовать для оценки эффективности инвестиций в недвижимость.

Представленные графики лишь малая часть потенциала датасета, который может быть расширен в дальнейшем.

4. Заключение


4.1 Варианты применения


Наш датасет включает в себя большое количество демографических, географических, экономических и описательных данных, которые расширяют представление об имеющихся объектах торговли и услуг.

Спектр применения этих данных очень широк. Они могут быть сегментированы или объединены в новые признаки, на основе которых можно строить модели машинного обучения. Наиболее очевидные варианты применения:

  • Визуализация объектов и ТПУ по определённым критериям. Например: отобразить на карте новые объекты, которые будут сданы в 2022 году.
  • Анализ типов объектов и условий их работы. Например: составить статистику о графиках работы ближайших конкурентов и проанализировать результаты.
  • Проверка известных гипотез на имеющихся практических данных. Например: добавить в датасет известные данные по обороту торговой сети и сопоставить с данными по пассажиропотоку и пешей доступности.

4.2 Целевая аудитория


Датасет может быть интересен:

  • Девелоперам,
  • Инвесторам,
  • Бизнесу (торговля и услуги),
  • Риэлторам и консультантам,
  • Частным исследователям и урбанистам.

4.3 Достоинства и недостатки


Недостатки нашего датасета обусловлены объективными причинами многие информационные источники содержат неточные или неполные сведения, что невозможно нивелировать постобработкой. Часть сведений вообще невозможно найти в открытом доступе. Однако мы создали все условия, чтобы на практике данные можно было легко обновить или добавить новые.

При использовании датасета стоит учитывать наиболее проблемные участки, которые могут создать заметные шумы. Особое внимание стоит обратить на следующие нюансы:

  • Статус и год ввода в эксплуатацию некоторых ТПУ сомнителен данные требуют проверки и актуализации.
  • Значения пассажиропотока требуют уточнения, особенно самые большие.
  • Размер отдельных крупных и средних объектов требует уточнения, поскольку в датасете могут быть ошибки, связанные с ограничениями методики классификации. Например, по использованию Торговый дом в названии алгоритм может неверно присвоить класс, что повлияет на дальнейшие выборки.

Весь процесс обработки закомментирован и может быть воспроизведён, в том числе при изменении данных в оригинальных источниках. Мы подумали об удобстве дальнейшего использования и постарались минимизировать необходимость дальнейшей предобработки для использования в обучении моделей путем:

  • Преобразования некоторых данных к бинарному представлению 1/0.
  • Приведения всех отсутствующих данных к единой форме NaN.
  • Создания служебных колонок, описывающих длину вложенных словарей.
  • Разбиения столбцов на логические секции и с детальными именами.
  • Опоры на источники. Все данные могут быть получены путём непосредственного доступа к первоисточнику.
  • Упрощения визуализации. Она организована удобными функциями, которые принимают на вход много служебных параметров и сводят отображение нужных данных к паре строк кода.

4.4 Вместо резюме


Надеемся, что наши наработки не останутся без внимания и их будут использовать для обучения моделей и поиска инсайтов как в учебных целях, так и для решения проблем реального бизнеса.

GitHub и сайт датасета.

Узнать больше про магистратуру можно на сайте data.misis.ru и в Telegram канале.

Участники команды Data SkyScrapers


Артем Филиппенко Тимлид / Программирование / Автор статьи
Юлия Компаниец Программирование / Алгоритмизация / Визуализация
Егор Петров Программирование / Парсинг / Поддержка репозитория
Вячеслав Кандыбин Парсинг / Поиск источников
Ильдар Габитов Координация / Анализ
Сергей Гильдт Помощь в составлении статьи

Мы хотели бы выразить благодарность кураторам, преподавателям и экспертам за организацию Дататона. Это был отличный опыт и возможность самостоятельно проявить себя в решении практических задач, а также получить развернутую оценку от профессиональных Дата-сайентистов.



Ну и конечно не магистратурой единой! Хотите узнать больше про машинное и глубокое обучение заглядывайте к нам на соответствующий курс, будет непросто, но увлекательно. А промокод HABR поможет в стремлении освоить новое, добавив 10% к скидке на баннере.
image



Подробнее..

Нужно больше датасетов. Музыка, IT-скилы и котики

11.02.2021 18:04:31 | Автор: admin

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры Наука о данных НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам целых 3 датасета от команд, которые также вышли в финал.

Все они разные: кто-то исследовал музыкальный рынок, кто-то рынок труда IT-специалистов, а кто-то и вовсе домашних кошек. Каждый из этих проектов актуален в своей сфере и может быть использован для того, чтобы что-то усовершенствовать в привычном ходе работы. Датасет с котиками, например, поможет судьям на выставках. Датасеты, которые необходимо было собрать студентам, должны были представлять собой MVP (таблица, json или структура каталогов), данные должны быть очищены и проанализированы. Посмотрим же, что у них получилось.



Датасет 1: Скользим по музыкальным волнам с Data Surfers


Состав команды:

  • Плотников Кирилл project manager, разработка, документация.
  • Тарасов Дмитрий разработка, сбор данных, документация.
  • Шадрин Ярослав разработка, сбор данных.
  • Мерзликин Артём product manager, презентация.
  • Колесниченко Ксения предварительный анализ данных.

В рамках участия в хакатоне участниками команды было предложено несколько различных интересных идей, но мы решили остановиться на сборе данных о российских музыкальных исполнителях и их лучших треках с ресурсов Spotify и MusicBrainz.

Spotify музыкальная платформа, пришедшая в Россию не так давно, но уже активно захватывающая популярность на рынке. Кроме того, с точки зрения анализа данных, Spotify предоставляет очень удобное API с возможностью запроса большого количества данных, в том числе их собственных метрик, например таких, как danceability показатель от 0 до 1, описывающий, насколько трек подходит для танцев.

MusicBrainz это музыкальная энциклопедия, содержащая максимально полную информацию о существующих и существовавших музыкальных коллективах. Своего рода музыкальная википедия. Данные с этого ресурса нам были необходимы для того, чтобы получить список всех исполнителей из России.

Сбор данных об артистах


Мы собрали целую таблицу, содержащую 14363 уникальных записи о различных исполнителях. Чтобы в ней было удобно ориентироваться под спойлером описание полей таблицы.

Описание полей таблицы
artist имя артиста или название группы;
musicbrainz_id уникальный идентификатор артиста в музыкальной базе данных Musicbrainz;
spotify_id уникальный идентификатор артиста в стриминговом сервисе Spotify, если он там представлен;
type тип исполнителя, может принимать значения Person, Group, Other, Orchestra, Choir или Character;
followers количество подписчиков артиста на Spotify;
genres музыкальные жанры артиста;
popularity индекс популярности артиста на Spotify от 0 до 100, который рассчитывается на основе популярности всех треков артиста.


Пример записи

Поля artist, musicbrainz_id и type извлекаем из музыкальной базы данных Musicbrainz, так как там есть возможность получить список артистов, связанных с одной страной. Извлечь эти данные можно двумя способами:

  1. Постранично парсить раздел Artists на странице с информацией о России.
  2. Достать данные через API.
    Документация MusicBrainz API
    Документация MusicBrainz API Search
    Пример запроса GET на musicbrainz.org

В ходе работы выяснилось, что API MusicBrainz не совсем корректно отвечает на запрос с параметром Area:Russia, скрывая от нас тех исполнителей, у кого в поле Area указано, например, Izhevsk или Moskva. Поэтому данные с MusicBrainz были взяты парсером непосредственно с сайта. Ниже пример страницы, откуда парсились данные.


Полученные данные об артистах из Musicbrainz.

Остальные поля получаем в результате GET запросов к эндпоинту.При отправке запроса в значении параметра q указываем имя артиста, а в значении параметра type указываем artist.

Сбор данных о популярных треках


Таблица содержит 44473 записи о самых популярных треках российских артистов, представленных в таблице выше. Под спойлером описание полей таблицы.

Описание полей таблицы
artist имя артиста или название группы;
artist_spotify_id уникальный идентификатор артиста в стриминговом сервисе Spotify (по нему можно будет джойнить таблицы, так как это spotify_id из таблицы с артистами);
name название трека;
spotify_id уникальный идентификатор трека в стриминговом сервисе Spotify;
duration_ms длительность трека в миллисекундах;
explicit содержит ли текст трека нецензурные выражения, может принимать значения true или false;
popularity индекс популярности трека на Spotify *;
album_type тип альбома, может принимать значения album, single или compilation;
album_name название альбома;
album_spotify_id уникальный идентификатор альбома в стриминговом сервисе Spotify;
release_date дата выхода альбома;
album_popularity индекс популярности альбома на Spotify.

Особенности аудио
key предполагаемая общая тональность трека, целые числа накладываются на нотацию звуковысотных классов, 0 = C, 1 = C/D, 2 = D и т.д.;
mode указывает модальность трека, мажор 1, минор 0;
time_signature предполагаемый общий тактовый размер композиции;
acousticness мера достоверности от 0,0 до 1,0 того, является ли трек акустическим;
danceability описывает, насколько трек подходит для танцев от 0,0 до 1,0;
energy представляет собой перцептивную меру интенсивности и активности от 0,0 до 1,0;
instrumentalness определяет, содержит ли трек вокал, принимает значения от 0,0 до 1.0;
liveness определяет присутствие аудитории при записи, принимает значения от 0,0 до 1,0;
loudness общая громкость трека в децибелах, типичный диапазон значений от -60 до 0 дБ;
speechiness определяет наличие произнесённых слов в треке, принимает значения от 0,0 до 1,0;
valence описывает музыкальную позитивность, передаваемую треком, принимает значения от 0,0 до 1,0;
tempo предполагаемый общий темп трека в ударах в минуту.

Подробно о каждом параметре можно прочитать здесь.


Пример записи

Поля name, spotify_id, duration_ms, explicit, popularity, album_type, album_name, album_spotify_id, release_date получаем с помощью GET запроса на https://api.spotify.com/v1//v1/artists/{id}/top-tracks , указывая в качестве значения параметра id Spotify ID артиста, который мы получили ранее, а в значении параметра market указываем RU. Документация.

Поле album_popularity можно получить, сделав GET запрос на https://api.spotify.com/v1/albums/{id}, указав album_spotify_id, полученный ранее, в качестве значения для параметра id. Документация.

В результате получаем данные о лучших треках артистов из Spotify. Теперь задача получить особенности аудио. Сделать это можно двумя способами:

  1. Для получения данных об одном треке нужно сделать GET-запрос на https://api.spotify.com/v1/audio-features/{id}, указав его Spotify ID как значение параметра id. Документация.
  2. Чтобы получить данные о нескольких треках сразу, следует отправить GET запрос на https://api.spotify.com/v1/audio-features, передавая Spotify ID этих треков через запятую как значение для параметра ids. Документация.

Все скрипты находятся в репозитории по этой ссылке.

После сбора данных мы провели предварительный анализ, визуализация которого представлена ниже.



Итоги


В результате у нас получилось собрать данные по 14363 артистам и 44473 трекам. Объединив данные из MusicBrainz и Spotify, мы получили наиболее полный на текущий момент набор данных о всех российских музыкальных исполнителях, представленных на платформе Spotify.

Такой датасет позволит создавать B2B и B2C продукты в музыкальной сфере. Например, системы рекомендаций промоутерам исполнителей, концерт которых можно организовать, или системы помощи молодым исполнителям в написании треков, которые с большей вероятностью станут популярными. Также при регулярном пополнении датасета свежими данными можно анализировать различные тенденции в музыкальной индустрии, такие как формирование и рост популярности определённых трендов в музыке, либо проводить анализ отдельных исполнителей. Сам датасет можно посмотреть на GitHub.

Датасет 2: Исследуем рынок вакансий и выявляем ключевые навыки с Ежу понятно


Состав команды:

  • Пшеничный Андрей сбор и обработка данных, написание аналитической записки о датасете.
  • Кондратёнок Павел Product Manager, сбор данных и описание его процесса, GitHub.
  • Щербакова Светлана сбор и обработка данных.
  • Евсеева Оксана подготовка итоговой презентации проекта.
  • Елфимова Анна Project Manager.

Для своего датасета мы выбрали идею сбора данных о вакансиях в России из сферы IT и Телеком с сайта hh.ru за октябрь 2020 года.

Сбор данных о скилах


Самым важным показателем для всех категорий пользователей являются ключевые навыки. Однако при их анализе у нас возникли трудности: эйчары при заполнении данных о вакансии выбирают ключевые навыки из списка, а также могут вносить их вручную, а следовательно, в наш датасет попало большое количество дублирующих навыков и некорректных навыков (например, мы столкнулись с названием ключевого навыка 0,4 Кb). Есть ещё одна трудность, которая доставила проблем при анализе получившегося датасета, только около половины вакансий содержат данные о заработной плате, но мы можем использовать средние показатели о заработной плате с другого ресурса (например, с ресурсов Мой круг или Хабр.Карьера).

Начали с получения данных и их глубинного анализа. Далее мы произвели выборку данных, то есть отобрали признаки (features или, иначе, предикторы) и объекты с учетом их релевантности для целей Data Mining, качества и технических ограничений (объема и типа).

Здесь нам помог анализ частоты упоминания навыков в тегах требуемых навыков в описании вакансии, какие характеристики вакансии влияют на предлагаемое вознаграждение. При этом было выявлено 8915 ключевых навыков. Ниже представлена диаграмма с 10 наиболее популярными ключевыми навыками и частотой их упоминания.


Наиболее часто встречающиеся ключевые навыки в вакансиях из сферы IT, Телеком

Данные получили с сайта hh.ru с помощью их API. Код для выгрузки данных можно найти тут. Вручную выбрали признаки, которые нам необходимы для датасета. Структуру и тип собираемых данных можно увидеть в описании документации к датасету.

После этих манипуляций мы получили Dataset размером 34 513 строк. Образец собранных данных вы можете увидеть ниже, а также найти по ссылке.


Образец собранных данных

Итоги


В результате получился датасет, с помощью которого можно узнать, какие навыки являются самыми востребованными среди IT специалистов по разным направлениям, и он может быть полезен для соискателей (как для начинающих, так и для опытных), работодателей, hr-специалистов, образовательных организаций и организаторов конференций. В процессе сбора данных были и трудности: слишком много признаков и они написаны на низкоформализируемом языке (описание навыков для кандидата), половина вакансий не имеет открытых данных о заработной плате. Сам датасет можно глянуть на GitHub.

Датасет 3: Наслаждаемся многообразием котиков с Команда AA


Состав команды:

  • Евгений Иванов разработка веб-скрапера.
  • Сергей Гурылёв product manager, описание процесса разработки, GitHub.
  • Юлия Черганова подготовка презентации проекта, анализ данных.
  • Елена Терещенко подготовка данных, анализ данных.
  • Юрий Котеленко project manager, документация, презентация проекта.

Датасет, посвящённый котам? Да почему бы и нет, подумали мы. Наш котосет содержит образцы изображений, на которых сфотографированы кошки различных пород.

Сбор данных о котиках


Изначально для сбора данных мы выбрали сайт catfishes.ru, он обладает всеми нужными нам преимуществами: это свободный источник с простой структурой HTML и качественными изображениями. Несмотря на преимущества этого сайта, он имел существенный недостаток малое количество фотографий в целом (около 500 по всем породам) и малое количество изображений каждой породы. Поэтому мы выбрали другой сайт lapkins.ru.




Из-за чуть более сложной структуры HTML скрапить второй сайт было несколько сложнее первого, но разобраться в структуре HTML было легко. В итоге нам удалось собрать со второго сайта уже 2600 фотографий всех пород.
Нам не потребовалось даже фильтровать данные, так как фотографии кошек на сайте хорошего качества и соответствуют породам.

Для сбора изображений с сайта нами был написан веб-скрапер. Сайт содержит страницу lapkins.ru/cat со списком всех пород. Сделав парсинг этой страницы, мы получили названия всех пород и ссылки на страницу каждой породы. Итеративно пройдя в цикле по каждой из пород, мы получили все изображения и сложили их в соответствующие папки. Код скрапера был реализован на Python с использованием следующих библиотек:

  • urllib: функции для работы с URL;
  • html: функции для обработки XML и HTML;
  • Shutil: функции высокого уровня для обработки файлов, групп файлов и папок;
  • OS: функции для работы с операционной системой.

Для работы с тегами мы использовали XPath.



Каталог Cats_lapkins содержит папки, названия которых соответствуют названиям пород кошек. Репозиторий содержит 64 каталога для каждой породы. Всего в датасете содержатся 2600 изображений. Все изображения представлены в формате .jpg. Формат названия файлов: например Абиссинская кошка 2.jpg, вначале идёт название породы, затем число порядковый номер образца.



Итоги


Такой датасет может, например, использоваться для обучения моделей, классифицирующих домашних кошек по породам. Собранные данные могут быть использованы для следующих целей: определение особенностей по уходу за котом, подбор подходящего рациона для кошек определённых пород, а также оптимизация первичной идентификации породы на выставках и при судействе. Также котосет может использоваться и бизнесом ветеринарными клиниками и производителями кормов. Сам котосет находится в свободном доступе на GitHub.

Послесловие


По итогам дататона наши студенты получили первый кейс в своё портфолио дата-сайентиста и обратную связь по работе от менторов из таких компаний, как Huawei, Лаборатория Касперского, Align Technology, Auriga, Intellivision, Wrike, Мерлин АИ. Дататон был полезен ещё и тем, что прокачал сразу и профильные хард- и софт-скилы, которые понадобятся будущим дата-сайентистам, когда они будут работать уже в реальных командах. Также это хорошая возможность для взаимного обмена знаниями, так как у каждого студента разный бэкграунд и, соответственно, свой взгляд на задачу и её возможное решение. Можно с уверенностью сказать, что без подобных практических работ, похожих на какие-то уже существующие бизнес-задачи, подготовка специалистов в современном мире просто немыслима.

Узнать больше про нашу магистратуру можно на сайте data.misis.ru и в Telegram канале.

Ну, и, конечно, не магистратурой единой! Хотите узнать больше про Data Science, машинное и глубокое обучение заглядывайте к нам на соответствующие курсы, будет непросто, но увлекательно. А промокод HABR поможет в стремлении освоить новое, добавив 10 % к скидке на баннере.



image



Подробнее..

Лаборатория Тинькофф как студенты разрабатывают визуального робота

22.09.2020 20:11:13 | Автор: admin

image


В Тинькофф есть образовательный проект Лаборатория Финансовые технологии. Мы отбираем студентов и магистров московских технических вузов, которые хотят работать с ИТ-проектами банка. Оформляем их на работу в штат на 20, 30 или 40 часов в неделю, даем задачи, ментора и помогаем расти профессионально. Мы работаем в партнерстве с МФТИ: преподаватели и старшекурсники вуза выступают менторами для студентов.


Лаборант может выбрать, в какой из пяти команд работать:


  • Computer Vision;
  • Speech-to-Tech;
  • Аналитика;
  • Обработка естественного языка;
  • Рекомендательные системы.

У каждой команды свои задачи и специфика. Но принцип общий: учим решать сложные академические задачи на реальных кейсах.


Рассказываем о внутренней кухне Лаборатории на примере работы команды Computer Vision весной-летом 2020 года.


Проект команды Computer Vision: Говорящие головы


Куратор проекта: Константин Осминин, Тинькофф
Ментор: Аркадий Ильин, Лаборатория гибридных интеллектуальных систем МФТИ
Лаборанты: Кирилл Рыжиков (2 курс) и Дмитрий Гадецкий (1 курс магистратуры)


В Лаборатории мы решаем наукоемкие задачи, которые в перспективе можно применить на практике в работе банка. В команде Computer Vision в этом году работали над задачей audio-to-video. Это генерация реалистичного видео с человеком на основе его речи на русском языке.
Изначально тут был не только бизнес, но в значительной степени исследовательский интерес. Если кратко: нужно было обучить компьютерную модель генерировать видеоизображение на основе только фото человека и аудиодорожки. То есть мы даем модели аудио и картинку, а на выходе получаем видео с говорящим человеком.


Такая технология впервые появилась в Китае, а в России представлена сервисом по генерации виртуальных ведущих в Мейл.ру. У Сбербанка робот-ведущий Елена читает 30-секундные новости.


Потенциально такую технологию можно применить для реализации виртуальных ведущих, помощников, визуализации образовательных курсов или даже генерации изображения собеседника при звонках, чтобы не гонять трафик видео, а значит, снизить стоимость звонка.


Константин Осминин, куратор команды Computer Vision в Тинькофф
Область виртуальных аватаров сейчас очень востребована в индустрии. Лаборатория это больше образовательный проект, для нас важно поработать с самой технологией, проверить уже существующие решения и придумать что-то свое.
Сначала мы работали над исследовательской частью, а потом поняли, как можно применить технологию в бизнесе. Теперь мы разрабатываем свой прототип ориентированного на бизнес сервиса, визуально общающегося с пользователем.

Задача: разработать говорящую голову


У нас было два этапа работы. Первый провести исследование в области Neural Voice Puppetry, выяснить, что уже сделано другими исследователями и разработчиками. Потом реализация.
Работа над ней делилась на два больших блока:


  • создание правдоподобной мимики лица на основе аудио (сгенерировать движение глаз, губ, бровей);
  • рендеринг видео.

Первый челлендж: исследовать чужие наработки


Сначала нам нужно было глубоко разобраться в области. Некоторые компании уже работали над этой задачей, например Samsung AI Center, Сбербанк. Но код у них закрытый и получить доступ к нему нельзя. Поэтому мы работали с открытыми источниками, они все в основном на английском. Больше всего информации нашли на агрегаторе Arxiv.


image
Пример статьи c arxiv.org


Это не научный журнал, а агрегатор статей в открытом доступе. Поэтому каждую статью и все, что там написано, нужно проверять. То есть посмотреть, насколько рабочий код приложен в статье.
Обычно код к статьям выкладывают на Гитхабе. Если авторы не выложили код, команда искала имплементации на том же Гитхабе, но уже от простых пользователей-энтузиастов.


image
Пример неофициальной имплементации архитектуры генератора говорящих голов из статьи Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (Egor Zakharov et al.)


Дмитрий Гадецкий, лаборант Тинькофф, студент 1 курса магистратуры
В первый месяц мы почти все время читали статьи на Arxiv и проверяли разные подходы. По опыту скажу: чтобы разобраться в вопросе, нужно вдумчиво изучить около десяти статей и проверить их код на работоспособность. Только когда понимаешь архитектуру кода, появляется возможность применить описанные принципы к конкретным задачам.
У нас был случай, когда мы проверяли подход к генерации из статьи китайских коллег. Мы не могли запустить код несколько дней. Пришлось писать авторам статьи с просьбой о помощи. В итоге они ответили, дописали код, чтобы все заработало.

Второй челлендж: датасет, лэндмарки и моргание


Дальше мы перешли к поиску собственных решений, как сгенерировать реалистичное видео говорящего человека только по фото и аудио.


Теоретически можно было использовать наработки зарубежных разработчиков и код их нейронной сети, как, например, на Гитхабе.


Но возникла серьезная проблема. Нейросети, которые уже решали задачу генерации видео по аудио, не работали с русским языком. Все они были заточены под английский язык. А значит, нужно было разработать сеть и обучить ее на собственном датасете.


Встал вопрос, на каких данных обучать свой комплекс нейросетей. Готовых данных у нас не было. В сети датасетов с видео на английском языке тысячи часов (например, voxceleb, voxceleb2), а на русском их просто нет.


Нужно было собрать свой датасет:


  • видео на русском языке;
  • где четко видно лицо;
  • без шумов.

Изначально для парсинга мы выбрали лекции на Курсере. У них есть API, которая позволяет скачивать видео. Мы скачали видео с ресурса и приступили к его обработке.


Для этого написали программный модуль: он нарезал видео на отдельные кусочки, проверял, что на этом кусочке речь одного человека. Еще он искал в кадре того человека, кто говорил. Вырезанные куски с головой говорящего человека в кадре складывали в датасет.


С Курсеры мы собрали 20 часов видео. Но качество видео этого датасета было не очень. Лицо получалось в плохом разрешении. Поэтому нам пришлось собирать второй датасет уже с Ютуба. Оттуда скачали видео, которые больше соответствовали нашим требованиям: лицо говорящего человека занимало не меньше 40% экрана, смотрело в камеру. Этот датасет был в 60 часов.


image
Параметры датасета


На собранной базе видео мы запустили работу модели по разметке лиц. Мы прогнали одну модель (FaceAlign), которая искала на лице определенные ключевые точки лэндмарки. Всего их 68.


image
Сеть извлекает на каждом кадре видео эти точки и переводит их вот в такое представление:


image


Данные о точках описывали движение челюстей, губ, подвижность бровей и синхронное движение носа.


На этих данных о ключевых точках обучался пререндер, построенный и обученный нами с оглядкой на архитектуру, предложенную Захаровым (a.k.a. Samsung)). Ему подавалась входная аудиодорожка, а он должен был сгенерировать видео. Сначала модуль генерировал абсолютное положение точек, но модель на таком подходе генерировала неправдоподобное изображение.


image
Итерации обучения генератора абсолютных положений лэндмарок. На последних итерациях видно, что рот перестает полностью закрываться, а брови приобретают статичное положение и присутствует общая деградация выразительности мимики


Кирилл Рыжиков, лаборант
Чтобы наша сеть генерировала правдоподобное изображение, мы искали другой подход. Попробовали генерировать не абсолютное положение ключевых точек, а отклонение от их положения на нейтральном лице, когда человек смотрит на вас прямо с закрытым ртом и спокойными бровями. И эврика! сеть сгенерировала правдоподобную мимику. Мы поняли, что идем в правильном направлении, и начали работать именно с этим подходом.
Отдельно мы решали задачу генерации моргания, чтобы лицо на видео выглядело реалистично. Без моргания говорящее лицо смотрится жутко. Выяснилось, что моргание не синхронизировано с речью. Поэтому наша модель его просто сэмплировала.

Третий челлендж: пререндеринг и рендеринг


Когда мы обучили сеть генерить правдоподобную мимику, пришла очередь работать над пререндером и рендером, то есть переводом данных в видео. Лаборанты использовали технологии First Order Modu и Samsung. После двух-трех этапов рендера получилось сгенерировать более проработанную мимику, более качественное изображение и приятную текстуру лица.


В качестве пострендера использовали LipGAN, чтобы уточнить движение губ.



Где готовый продукт


Ребята показали результат в июле этого года. На общей презентации было 60 сотрудников Тинькофф, что необычно для Лаборатории. Как правило, проекты защищаются перед меньшей аудиторией.


Результат команды понравился куратору, коллеги решили продолжить работу над проектом и перевести его в практическую плоскость.


Готовый результат ждем к концу этого года. Скорее всего, это будет 3D-модель, как тут:



Встречались вживую только один раз


Лаборанты с ментором и куратором встречались вживую только один раз, на собеседовании. Остальное время общались в Телеграме и Зуме. Это принцип Лаборатории: удаленная работа в удобное участникам время.


Аркадий Ильин, ментор
Каждый работает в комфортное ему время, в комфортной для себя обстановке. Например, вчера Кирилл прислал мне ответ в час ночи и, пока он спал до обеда, я его прочитал. Думаю, такой подход только повышает эффективность работы.

Три раза в неделю рабочие созвоны, где обсуждают текущие задачи, гипотезы, методы решений.


Два раза в месяц отчетные созвоны с куратором Тинькофф, на которых лаборанты рассказывают о проделанной работе.


image
Обычный рабочий созвон с обсуждением найденной архитектуры генератора мимики


Лаборанты готовые R&D-специалисты


Так как работа в Лаборатории идет на стыке науки и практики, ее результаты публикуют и в академических кругах. Например, первые результаты работы в проекте Говорящие головы ментор и студенты готовят для доклада на 63-ю научную конференцию в МФТИ в ноябре этого года.


Аркадий Ильин, ментор
То, что делаем мы, мало кто делает в бизнес-сообществе. Поэтому хотим донести результаты и до академической среды.

До 27 сентября открыт прием заявок в лабораторию, подробнее об открытых проектах и сроках

Подробнее..

Recovery mode Быстрый старт и низкий потолок. Что ждет молодых Data Science-специалистов на рынке труда

03.08.2020 12:13:23 | Автор: admin
По исследованиям HeadHunter и Mail.ru спрос на специалистов в области Data Science превышает предложение, но даже так молодым специалистам не всегда удается найти работу. Рассказываем, чего не хватает выпускникам курсов и где учиться тем, кто планирует большую карьеру в Data Science.

Они приходят и думают, что сейчас будут зарабатывать 500к в секунду, потому что знают названия фреймворков и как из них запустить модель в две строчки
,

Эмиль Магеррамов руководит группой сервисов вычислительной химии в компании biocad и на собеседованиях сталкивается с тем, что у кандидатов нет системного понимания профессии. Они заканчивают курсы, приходят с хорошо прокачанными Python и SQL, могут за 2 секунды поднять Hadoop или Spark, выполнить задачу по четкому ТЗ. Но при этом шаг в сторону уже нет. Хотя именно гибкости решений работодатели ждут от своих специалистов в области Data Science.

Что происходит на рынке Data Science



Компетенции молодых специалистов отражают положение на рынке труда. Здесь спрос существенно превышает предложение, поэтому отчаявшиеся работодатели часто действительно готовы брать на работу совсем зеленых специалистов и доращивать их под себя. Вариант рабочий, но подходит лишь в том случае, если в команде уже есть опытный тимлид, который возьмет на себя обучение джуниора.

По исследованию HeadHunter и Mail.ru, специалисты по анализу данных одни из самых востребованных на рынке:

  • В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения в 7,2 раза, чем в 2015 году.
  • По сравнению с 2018 годом количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению в 1,3 раза.
  • 38% открытых вакансий приходится на ИТ-компании, 29% компании из финансового сектора, 9% сфера услуг для бизнеса.


Ситуацию подогревают многочисленные онлайн-школы, которые готовят тех самых джуниоров. В основном обучение идет от трех до шести месяцев, за которые ученики успевают на базовом уровне освоить главные инструменты: Python, SQL, анализ данных, Git и Linux. На выходе получается классический джуниор: может решить конкретную задачу, а понять проблему и самостоятельно сформулировать задачу еще не может. Однако высокий спрос на специалистов и хайп вокруг профессии часто рождает высокие амбиции и требования к зарплате.

К сожалению, собеседование по Data Science сейчас обычно выглядит так: кандидат рассказывает, что попробовал применять пару-тройку библиотек, на вопросы о том, как именно работают алгоритмы, ответить не может, затем просит 200, 300, 400 тысяч рублей в месяц на руки.

Из-за большого количества рекламных лозунгов вроде стать аналитиком данных может каждый, освой машинное обучение за три месяца и начни получать кучу денег и жажды быстрой наживы, в нашу область хлынул огромный поток поверхностных кандидатов совершенно без системной подготовки.

Виктор Кантор
Chief Data Scientist в МТС


Кого ждут работодатели



Любой работодатель хотел бы, чтобы его джуниоры работали без постоянного контроля и могли развиваться под руководством тимлида. Для этого новичок должен сразу владеть нужными инструментами, чтобы решать текущие задачи, и обладать достаточной теоретической базой, чтобы постепенно предлагать собственные решения и подступаться к более сложным задачам.

С инструментами у новичков на рынке все достаточно хорошо. Краткосрочные курсы позволяют быстро освоить их и приступить к работе.

По исследованию HeadHunter и Mail.ru, самый востребованный навык владение Python. Оно упоминается в 45% вакансий специалистов по анализу данных и в 51% вакансий в области машинного обучения.

Также работодатели хотят, чтобы специалисты по анализу данных знали SQL (23%), владели интеллектуальным анализом данных (DataMining) (19%), математической статистикой (11%) и умели работать с большими данными (10%).

Работодатели, которые ищут специалистов по машинному обучению, наряду со знанием Python ожидают, что кандидат будет владеть C++ (18%), SQL (15%), алгоритмами машинного обучения (13%) и Linux (11%).

Но если с инструментами у джуниоров все хорошо, то дальше их руководители сталкиваются с другой проблемой. У большинства выпускников курсов нет глубокого понимания профессии, поэтому новичку сложно прогрессировать.

Я сейчас ищу специалистов по машинному обучению себе в команду. При этом вижу, что зачастую кандидаты освоили отдельные инструменты Data Science, но у них недостаточно глубокое понимание теоретических основ, чтобы создавать новые решения.

Эмиль Магеррамов
Руководитель группы сервисов вычислительной химии, Biocad


Сама структура и продолжительность курсов не позволяет углубиться на необходимый уровень. Выпускникам зачастую не хватает тех самых soft skills, которые обычно пропускаются при чтении вакансии. Ну правда, кто из нас скажет, что у него нет системного мышления или желания развиваться. Однако применительно к специалисту Data Science речь о более глубокой истории. Здесь, чтобы развиваться, нужен достаточно сильный уклон в теорию и науку, который возможен только на продолжительном обучении, например, в университете.

Многое зависит от человека: если трехмесячный интенсив от сильных преподавателей с опытом тимлидов в топовых компаниях проходит слушатель с хорошей базой в математике и программировании, вникает во все материалы курса и впитывает как губка, как говорили в школе, то проблем с таким сотрудником потом нет. Но 90-95% людей, чтобы что-то усвоить навсегда, нужно выучить в десять раз больше и делать это систематично несколько лет подряд. И это делает магистерские программы по анализу данных великолепным вариантом получить хороший фундамент знаний, с которым и на собеседовании не придется краснеть, и работу делать будет сильно проще.

Виктор Кантор
Chief Data Scientist в МТС


Где учиться, чтобы найти работу в Data Science



На рынке много хороших курсов по Data Science и получить первоначальное образование не проблема. Но важно понимать направленность этого образования. Если у кандидата уже есть мощный технический бэкграунд, то интенсивные курсы то что надо. Человек освоит инструменты, придет на место и быстро вработается, потому что уже умеет думать как математик, видеть проблему и формулировать задачи. Если такого бэкграунда нет, то после курса будет хороший исполнитель, но с ограниченными возможностями для роста.

Если перед вами стоит краткосрочная задача смены профессии или поиска работы в этой специальности, то тогда вам подходят какие-то систематические курсы, которые короткие и быстро дают минимальный набор технических навыков, чтобы вы смогли претендовать на начальную позицию в этой области.

Иван Ямщиков
Академический директор онлайн-магистратуры Наука о данных


Проблема курсов именно в том, что они дают быстрый, но минимальный разгон. Человек буквально влетает в профессию и быстро достигает потолка. Чтобы прийти в профессию надолго, нужно сразу заложить хорошую основу в виде более долгосрочной программы, например, в магистратуре.

Высшее образование подходит, когда вы понимаете, что эта область интересна вам долгосрочно. Вы не стремитесь выйти на работу как можно скорее. И не хотите, чтобы у вас был карьерный потолок, также не хотите столкнуться с проблемой недостатка знаний, навыков, недостатка понимания общей экосистемы, с помощью которой развиваются инновационные продукты. Для этого нужно именно высшее образование, которое формирует не только необходимый набор технических навыков, но и структурирует по-другому ваше мышление и помогает сформировать некоторое видение вашей карьеры на более долгосрочную перспективу.

Иван Ямщиков
Академический директор онлайн-магистратуры Наука о данных


Отсутствие карьерного потолка главное преимущество магистерской программы. За два года специалист получает мощную теоретическую базу. Вот так выглядит уже первый семестр в программе Data Science НИТУ МИСиС:

  • Введение в Data Science. 2 недели.
  • Основы анализа данных. Обработка данных. 2 недели
  • Машинное обучение. Предобработка данных. 2 недели
  • EDA. Разведывательный анализ данных. 3 недели
  • Основные алгоритмы машинного обучения. Ч1 + Ч2 (6 недель)


При этом можно параллельно получать и практический опыт на работе. Ничто не мешает устроиться на позицию джуниора, как только студент освоит нужные инструменты. Вот только, в отличие от выпускника курсов, магистр не останавливает на этом свое обучение, а продолжает углубляться в профессию. В будущем это позволяет развиваться в Data Science без ограничений.

На сайте университета науки и технологий МИСиС проходят Дни открытых дверей и вебинары для тех, кто хочет работать в Data Science. Представители НИТУ МИСиС, SkillFactory, HeadHunter, Facebook, Mail.ru Group и Яндекс, рассказываю про самое важное:

  • Как найти свое место в Data Science?,
  • Можно ли стать data scientist с нуля?,
  • Сохранится ли необходимость в data scientist-ах через 2-5 лет?,
  • Над какими задачами работают специалисты data science?,
  • Как построить карьеру в Data Science?

Обучение онлайн, диплом государственного образования. Заявки на программу принимаются до 10 августа.
Подробнее..

Из песочницы Магистратура в области Computer Science в Эстонии личный опыт

27.07.2020 02:23:20 | Автор: admin
Переезжать в другую страну очень волнительно. Особенно, если ты студент, и денег у тебя впритык. Страшно ошибиться с выбором университета, страшно, что в итоге учеба не оправдает твоих ожиданий, или ты не справишься, и придется вернуться ни с чем.

Два года назад я переехала из Санкт-Петербурга в город Тарту, в Эстонию, чтобы учиться в магистратуре по специальности Computer Science. Перед переездом я провела много времени в поисках статей, где бы такие же студенты, как я, описывали свой личный опыт учебы в Эстонии в качестве иностранного студента, но мои поиски были практически безрезультатны. Прошло 2 года, я закончила магистратуру, и теперь хочу поделиться своим опытом поступления и учебы в Тартуском университете, и, надеюсь, помочь тем, кому сейчас не хватает такой информации, как мне когда-то.



1. Обо мне


В 2017 году я закончила бакалавриат СПбГУ по направлению Прикладная математика, физика и процессы управления. Занималась гидродинамикой, но к концу бакалавриата пришло осознание, что хочется попробовать себя в IT сфере. Я решила, что буду поступать в магистратуру на специальность, связанную с программированием. Это осознание мне пришло довольно поздно, и я не очень основательно подошла к выбору университета и программы. Из Питера мне переезжать на тот момент не хотелось, поэтому я поступила в магистратуру в ИТМО на специальность Программное обеспечение в инфокоммуникациях. Но уже летом перед магистратурой я начала понимать, что это не совсем то, что мне нужно. Я походила на пары до октября и решила, что заберу документы и возьму gap year. С этого начался мой путь к магистратуре за границей.


В конце бакалавриата я начала немного программировать на Python и заинтересовалась машинным обучением. Потом посмотрела пару вводных курсов по ML на Coursera и пришла к тому, что поступать буду на Data Science или Computer Science программу, чтобы в дальнейшем построить карьеру в Data Science. Так что к тому моменту, как я ушла из ИТМО, с направлением я определилась. Оставалось выбрать университет, сдать английский и подать документы.

2. Поступление


Итак, к ноябрю 2017 года решение поступать в магистратуру за границу было окончательно принято, и я начала свой путь к подаче заявлений в университеты.

2.1 Подготовка


Чтобы поступить на магистерскую программу на английском языке, обычно нужно сдать IELTS или TOEFL стандартизированные тесты, чтобы оценить уровень английского. Я решила сдавать IELTS. Большинство европейских университетов требуют общую оценку по IELTS 6.5, но некоторые берут и с 6.0, и даже с 5.5 (обычно на технические специальности требуется более низкий балл). Если обобщить, чтобы подать в Европу на англоязычную программу магистратуры, нужно иметь подтвержденный уровень английского B2.

Английским я никогда дополнительно не занималась, да и вообще, это был один из самых нелюбимых предметов. Я понимала, что он важен, но заставить себя заниматься не могла. Это тоже повлияло на мое решение поступать за границу хотелось прокачаться в английском. Так что, когда в октябре я задумалась о поступлении, я поняла, что по английскому я не дотягиваю, и у меня уровень примерно B1. С середины ноября я начала ходить на курсы по подготовке к IELTS. Курсы длились месяц, и они очень помогли сэкономить время и не искать самостоятельно информацию о том, как готовиться. Нас направляли преподаватели, рассказывали про разные техники, которые помогают получить больше баллов. Весь месяц я решала тесты и учила много новых слов на Memrise. В итоге, когда в декабре я пришла на экзамен, я очень рассчитывала на балл 6.5. Но в итоге я получила 6.0.

Так как мой балл по английскому был достаточно низкий, это довольно сильно ограничило выбор университета. Другими критериями при выборе университета являлись:

  • Программа обучения (curriculum)
  • Рейтинг университета (QS ranking)
  • Возможность получить стипендию, покрывающую стоимость обучения (tuition waiver)
  • Возможность получить стипендию, покрывающую затраты на проживание
  • Наличие хорошего общежития

В итоге, я выбрала институт компьютерных наук Тартуского университета. Так получилось, что я подавала документы только туда университет полностью удовлетворял моим требованиям, и я не стала рассматривать другие варианты. К тому же, подать на магистерскую программу обычно стоит 50-70 евро (application fee), для меня на тот момент это были существенные затраты, если бы я подавала в несколько университетов.

2.2 Подача заявления


Базовый набор требований, чтобы подать заявку в магистратуру в Европе:

  1. Диплом о высшем образовании с приложением, переведенным на английский. Вместо него можно предоставить выписку с оценками, если вы бакалавриат еще не закончен на момент подачи заявки
  2. Языковой сертификат (IELTS/TOEFL)
  3. Мотивационное письмо
  4. Резюме (CV)

Если приложение диплома изначально продублировано на английском (как, например, мой диплом СПбГУ), то переводить ничего не нужно.

На программу MSc Computer Science в Тарту можно было подавать с января по март. Результаты должны были озвучить до 15 мая.

В Эстонии есть система, через которую можно подать заявление в любой эстонский университет, что очень удобно. Называется она Dream Apply. Еще очень круто, что при подаче заявки не нужно отдельно подавать заявления на стипендии, это делается автоматически. То есть, весь процесс подачи состоит в том, чтобы в системе выбрать программы, на которые хочешь подать заявки, и загрузить перечисленные выше документы в электронном виде. После этого надо оплатить application fee. Это можно сделать прямо в системе онлайн или сделать банковский перевод. С оплатой русской картой могут быть проблемы, по крайней мере, мне оплатить онлайн не удалось, и пришлось делать банковский перевод. Поэтому, очень советую не откладывать подачу заявления на последний день, так как банковский перевод может занять несколько дней. Это было единственное препятствие, с которым я столкнулась при подаче заявления. Все оказалось совсем не сложно!

Кстати, стипендии на обучение и проживание дают, естественно, не всем. Получите ли вы стипендию или нет, зависит от вашего рейтинга среди других кандидатов. Он рассчитывается на основании вашего среднего балла в бакалавриате, балла по английскому, мотивационного письма, опыта работы и других достижений.

Результаты я получила в начале мая, немного раньше дедлайна. Университет приглашал меня на обучение и был готов покрыть tuition fee. Стипендию на проживание (Dora Plus) я не получила. Скрин части письма, которое я получила:



Я приняла решение что все равно поеду и, возможно, мне удастся получить какие-то другие стипендии позже, или устроиться на работу, чтобы покрыть расходы на проживание. Чтобы принять приглашение обучаться в университете, нужно отправить почтой заверенные копии тех же документов, которые вы загружали при подаче заявки.

Я отправила документы, и через какое-то время мне пришло письмо, что университет все же готов предоставить мне стипендию Dora Plus! Видимо, кто-то отказался, и список сдвинулся.

3. Переезд


Процесс переезда тоже прошел довольно гладко. Первым делом я начала собирать документы для подачи на вид на жительство temporary residence permit (TRP) и узнавать, как получить место в общежитии.

3.1 Подача на ВНЖ


На сайте университета можно найти очень хорошие и четкие инструкции о том, какой тип визы или документов вам нужен, чтобы учиться в качестве иностранного студента. Мне нужен был TRP с целью учебы. Я записалась в консульство Эстонии в Санкт-Петербурге, записывают обычно на две недели вперед. Подала документы, но меня предупредили, что сделать TRP занимает до трех месяцев, и можно не успеть получить его до сентября. У меня так и произошло, так как подавала на него я в июне, а получила в начале сентября уже в Тарту. Чтобы обойти этот момент и легально въехать в Эстонию, я сделала визу типа D для учебы. Но я знаю случаи, когда люди въезжали по обычной шенгенской визе и получали TRP тоже уже в Эстонии, и все было нормально. Я почему-то испугалась так делать и решила перестраховаться, так как шенгенская виза не может использоваться для поездок с целью обучения.


Кстати, TRP выглядит как id-карта, и работает она так же, как id-карта постоянного жителя Эстонии. Что было для меня удивительнее всего ее можно использовать, чтобы подписывать документы, не выходя из дома. Для этого нужен специальный ридер для id-карты, который подключается к компьютеру. Иногда этот ридер встроен в ноутбук. Еще ее используют как проездной, как билет в библиотеку и тд. За счет этого, в Эстонии нет проблем с бюрократией.

3.2 Заселение в общежитие и первые дни в Тарту


Мой самый главный совет подавайте аппликейшн на общежитие в первый же день, как открывается возможность подачи. Заявки обрабатываются в порядке очереди, так что чем раньше, тем больше вероятность, что достанется хорошее место. Или что оно вообще достанется. Вроде были случаи, когда люди не смогли получить общежитие до начала учебного года, но у меня все прошло хорошо.

Для иностранных студентов в Тартуском университете есть три доступных общежития на Narva mnt. 25, Narva mnt. 27 и на Raatuse 22. Я рекомендую подавать в первые два там условия получше. Но если любите тусовки и пошуметь, тогда вам прямиком в Raatuse. В Раатусе селят студентов, которые приехали по обмену на семестр. Обычно они хотят весело провести это время, и там бывает довольно шумно. В Раатусе квартиры состоят из трех комнат, общей кухни, душа и туалета. В комнате обычно живет по два человека. То есть, на одну кухню, душ и туалет будет шесть человек. В Нарве квартиры состоят из двух комнат, и на кухню, душ и туалет приходится по четыре человека. К тому же, часто люди снимают по два места в комнате. Я весь первый год обучения платила за два места и жила в комнате одна, моя соседка по квартире тоже. Мы занимали всю квартиру вдвоем, что было очень комфортно. На втором году обучения я какое-то время жила в Раатусе, так что могу сравнивать на своем опыте. Если вы любите чистоту и тишину, я рекомендую выбирать Нарву.

Могу сказать, что условия в общежитиях очень хорошие. Удобные кровати, стабильный бесплатный интернет, бесплатная прачечная с сушильными машинами, близко к центру и к большинству корпусов университета.

Так выглядела моя комната в день заселения:







Университет пригласил поступивших приехать за неделю до начала учебы, чтобы провести orientation week. Нам проводили экскурсии по городу, по зданиям университета, по библиотеке, по общежитиям и выдали подарки шопперы (welcome bags), в которых были сим карты с некоторым количеством денег на них, повер банки, карты города и еще что-то по мелочи. Это очень круто, особенно порадовало и удивило, что выдали предоплаченные сим карты.


К моменту приезда в Тарту, я уже знала, в каком общежитии я буду жить, и знала номер комнаты. Оставалось только подойти в здание общежития, попросить ключи на ресепшене и заполнить контракт. Заселение прошло очень быстро.
Я не рекомендую везти с собой кучу вещей подушки, одеяла и постельное белье вполне можно купить в первый день, это выйдет не намного дороже, чем в России, а вещей у вас будет и так много. Посуду тоже лучше везти по минимуму иногда предыдущие жильцы что-то оставляют, а остальное можно докупить. Мне, кстати, повезло кто-то из предыдущих жильцов оставил в нашей квартире пылесос, это было очень кстати.

Уже обустроенная комната:



Большое отличие от российских общежитий разрешено жить в одной комнате парам, при этом вы не обязательно должны быть женаты. Просто скорее всего подселят в квартиру, где в другой комнате тоже живет пара.

За место в общежитии в месяц обычно выходит 95-110 евро с коммунальными платежами. Соответственно, если вы хотите жить в комнате без соседа, будет выходить около 200 евро.

Контракт на общежитие обычно действует с сентября до конца июня, а потом его можно продлить. Кто-то на лето выселяется, а потом осенью заезжает обратно, чтобы не платить за летние месяцы. Я выселилась на лето и третий семестр, так как была на стажировке сначала в Таллине, потом в Австрии. Заселилась обратно я зимой в начале четвертого семестра, и мест в Нарве не было, поэтому пришлось жить в Раатусе.

4. Жизнь в Тарту


Тарту небольшой город с населением около 100 000 человек. Если вы из города-миллионника, он покажется очень маленьким. За 15-20 минут можно дойти из центра до границы города. Но в этом есть свои плюсы не надо пользоваться транспортом, почти все в пешей доступности. В городе есть несколько торговых центров, кинотеатры, рестораны, музеи, даже ботанический сад. Всегда можно найти мероприятия и активности по душе. Город приятный и выглядит по-европейски. Общаться в магазинах и ресторанах нужно на английском (или на эстонском, если знаете), в отличие от Таллина, где больше 50% населения русский понимает.





Из Тарту можно довольно бюджетно путешествовать автобусами Lux Express и Ecolines. Каждый день есть несколько рейсов в Петербург и Ригу. Также, регулярно ходят автобусы и электрички в Таллин, и вообще по всей Эстонии. Дорога в Питер занимает около семи-восьми часов, в Ригу около четырех. До Таллина можно добраться за два с половиной. Еще автобус до Таллина заезжает в Таллинский аэропорт, откуда можно найти дешевые перелеты во многие европейские страны. Еще два популярных варианта для путешествий съездить в Хельсинки или Стокгольм из Таллина на пароме.







Жить в Эстонии довольно дешево, цены в магазинах в среднем чуть выше российских мне при моем ритме жизни было комфортно жить на 500 евро, при этом 190-220 евро уходило на жилье. Но я в основном готовила дома, иногда ходила на ланчи в университетские столовые, где по будням можно найти ланчи за 3-4 евро. Иногда выбиралась в кофейню выпить кофе, пару-тройку раз за семестр ездила в Питер, Таллин или Ригу. Если чаще ходить по ресторанам и кафе, уходить денег, естественно, будет больше. Вообще, вполне реально прожить в месяц на 350-400 евро, если платить за одно место в общежитии и питаться дома. Эти деньги как раз покрывает стипендия Dora Plus, то есть реально можно жить на стипендию и не беспокоиться по поводу работы.

Так что, Тарту довольно приятное место, чтобы провести два года магистратуры.



5. Впечатления от учебы в Тартуском университете


Итак, про учебу. Первый учебный год начался с выбора курсов на семестр. Система образования в Европе отличается от системы в классических российских университетах ты сам выбираешь, какие курсы тебе брать. Есть несколько обязательных курсов, которые ты должен будешь взять за время магистратуры. У нас это называлось core module, и он состоял из четырех базовых курсов. Остальные курсы ты выбираешь в зависимости от интересов. Я выбрала специализацию (specialization module) в Data Science, поэтому брала много курсов, связанных с машинным обучением и анализом данных. В каком семестре какой курс брать, решаешь ты сам. Главное, чтобы к концу обучения набралось 120 кредитов (один курс обычно весит 3 или 6 кредитов). Один кредит равен примерно 26 часам работы, но все, конечно, относительно. Я бала за семестр максимум 36 кредитов и это довольно большая нагрузка. Я решила взять большинство курсов в первый год обучения, чтобы освободить время на случай, если у меня появится работа на следующий год. Так что в первом и во втором семестре я брала по 36 кредитов. Также в 120 кредитов входит стажировка в компании или практика в исследовательской группе и написание магистерской диссертации (master thesis). Часто студенты берут нагрузку побольше в первых двух семестрах, а потом устраиваются на стажировку, которая плавно перетекает в фулл-тайм работу.



Уровень преподавания я могу оценить, как хороший. Как и во всех университетах, некоторые курсы отличные, некоторые не очень. Сильно зависит от преподавателя. Но мне в основном курсы, которые я брала, нравились. Еще университет очень быстро перешел на онлайн обучение, когда начался covid, что тоже характеризует его с хорошей стороны. Защищалась я, кстати, по зуму.

Студенты института компьютерных наук могут получить ноутбук на время обучения. Это было для меня большим сюрпризом и было очень кстати, так как хороший мощный ноутбук во время учебы точно пригодится. И факультет науки и технологий, к которому относится мой институт, недавно переехал в новое классное современное здание, Delta Centre. Было очень приятно учиться в такой атмосфере.



Еще хочется упомянуть, что если время лекций по одному предмету накладывается на другой, всегда можно договориться с преподавателем, что ты не будешь посещать его класс, но будешь дома в свободное время смотреть лекции и вовремя сдавать домашки. Да, все лекции записываются на видео! Например, я успешно закончила курс по Computational Neuroscience в третьем семестре, появившись в универе лишь один раз на экзамене. Третий семестр я провела на стажировке в Австрии и мне удалось выйти из положения и все равно взять курс, который я очень хотела.

К слову, о стажировках. Как я уже писала выше, стажировка обязательная часть программы MSc Computer Science. Я боялась, что не смогу найти хорошую стажировку, так как у меня не было практического опыта в программировании и опыта прохождения собеседований, особенно на английском. Еще одним моим страхом было то, что я не получу стипендию на второй год обучения Dora Plus дается только на первый год, а потом надо подавать снова, и на второй год их выделяют в разы меньше. Еще есть пара стипендий, на которые можно подавать каждый семестр, они тоже выделяются на основании успехов в учебе. Стипендию реально получить, если у тебя высокий средний балл, ты участвуешь в каких-то активностях, научной деятельности и тд. Словом, их дают тем, кто в топе. Спойлер: стипендию я все-таки получила. И не только Dora Plus, но и пару других. Главное стараться и иметь хороший средний балл и большое количество набранных кредитов за первый год, и все будет ок.

Так что, весной 2019 я активно занялась поиском стажировок, желательно оплачиваемых. Тартуский университет каждую весну проводит дни карьеры, и это отличное место, чтобы найти стажировку в компании. Например, благодаря дню карьеры, я побывала на собеседованиях в Microsoft и в Twilio и, самое главное, получила оффер от компании MindTitan, в которой я в итоге стажировалась летом после первого курса в качестве дата саинтиста. Еще одна возможность найти стажировку участвовать в проектах, которые компании делают совместно с университетом. О них можно узнать, пообщавшись с преподавателями, и из рассылок института. Например, во время моего обучения, у университета были контракты с Bolt, Swedbank, Huawei и другими известными компаниями. Мне же удалось побывать на исследовательской стажировке в Австрии, по итогам которой я писала магистерскую диссертацию. Так что не стоит бояться, что вы не найдете практику, стажировку или работу варианты всегда есть, а стажировки еще и неплохо оплачиваются. Те, кто заинтересован в исследовательской деятельности, часто устраиваются в ресерч группы университета, и за это тоже платят. Многие работают в качестве teaching assistant и помогают профессорам вести курсы. Возможностей найти то, что будет по душе, достаточно.


6. Заключение


В заключение хочу сказать, что университет дал мне невероятное количество возможностей для развития, и я очень выросла в профессиональном плане и в плане софт скиллов за это время. Это был крутой опыт, который заставил меня выйти из зоны комфорта и развиваться быстрее.

Сейчас я вернулась в Россию и начала искать работу в качестве дата саинтиста. Получить первые пару офферов было несложно, что подтверждает, что университет дал мне хорошую базу, чтобы начать работать по специальности. К тому же, думаю, опыт учебы за границей будет большим плюсом, если в будущем я опять захочу переехать и работать в Европе.

Тем, кто сейчас находится на этапе поступления или хочет попробовать, но не решается, хочу сказать, что все не так сложно, как кажется. И еще, мой пример доказывает, что можно поступать и успешно заканчивать англоязычные программы даже с очень средним уровнем английского он очень быстро улучшается, когда постоянно находишься в среде, где без него никак.
Подробнее..

Перевод - recovery mode Магистратура по Data Science советы аспиранта Гарвардского университета

23.07.2020 16:12:40 | Автор: admin
Перевод выполнен в рамках набора студентов в онлайн-магистратуру по Data Science с гос.дипломом МИСиС.

image

В этой статье я хотел бы поделиться своим опытом научной карьеры в области Data Science, накопленным за последние полтора года.

Это мой первый пост на Medium, поэтому я хотел бы рассказать о себе и о своем предыдущем опыте. Я аспирант Гарвардского университета по специальности Экологическая инженерия и вычислительная техника, а также подрабатываю консультантом по машинному обучению и блокчейну в британской консалтинговой фирме Critical Future, специализирующейся на искусственном интеллекте. Мои исследования сосредоточены на внедрении машинного обучения и искусственного интеллекта в науку об окружающей среде с использованием сенсорных систем, основанных на дронах, способных самостоятельно перемещаться для составления картины химического состава нижних слоев атмосферы, преимущественно в тропических лесах Амазонки (для тех, кто интересуется этим проектом, я опубликую отдельные статьи по этой теме в ближайшем будущем).

Я начал свой путь к PhD в Гарвардском университете осенью 2017 года, получив степень бакалавра и магистра в области машиностроения в Имперском колледже Лондона, а последний год обучения я закончил за границей в Национальном университете Сингапура. Во время учебы в бакалавриате я был мало знаком с Data Science и статистикой в целом, но при этом я много знал о программировании на Matlab, C и Visual Basic, а также имел сильную математическую базу.

До того, как я начал учиться в Гарварде, я никогда не программировал на Python, и даже не слышал об R. Я никогда не занимался параллельными вычислениями, не создавал кластеров, а машинное обучение и искусственный интеллект были вещами, о которых я обычно слышал только из антиутопических романов и фильмов.

Участие в программе Гарварда с акцентом на информатике и машинном обучении с таким скромным бекграундом было похоже на восхождение по отвесной скале (изнурительно и шатко). Впрочем, это Гарвард, так что вряд ли можно ожидать чего-то меньшего. Гарвардская программа PhD требует от прохождения 10 курсов, из которых обычно 8 магистерского уровня. Их можно проходить в своем темпе, но вы должны закончить их до выпуска, что в среднем занимает 5 лет. Студентам рекомендуется заканчивать все курсы в течение первых двух лет, после чего они могут получить свою (формально бесплатно) магистерскую степень. В конце весеннего семестра 2019 года я выполню эти требования и получу диплом, после чего сосредоточусь исключительно на исследованиях.

Осенью 2018 года в Гарварде была создана первая в истории группа слушателей магистерской программы по Data Science. Это двухгодичная программа, состоящая из основных курсов по Data Science, этики, а также прикладной математики, Computer Science и факультативов по статистике/экономике. Приехав за год до всех этих студентов, я буду одним из первых, кто выполнил основные предварительные требования для этой программы, что дает мне уникальный опыт в плане эффективности получения степени в области Data Science.

За последние 18 месяцев я прошел целый ряд курсов. Одним из первых был CS205: Параллельные вычисления, где я впервые научился программировать под Linux и создал вычислительные кластеры, способные обеспечивать линейное ускорение матричных вычислений, и кульминацией этого курса стал финальный проект, включавший параллельные вычисления на Python с Dask на кластере Kubernetes.

Также я взял AM207: Продвинутые научные вычисления, который предлагает Гарвардская Extension School (а это значит, что этот курс может пройти любой желающий). Этот курс был посвящен байесовской статистике и ее внедрению в машинное обучение, и он включал в себя бесчисленные часы симуляций на основе методов Монте-Карло с цепями Маркова (MCMC), работу с теоремой Байеса и даже просмотр короткого видео о Супермене, который заставил время повернуться вспять, (чтобы продемонстрировать концепцию реверсивности времени в машинном обучении)

Также одним из основных курсов является AC209a, в котором основное внимание уделяется основам машинного обучения и Data Science. Я бы сказал, что этот курс включает в себя то, о чем большинство людей думают, когда кто-то произносит слова Data Science или машинное обучение. Речь идёт о том, чтобы научиться проводить исследовательский анализ данных и запускать регрессоры и классификаторы с использованием sklearn. Большая часть занятий сосредоточена на понимании этих методов и на том, как лучше всего оптимизировать их для заданного набора данных (для этого нужно немного больше, чем просто использовать model.fit(X_train, y_train)...). Еще один курс AC209b: Дополнительные разделы Data Science, который является расширением первого класса. По сути, это курс по Data Science на стероидах, в котором первые несколько лекций начинаются с обобщенных аддитивных моделей и создания красивых сплайнов для описания наборов данных. Тем не менее, все быстро перерастает в параллельный запуск 2500 моделей, использующих Dask на кластере Kubernetes, в попытке провести гиперпараметрическую оптимизацию на 100-слойной искусственной нейронной сети. При этом, на самом деле, это было даже не самое сложное из того, что мы делали все это происходило всего лишь на третьей недели лекций, если говорить о курсе в целом.

Также я прошел и другие курсы, включая CS181: Машинное обучение, который охватывает математические основы регрессии, классификации, обучения с подкреплением и другие области с использованием как частотных, так и байесовских методов; AM205: Научные методы решения дифференциальных уравнений, а также AM225: Усовершенствованные методы решения дифференциальных уравнений в частных производных. Есть множество других курсов, которые я также мог бы пройти в течение оставшегося времени в Гарварде, чтобы углубить свои знания, такие как CS207: Разработка систем для вычислительных наук, AM231: Теория принятия решений, или AM221: Продвинутая оптимизация. Я также должен уточнить, что каждый из этих курсов имел финальный проект, который я смог добавить в свое портфолио.

Теперь перейдем к теме статьи после всего этого времени, которое я потратил на обучение тому, как быть хорошим специалистом в Data Science, стоило ли оно того? Или я мог сделать все это сам? Точнее, стоит ли кому-то, кто хочет заниматься этим в качестве карьеры, инвестировать 1-2 года и более 100 000 долларов в получение степени в области Data Science?

Я не думаю, что всему, чему я научился за эти 18 месяцев курсов по Data Science, я мог бы научиться, читая книги, просматривая онлайн-видео и изучая документацию различных пакетов программного обеспечения. Тем не менее, я не сомневаюсь, что получение степени в Data Science может ускорить чью-либо карьеру, а также может дать ценный опыт работы с реальными проектами, которые можно было бы обсудить в ходе интервью и использовать в портфолио. Лично мне потребовались бы годы, чтобы понять, как оптимизировать 100-слойную нейронную сеть, работающую на параллельном кластере в Google Cloud, если бы я просто сидел дома и смотрел видео на Youtube я даже представить себе не мог, как это сделать.

Любопытство к Data Science это замечательно, и я хотел бы, чтобы больше людей интересовались этой темой. С момента информационного взрыва кажется, что в ближайшее десятилетие данные станут новой мировой религией, и поэтому неизбежно, что миру понадобится гораздо больше специалистов в Data Science. Тем не менее, любопытство может завести вас очень далеко, и наличие клочка бумаги, который показывает, что вы потратили время, инвестировали в приобретение навыков и хороших привычек и стали по-настоящему опытным ученым, занимающимся данными, выделит вас среди остальных. Data Science существует не только в виде соревнований от Kaggle, как некоторые, кажется, думают.

Мой совет для тех, кто хочет заниматься Data Science, заключается в том, чтобы получить хорошую основу базу в статистике и математике, также я советую приобрести некоторый опыт в программировании на таких языках, как Python и R, а также освоить разработку под Linux. Большинство студентов на занятиях по информатике, которых я видел, похоже, борются с такими аспектами, связанными с информатикой, как работа с контейнерами Docker и создание и управление распределенными кластерами, работающими на некоторой облачной инфраструктуре. Для того, чтобы стать опытным специалистом в области Data Science необходимо овладеть многими сложными навыками, и я уж точно я не могу назвать себя экспертом. Однако, накопив некоторый опыт, я чувствую себя достаточно уверенным в том, что смогу продолжать развивать свои собственные навыки в области Data Science и машинного обучения, а также применять их в проектах и исследованиях, связанных с промышленностью, не опасаясь заниматься плохой наукой.

Если вы хотите узнать что из себя представляет курс по Data Science, я рекомендую взглянуть на онлайн-курсы, предлагаемые университетами, за прохождение которых можно часто получить зачетные единицы, необходимые для получения степени. Сейчас в Гарварде есть студент, который прошел 3 курса по информатике в Extension School, и теперь он имеет степень в области вычислительной техники и инженерии и является одним из ассистентов преподавателя в продвинутом курсе по Data Science. Все возможно!



Онлайн-курсы по Data Science с гос.дипломом МИСиС


image

НИТУ МИСиС и SkillFactory (онлайн-школа по Data Science), заключили соглашение о создании совместной онлайн-магистратуры Наука о данных, где будут стажировки в реальных проектах, чатики с менторами, индивидуальный план обучения. Занятия будут вести профессора НИТУ МИСиС и практикующие специалисты из Mail.ru Group, Яндекса, банков Тинькофф и ВТБ, компаний Lamoda, BIOCAD, АльфаСтрахование и др.

Это первый в России случай партнерства частной образовательной компании с государственным вузом по модели OPM (Online Program Management). Индустриальным партнером программы будет Mail.ru Group. Программу также поддерживают NVidia, Ростелеком и Университет НТИ 20.35.

Поступить в магистратуру смогут выпускники бакалавриата любого направления по результатам онлайн-экзамена. Подать заявку можно прямо сейчас и до 10 августа.

Полезные материалы


Подробнее..

Какое образование необходимо для построения карьеры в глобальной ИТ компании?

17.07.2020 16:20:19 | Автор: admin
Статистика говорит о том, что квалифицированных ИТ-специалистов катастрофически не хватает по всему миру. По данным Korn Ferry Report, к 2030 году дефицит необходимых кадров достигнет 85,2 миллионов людей по всему миру. Но мы уверены, что дело не только в технической грамотности дело в том, что сегодня компаниям нужны настоящие ИТ-лидеры. О том, какие именно, и где можно получить практические знания, читайте под катом, а в конце поста ссылка с регистрацией на вебинар с выпускниками Schaffhausen Institute of Technology (SIT), которые расскажут об особенностях образовательной программы нового вуза.



Для тех, кто интересуется вопросами современного образования на стыке ИТ и бизнеса 21 июля состоится вебинар SIT Alumni Insights с участием выпускников. Специалисты прошедшие обучение расскажут лично, почему они выбрали SIT, и в чем отличие образовательной программы вуза для специалистов, стремящихся к руководящим постам в крупных компаниях.

Выпускники SIT


В мероприятии примут участие выпускники и студенты SIT: Дарья Кубликова, Кеннет Нвафор, Василий Зорин и Арпита Гош. Вот что они рассказывают о своем обучении:

image
SIT дает уникальные возможности пройти обучение в партнерстве с такими ведущими университетами как NUS и CMU. Программы SIT действительно находятся на стыке науки и индустрии. Именно это было мне нужно после получения степени бакалавра по физике, рассказывает Дарья Кубликова, студент SIT по направлению Information Systems

SIT создает уникальную экосистему, внутри которой увлеченные команды практикантов работают вместе с учеными. Они решают реальные проблемы отрасли, а также ищут новые возможности для бизнеса. Я считаю, что главные преимущества SIT это практический подход и получение действительно полезных знаний от отраслевых экспертов, интенсивная работа над проектами из реальной жизни с понятной отдачей и возможностью глубоко погрузиться именно в ту специализацию, которая тебя интересует, рассказал Василий Зорин, студент SIT по направлению Information Systems.

Я выбрала SIT, потому что мне хотелось перейти на другую ступень карьерной лестницы от инженера по разработке ПО к менеджеру по развитию продукта. Из числа лучших технических программ MBA я выбрала CMU MSPM это уникальное сотрудничество между School of Computer Science и Tepper School of Business. У SIT есть совместная программа с CMU, в рамках которой можно еще и получить финансовую поддержку и руководство со стороны отраслевых экспертов. Я считаю, что это важная основа моей карьеры в области продакт-менеджмента, сказала Арпита Гош, студент SIT по направлению Product Management.

Выпускники поделятся своими планами на будущее, а также ответят на вопросы:

  • Как получить магистерское образование в Швейцарии? Сколько это стоит и как выиграть грант на обучение?
  • Почему они выбрали Schaffhausen Institute of Technology (SIT)?
  • Какие научные проекты ожидают студентов и под руководством каких ученых будет проходить обучение?
  • Как совмещать с учебой работу в глобальной ИТ-компании и как будет выстроена программа обучения в вузе?

В конце ивента запланирована сессия вопросов и ответов, так что вы сможете самостоятельно задать интересующие вас вопросы.

image

Какие лидеры нужны в ИТ?


К слову, в конце июня уже проходил вебинар SIT на русском языке с участием Лауреата Нобелевской Премии Константина Новоселова, а также доктора технических наук и основателя SIT Сергея Белоусова и со-основателя компании Acronis Станислава Протасова. На этом онлайн-ивенте представители академического сообщества и бизнеса обозначили, каких именно компетенций не хватает ИТ-кадрам на глобальном уровне, а также рассказали о растущих требованиях к ИТ-управленцам.

Как отметил на прошлой онлайн-встрече Станислав Протасов, в настоящее время можно найти до 15 различных ролей ИТ-руководителей. Так или иначе они присутствуют в каждой компании, и чем крупнее организация, тем меньше у сотрудников возможностей совмещать сразу несколько ролей. Именно поэтому каждый владелец бизнеса мечтает найти талантливых и хорошо подготовленных ИТ-менеджеров, которые смогут выполнять свою работу лучше, чем он сам.

В ИТ-индустрии есть множество примеров ИТ-менеджеров, обеспечивших компании успех своей работой. Так, Бен Фати много лет занимавший должность Chief Development Officer в Microsoft, обеспечил стабильность Windows Kernel. Марк Брегман был одним из самых успешных Chief Technical Officer в Symantec, помогая компании предлагать действительно передовые решения. Питер Ли занимал пост Chief Scientific Officer (CSO) в Microsoft, и на этой должности помог создать множество новых идей и концепций, результаты воплощения которых мы видим в продуктах компании сегодня.

Не менее важным остаются роли CIO и CISO, которые должны обеспечить безотказную работу инфраструктуры, и с минимальным ущербом для бизнес-процессов обеспечить максимальную защиту от угроз. Роль Главного Архитектора (Chief Architect) заключается в том, чтобы следить за всей экосистемой продуктов компании и их совместимостью. Например, Билл Гейтс достаточно долгий период был главным архитектором Microsoft, и в роли CA он сделал для своей корпорации чуть ли не больше, чем в других ролях, потому что под контролем Гейтса была выстроена консистентная система технических решений.

Подготовка ИТ-лидеров в SIT


Именно исходя из потребностей бизнеса была создана магистерская программа Computer Science and Software Engineering Program. Она включает в себя не только технические знания и навыки, но также умение управлять всеми аспектами развития технологий в компании. В рамках курса магистранты работают на реальных проектах в крупных ИТ-компаниях, а также напрямую общаются с менторами из числа ведущих ученых в области информационных технологий, продвинутых материалов, квантовых вычислений и киберзащиты.



Если вам интересно, как именно проходит учебный процесс в SIT, и какие преимущества получают студенты, вы сможете узнать это из первых рук на вебинаре SIT 21 июля 2020 года.

Программа


12:00 Мск | Future of Computing
Сергей Белоусов, CEO Acronis и основатель Schaffhausen Institute of Technology

По прогнозам аналитиков через 25 лет мы столкнемся с физическими ограничениями к дальнейшему наращиванию компьютерных мощностей. Однако человечеству по-прежнему будут нужны более мощные системы для решения еще более глобальных проблем. Сергей Белоусов поделится своим мнением о будущем компьютеров.

12:20 Мск | Intelligence & computing with materials
Профессор Константин Новоселов, Лауреат Нобелевской Премии 2010 года, председатель стратегического совета SIT

Все вокруг нас сделано из какого-то материала. Наука о материалах позволяет создавать улучшенные материалы, которые необходимы для любых перспективных задач от строительства новых, умных городов, до конструирования улучшенных роботов. В своем выступлении Лауреат Нобелевской премии Профессор Константин Новоселов расскажет о достижениях междисциплинарных исследований, которые помогают делать наш мир лучше.

12:35 Мск | Сессия вопросов и ответов с Сергеем Белоусовым и Константином Новоселовым

12:45 Мск | Кейс 1: Семь причин учиться в SIT
Профессор Бертран Мейер, проректор Schaffhausen Institute of Technology, председатель направления разработки ПО и безопасности, а также Гаель Гуэдиа, студент направления Computer Science в SIT

Разговор о преимуществах обучения в SIT, включая разнообразные возможности получения знаний, работу с лидерами в своей отрасли, а также персональные ожидания выпускников и студентов от сотрудничества с ведущими учеными.

13:00 | Кейс 2: Как подготовиться к роли CxO
Станислав Протасов, президент и со-основатель Acronis, а также Арпита Гош, студент SIT по направлению Computer Science


Сегодня в компаниях востребованы такие руководители, как Chief Experience Officers, которые могут обеспечить правильный опыт для заказчиков важнейшее преимущество для современного бизнеса. Но бурное развитие технологий также требует нового уровня подготовки от технических лидеров. Они должны уметь справляться со сложными ситуациями и находить новые возможности еще быстрее, чем раньше. В этом докладе вы узнаете о новых ролях CXO и о требованиях к техническим лидерам.

13:15 Мск | Панельная дискуссия и сессия вопросов и ответов со спикерами, выпускниками и студентами SIT.

13:30 Мск | Завершение вебинара

Мероприятие будет проходить в Zoom, а ссылка для регистрации здесь
Подробнее..

LLM в области Legal Tech топ 5 самых интересных магистерских программ для обучения в Германии

30.04.2021 00:08:01 | Автор: admin

Legal Tech набирает обороты и становится все более популярным направлением не только для исследований, но и работы. В России пока не разработано магистерских программ под Legal Tech: отдельные направления включают в себя правовую информатику поскольку-постольку (например, "Юрист мирового финансового рынка" в ВШЭ). А вот в Германии спрос уже породил предложение - появились отдельные магистерские программы, заточенные под Legal Tech, хотя они и остаются штучным и уникальным товаром. Им и хочется посвятить этот пост.

Почему Германия? Во-первых, она славится качественным и относительно недорогим по отношению к другим европейским странам образованием. Во-вторых, ФРГ отличается множеством стипендий для иностранных студентов и налаженной системой их адаптации/языковой подготовки. В-третьих, в стране можно найти и англоязычные программы. Плюс для тех кто получил основное юридическое образование в России будет проще изучить правовые предметы в немецком вузе из-за сходства правовых систем двух стран.

Примечание. Описание модулей отражает наиболее важные элементы их содержания. В немецких вузах модули делятся на обязательные, по выбору и факультативы, так что индивидуальный набор модулей из программы составляется студентом и его научным руководителем после поступления.

Университет Регенсбурга

Программу можно найти здесь.

Длительность обучения: 1 год, состоящий из двух семестров. Начало обучения в октябре, конец - в июне.

Язык обучения: английский.

Срок подачи документов и стоимость: не указаны.

Содержание программы:

Модуль 1. Введение в Legal Tech и цифровое право. Основные понятия. Общий взгляд на современные тренды: блокчейн, смарт-контракт, интернет вещей, автономная система, ключевые технологии цифровизации (облачные технологии и большие данные), искусственный интеллект, естественный язык, машинное обучение, глубокое обучение, стратегическое развитие LegalTech-бизнес моделей, психологические и этические аспекты цифровизации правовой сферы.

Модуль 2. Legal-Tech в повседневной практике юриста. Технические и правовые основания включения технологий в работу различных видов юридической работы (адвокат, судья), а также использование информационных технологий при организации рабочего процесса и документооборота. Электронная юстиция, правовое и предиктивное правосудие. Экскурсия в юридические организации и органы, такие как земельный суд Регенсбурга.

Модуль 3. Data Science и Big Data для юристов. Общая концепция науки о данных. Главные задачи работы с большими данными. Типичные сферы применения таких технологий: поиск информации, eDiscovery, distant reading.

Модуль 4. Цифровое право. Часть I. Основные положения права интеллектуальной собственности и конкурентного права. Защита персональных данных.

Модуль 5. Цифровое право. Часть II. Цифровое договорное право. Правовые аспекты финансовых инструментов и связанных с ними бизнес-моделей (Fin Tech). Цифровые технологии в области трудового права.

Модуль 6. Цифровое право. Часть III. Правовые основы защиты пользователей и электронные альтернативные способы разрешения споров. Проблемы правового регулирования применения алгоритмов.

Модуль 7. Основы информационных технологий, цифровые инновации и предпринимательство. Развитие программного обеспечения, совершенствование криптографии, блокчейна, искусственного интеллекта, экономические и правовые аспекты цифровых инноваций.

Модуль 8. Глобальный Legal Tech и кибербезопасность. Процессы глобализации и интернационализации в контексте Legal Tech. Существующие формы киберпреступности.

Краткое резюме: хорошо "сбитая" программа обо всем. Очевидные плюс - преподавание на английском. Подойдет для юристов, желающих приобрести или усовершенствовать свою компетенцию.

Университет Саарланда

Программу можно найти здесь.

Длительность обучения: 1 год, состоящий из двух семестров. Начало обучения в октябре, конец - в июне.

Язык обучения: немецкий.

Срок подачи документов : до 30.09.

Стоимость: единоразовый платеж 3750 + 238 за первый семестр + 236 за второй семестр.

Содержание программы:

Модуль 1. Основы юриспруденции (для неюристов) . Введение в юриспруденцию (мышление и работа юриста). Частное право. Введение в научное юридическое письмо. Юридические интернет-проекты.

Модуль 1. Основы информатики (для юристов). Технические принципы работы Интернета. Введение в информатику. Введение в научное юридическое письмо. Юридические интернет-проекты.

Модуль 2. IT-Право I. Авторское право. Частноправовые основы IT-Права. Публичное информационное право.

Модуль 3. Защита данных. Введение в право защиты данных. Защита данных на практике.

Модуль 4. IT-Право II. IT-Право для продолжающих. Медиа-право. Процессуальные вопросы электронного правосудия. Охрана промышленной собственности.

Модуль 5. IT-Право III. Уголовно-процессуальное право в контексте информационных технологий. Технические основы электронного правосудия.

Модуль 6. Правовая информатика. Введение в правовую информатику. Правовая информатика для продолжающих.

Модуль 7. IT-Безопасность Введение в IT-Безопасность. IT-криминалистика.

Модуль 8. Медиаправо. Правовое регулирование прессы и вещания.

Модуль 9. Электронные инструменты юриста. Технические основы электронного правосудия. Введение в IT-Безопасность. Процессуальные вопросы электронного правосудия.

Модуль 10. Право интеллектуальной собственности и конкурентное право. Охрана промышленной собственности. Конкурентное право. Авторское право.

Модуль 11. Международный. Международное частное право. Международное процессуальное право. Межнациональное право. Международное экономическое право.

Модуль 12. IT-Право в рамках ЕС. Европейское право конституциональные основы и основы внутреннего рынка. Европейское экономическое право.

Модуль 13. Искусственный интеллект и право. Частноправовые аспекты искусственного интеллекта. ИИ и этика

Краткое резюме: изюминка программы - ее открытость как для программистов, так и для юристов. Каждой из категорий дадут свою базу из другой области: программистам - из юриспруденции, юристам - из информатики.

Университет Ольденбурга

Программу можно найти здесь.

Длительность обучения: 1 год, состоящий из двух семестров. Начало обучения в сентябре, конец - в мае.

Язык обучения: немецкий.

Срок подачи документов : с 01.06. по 01.09.

Стоимость: 1500 за модуль. Среднее количество модулей в программе - 7, следовательно средняя стоимость обучения 10 500 + ежесеместровый взнос в размере 181,82.

Содержание программы:

Модуль 1. Интернет-право. Доменное право. Европейское и национальное право дистанционных продаж и электронной коммерции. Особенности мобильной коммерции. Особенности электронной коммерции с позиции конкурентного права. Ответственность в Интернете.

Модуль 2. Телекоммуникационное право. Конституционные основы телекоммуникационного права. Договорное право и защита прав потребителя. Защита персональных данных и тайна связи. Процедурные и процессуальные аспекты.

Модуль 3. Информационное право. IT-Безопасность. Договоры на производство/предоставление/обслуживание компьютерных программ. ПО с открытым исходным кодом. Аутсорсинг и обслуживание приложений. Облачные технологии. Договоры с провайдерами.

Модуль 4. Право интеллектуальной собственности. Защита прав на ПО в немецком и европейском авторском праве, патентном праве, праве товарных знаков. Договорное право в области прав на ПО. Правовая защита баз данных. Авторское право в Интернете.

Модуль 5. Компьютерное уголовное право. Международные и национальные аспекты уголовного права в области компьютерных технологий и интернета. Мошенничество и компьютерное мошенничество, подделка документов на компьютере, модификация данных и компьютерный саботаж. Уголовная ответственность провайдеров, порнография в интернете, экстремистская пропаганда, мошенничество в Интернете, азартные игры, новые тенденции (фишинг, скимминг, киберсталкинг, кибертерроризм).

Модуль 6. Правовая защита данных. Международное и европейское право защиты данных. Право защиты данных немецких федеральных земель и федерации в целом. Защита данных на предприятиях и в юридических фирмах. Анонимность и псевдоанонимность. Цифровая безопасность.

Модуль 7. Налогообложение цифровой экономики. Налог на прибыль с продаж ПО с точки зрения конституции и европейского права. Налоговые риски, связанные с ответственностью, а также использованием цифрового операционного аудита. Налогообложение IT-профессий.

Краткое резюме: программа рассчитана исключительно на юристов и дает глубокие знания по любому выбранному профилю - нацелена на подготовку конкретных юристов-профессионалов в IT-сфере (интеллектуальщик, медиаюрист, юрист по информационной безопасности и т.п.). Из минусов - высокая стоимость обучения.

Ганноверский университет им. Г.В. Лейбница

Программу можно найти здесь.

Длительность обучения: 1 год, состоящий из двух семестров. Первый семестр - обучение в Ганновере. Второй семестр - обучение в одном из партнерских университетов по всему миру.

Язык обучения: немецкий и английский.

Срок подачи документов : с 01.06. по 15.07.

Стоимость: ежесеместровый взнос в размере 439,73 + доп. взнос в зависимости от университета второго семестра.

Содержание программы:

Базовый модуль. Основы. Введение в правовую информатику и право защиты данных. Европейское регулирование и сравнительные правовые аспекты информационного общества. Юридические решения в цифровую эпоху. Авторское право.

Модуль на выбор: правовое консультирование. Договорное право и документооборот в контексте IT. Процессуальные аспекты информационных технологий и интеллектуальной собственности. Право товарных знаков в сфере IT. Особенности уголовного права в цифровой среде. Электронная коммерция.

Модуль на выбор: технологии. Аспекты информатики, вычислительной техники и информационной безопасности. Телекоммуникационное право. Европейское право интеллектуальной собственности. IT-договоры. Медиа-право.

Модуль на выбор: интеллектуальная собственность. Авторское право. Альтернативное лицензирование. Медиа-право. Международное частное право и Интернет. Европейское право интеллектуальной собственности. Право интеллектуальной собственности США.

Программа и модули второго семестра зависят от принимающего университета.

Краткое резюме: "программа-бутерброд", позволяющая обучиться сразу в двух университетах и получить ценный опыт. Одним из партнерский университетов является Университет Кюсю в Японии. Минус - слишком насыщенная программа первого семестра, которая потребует быстро влиться в учебный процесс.

Геттингенский университет Георга-Августа

Программу можно найти здесь.

Длительность обучения: 1 год, состоящий из двух семестров. Начало обучения в октябре, конец - в сентябре.

Язык обучения: английский.

Срок подачи документов : до 30.06.

Стоимость: ежесеместровый взнос в размере 3 900

Содержание программы:

Модуль 1. Основы права интеллектуальной собственности.

Модуль 2. Основы правового регулирования технологий.

Модуль 3. Основы права Европейского права и немецкой правовой системы.

Модуль 4. Продвинутый уровень изучения права интеллектуальной собственности.

Модуль 5. Продвинутый уровень изучения правового регулирования технологий.

Модуль 6. Антимонопольное регулирование на цифровых рынках.

Модуль 7. Электронная коммерция.

Модуль 8. Право защиты данных.

Модуль 9. Введение в правовую информатику.

Модуль 10. Экономические основы права интеллектуальной собственности и информационных технологий.

Модуль 11. Международное право интеллектуальной собственности и информационных технологий.

Модуль 12. Транснациональные контракты в сфере интеллектуальной собственности.

Модуль 13. Транснациональные информационно-технологические проекты.

Краткое резюме: хорошая программа без особенностей и изюминок, рассчитанная исключительно на юристов.

Подробнее..

Из студентов в преподаватели интервью с выпускниками магистерской программы JetBrains ИТМО. Часть первая

23.11.2020 18:14:08 | Автор: admin

Преподавательский состав магистерской программы JetBrains и ИТМО Разработка программного обеспечения на четверть (!) состоит из выпускников этой же программы. Пожалуй, это хороший повод для гордости. Мы решили сделать большое интервью с ребятами. Возможно, их истории помогут кому-то решиться начать преподавательскую карьеру, а кому-то поступить к нам на программу.

В первой части наши выпускники и преподаватели Владислав Танков, Дмитрий Новожилов, Дмитрий Халанский, Алексей Зубаков, Артем Хорошев, Александр Садовников, Владислав Кораблинов и Роман Голышев рассказывают о выборе магистратуры, впечатлениях от обучения и отличиях от других программ.

Почему вы поступили на эту программу? Оправдались ли ожидания?

Влад Т.: Я поступал на программу, ориентируясь на качество обучения в Computer Science центре. Я знал некоторых преподавателей и представлял, что будет, безусловно, сложно, но интересно. Относительно ожиданий думаю, оправдались. Я узнал много нового, попробовал заняться неизвестными ранее вещами, а продукт, который мы сделали на хакатоне в магистратуре, в итоге стал моей основной работой. Тогда мы за два дня написали штуку, вокруг которой в итоге выросла команда из восьми человек, а продуктом воспользовались несколько миллионов человек.

Дима Х.: Во время учебы в бакалавриате я случайно повстречался с преподававшим у параллельных групп бывшим студентом этой магистратуры Игорем Жирковым. Он впечатлил меня казавшимся тогда недоступным уровнем всестороннего понимания программирования. Особенно меня поразило, как он оперировал математическими инструментами. А я, надо признаться, в то время был убежден, что математика это про решение уравнений и неадекватных головоломок в духе правда ли, что 10 в степени 1999, если от него отнять 1999, делится на 9 и совсем меня не касается.

Это меня так впечатлило, что я решил бросить все силы на обретение этой мощи. Самостоятельное чтение книжек давалось с трудом, и я решил, что надо получить полноценное образование, где меня бы научили математически мыслить, желательно с привязкой к программированию. Я спросил у Игоря, где можно найти что-то подобное, и был готов ехать куда угодно. Каково же было мое удивление, когда Игорь сказал, что никуда ехать не надо: в СПбАУ есть такая учебная программа. (Ранее программа реализовывалась в СПбАУ. Прим. ред.)

Я увлекаюсь довольно нишевыми вещами, и в этой магистратуре мне удалось найти для себя много познавательного. Здесь каждый найдет что-то по душе. Любите машинное обучение? Пожалуйста! Хотите просто зарабатывать программированием на Java? Для этого здесь тоже все есть, и в довольно интенсивной форме. Компьютерное зрение? Алгоритмы на графах? Интерфейсы для Android-приложений? Сколько хотите. Почти любые связанные с программированием интересы тут поощряются и, скорее всего, вы найдете себе ментора. А если ваши интересы настолько особенные, что связанных с ними специалистов тут нет есть смысл подумать, а не стать ли первым соответствующим экспертом-преподавателем в этой магистратуре. Некоторые предметы начинали преподаваться именно так.

Дима Н.: Про программу я узнал еще в школе. Я получил внушительный багаж знаний по специальности, а также, благодаря практикам и стажировкам, устроился на замечательную работу.

Леша: Я хотел закрыть пробелы в знаниях и укрепить базу, которую дали в бакалавриате. Искал какое-то хорошее место в области программирования, на тот момент это была чуть ли не единственная адекватная магистратура в Питере. Ожидания полностью оправдались. Я до сих пор иногда переслушиваю некоторые курсы и даже посещаю семинары.

Артем: В бакалавриате я учился на физическом факультете СПбГУ, но со 2-3 курса увлекся программированием. Ближе к выпуску я успел освоить основы разработки на C++ и поработать в одной компании, но у меня было чувство, что я многого не знаю в отличие от ребят, которые учились на программистских специальностях. Пришло время задуматься о магистратуре. Внимательно изучив сайт программы и поинтересовавшись у знакомых, я понял, что это именно то место, где могут дать всю необходимую базу в короткий срок. Я пришел сюда за знаниями и опытом и могу с уверенностью сказать, что получил и то и другое в полном объеме.

Влад К.: Я заканчивал 4-й курс в своем любимом УдГУ и раздумывал, чем заниматься дальше. Друг собрался поступать в физическую магистратуру СПбАУ и позвал меня туда же на информатику. Я справедливо возразил, что это невозможно, потому что туда поступают только минимум желтенькие на Codeforces. Он не менее справедливо возразил, что ну и пофиг. Я подумал месяцок и решил отправить заявку. Съездил на собеседование, и меня взяли.

Моим главным стремлением было добавить к теоретическим знаниям практические навыки. Мне это удалось, однако не совсем так, как я ожидал: чаще приходилось учиться чему-то самостоятельно, но у меня появилось понимание, как именно это делать. В итоге, как мне кажется, я все равно отстаю в прикладном плане от многих моих одногруппников. Так я понял, что мне гораздо более интересны теоретические аспекты и что суровая разработка это не мое.

Какие впечатления у вас остались от обучения на программе? Стоит ли что-то в ней изменить?

Влад Т.: С одной стороны, было довольно сложно, особенно первый и второй семестр. С другой стороны крайне увлекательно. Я нашел новых друзей настоящих единомышленников, увлеченных своим делом, познакомился с новыми областями и просто попробовал что-то новое.

Артем: Только положительные впечатления, особенно запомнился первый семестр. Дело ведь даже не в том, что у студентов данной программы огромное количество заданий и практики (хотя это немаловажная черта программы), а в том, что они получают постоянный фидбек от преподавателей, могут почти в любой момент получить ответ на любой вопрос. В свое время для меня было шоком, что можно просто взять и написать вопрос по теме (и не только) в чат курса с преподавателем и максимально быстро получить ответ.

Саша: Впечатлений много! Наверное, большинство из них связаны с первым курсом. Было очень сложно. Пятичасовой сон, отмененные поездки за границу с друзьями, отсутствие свободного времени типичные атрибуты жизни студента первого семестра нашей магистратуры! Сейчас, конечно, понимаешь, что это было не зря. Но повторять, если честно, не очень хочется. А вот что хотелось бы повторить это второй семестр. Там ты уже научился балансировать между учебой и личной жизнью. И прямо ощущаешь себя сверхразумом, который успевает получать от жизни все и знания, и эмоции.

Иногда казалось, что учеба настолько сложная, потому что есть какие-то организационные затыки: то преподаватель не выложил/не проверил домашку вовремя, то сообщил о контрольной накануне ее проведения. Такие моменты, естественно, хотелось исправить! Как мне кажется, это одна из главных причин, почему так много ребят с моего курса в итоге вызвались стать преподавателями в нашей магистратуре.

Влад К.: За два года впечатления самые разнообразные, но скажу, что такая же крутая учеба в моей жизни была до этого только в ЛМШ. Здесь невероятная атмосфера и люди, после обычного университета ты просто испытываешь эйфорию: а что, так можно было?!.. Но конечно, ничто не бывает идеальным, и изменить можно много чего как глобально, так и по каждому курсу в отдельности. Но это больше вопрос для обсуждения с кураторами, мне кажется.

Рома: Сложность прохождения программы целиком зависит от подготовленности студента. У меня были проблемы с теорией (алгоритмы, дискретка), но при этом сравнительно большой практический опыт программирования, что сильно упрощало прохождение практических курсов (Bash, Python, C++, Java). Думаю, тем, у кого не было предварительной подготовки ни в теории, ни в практике, программа дается значительно труднее. Кажется, это важно учитывать при составлении заданий, чтобы не создавать порочный круг я не могу даже понять текущее задание (потому что этот материал совершенно новый для меня) <-> я пропущу его и наверстаю потом.

В последнее время я все чаще вспоминаю курс Software Design, на котором нас учили архитектуре, проектированию, шаблонам и так далее. На мой взгляд, этот курс должен занимать чуть более важное место в учебной программе, особенно с точки зрения практики. Студенты должны не только прослушать, какие бывают архитектуры приложений, но и попробовать их использовать, а в идеале ощутить последствия их неправильного использования (например, за счет работы с легаси-кодом). На текущей работе я осознаю, что самый большой пробел в моих навыках именно в проектировании программ. Возможно, я не одинок, и студентам не помешает более интенсивный курс на эту тему.

Что, по-вашему, отличает эту программу от других магистратур? Как вы пытаетесь реализовать эти отличия в преподавании?

Дима Х.: На мой взгляд, самое ценное в этой магистратуре то, что здесь многие преподают в качестве хобби, а сами работают непосредственно с тем, чему учат. Сам я тоже работаю, да и программирую для души, так что рассказываю студентам о том, с чем сталкиваюсь постоянно, и стараюсь регулярно привязывать происходящее на занятиях к тому, что можно ожидать при попытках задействовать эти знания в реальности. В конце концов какие-то теоретические изыски забудутся после экзамена, а вот реальный опыт, если его удастся донести, осядет надолго.

Дима Н.: Я бы отметил углубленное изучение сложных тем, отсутствие воды в материале. В этой магистратуре действительно учат понимать, что за код ты пишешь, как он работает и зачем это нужно. Я и сам стараюсь следовать этим принципам и, например, при рассказе про какую-нибудь возможность языка не просто показываю, как ею пользоваться, но и объясняю, как она работает под капотом, какие ограничения и возможности имеет. Благодаря этому студенты гораздо лучше понимают суть программ и языковых конструкций, а не просто относятся к ним, как к какой-то магии.

Леша: Я думаю, основное отличие в соучастии и компетентности. У нас есть специальные люди кураторы, которые сопровождают студентов в процессе обучения: помогают решать проблемы, готовят к защите диплома, по многу раз выслушивая докладчиков, регулярно встречаются со студентами (сейчас через Zoom), чтобы собрать обратную связь, и делают еще много всего, что сильно упрощает жизнь студентам и преподавателям все могут сосредоточиться на процессе обучения и не думать о лишнем.

Саша: Нашу программу отличает системность. Ты знаешь, что каждую неделю почти по каждому предмету у тебя будет домашка. Ее надо сделать вовремя, чтобы преподаватель проверил все к следующей паре. Не сделал домашку вовремя недополучил баллы и знания. И так домашка за домашкой! Такой подход хорош тем, что знания с лекций подкрепляются достаточным количеством практического материала и, соответственно, лучше усваиваются. По себе могу сказать: если не потрогать материал с лекции руками, в голове он не отложится.

Я как преподаватель стараюсь сделать так, чтобы студенты не выбивались из ритма домашка-лекция-домашка и им ничего не мешало эти домашки делать: проверяю работы в срок, объективно их оцениваю и оперативно отвечаю на вопросы студентов по условиям задач.

Влад К.: В нашей магистратуре довольно молодые преподаватели! Учиться здесь очень сложно, поэтому я стараюсь создавать для студентов максимально комфортную обстановку, чтобы они не чувствовали себя беспомощно и не боялись активно участвовать в процессе. Я довольно много общаюсь с ребятами, пытаюсь им помогать и направлять в нужную сторону, когда им это необходимо. Ну и сам стиль общения у нас довольно неформальный, что тоже должно помогать. Правда, до обмена мемами конкретно с этими ребятами еще не дошло.

Одним из существенных отличий в нашей учебе мне видится стремление преподавателей действительно научить студентов своему предмету (абсурдно, конечно, что мало где так). Наверное, ребята меня недолюбливают за то, что я часто придираюсь к их решениям и прошу многие моменты подробно прописывать. Но эти придирки служат вполне конкретной цели. Так, в курсе дискретной математики мне важно, чтобы студенты научились грамотно использовать логические рассуждения, не принимали на веру кажущиеся очевидными факты, а выводили их из определений/аксиом.

В случае с алгоритмами ситуация даже более жизненная: на работе нам почти всегда приходится трудиться в командах, поэтому при решении задачи необходимо не просто придумать идею, а объяснить ее товарищам и уметь доказать корректность. Если вы не сможете этого сделать, то здоровый скепсис заставит ваших коллег просто отбросить эту идею, даже если она на самом деле золотая. Поэтому я требую доводить решения до состояния, когда мне точно все в нем понятно. Если я его не понимаю даже зная правильное, другой человек тем более ничего не поймет.

Рома: Мне кажется, что в этой программе принципиально другой уровень отношений между студентами и преподавателем. Когда я учился в бакалавриате, многие преподаватели были в каком-то смысле недосягаемы для меня я никогда не рассчитывал оказаться с ними на одном уровне. Между нами были строго деловые учебные отношения: преподавателю нужно закрыть ведомость, студенту нужно закрыть сессию.

В нашей магистратуре эта граница сильно размыта. Большинство преподавателей работают в продакшене, т.е. когда они не учат программировать, они сами программируют. Это значит, что студенты через несколько лет могут оказаться с ними в одной команде. Это, на мой взгляд, сильно повышает ставки с обеих сторон.

Студент понимает, что его учитель не просто теоретик, который за всю жизнь не написал ни строчки кода, а реальный программист, который пишет код каждый день и зарабатывает этим на жизнь. Поэтому такого человека имеет смысл слушать. А преподаватель понимает, что перед ним его потенциальные сокомандники. И если есть место, в котором он может повысить базовую квалификацию программистов-джуниоров, то оно здесь.

Поэтому я старался взаимодействовать со своими студентами так, будто они мои сокомандники. Мы общались на ты, я не пытался выстроить образ непогрешимого авторитета в их глазах, поскольку на работе это скорее будет минусом, чем плюсом. Я просил их не стесняться задавать вопросы, но при этом стараться как можно больше искать самостоятельно ведь именно таких коллег я хотел бы иметь в своей команде.

В общем, тот факт, что однажды твой студент может прийти к тебе на стажировку или на собеседование и потом будет с тобой работать (а может, и руководить тобой), заставляет взглянуть на ситуацию иначе. Вряд ли преподаватель математики в вузе, натягивающий тройку ленивому студенту, переживает, что этот студент через пару лет вернется в университет и начнет плохо учить других студентов. А в нашей магистратуре это вполне реалистичный сценарий. :)

Подробнее..

Открытые материалы курс по вычислительной нейронауке

04.01.2021 18:18:07 | Автор: admin

В осеннем семестре 2020 года командалаборатории Нейробиологии и физиологии развития прочитала курс Вычислительные Нейронауки для студентов партнерских магистратур ВШЭ и ИТМО, а также для заинтересованных вольнослушателей. Курс проводится в рамках образовательных программ JetBrains c 2019 года. В этом году, в отличие от прошлого, формат обучения был, естественно, дистанционный лекции и семинары проводились в виде видеоконференций. В ходе курса студентам был предложен базовый материал для изучения и обсуждения в аудитории, материалы для самостоятельного, более глубокого погружения, интересные практические задания по моделированию нейронов и биологических нейронных сетей.

Цель курса дать студентам представление о том, что и какими способами можно моделировать в нейробиологии и дать им возможность немного попрактиковаться в этом на нескольких относительно простых задачах. Пререквизитами для полноценного усвоения материала являются умение программировать и интерес к биологии, однако, если даже вы не умеете программировать, но интересуетесь вопросами, касающимися работы нервной системы и ее моделирования вам все равно будет интересно послушать эти лекции!

В первой части курса освещены ключевые темы из нейробиологии, которые слушателям необходимо в той или иной степени представлять для того, чтобы пытаться что-то моделировать: рассказывается о структуре и функционировании нервной системы на организменном, тканевом, клеточном и молекулярном уровнях, о биофизических явлениях, лежащих в основе процессов, происходящих при возникновении и передаче сигналов итд. Также рассматриваются модели тех самых биофизических явлений, а также модели генерации и проведения потенциала действия на уровне единичных и на уровне многих нейронов. Еще одна, несколько отдельно стоящая и чуть более приближенная к медицине глава в этой части курса это обработка данных электроэнцефалографии (ЭЭГ). Параллельно с лекциями первой части, студентам предлагаются практические задания реализация классической модели Ходжкина Хаксли, описывающей характеристики возбудимых клеток, работа с реальными данными ЭЭГ и создание модели химического синапса.

Во второй части курса мы рассказываем про то, как информация кодируется и декодируется в нервной системе, что такое пластичность и что ее обуславливает, чем спайкинговые нейронные сети отличаются от классических ИНС и как их можно использовать в биологических исследованиях, как осуществляется биохимическая регуляция работы нейронов и как происходит развитие нервной системы от оплодотворенного яйца до взрослого организма. В заключительной лекции мы говорим о том, как связаны между собой машинное обучение, искусственный интеллект и нейронауки, какие процессы и явления в биологии послужили вдохновением для развития новых подходов в области машинного обучения и как машинное обучение используется в исследованиях работы мозга.

Если вас заинтересовал наш курс или какие-то отдельные темы, которых мы коснулись приглашаем вас в следующем осеннем семестре: будет еще интереснее, поскольку мы постоянно расширяем и дорабатываем контент. Прослушать курс могут все желающие. Вы также можете посмотреть все лекции 2020 года в любое удобное для вас время видеоматериалы доступны наYouTube-каналеJetBrains Research.

Слайд из лекции о кодировании и декодировании информации в НС.Слайд из лекции о кодировании и декодировании информации в НС.
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru