Русский

	Русский
	English

Авторизация

Ip-адрес

Восстановление пароля

Регистрация

Статистика

Обзор на статью Visual Transformers новый подход к тренировке моделей компьютерного зрения на основе visual tokens

Эта работа интересна тем, что авторы в ней предлагают новый подход к тренировке моделей на изображениях использовать не только пиксели и конволюции, но ещё и представлять изображения в виде визуальных токенов и тренировать на них трансформеры. По сравнению с использованием просто архитектуры ResNet предложенный подход уменьшает MAC (multiply and accumulate operations) в 6,9 раз и увеличивает топ-1 точность на 4,53 пункта на задаче классификации ImageNet.

Мотивация подхода

Общепринятый подход к задачам компьютерного зрения использовать картинки как 3D array (высота, ширина, количество каналов) и применять к ним конволюции. У такого подхода есть ряд недостатков:

не все пиксели одинаково полезны. Например, если у нас задача классификации, то нам важнее сам объект, чем фон. Интересно, что авторы не говорят о том, что Attention уже пробуют применять в задачах компьютерного зрения;
Конволюции не достаточно хорошо работают с пикселями, находящимися далеко друг от друга. Есть подходы с dilated convolutions и global average pooling, но они не решают саму проблему;
Конволюции недостаточно эффективны в очень глубоких нейронных сетях.

В результате авторы предлагают следующее: конвертировать изображения в некие визуальные токены и подавать их в трансформер.

Вначале используется обычный backbone для получения feature maps
Далее feature map конвертируется в визуальные токены
Токены подаются в трансформеры
Выход трансформера может использоваться для задач классификации
А если объединить выход трансформера с feature map, то можно получить предсказания для задач сегментации

Среди работ в схожих направлениях авторы все же упоминают Attention, но замечают, что обычно Attention применяется к пикселям, поэтому сильно увеличивает вычислительную сложность. Говорят и о работах по улучшению эффективности нейронных сетей, но считают, что они в последние годы дают все меньшие и меньшие улучшения, поэтому надо искать другие подходы.

Visual transformer

Теперь рассмотрим работу модели подробнее.
Как уже говорилось выше, backbone извлекает feature maps, а они передаются в слои visual transformer.
Каждый visual transformer состоит из трёх частей: токенизатор, трансформер, проектор (projector).

Токенизатор

Токенизатор извлекает визуальные токены. По сути мы берем feature map, делаем reshape в (H * W, C) и из этого получаем токены

Визуализация коэффициентов при токенах выглядит вот так:

Position encoding

Как обычно, трансформерам нужны не только токены, но ещё и информация об их позиции.

Вначале мы делаем downsample, потом домножаем на тренируемые веса и конкатенируем с токенами. Для корректировки количества каналов можно добавить 1D конволюцию.

Transformer

Наконец, сам трансформер.

Объединение visual tokens и feature map

Это делает projector.

Динамическая токенизация

После первого слоя трансформеров мы можем не только извлекать новые visual tokens, но и использовать извлеченные с предыдущих шагов. Для их объединения используются тренируемые веса:

Использование visual transformers для построения моделей компьютерного зрения

Дальше авторы рассказывают как именно применяется модель к задачам компьютерного зрения. Блоки трансформера имеют три гиперпараметра: количество каналов в feature map C, количество каналов в visual token Ct, количество visual tokens L.

Если при переходе между блоками модели количество каналов оказывается неподходящим, то используются 1D и 2D конволюции для получения необходимого количества каналов.
Для ускорения расчетов и уменьшения размера модели используют group convolutions.
Авторы в статье прикладывают **псевдокод** блоков. Полноценный код обещают выложить в будущем.

Классификация изображений

Берем ResNet и на его основе создаем visual-transformer-ResNets (VT-ResNet).
Оставляем stage 1-4, лишь вместо последней ставим visual transformers.

Выход из backbone 14 x 14 feature map, количество каналов 512 или 1024 в зависимости от глубины VT-ResNet. Из feature map создаются 8 visual tokens на 1024 канала. Выход трансформера идёт в голову для классификации.

Семантическая сегментация

Для этой задачи в качестве базовой модели берут panoptic feature pyramid networks (FPN).

В FPN конволюции работают на изображениях с высоким разрешением, поэтому модель тяжелая. Авторы заменяют эти операции на visual transformer. Опять же 8 токенов и 1024 канала.

Эксперименты

Классификация на ImageNet

Тренируют 400 эпох с RMSProp. Начинают с learning rate 0,01, в течение 5 эпох разогрева увеличивают до 0,16, а потом каждую эпоху домножают на 0,9875. Используют batch normalization и размер батча 2048. Label smoothing, AutoAugment, stochastic depth survival probability 0,9, dropout 0.2, EMA 0,99985.

Это ж сколько экспериментов пришлось прогнать, чтобы все это подобрать

На этом графике можно увидеть, что подход даёт более высокое качество при уменьшенном количестве вычислений и размерах модели.

Названия статей для сравниваемых моделей:

ResNet + CBAM Convolutional block attention module
ResNet + SE Squeeze-and-excitation networks
LR-ResNet Local relation networks for image recognition
StandAlone Stand-alone self-attention in vision models
AA-ResNet Attention augmented convolutional networks
SAN Exploring self-attention for image recognition

Ablation study

Для ускорения экспериментов брали VT-ResNet-{18, 34} и тренировали 90 эпох.

Использование трансформеров вместо конволюций даёт самый большой прирост. Динамическая токенизация вместо статической также дает большой прирост. Энкодинг позиции дает лишь небольшое улучшение.

Результаты сегментации

Как видим, метрика выросла лишь чуть-чуть, но модель потребляет в 6,5 раз меньше MAC.

Потенциальное будущее подхода

Эксперименты показали, что предложенный подход позволяет создавать более эффективные модели (в плане вычислительных затрат), которые при этом достигают лучшего качества. Предложенная архитектура успешно работает для разных задач computer vision, и можно надеяться, что её применение поможет улучшить симтемы, использующие comuter vision AR/VR, автономные автомобили и другие.

Обзор подготовил ведущий разработчик МТС Андрей Лукьяненко.

Источник: habr.com

К списку статей

admin

Опубликовано: 24.07.2020 10:04:54

Сейчас читают

Комментариев (0)

Имя

Электронная почта

Блог компании мтс

Мой МТС. Продуктовая трансформация

Всем привет! Мы продуктовая команда Мой МТС, занимаемся разработкой основного мобильного приложения компании МТС (iOS/Android) и сайта mts.ru. Месячная аудитория активных пользователей (MAU) на всех платформах свыше 23 млн. пользователей.

Данной статьей мы хотим начать цикл, посвященный трансформации нашей команды и вызванными ею изменениями. Первый пост полностью отведен под начальный этап перестройки, старто
Туториал по uplift моделированию метрики. Часть 3

В предыдущих туториалах (часть 1, часть 2) мы изучали методы, моделирующие uplift. Это величина, которая оценивает размер влияния на клиента, если мы взаимодействуем с ним. Например, смс или пуш уведомление. Давайте обсудим: как измерять качество uplift моделей
OpenTelemetry на практике

Совсем недавно два стандарта OpenTracing и OpenCensus окончательно объединились в один. Появился новый стандарт распределенного трейсинга и мониторинга OpenTelemetry. Но несмотря на то, что разработка библиотек идет полным ходом, реального опыта его использования пока не слишком много.

Илья Казначеев, который занимается разработкой восемь лет и работает backend-разработчиком в МТС, готов поделиться тем, как пр
Контроль соблюдения контракта API ограничения или возможности

Из этой статьи вы узнаете, какие преимущества предоставляет контроль контракта API, что можно и нужно контролировать и как организовать процедуры контроля для исключения негативного влияния на производство.

Когда в 1825 году Англия первыми из всех запустила железнодорожное сообщение между городами, мир еще жил по солнечному времени, ориентируясь на полдень момент верхней кульминации солнца. Фактическая
Who is mr. Marvin?

В июне этого года мы выпустили на рынок умную колонку с голосовым помощником по имени Марвин. Она может работать до 2 часов без подзарядки. У колонки шесть микрофонов для обработки голосовых команд. ПО полностью разработано внутри МТС без использования сторонних к
Не те игрушки как мы научили нейросеть бороться с порно в стримах

Всем привет, меня зовут Олег, я занимаюсь компьютерным зрением в команде Видеоаналитики МТС и сегодня расскажу вам, как мы защищаем от небезопасного контента стриминговую платформу WASD.tv, в частности про детектирование порнографии в постановке задачи acti

It-компании

Краткая история мультиметра как он появился и кто его создатели

^{Предтеча мультиметра гальванометр}
Многие из нас практически ежедневно использует мультиметр по работе или в ходе реализации каких-то хобби-проектов. Есть простенькие мультиметры, которые измеряют лишь силу тока и напряжение. Есть очень сложные приборы, которые, кажется, способны измерить
Следствие вели пропажа FC-линков HBA Emulex на сервере Atos BullSequana S1600

Привет, Хабр! Мы постоянно проводим тесты различных софтверных решений на нашем оборудовании, и иногда простая, казалось бы, задача разворачивается на недели. Как раз о таком случае сегодня и пойдет речь. Главный герой нашего рассказа - Павел, технический консультант компании
Вслед за Apple и Google комиссию магазина приложений снизила Amazon

Магазин приложений Amazon Appstore снизил комиссию для разработчиков, получающих доход менее $1 млн в год. Также 10 % от дохода будут конвертироваться в бонусы, которые разработчики смогут потратить на облачный сервис Amazon.

15 июня этого года Amazon
Как я попал на стажировку в Яндекс

Всем привет, меня зовут Виктор и я frontend разработчик. Хочу поделиться тем, как я решил стать программистом и попал на стажировку в компанию Яндекс в 27 лет без высшего образования.

Сначала моя история о том, как я заинтересовался it сферой и в частности web разработк
Где в Рунете работать хорошо всероссийское исследование IT-брендов 2021

Команда Хабра и ЭКОПСИ начинает второе исследование IT-брендов работодателей. Оно будет полезно кадровым и маркетинговым департаментам компаний, которые вливаются (или уже влились) в IT-сообщество, а также айтишникам, которые хотят анонимно донести свои пожелания до работода
Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

Примечание переводчика: перед началом чтения этого лонгрида налейте себе кружку любимого напитка, потому что чтиво будет непростым и, возможно, навсегда изменит ваше отношение к сервису.

Наверняка вам приходилось слышать о нелёгкой работе мод

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан
Геопространственное моделирование с применением методов машинного обучения

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр
Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на
Исследование операций
Cодержание
1. Введение
2. Основные понятия и термины
3. Характеристика ИО как научной дисциплины
4. Этапы операционного исследования
  
  Постановка задачи
  
  Построени
Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба
Как синхронизировать сценарий без транзакций? Штатными средствами Java

Давайте представим, что вы параноик, и параноик вдвойне, когда дело касается многопоточности. Предположим, что вы делаете backend некого функционала приложения, а приложение переодически дергает на вашем серверы какие-то методы. Все вроде хорошо, но есть одно но. Что если ваш функционал напрямую зависит от каких-либо других данных, того же банального профиля например? Встает вопрос, как гарантировать то, что сценарий отработает име

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са
Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Перевод ИИ все еще не умеет модерировать хейт-спич

Но ученые научились определять, где система дает сбой.
MS TECH | GETTY, UNSPLASH
В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и
О том как мы научили машину определять пол человека по его почерку

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко
Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Машинное обучение

Стоит ли смотреть в сторону Data science?

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта
Перевод Учимся понимать таблицы на меньшем объеме данных

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст
Распознавание эмоций в записях телефонных разговоров

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн
БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Мне давно нравятся Байесовские сети доверия
Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку
Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Мтс

Мой МТС. Продуктовая трансформация

Всем привет! Мы продуктовая команда Мой МТС, занимаемся разработкой основного мобильного приложения компании МТС (iOS/Android) и сайта mts.ru. Месячная аудитория активных пользователей (MAU) на всех платформах свыше 23 млн. пользователей.

Данной статьей мы хотим начать цикл, посвященный трансформации нашей команды и вызванными ею изменениями. Первый пост полностью отведен под начальный этап перестройки, старто
IoT практикум от Microsoft и МТС

Мероприятие будет крайне полезно компаниям, перед которыми стоят задачи быстрого внедрения IoT-решений. Всего за 7 часов вы создадите полноценные IoT-решения получения и визуализации необходимой информации внутри компании.

31 марта, подробности и регистрация.
ИСТОРИЯ ОДНОЙ ПОКУПКИ В ИНТЕРНЕТ-МАГИЗИНЕ МТС ИЛИ КАДР РЕШАЮТ ВСЕ

Я решил написать эту историю по мотивам своего опыта покупки подарка на день Святого Валентина в интернет-магазине МТС. Моему кошельку эту стало, гораздо меньше, чем моим нервам. Я потратил меньше 10 тысяч рублей, если бы я тогда знал, как это все повернется, плюнул бы на эти 8 тысяч и не стал бы ввязываться. Может быть кто-то, прочитав ее, сэкономит себе немного нервов и не станет рисковать, связываясь с МТС.
OpenTelemetry на практике

Совсем недавно два стандарта OpenTracing и OpenCensus окончательно объединились в один. Появился новый стандарт распределенного трейсинга и мониторинга OpenTelemetry. Но несмотря на то, что разработка библиотек идет полным ходом, реального опыта его использования пока не слишком много.

Илья Казначеев, который занимается разработкой восемь лет и работает backend-разработчиком в МТС, готов поделиться тем, как пр
Контроль соблюдения контракта API ограничения или возможности

Из этой статьи вы узнаете, какие преимущества предоставляет контроль контракта API, что можно и нужно контролировать и как организовать процедуры контроля для исключения негативного влияния на производство.

Когда в 1825 году Англия первыми из всех запустила железнодорожное сообщение между городами, мир еще жил по солнечному времени, ориентируясь на полдень момент верхней кульминации солнца. Фактическая
Who is mr. Marvin?

В июне этого года мы выпустили на рынок умную колонку с голосовым помощником по имени Марвин. Она может работать до 2 часов без подзарядки. У колонки шесть микрофонов для обработки голосовых команд. ПО полностью разработано внутри МТС без использования сторонних к

Deep learning

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то
Математика за оптимизаторами нейронных сетей

В этой статье мы поговорим о математике градиентного спуска, почему при обучении нейронных сетей применяется стохастический градиентный спуск и о вариации SGD (Stochastic Gradient Descent) с использованием скользящего среднего (SGD с momentum и Nesterov Accelerated Gradient).
KotlinDL 0.2 Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов
Рекомендуем город для путешествия при помощи нейросетей с вниманием

В конце прошлого года, Booking.com запустил соревнование по построению рекомендательного алгорима для путешественников. Задача наилучшим образом предсказать следующий город для пользователя, основывываясь на предыдущих посещенных городах.

Рекомендации городов в booking.com, картинка
Эволюция методов mesh denoising от простых фильтров до 3D глубокого обучения

В этой обзорной статье вы узнаете, что такое mesh denoising, какие методы использовались и используются для устранения шума на полигональных сетках (от классических фильтров до передовых графовых нейронных сетей), и получите общее представление о развитии
Обнаружение объектов с помощью YOLOv3 на Tensorflow 2.0

Кадр из аниме "Жрица и медведь"
До появления YOLO большинство способов обнаружения объектов пытались адаптировать классификаторы для детекции. В YOLO же, обнаружение объектов было сформулировано как

Transformers

Маленький и быстрый BERT для русского языка

BERT нейросеть, способная весьма неплохо понимать смысл текстов на человеческом языке. Впервые появивишись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной
Тихая революция и новый дикий запад в ComputerVision

Казалось бы, революция с Computer Vision уже была. В 2012 году выстрелили алгоритмы основанные на сверточных нейронных сетях. Года с 2014 они дошли до продакшна, а года с 2016 запо
Обзор на статью Visual Transformers новый подход к тренировке моделей компьютерного зрения на основе visual tokens

Эта работа интересна тем, что авторы в ней предлагают новый подход к тренировке моделей на изображениях использовать не только пиксели и конволюции, но ещё и представлять изображения в виде визуальны

Semantic segmentation

Обзор на статью Visual Transformers новый подход к тренировке моделей компьютерного зрения на основе visual tokens

Эта работа интересна тем, что авторы в ней предлагают новый подход к тренировке моделей на изображениях использовать не только пиксели и конволюции, но ещё и представлять изображения в виде визуал

Computer vision

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос
Управляем звуком ПК от активности пользователя с помощью Python
Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:
- Windows 10
- Anaconda 3 (Python 3.8)
- Visual Studio 2019 (
Нейродайджест главное из области машинного обучения за май 2021

Управляемые складки одежды и морщины, фотореалистичные симуляции вождения, естественное освещение объектов при смене фона, китайский аналог DALL-E и многое другое: встречайте подборку самых интересных исследований и нейросетевых моделей, которые появились в прошедшем месяце.
Разработка Computer Vision в онкологии почему всегда нужно еще больше сил, времени и денег

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о п
3D teeth instance segmentation. В темноте, но не один

3D сегментация зубов от поиска данных до конечного результата. Почти.

Дисклеймер

Данная статья не является обучающей в любом понимании этого термина и носит сугубо информативный характер. Автор статьи не несет ответственности за время, потраченное на ее чтение.
Об авторе

Добрый - всем, зовут Андрей(27). Постараюсь коротко. Почему программирование? По образованию - бакалавр элект
Как мы сделали акселератор инференса нейронных сетей для ЦОД с 64 чипами Intel Movidius

Некоторое время назад мы искали оптимальное аппаратное и программное обеспечение для исполнения нейронных сетей в ЦОД и "на краю" (edge computing). В рамках нашего исследования мы протестировали множество устройств, от процессоров до встроенной графики iGPU и GPGPU различных производителей. С результатами исследования можно ознакомиться

Ии

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са
Перевод ИИ все еще не умеет модерировать хейт-спич

Но ученые научились определять, где система дает сбой.
MS TECH | GETTY, UNSPLASH
В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и
Перевод Прямо как в Матрице нейросеть обучили изменять ракурс любых видео

В фильмах или роликах с YouTube мы наблюдаем происходящее из одной точки, нам не доступны перемещение по сцене или смещение угла зрения. Но, кажется, ситуация меняется. Так, исследователи из Политехнического
Перевод Дождались IBM научит ИИ писать код и создает CodeNet
500 миллионов строк кода на более чем 55 различных языках программирования.

Процент представлений по языку (слева) и по статусу (справа).
- Датасет содержит 13 916 868 представлений, разделенных на 4053 задачи, у пяти из которых нет представлений.
OpenAI SkyNet от Илона Маска. Разбор
Три закона робототехники Айзека Азимова:
1. Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
2. Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону.
3. Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму За
Перевод Что такое machine learning?

Данный пост содержит выдержки из одноименной статьи Дэниела Фагеллы, руководителя отдела исследований в компании Emerj от 26.02.2020. Дэниел явл

Нейронные сети

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то
О том как мы научили машину определять пол человека по его почерку

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко
Математика за оптимизаторами нейронных сетей

В этой статье мы поговорим о математике градиентного спуска, почему при обучении нейронных сетей применяется стохастический градиентный спуск и о вариации SGD (Stochastic Gradient Descent) с использованием скользящего среднего (SGD с momentum и Nesterov Accelerated Gradient).
Искусственный интеллект в юриспруденции. Вебинар 4 Тренды и внедрение Legal AI

Сегодня мы рады представить Вам заключительный вебинар из цикла лекций об искусственном интеллекте, который посвящен вопросам внедрения Legal AI в практическую деятельность юристов и актуальным трендам из мира искусственного интеллекта.

В рамках предыд
Разработка Computer Vision в онкологии почему всегда нужно еще больше сил, времени и денег

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о п
Эволюция методов mesh denoising от простых фильтров до 3D глубокого обучения

В этой обзорной статье вы узнаете, что такое mesh denoising, какие методы использовались и используются для устранения шума на полигональных сетках (от классических фильтров до передовых графовых нейронных сетей), и получите общее представление о развитии

Последние комментарии

Имя: Макс

24.08.2022 | 11:28

Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
Имя: 9055410337

20.08.2022 | 17:41

поможем пишите в телеграм Подробнее..
Имя: sabbat

17.08.2022 | 20:42

Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
Имя: Мария

09.08.2022 | 14:44

Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..

Контакты
Обнаружили ошибку

Обзор на статью Visual Transformers новый подход к тренировке моделей компьютерного зрения на основе visual tokens

Мотивация подхода

Visual transformer

Токенизатор

Position encoding

Transformer

Объединение visual tokens и feature map

Динамическая токенизация

Использование visual transformers для построения моделей компьютерного зрения

Классификация изображений

Семантическая сегментация

Эксперименты

Ablation study

Результаты сегментации

Потенциальное будущее подхода

Сейчас читают

Блог компании мтс

Мой МТС. Продуктовая трансформация

Туториал по uplift моделированию метрики. Часть 3

OpenTelemetry на практике

Контроль соблюдения контракта API ограничения или возможности

Who is mr. Marvin?

Не те игрушки как мы научили нейросеть бороться с порно в стримах

It-компании

Краткая история мультиметра как он появился и кто его создатели

Следствие вели пропажа FC-линков HBA Emulex на сервере Atos BullSequana S1600

Вслед за Apple и Google комиссию магазина приложений снизила Amazon

Как я попал на стажировку в Яндекс

Где в Рунете работать хорошо всероссийское исследование IT-брендов 2021

Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

Алгоритмы

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Геопространственное моделирование с применением методов машинного обучения

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Исследование операций

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Как синхронизировать сценарий без транзакций? Штатными средствами Java

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Мтс

Мой МТС. Продуктовая трансформация

IoT практикум от Microsoft и МТС

ИСТОРИЯ ОДНОЙ ПОКУПКИ В ИНТЕРНЕТ-МАГИЗИНЕ МТС ИЛИ КАДР РЕШАЮТ ВСЕ

OpenTelemetry на практике

Контроль соблюдения контракта API ограничения или возможности

Who is mr. Marvin?

Deep learning

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Математика за оптимизаторами нейронных сетей

KotlinDL 0.2 Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Рекомендуем город для путешествия при помощи нейросетей с вниманием

Эволюция методов mesh denoising от простых фильтров до 3D глубокого обучения

Обнаружение объектов с помощью YOLOv3 на Tensorflow 2.0

Transformers

Маленький и быстрый BERT для русского языка

Тихая революция и новый дикий запад в ComputerVision