Новейшая технология Microsoft, появившаяся в Azure AI, описывает изображения так же хорошо, как и люди

Исследователи из Microsoft создали систему искусственного интеллекта, способную генерировать подписи к изображениям, которые во многих случаях оказываются более точными, чем описания, сделанные людьми. Этот прорыв стал важной вехой в стремлении Microsoft сделать свои продукты и услуги инклюзивными и доступными для всех пользователей.

Описание изображений одна из основных функций компьютерного зрения, которая делает возможной работу широкого спектра сервисов, сказал Сюэдун Хуан (Xuedong Huang), технический сотрудник Microsoft и главный технический директор Azure AI Cognitive Services в Редмонде (штат Вашингтон).

Новая модель теперь доступна потребителям через Computer Vision вAzure Cognitive Services, которое является частью Azure AI, и позволяет разработчикам использовать эту возможность для улучшения доступности своих сервисов. Она также включается в приложение Seeing AI и в конце этого года начнет работать в Microsoft Word и Outlook для Windows и Mac, а также в PowerPoint для Windows, Mac и в веб-версии.

Автоматическое описание помогает пользователям получить доступ к важному содержимому любого изображения, будь то фотография, возвращенная в результатах поиска, или иллюстрация для презентации.

Использование подписей, описывающих содержимое изображений (так называемый альтернативный или замещающий текст), на веб-страницах и в документах особенно важно для незрячихили слабовидящих людей, отметил Сакиб Шейх (Saqib Shaikh), менеджер по программному обеспечению в группе платформ AI Microsoft в Редмонде.

Например, его команда использует улучшенную функцию описания изображений в приложении для незрячих и плохо видящих людейSeeing AI, которое распознает то, что снимает камера, и рассказывает об этом. Приложение использует генерируемые подписи, чтобы описывать фотографии, в том числе в социальных сетях.

В идеале всем следует добавлять альтернативный текст для всех изображений в документах, в Интернете, в социальных сетях, так как это позволяет незрячим людям получить доступ к содержимому и принять участие в разговоре. Но, увы, люди этого не делают, говорит Шейх. Однако есть несколько приложений, которые используют функцию описания изображений, чтобы добавлять альтернативный текст, когда он отсутствует.

Лижуань Ван, главный менеджер по исследованиям лаборатории Microsoft в Редмонде, руководила исследовательской группой, которая добилась результата, сравнимого с человеческим, и превзошла его. Фото: Dan DeLong.

Описание новых объектов

Описание изображений одна из основных задач компьютерного зрения, которая требует наличия системы искусственного интеллекта, позволяющей понять и описать основное содержание или действие, представленное в изображении, объяснила Лижуань Ван (Lijuan Wang), главный менеджер по исследованиям лаборатории Microsoft в Редмонде.

Нужно понять, что происходит, выяснить, каковы отношения между объектами и действиями, а затем обобщить и описать все это в предложении на понятном человеку языке, сказала она.

Ван руководила исследовательской группой, которая в эталонном тестированииnocaps(novel object captioning at scale, масштабное описание новых объектов) добилась результата, сравнимого с человеческим, и превзошла его. Это тестирование позволяет оценить, насколько хорошо системы ИИ генерируют описания изображенных объектов, не входящих в набор данных, на основе которого обучалась модель.

Обычно системы описания изображений обучаются на наборах данных, которые содержат изображения, сопровождаемые текстовым описанием этих изображений, то есть на наборах подписанных изображений.

Тест nocaps показывает, насколько хорошо система способна описать новые объекты, не встречающиеся в учебных данных, говорит Ван.

Чтобы решить эту задачу, команда Microsoft предварительно обучила большую модель ИИ на обширном наборе данных, содержащем изображения со словесными тегами, каждый из которых был сопоставлен с определенным объектом на изображении.

Наборы изображений со словесными тегами вместо полных подписей создавать эффективнее, это позволило команде Ван ввести в свою модель много данных. Благодаря такому подходу модель получила то, что команда называет визуальным словарем.

Как объяснил Хуан, подход к предварительному обучению с использованием визуального словаря похож на подготовку детей к чтению: сначала используется книжка с картинками, в которой отдельные слова ассоциируются с изображениями, например, под фотографией яблока написано яблоко, а под фотографией кошки слово кошка.

Такая предварительная подготовка с помощью визуального словаря, по сути, представляет собой начальное образование, необходимое для обучения системы. Так мы пытаемся наработать своеобразную моторную память, сказал Хуан.

Модель, прошедшая предварительное обучение, затем дорабатывается с помощью набора данных, включающего подписанные изображения. На этом этапе обучения модель учится составлять предложения. Если появляется изображение, содержащее новые объекты, система ИИ использует визуальный словарь для создания точных описаний.

Для работы с новыми объектами при тестировании система объединяет то, чему научилась во время предварительного обучения и во время последующей доработки, говорит Ван.
Согласно результатамисследования, при оценке на тестах nocaps система ИИ создавала более содержательные и точные описания, чем это делали люди для тех же изображений.

Ускоренный переход в рабочее окружение

Кроме всего прочего, новая система описания изображений в два раза лучше, чем модель, используемая в продуктах и службах Microsoft с 2015 года, согласно сравнению с другим отраслевым эталоном.

Учитывая преимущества, которые получат все пользователи продуктов и услуг Microsoft от этого улучшения, Хуан ускорил интеграцию новой модели в раочую среду Azure.

Мы берем эту прорывную технологию ИИ на Azure в качестве платформы для обслуживания более широкого круга клиентов, сказал он. И это прорыв не только в исследованиях. Время, которое потребовалось, чтобы включить этот прорыв в рабочее окружение Azure, тоже стало прорывом.

Хуан добавил, что достижение результатов, сравнимых с человеческими, продолжает тенденцию, уже сложившуюся в когнитивных интеллектуальных системах Microsoft.

За последние пять лет мы достигли сопоставимых с человеческими результатов в пяти крупных областях: в распознавании речи, в машинном переводе, в ответах на вопросы, в машинном чтении и понимании текста, а в 2020 году, несмотря на COVID-19, в описании изображений, сказал Хуан.

По теме

Посетите сайтAzure Cognitive Servicesчтобы узнать больше про компьютерное зрение (Computer Vision)
Читайте статьюИсторическое достижение исследователи Microsoft достигли уровня человеческих возможностей при автоматическом распознавании речи

Сравните результаты описания изображений, которые давала система раньше и сейчас с помощью ИИ

Фото из библиотеки Getty Images. Предыдущее описание: Крупный план человека, готовящего хот-дог на разделочной доске. Новое описание: Человек делает хлеб.

Фото из библиотеки Getty Images. Предыдущее описание: Человек сидит на закате. Новое описание: Костер на пляже.

Фото из библиотеки Getty Images. Предыдущее описание: Мужчина в голубой рубашке. Новое описание: Несколько человек в хирургических масках.

Фото из библиотеки Getty Images. Предыдущее описание: мужчина на скейтборде взлетает верх по стене. Новое описание: бейсболист ловит мяч.

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Миссия Xbox проста: приносить радость и помочь стать частью игрового сообщества всем людям планеты. Для ее достижения мы стремимся дать каждому возможность играть в те игры, которые нравятся, с теми, с кем хочется, и тогда, когда хочется.

В воскресенье прошло первое

Недавно команда Xbox провела онлайн-мероприятие Xbox & Bethesda Games Showcase, показав самую масштабную игровую линейку за всю историю существования Xbox. В рамках шоу было продемонстрировано и анонсировано 30 игр от партнёров и внутренних студий, 27 из которых станут ча

По следам Microsoft Build 2021 у нашего Windows Terminal второй день рождения! Этот релиз впервые представляет версию 1.9 для Windows Terminal Preview и переносит основной Windows Terminal в версию 1.8. Как всегда, вы можете установить обе с

Есть вопрос, который мне постоянно задают в Твиттере: как создавать приложения с крутым дизайном с помощью Xamarin.Forms? Это отличный вопрос, ведь любой может создавать красивые приложения, немного вдохновившись и поработав над стилем. Я не дизайнер и не претендую на звание дизайнера, но есть много отличных источников вдохновения для дизайна приложений, включа

Автор Сатья Наделла, глава Microsoft

Когда я встречаюсь с лидерами из разных отраслей, становится ясно, что единого стандарта или плана гибридной работы не существует. У каждой организаци

Для современного энтерпрайз-архитектора критически важно разбираться в пограничных вычислениях (edge computing). В этой статье будут рассмотрены основы пограничных вычислений и приведены примеры использования этой технологии на практике.

Пограничные вычисления определенно существенная часть соврем

Любой корпоративный ИТ-ландшафт состоит из множества приложений, большинство из которых имеет собственные базы данных. В этих базах хранятся информационные объекты, представляющие бизнес-объекты, события и фазы бизнес-процессов. Многие объекты бизнес-процессов имеют "отражения" сразу в нескольких базах данных: например, единица оборудования промышленного предприятия с разных точек зрения описана в системах бухучета, управления ремо

Сейчас более чем когда-либо, мы опираемся на наше сообщество, чтобы решать проблемы, справляться с изоляцией и искать новые способы учиться и общаться во время пандемии.

В ноябре прошлого года более 500 российских технологов присоединились к нашему первому GitHub Meetu

До 2016 года получить доступ к квантовым устройствам было непросто. Теоретикам квантовых вычислений приходилось убеждать исследователей аппаратных средств в необходимости проводить эксперименты на специализированных квантовых процессорах.

image alt

В конц

Идея самостоятельно развернуть кластер Kubernetes на собственных серверах или в облаке выглядит привлекательной: кажется, что это дешевле, чем платить за Managed-решение от провайдера. На самом деле все не так однозначно: на практике можно обнаружить скрытые расходы и подводные камни.

Пр

Привет, Хабр! Сегодня делимся подборкой наших крутых вебинаров и митапов по Azure в Июне. В этот раз их четыре, и один из четырех эвентов может вас заинтересовать, даже если вы не работаете с Azure: встреча разработчиков, работающих с любыми технологиями Microsoft. Присоединяйтесь!

Привет, Хабр! Сегодня, как и обещали*, делимся подборкой самых интересных для разработчиков конференции Microsoft Build 2021. Их получилось 11, но это не значит, что это все. Чтобы узнать еще больше, изучайте сайт конференции.

* пообещали это мы во вчерашней подборке 8 анонсов конференции Microsoft Build 2021, которую подго

В рамках глобальной технологической конференции Miсrosoft Build 2021, которая проходит с 25 по 27 мая в онлайн-формате, компания продемонстрировала новые решения для разработчиков, а также совместно с партнерами анонсировала инициативу в области устойчивого развития.

Любому бизнесу, особенно крупному, хочется максимально оптимизировать внутренние процессы. В частности, те, которые касаются ИТ. Довольно часто мы встречаем ситуации, когда сугубо цифровые задачи в силу устаревших регламентов или страха сломать работающую систему решаются по старинке, вручную.

Ингосстрах обратилась к нам со следующей задачей: из-за огромного количества ручных операций параметр time-to-market их цифровых прод

Учитесь. Общайтесь. Пишите код.

Конференция Build ключевое событие года для Microsoft. На мероприятии выступают первые лица компании, в том числе, ее глава Сатья Наделла. Это 48 часов погружения в технологические инновации и общения с глобальным техноло

Привет, Хабр! В этот раз у нас немного разбитый анонс мероприятий месяца (в начале мая рассказали про ранние мероприятия точечно, теперь делаем небольшую подборку), все из-за праздников. В этой статье у нас 2 эвента: один полностью на русском, второй с субтитрами. Заглядывайте под кат!

1. Взаимодействие DevOps и GitHub

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Несколько дней назад в сеть просочился образ ранней версии Windows 11. Различные издательства провели тесты по производительности и пришли к неутешительному выводу: Windows 11 в среднем работает хуже, чем Windows 10. Но расстраиваться рано! Проблемы производительности могут быть связаны с сыростью слитого

В воскресенье прошло первое

В конце 1990-х команды разработчиков Windows Shell и Internet Explorer внедрили множество потрясающих и сложных структур, позволяющих использовать расширение оболочки и браузера для обработки сценариев, создаваемых третьими сторонами. Например, Internet Explorer поддержива

*Gateway шлюз

Azure Active Directory Gateway это обратный прокси-сервер, который работает с сотнями служб, входящих в Azure Active Directory (Azure AD). Если вы пользовались такими службами, как office.com, outlook.com, azure.com или xbox.live.com, то вы исполь

Автор Сатья Наделла, глава Microsoft

* пообещали это мы во вчерашней подборке 8 анонсов конференции Microsoft Build 2021, которую подго

Добро пожаловать в современный интернет, где большая часть взаимодействия приходится на интерфейсы прикладного программирования API. На API держится цифровой бизнес: с ними стало возможным предоставлять и получать услуги через приложения и подключённые к Сети устройства. Плат

	Русский
	English

Новейшая технология Microsoft, появившаяся в Azure AI, описывает изображения так же хорошо, как и люди

Описание новых объектов

Ускоренный переход в рабочее окружение

По теме

Сравните результаты описания изображений, которые давала система раньше и сейчас с помощью ИИ

Сейчас читают

Блог компании microsoft

Jupyter в Visual Studio Code июньский релиз

Немного про нашу стратегию развития экосистемы XBOX и существующие достижения

Команда Xbox представила самую большую линейку эксклюзивных игр в истории

Представляем Windows Terminal Preview 1.9

Создание прекрасных приложений с помощью Xamarin.Forms

Парадокс гибридной работы

Облачные вычисления

Перевод Руководство по пограничным вычислениям для архитектора. Самое важное

Дата-центрическая архитектура волшебная пуля от интеграционных проблем

От Планеты GitHub с любовью

Пять лет назад мы разместили первый квантовый компьютер в облаке. Рассказываем, как это было

Self-Hosted, или Kubernetes для богатых почему самостоятельное развертывание кластера не всегда способ сэкономить

4 бесплатных мероприятия по Azure в июне

Microsoft azure

4 бесплатных мероприятия по Azure в июне

11 анонсов конференции Microsoft Build для разработчиков

8 анонсов конференции Microsoft Build 2021

Как мы построили гибридное облако и сняли с ручника разработку

Регистрация на Microsoft Build 2021 уже началась

2 крутых Azure-вебинара второй половины мая

1. Взаимодействие DevOps и GitHub

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Microsoft

Краткая история Windows и что у нее под капотом

Jupyter в Visual Studio Code июньский релиз

Немного про нашу стратегию развития экосистемы XBOX и существующие достижения

Команда Xbox представила самую большую линейку эксклюзивных игр в истории

Представляем Windows Terminal Preview 1.9

Перевод Протекающие абстракции и код, оставшийся со времён Windows 98

Azure

Перевод Azure Active Directory Gateway теперь на .NET Core 3.1

Парадокс гибридной работы

4 бесплатных мероприятия по Azure в июне

11 анонсов конференции Microsoft Build для разработчиков

Как мы построили гибридное облако и сняли с ручника разработку

Облачные Gateway API зачем нужны подобные сервисы и чем они отличаются у разных платформ

Azure ai

Новейшая технология Microsoft, появившаяся в Azure AI, описывает изображения так же хорошо, как и люди

Распознавание картинок

Новейшая технология Microsoft, появившаяся в Azure AI, описывает изображения так же хорошо, как и люди

Категории

Последние комментарии