Как из любого количества вариантов выбрать лучший простой пайплайн ранжирования данных в Яндекс.Толоке

Привет, Хабр! Меня зовут Дмитрий Браженко. Разработка продуктов и сервисов регулярно сталкивает нас с необходимостью выбрать лучший вариант: какая иконка красивее? Какая кнопка удобнее? Краудсорсинг отличный способ учесть мнение потенциальных пользователей, проведя несложные UX-тесты.

Делюсь готовым решением пайплайном для ранжирования данных. Код на гитхабе прилагается! Под катом расскажу, как запустить, на что обратить внимание, покажу несколько примеров использования.

Выбрать метод ранжирования

Существует три основных подхода к обучению и оцениванию моделей ранжирования:

поточечный (pointwise): на вход для сравнения подаются пары запрос-документ, каждой из которых соответствует оценка краудсорсеров. Качество модели = точность оценки, полученной для пары запрос-документ;
попарный (pairwise): документы, соответствующие одному запросу, сравниваются между собой парами. Задача ранжирования уменьшать число инверсий для пар документов, т.е. чтобы то, что было оценено хуже, не оказывалось в топе ранжирования;
списочный (listwise): асессор составляет список идеальную выдачу сравнение идёт с ней.

Подробнее про подходы к ранжированию можно прочитать, например, в презентации или в статье. Для пайплайна выбрал самый популярный попарные сравнения. Всё-таки ответить на вопрос Что хочется больше: яблоко или апельсин? респондентам оказывается проще, чем оценить по шкале от 1 до 10, насколько хочется именно яблоко.

Подготовить шаблон к работе с данными

Перед тем как приступить к запуску пайплайна, понадобится:

Зарегистрироваться в Толоке как заказчик.
Получить OAuth-токен по ссылке (подробнее в документации).
Выбрать способ хранения файлов, задействованных в задании.

На последнем пункте на всякий случай остановлюсь поподробнее:

Если планируете размечать большой объём данных, удобно использовать произвольное постоянное S3-хранилище файлов. Например, Yandex.Cloud.Object.Storage.
Подойдёт и любое другое хранилище, которое позволяет получить URL на картинку (графический объект) вида https://sbs.s3.yandex.net/39a307e3f4859c96f37161b3ab00aa5daa99858fbd6df1b70f53fa9a649ea467.png

Полный флоу расчётов с пояснениями на гитхабе. Весь приведённый код должен воспроизвестись, если указать свой токен заказчика (тем не менее, что-то может устареть и потребовать доработок). В статье я постараюсь сосредоточиться на содержательной стороне вопроса.

Ранжировать объекты

Что бы вы ни сравнивали поисковые выдачи, интерфейсные решения, иконки, картинки и даже видео суть метода не меняется: для наглядности покажу, как он работает, на конкретном примере.

Часто встречающаяся задача выбрать вариант дизайна чего-либо. В таком случае есть хотя бы два варианта: новый и старый. Чтобы выбрать самый удачный, можно провести опрос, какой вариант лучше и почему. Вот так мы выбирали карточку для приложения Яндекса:

Чтобы взаимное расположение картинок не влияло на выбор, половине опрашиваемых покажем их в порядке (A|B), другой (B|A).

После запуска эксперимента получим результаты в полусыром виде. В моём коде прописано как оформить их в виде таблички:

Группа людей	Число проголосовавших лево	Число проголосовавших право
Слева красная кнопка (A\|B)	18	8
Слева белая кнопка (B\|A)	7	17

Выполним несложные математические преобразования, чтобы понять, за какой цвет кнопки именно проголосовало больше людей.
Число выбравших красную кнопку: 18 + 17 = 35
Число выбравших белую кнопку: 7 + 8 = 15

Теперь представим результаты красивой табличкой, заодно подтянем примеры комментариев, которые оставляли наши респонденты (тоже есть в коде):

	Красная кнопка	Белая кнопка
Результат (pvalue=0.007)	70% (35/50)	30% (15/50)
Примеры комментариев под каждым из вариантов	На красном фоне белыми буквами более заметно и больше обращает на себя внимание чем красными буквами на белом фоне у объявления.	красный цвет забирает на себя все внимание а белый нет

На что стоит обратить внимание:

Для оценки статистической значимости результатов подойдёт классический биномиальный тест. Сравниваем две картинки: если они одинаковые, score каждой из них будет близок к 0.5 (смутило слово score? не переживайте, в следующем разделе покажу, как его считать). Если картинки разные, мы должны с помощью статистического теста проверить, не случайный ли у нас у результат.
Ещё раз напомню: одной половине респондентов выдаём картинки в виде (A|B), другой (B|A).
Не следует использовать такой подход как серебряную пулю и принимать решения исходя исключительно из полученных цифр. Причиной выбора может являться не сделанное изменение, а, например, дефект одного из макетов.
Garbage in garbage out: не стоит сравнивать заведомо плохие варианты, которые вы не стали бы отправлять в продакшн.

Ещё больше о том, как корректно поставить эксперименты Side-By-Side на видео с Я.Субботника: подводные камни, границы применимости методики.

Теперь пример посложнее: увеличим количество ранжируемых объектов. Допустим, требуется отсортировать несколько картинок и выбрать лучшие из них для галереи фонов.

Вернёмся к идее pairwise подхода: проведём попарное сравнение картинок. Получится 6 5/2 сравнений. Каждой картинке присвоим простую метрику:

$score = \frac{wins}{wins + losses},$

где $inline$ число раз, когда картинка победила соперника, $inline$ проиграла ему. Интерпретировать полученный score можно как "вероятность выигрыша против случайно взятого соперника из набора".

Дальше можно сортировать картинки по этому скору. В моем случае получилась такая сортировка:

Посмотреть результат упорядочивания

$inline$	$inline$

$inline$	$inline$

$inline$	$inline$

Совпало с вашим ожиданием?

На что стоит обратить внимание:

Если вариантов очень много, то сравнивать каждый с каждым будет дороговато, можно попробовать придумать опорные точки.
В качестве сортировки можно использовать более умные скоры, например ELO-score.

Другие задачи, с которыми справится этот пайплайн

Используя Яндекс.Толоку, можно проводить куда более сложные тесты, чем парные сравнения картинок.

Таргетирование
Иногда для качественного ранжирования данных бывает важно учесть какие-то дополнительные факторы, влияющие на предпочтения возрастные, социальные, территориальные. Попробуем запусить вот такой эксперимент сначала для респондентов из Москвы, а потом из Санкт-Петербурга. Оформление одинаковое, отличаются только названия продукта:

Готовим два пула, проверяем в интерфейсе, что в настройках не случилось ошибок, запускаем.

Результаты предсказуемы:

в Москве предпочтительнее шаурма: её выбрали 78% респондентов;
в Санкт-Петербурге, хотя отрыв и меньше, лидирует шаверма: 54% против 46%.

Парные сравнения видео
Сравнивать можно не только картинки, но и видео. Например, чтобы понять, что люди думают про ваш рекламный ролик. Или просто собрать фидбек.

Есть два видео об Алисе:

Видео 1 (Алиса-Мечта)	Видео 2 (Алиса-Планка)

Какое видео вам понравилось больше? Почему?

В нашем эксперименте получились такие результаты:

	Видео 1 (Алиса-Мечта)	Видео 2 (Алиса-Планка)
score	72%	28%
Пример комментария за каждый вариант	Ребёнок вызывает больше приятных эмоций, чем слабак из 2-го варианта, который отжаться не может. В варианте 1 показана возможная практическая польза от алисы для развития ребёнка	Более позитивный, в первом ребенок как мне кажется, не понял шутки

Более сложные тесты
Как видите, всё ограничивается только вашей фантазией, нужно лишь подправить шаблон в Толоке: опросники по картинке, 5-секундный UX-тест (подробнее тут), тест на 1-й клик, Card Sorting продолжить вдохновляться можно здесь.
Для таких тестов часто бывает полезно сделать скринкаст запись того, как пользователь взаимодействовал со страницей. В этом нам поможет инструмент, входящий в Яндекс.Метрику, а именно Вебвизор. Его можно встроить в шаблон и смотреть, как пользователи работают с заданием. Для наглядности приведу видео:

Посмотреть запись скрикаста

Чтобы сделать вебвизорную запись, замените в коде с Гитхаба мой счётчик Яндекс.Метрики на ваш.

Вместо заключения

Спасибо, что дочитали до конца! Собрал основные тезисы и ссылки:

Многие дизайны Яндекса проходят подобное тестирование. У нас существует автоматический пайплайн, который получает картинки, загружает их в Толоку, ждёт оценок и считает метрики.
Толока гибкий инструмент для выполнения краудсорсных задач область применения ограничена только вашей фантазией. Вот тут рассказывали как обучать беспилотники и оценивать качество сервисов. А здесь коллеги из ODS создают датасет для распознавания счётчиков.
Если у вас есть регулярный процесс с необходимостью механической, монотонной работы, его несложно автоматизировать через API Толоки.
Конфигурация и настройка заданий могут вызывать трудности в тексте постарался подсказать, на что стоит обратить внимание. Для сбора результатов достаточно небольшого упорства и знания азов HTML/CSS/Js.
Используйте код на Github. Можете контрибьютить сделаем библиотеку шаблонов для Толоки.
Есть продукты, которые тестировать в Толоке всё же не стоит: что-то нестандартное, не подразумевающее массового использования неспециалистам будет очень сложно дать качественный фидбек, например, об утилите для управления космическим кораблём.

Всем привет! Меня зовут Рома, я фронтендер в Я.Учебнике. Сегодня расскажу, как избежать дублирования кода и писать качественные переиспользуемые компоненты. Статья написана по мотивам (но только по мотивам!) доклада с Я.Субботника видео есть в конце поста. Если вам интересно разобраться в этой теме, добро пожаловать под кат.

Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) это схема Звезда или Снежинка. Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы

Давайте поговорим о микрофронтендах и о встраиваемых виджетах, которые, по сути, были предшественниками концепции микрофронтендов. В докладе я рассказал о способах встраивать виджеты на страницу, об их плюсах и минусах с точки зрения изоляции и производительности кода, а также о способах применять виджеты в микрофронтендной архитектуре.

Дженерики, или параметризованные типы, позволяют писать более гибкие функции и интерфейсы. Чтобы зайти дальше, чем параметризация одним типом, нужно понять лишь несколько общих принципов составления дженериков и TypeScript раскроется перед вами, как шкатулка с секретом. AlexandrNikolaichev объяснил, как не бояться вкладывать дженерики друг в друга и использовать автоматический вывод типов в ва

Всем привет, меня зовут Алексей Остриков, я руковожу разработкой в Яндекс.Маркете. Когда-то я много-много писал код, затем полтора года руководил группой бэкенда одного из сервисов Маркета, а сейчас отвечаю за разработку курьерской платформы Маркета.

Сегодня я расскажу, почему доставка на аутсорсе это не всегда хорошо, для чего нужна прозрачность процессов и как мы за полтора года написали платформу, которая п

Задеплоил сервис-воркер нужно покупать новый домен, известная шутка о том, как сложно писать собственную логику кеширования. С приходом шестой версии библиотеки Workbox для прогрессивных веб-приложений (PWA) больше не нужен компромисс между гибкостью и удобством автоматизации сетевых задач. Максим Сальников рассказал, как начать работу с Workbox 6, реализовать типовую функциональность для офлайнового веб-приложения и п

На рынке мессенджеров сейчас есть примерно всё, как на Привозе. Есть решения на открытом коде, есть мессенджеры с миллиардом пользователей (или даже двумя). Но четкого понимания, что же взять с прилавка, чтоб все сотрудники огромного банка (и его 300+ дочек) с улыбкой открывали какой-то один и это всё

Поделюсь одним интересным кейсом, как мы сделали пилотный проект системы контроля освещением и что из этого получилось.

Клиент: крупный логистический центр в Московской Области, с которым мы работаем с 2016 года. За это время мы провели уже много работ по диспетчеризации инженерных систем, вывели в единую BMS вентиляцию, котельную, энергетику, отопление, энергоучет и много чего еще. А в этом году решили добавить еще и диспет

Рассказ об истории вездесущих иллюстраций в стиле корпоративный мемфис и о том, почему они теперь буквально на каждом веб-сайте.

Плоские человеческие фигурки с изогнутыми руками и ногами, одежда ярких цветов, черты лица не более выразительны, чем силуэт, а если и есть

В последние пару лет намечается тенденция на упрощение работы с бэкэндом, появляется всё больше low- и no-code обёрток для тех, кто хочет сэкономить на стоимости разработки. Экосистемы AWS и GCP задают стандарты в этой области, и все новые проекты стараются копировать их фичи. Проблема в том, что многие мо

Мысли о новом направлении пользовательского интерфейса рабочего стола

Просто задумайтесь о каком-то серьезном деле, прежде чем выйти на теннисный корт. Из Macintosh (1984) компании Apple Computer.

Долговечная настольная операционная система существует у нас почти 40 лет. Хотя нек

Если вы не хотите, чтобы ваш проект закончился на этапе разработки дизайна, или пользователи не убежали к конкурентам от увиденного - дизайнера нужно выбрать с умом, о чем я расскажу в этом материале.

Я постаралась систематизировать в этой статье свой опыт подбора множества дизайнеров на проекты самой различной сложности: от пакета баннеров, лэндинга до интерфейса No-code платформы без ТЗ. Материал будет полезен тем, кто впе

Команда Хабра и ЭКОПСИ начинает второе исследование IT-брендов работодателей. Оно будет полезно кадровым и маркетинговым департаментам компаний, которые вливаются (или уже влились) в IT-сообщество, а также айтишникам, которые хотят анонимно донести свои пожелания до работода

Ни один атакующий не хочет, чтобы его инструменты обнаружили и раскрыли раньше времени. Поэтому, как правило, в чистом виде никто вредоносные программы не распространяет. Например, пользователю прилетело фишинговое письмо от имени известной транспортной компании и просят проверить документы во вложении. Подобные письма достаточно часто являются началом атаки, так было и в этом раз. Внутри архива находился исполняемый файл Cassandra

Раньше я думал, что мне не нужны комментарии, если я пишу самодокументированный код. Однако я понял, что пишу комментарии и считаю их действительно полезными. Чтобы увидеть, сколько комментариев я пишу и какие они есть, я написал скрипт для анализа моих коммитов git за

Нехватка электронных чипов от процессоров до модулей связи отражается на многих сферах. Поставщики десктопных компьютеров и ноутбуков не могут отгрузить требуемый объем продукции, автомобильная промышленность отказывается от некоторых моделей маш

О том, что чипы и железо продолжает дорожать, на Хабре писали не раз и не два. И действительно, дорожают чипы памяти, видеочипы и даже жесткие диски с SSD. Сначала причиной были майнеры, сейчас они продолжают поддерживать стабильный

Каким образом в нулевые в России случился бум IT? Дело вовсе не в высоких ценах на нефть. Если посмотреть на биографии и возраст лидеров движения это сплошь математики и физики, получившие, очевидно, очень фундаментальное образование в

(Примечание переводчика: не нашёл публикации (-ий) по данной теме на Хабре.)

Блоуинг Рок, Северная Каролина, 21 декабря 2018 года организация Great Internet Mersenne

Если у вас есть опыт длительных перелетов, то вы помните это чувство, когда очень хочется полежать, но нет. Теперь появился шанс, что и в эконом-классе можно будет летать с комфортом.

1 января 2021 года стартап Zephyr Aerospace закрыл сбор средств на краудфандинговой п

Сегодня мы прочли статью Википедия купается в деньгах и были очарованы. Там рассказано, как фонд Wikimedia собирает пожертвования по всему миру, и как развивается его целевой капитал. Да, всё в статье правда: в США и фонд есть, и активы есть, и доход есть. Однако in Soviet Russia

Проект гораздо богаче, чем кажется.

Некоммерческая организация Wikimedia Foundation (WMF), которая владеет Википедией и другими сайтами UGC, вот-вот достигн

Быстрый старт спасения Sci-Hub: загрузите 1 случайный торрент (100 ГБ) из коллекции scimag и скачайте его. Оставайтесь на раздаче н

В рунете я почти не встречал материалов о том, как писать расширения для MediaWIki (платформы, на которой работает Википедия). Основной стартовой точкой при написании расширений был и остается официальный сайт платформы, но там процесс расписан не очень дружелюбно по отношению к новичкам. Попробуем же это исправить.

В этой статье

При вёрстке макета не всегда понятно, что перед нами кнопка или ссылка. Внешне эти элементы могут быть очень похожи, но их функции различаются и браузер реагирует на них по-разному. Поэтому неправильный выбор может привести к ошибкам в работе сайта.

Почему возникает п

При разработке цветовых схем продукта вместе с дизайнером мы увидели нестыковки с тем, как именуются переменные цвета. Я провёл ресерч, после чего пришло осознание, что очень важно семантически правильно именовать переменные до начала этапа разработки.

Возможно, гип

MVP (minimum viable product) - это первая версия вашего продукта, с помощью которой вы, как создатель продукта:

подтверждаете гипотезу о необходимости конкретного решения, опираясь на поведение пользователей;
собираете обратную связь от ваших будущих пользователей;
пытаетесь продать (или уже продаёте) ваше решение пользователям.

Пройдёмся по этим пунктам.

_{Соавтор:}_{Кузнецова Юлия Андреевна -
UX-писатель Экосистемы РСХБ}

Каким должен быть дизайнер в банке, чтобы и продукт хороший создавал, и коллеги не жаловались. Смотрим через призму софт-навыков вместе с UX-дизайнерами РСХБ.

В этом интервью у меня в гостях Ксения Гордиенко из Канады.

После окончания института в Санкт-Петербурге Ксения обучалась в Германии, после чего за короткое время смогла вырасти из студента-ассистента до BIM-менеджера одной из крупнейших строительных компаний Европы. Но, несмотря на достигнутые результаты, Ксения вместе со своим мужем переезжает в Канаду, где начинает свою жизнь с чистого листа.

	Русский
	English

Как из любого количества вариантов выбрать лучший простой пайплайн ранжирования данных в Яндекс.Толоке

Выбрать метод ранжирования

Подготовить шаблон к работе с данными

Ранжировать объекты

Другие задачи, с которыми справится этот пайплайн

Вместо заключения

Сейчас читают

Блог компании яндекс

Пишем переиспользуемые компоненты, соблюдая SOLID

Как мы внедрили свою модель хранения данных highly Normalized hybrid Model. Доклад Яндекса

Микрофронтенды и виджеты в 2021-м. Доклад Яндекса

Продвинутые дженерики в TypeScript. Доклад Яндекса

Как и зачем мы создаём собственную курьерскую платформу. Три истории Яндекс.Маркета

Автоматизируем сервис-воркер с Workbox 6. Доклад в Яндексе

Интерфейсы

Недоумение про ещё один корпоративный чат или как сделать приятно всем

Кейс аналитика системы освещения в логистическом центре

Перевод Как эти забавные картинки незаметно захватили сферу маркетинга

Appwrite, open-source бэкэнд-платформа

Перевод Переосмысляем настольный компьютер как концепцию

Как подобрать дизайнера для проекта?

Исследования и прогнозы в it

Где в Рунете работать хорошо всероссийское исследование IT-брендов 2021

Cassandra криптор, который любит держаться в тени

Перевод Про комментарии к коду

Дефицит чипов способствует развитию теневого рынка электроники контрафакта

Видеокарты продолжат дорожать накрутка при помощи посредников, нехватка мощностей и геймеры

Как космическая гонка создала Рунет и почему без неё перспективы Рунета печальны

Краудсорсинг

Новые рекорды найдено 51-ое простое число Мерсенна

Полежать в эконом-классе? Zephyr Aerospace разработал двухэтажные купе для самолетов. И можно сделать почти кровать

Википедия купается в деньгах? Обратная сторона вопроса

Перевод Википедия купается в деньгах зачем молить о пожертвованиях?

Перевод Пришло время и тебе встать на защиту Sci-hub

Пишем расширение для MediaWiki

Толока