Русский
Русский
English
Статистика
Реклама

Recovery mode Инструменты для участников соревнований по машинному обучению

Соревнования по машинному обучению относительно новое явление.
Появилось вследствие развития технологий искусственного интеллекта.
В данный момент очень активно развивается и привлекает множество заинтересованных людей.


Преимущества, которые получают организаторы соревнований:


  • Большое количество квалифицированных людей, которые работают над их задачей и стараются решить ее лучше остальных
  • Относительно небольшие (в сравнении с наймом специалистов) финансовые затраты
  • Решение задачи, наиболее качественное и подходящее для нее

И участники соревнований также получают пользу:


  • Публичное признание высокой квалификации
  • Денежные призы
  • И просто удовольствие от участия и победы

В этой статье я хочу рассмотреть несколько инструментов, которые могут помочь участникам организовать процесс качественнее и эффективнее, увеличить вероятность побед, и в целом стать более квалифицированным специалистом.


Приступим!


Determined


Платформа для тренировки моделей глубокого обучения.


  • Ускоренное обучение моделей, с помощью state-of-the-art распределенного обучения, без изменения кода модели
  • Автоматический поиск высококачественных моделей, с расширенной настройкой гипер-параметров от создателей Hyperband
  • Умное планирование использования своих GPU и сокращение расходов на облачные GPU, за счет использования вытесняемых инстансов
  • Отслеживание и воспроизводство экспериментов, включая версии кода, показатели, контрольные точки и гипер-параметры
  • Легкость интеграции с популярными DL-фреймворками
  • Позволяет больше времени тратить на создание моделей, чем на управление инфраструктурой

Compose


Инструмент машинного обучения для автоматизированного прогнозирования.


  • Структурирование задач прогнозирования и создание меток для обучения с учителем
  • Поиск обучающих примеров исходя из конечного желаемого результата, заданного функцией разметки
  • Передача результата в Featurepools для автоматизированного проектирования признаков
  • Передача результата в EvalML для автоматизированного машинного обучения

Featuretools


Фреймворк для автоматизированного проектирования признаков.


  • Преобразование временных и реляционных наборов данных в матрицы признаков
  • Возможность автоматически генерировать описания признаков на английском языке

EvalML


Библиотека AutoML для создания, оптимизации и оценивания пайплайнов машинного обучения с использованием целевых функций для конкретной предметной области.


  • В сочетании с Featuretools и Compose позволяет создавать end-to-end ML-решения для обучения с учителем

Pandas Profiling


Создает отчеты профиля из DataFrame Pandas.


  • Вместо df.describe() функция df.profile_report()
  • Быстрый анализ данных
  • Интерактивный HTML-отчет со столбцами
  • Вывод типа: определение типов
  • Основы: тип, уникальные значения, отсутствующие значения
  • Квантильные статистические данные: минимум, Q1, медиана, Q3, максимум, диапазон, межквартильный размах
  • Описательная статистика: среднее, мода, стандартное отклонение, сумма, среднее абсолютное отклонение, коэффициент вариации, эксцесс, асимметрия
  • Наиболее частые значения
  • Гистограмма
  • Корреляции сильно зависимых переменных: матрицы Спирмана, Пирсона и Кендалла
  • Матрица пропущенных значений: количество, тепловая карта и дендрограмма
  • Анализ текста: категории (прописные буквы, пробел), кодировка (латиница, кириллица) и блоки (ASCII) в текстовых данных
  • Анализ файлов и изображений: размеры файлов, даты создания, усеченные изображения и изображения, содержащие EXIF

Tpot


Инструмент машинного обучения, который оптимизирует пайплайны с использованием генетического программирования.


  • Автоматизирует самую утомительную часть машинного обучения, интеллектуально исследуя тысячи возможных пайплайнов, чтобы найти лучшие из ваших данных
  • После завершения поиска предоставляет код Python для лучшего найденного пайплайна
  • Сделан на основе Scikit-learn

Shap


Теоретико-игровой подход к объяснению результатов любой ML-модели.


  • Имеет точный алгоритм для ансамбля деревьев
  • Может использоваться в моделях глубокого обучения

Feature-engine


Библиотека с множественными трансформерами фичей для использования ML-моделях.


  • Позволяет выбирать переменные, которые вы хотите преобразовать
  • Трансформеры для отсутствующих данных, категориальных переменных, дискретизации, преобразований переменных, выбросов, создания и выбора переменных

Lale


Библиотека для полуавтоматической обработки данных и выбора алгоритма настройки гипер-параметров.


  • Делает лучше автоматизацию, проверку правильности и совместимость
  • Для автоматизации высокоуровневый интерфейс инструментов поиска по пайплайну
  • Для проверки корректности использование схемы JSON для обнаружения ошибок несоответствий между гипер-параметрами и их типом или между данными и оператором
  • Для совместимости растущая библиотека преобразователей и оценок из других популярных библиотек

Biome


Инструмент для работы с неструктурированными данными.


  • Автоматическая классификация короткие и шумные тексты, длинные тексты; инструменты мониторинга и анализа результатов классификации; простой в использовании пользовательский интерфейс аннотаций; предварительно сконфигурированные и расширяемые классификаторы
  • Извлечение данных табличные данные, длинные документы; встроенные готовые объекты (дата, время, количество, вес, размер, единицы измерения), поддержка нескольких форматов файлов (PDF, Word, Excel, HTML, E-mail или простой текст); настраиваемые объекты, атрибуты и отношения; реляционный вывод объектов, отношений, ролей и атрибутов на основе графов знаний
  • Сравнение настраиваемые сервисы семантического сходства для предложений, абзацев и текстового контента в базах данных; аналитические пользовательские интерфейсы для поиска наиболее похожих и непохожих элементов

DataSketch


Инструмент для вероятностных структур данных.


  • обработка и поиск больших объемов данных очень быстро
  • очень маленькая потеря точности

PyTextRank


Инструмент для работы с текстом.


  • Извлечение самых популярных фраз из текстовых документов
  • Выполнение незатратного извлекающего суммирования текстовых документов
  • Вывод ссылок из неструктурированного текста в структурированные данные
  • Поддержка связывания объектов
  • Графовые алгоритмы (в частности, центральность собственных векторов)
  • Построение графа лемм для представления ссылок между фразами и поддерживающим языком
  • Включение глаголов в граф (но не в результирующие фразы)
  • Использование предварительной обработки с помощью разделения существительных и распознавания именованных объектов
  • Извлекающая суммаризация на основе ранжированных фраз

Joblib


Набор инструментов для легкого создания пайплайнов.


  • Простые параллельные вычисления
  • Прозрачное кэширование функций и ленивая переоценка
  • Оптимизирован для быстрой и надежной обработки больших данных и массивов
  • Удобный повторный перезапуск экспериментов
  • Отделение логики выполнения потока от логики предметной области и кода
  • Параллельный помощник упрощение написания читаемого параллельного кода и его отладки
  • Замена Pickle для работы с объектами, содержащими большие данные

Shampoo


Алгоритм предварительной обработки с учетом структуры.


  • Более быстрая работа, чем у других оптимизаторов
  • Поддерживает набор предварительно подготовленных матриц, которые действуют в одном измерении, сокращаясь в остальных
  • Имеет гарантии сходимости в стохастической выпуклой ситуации

Michelangelo


Платформа машинного обучения от Uber.


  • Обеспечение непрерывного рабочего процесса
  • Централизованное хранилище функций
  • Распределенная инфраструктура обучения
  • Оценка и визуализация моделей с деревьями решений
  • Средства развертывания моделей
  • Прогнозирование и маршрутизация
  • API для подключения конвейеров

Hasty.ai


Инструмент для создания меток изображений.


  • Быстрая разметка данных
  • Автоматизация процесса разметки
  • Обучение помогающей модели прямо во время разметки
  • Поиск вероятных ошибок

Cortex


Инструмент для крупномасштабных рабочих нагрузок.


  • Развертывание моделей в качестве API реального времени или пакетного
  • Высокая доступность с зонами доступности и автоматическим перезапуском экземпляров
  • Логический вывод экземпляров по запросу или спотовых экземпляров с резервными копиями по запросу
  • Автомасштабирование для обработки производственных рабочих нагрузок с поддержкой избыточного выделения запросов

Weights & Biases


Набор инструментов для машинного обучения.


  • Отслеживание экспериментов
  • Оптимизация гипер-параметров
  • Версионирование моделей и датасетов
  • Панель инструментов просмотр эксперимента в реальном времени
  • Оптимизация моделей с помощью масштабируемого инструмента поиска гипер-параметров
  • Отслеживание артефактов сохранение всех деталей непрерывного пайплайна
  • Совместные документы исследование результатов и обмен выводами

SpeedRun


Набор инструментов для развертывания и управления ML-экспериментами.


  • Чтение файлов конфигурации и управление каталогами экспериментов
  • Логирование в Weights & Biases
  • Настройка и запуск гипер-параметров с помощью Weights & Biases
  • Запись текста или изображений в файл, индикаторы выполнения
  • Преобразование фигур matplotlib в изображения
  • Визуализация многомерных изображений
  • Ожидание завершения запущенных процессов и освобождения ресурсов

Great Expectations


Работа с данными тестирование, документирование и профилирование.


  • Автоматическое документирование данных
  • Генерирование документации из тестов
  • Автоматическое профилирование данных

Keras Tuner


Платформа для для оптимизации гипер-параметров.


  • Определение пространства поиска
  • Поиск наилучших значений
  • Встроенные алгоритмы байесовской оптимизации

NanoEdge AI Studio


Десктопное приложение для AI-библиотек, предназначенное для разработчиков встроенных приложений и MCU C кода.


  • Поиск лучших библиотек для встроенных проектов
  • Включение возможности машинного обучения в MCU C код
  • Запуск библиотек на любых Arm Cortex-M микроконтроллерах и оптимизированных для них
  • Очень маленький размер памяти модели (1-20kB RAM/Flash)
  • Ультра быстрые модели (1-20ms вывод на M4 80MHz)
  • Автоматическая проверка качества данных
  • Автоматический поиск лучшей AI модели
  • Сбор и импорт данных через последовательный порт в реальном времени
  • Эмулятор для тестирования библиотеки перед встраиванием
  • Простота развертывания C библиотек
  • Модели могут обучены напрямую, без использования MCU
  • Для создания и развертывания моделей не требуется опыт и экспертиза в ML

LabelBox


End-to-end платформа для создания и управления высококачественными данными.


  • Автоматизированная разметка
  • Общее рабочее пространство для работы с данными и коллективного взаимодействия внутренних и внешних команд
  • Отслеживание активности и прогресса работы
  • Управление доступом и ролями
  • API (Python, GraphQL) и SDK
  • Работа с изображениями: классификация, распознавание и сегментация
  • Работа с видео: производительный редактор видео, метки на видео до 30 FPS с уровнем кадра, аналитика признаков меток
  • Работа с текстом: классификация, распознавание именованных сущностей, поддержка сложных онтологий с встроенными классификациями
  • Предварительная маркировка на основе моделей и активного обучения
  • Приоритизация очереди маркировки наиболее важных данных с помощью API

LabelML


Организация ML-экспериментов и мониторинг процесса обучения с мобильного.


  • Легкая интеграция (2 строчки кода)
  • Хранение лога экспериментов, включая гит-коммитs, настройки и гипер-параметры
  • Хранение лога Tensorboard
  • Панель управления в локальном браузере
  • Хранение контрольных точек
  • API для настраиваемой визуализации

PyCaret


Low-code ML-библиотека.


  • Быстрый процесс от подготовки данных до деплоинга модели
  • Фокусировка на бизнес-задачах вместо кодинга
  • Легкость использования и построения полного процесса эксперимента
  • Анализ производительности модели (более 60 графиков)
  • Подготовка данных (недостающие значения, трансформинг категориальных данных, создание признаков, настройка гипер-параметров модели)
  • Поддержка алгоритма Боруты

CometML


Инструмент для быстрого создания моделей


  • Отслеживание, сравнение, объяснение и оптимизация экспериментов и моделей
  • Быстрая интеграция
  • Сравнение экспериментов код, гипер-параметры, метрики, предсказания, зависимости, системные метрики
  • Отладка моделей просмотр, анализ, получение информации и визуализация данных
  • Рабочее пространство для взаимодействия команды

ClearML


Решение для объединения ML-инструментов (MLOps).


  • Один набор инструментов для автоматизации подготовки, выполнения и анализа экспериментов
  • Управление экспериментами параметры, задания, артефакты, метрики, отладочные данные, метаданные и логи
  • Управление и оркестровка GPU/CPU ресурсов, автоматическое масштабирование на облачных и локальных машинах
  • Хранилище данных версионирование анализа; создание и автоматизация пайплайнов данных; ребалансировка, смешивания и сочетания датасетов

Благоприятная обстановка


Создает комфорт, удобство, приятность, душевность и способствует творческому вдохновению


  • Комната с приятной обстановкой
  • Классическая музыка
  • Хорошее настроение

Заключение.


Разумеется, одного описания инструментов недостаточно, чтобы всегда побеждать.
Успех зависит от очень многих других факторов знать, где и когда тот или иной инструмент применять или не применять, какие есть ограничения, как можно инструменты комбинировать и т.д. и т.п.
Надеюсь, что все же эта статья будет для вас полезной и ваше участие в соревнованиях станет более плодотворным и результативным.


Вперед, к победам!

Источник: habr.com
К списку статей
Опубликовано: 13.02.2021 22:06:51
0

Сейчас читают

Комментариев (0)
Имя
Электронная почта

Машинное обучение

Искусственный интеллект

Ии

Глубокое обучение

Нейросети

Нейронные сети

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru