Перевод Как я регулярно улучшаю точность моделей обучения с 80 до 90

В преддверии старта базового курса по Machine Learning, подготовили для вас интересный перевод, а также предлагаем бесплатно посмотреть запись демо-урока по теме: "Как начать делать мир лучше с помощью NLP".

Введение

Если вы закончили хотя бы несколько собственных проектов по Data Science, вы, вероятно, уже поняли, точность в 80% это не так уж плохо. Но для реального мира 80% уже не годятся. На деле, большинство компаний, в которых я работал, ожидают минимальную точность (или любую другую метрику, на которую они смотрят) не менее 90%.

Поэтому я расскажу о пяти вещах, которые вы можете сделать, чтобы значительно улучшить точность. Я настоятельно рекомендую вам прочитать все пять пунктов, поскольку есть множество деталей, которых новички могут не знать.

К концу этой статьи у вас должно сформироваться понимание, что существует гораздо больше переменных, которые играют роль в том, насколько хорошо работает ваша модель машинного обучения, чем вы представляете.

С учетом сказанного, вот 5 вещей, которые вы можете сделать, чтобы улучшить свои модели машинного обучения!

1. Обработка пропущенных значений

Одна из самых больших ошибок, которую я встречаю, заключается в том, что люди не обрабатывают пропущенные значения, и они могут быть в этом даже не виноваты. Многие материалы из интернета говорят о том, что нужно обрабатывать пропущенные значения с помощью импутации данных средним/медианой, заменяя пустые значения средним значением данного признака, и обычно это не лучший выход.

Например, представьте, что у нас есть таблица, в которой есть значения возраста и физической подготовки, и представьте, что у восьмидесятилетнего человека отсутствует показатель физической подготовки. Если мы возьмем средний показатель физической подготовки в возрастном диапазоне от 15 до 80 лет, то человек в 80 лет получит более высокое значение, чем оно есть на самом деле.

Поэтому первый вопрос, который вы должны себе задать, это почему данные отсутствуют?

Дальше мы рассмотрим другие методы обработки пропущенных значений, помимо импутации среднего/медианного значения:

Моделирование прогнозирования признаков: возвращаясь к моему примеру с возрастом и показателями физической подготовки, мы можем смоделировать взаимосвязь между возрастом и показателями, а затем использовать модель для поиска ожидаемого значения. Это можно сделать несколькими способами, включая регрессию, ANOVA и другие.
Импутация данных с помощью K-ближайших соседей: с помощью метода K-ближайших соседей недостающие данные заполнятся значениями из другой аналогичной выборки, а для тех, что с этим не знаком, сходство в методе K-ближайших соседей определяется с помощью функции расстояния (т.е. евклидова расстояния).
Удаление строки: наконец, вы можете удалить строку. В обычных случаях это неприемлемо, но вы можете так сделать, если у вас есть огромное количество данных.

2. Инженерия признаков

Второй способ значительно улучшить модель машинного обучения это инженерия признаков. Инженерия признаков это процесс преобразования необработанных данных в признаки, которые лучше представляют суть задачи, которую человек пытается решить. Нет определенного способа сделать это, именно поэтому Data Science это и наука, и искусство одновременно. Тем не менее, вот некоторые вещи, на которых вы можете сосредоточиться:

Преобразование переменной типа DateTime и извлечение из нее только дня недели, месяца, года и т.д.
Создание групп или корзин для переменных (например, для переменной с высотой можно сделать группы 100149см, 150199см, 200249см и т.д.)
Объединение нескольких объектов и/или значений для создания нового объекта. Например, одна из самых точных моделей для задачи Титаника создала новую переменную под названием Iswomenor_child, которая была в значении True, если человек был женского пола или ребенком, и False в противном случае.

3. Отбор признаков

Третий способ повысить точность своей модели это отбор признаков, то есть выбор наиболее релевантных/ценных признаков вашего набора данных. Слишком большое количество признаков может привести к тому, что ваш алгоритм переобучится, а слишком малое к тому, что он недообучится.

Есть два основных метода, которые вы можете использовать для отбора признаков:

Важность признаков: некоторые алгоритмы, такие как случайный лес или XGBoost, позволяют определить, какие признаки оказались наиболее важными при прогнозировании значения целевой переменной. Создав одну из этих моделей и проведя анализ важности признаков, вы получите представление о том, какие переменные оказались наиболее важными.
Уменьшение размерности: один из самых распространенных методов уменьшения размерности это метод главных компонент (PCA). Он принимает большое количество признаков и использует линейную алгебру для сокращения их количества.

4. Алгоритмы Ensemble Learning

Один из самых простых способов улучшить вашу модель машинного обучения это выбрать наилучший алгоритм. Если вы еще не знакомы с ансамблевыми методами, то сейчас самое время с ними познакомиться.

Ансамблевое обучение (Ensemble Learning) это метод, в котором несколько алгоритмов машинного обучения используются совместно. Смысл здесь заключается в том, что так вы сможете достичь более высокой прогностической производительности, чем при использовании какого-то одного алгоритма.

Самые популярные алгоритмы ансамблевого обучения - случайный лес, XGBoost, градиентный бустинг и AdaBoost. Чтобы объяснить, чем же так хороши алгоритмы ансамблевого обучения, приведу пример со случайным лесом:

Случайный лес подразумевает создание нескольких деревьев решений с использованием наборов исходных данных. Затем модель выбирает режим (большинство) всех предсказаний каждого дерева решений. В чем здесь смысл? Полагаясь на принцип выигрывает тот, за кого большинство, она снижает риск ошибки отдельного дерева.

Например, если мы создадим одно дерево решений, третье, то оно выдаст нам 0. Но если мы полагаемся на все 4 дерева, то прогнозируемое значение будет 1. Вот в чем сила ансамблевого обучения!

5. Настройка гиперпараметров

Наконец то, о чем нечасто говорят, но то, что крайне важно делать настройка гиперпараметров вашей модели. Именно тут важно, чтобы вы четко понимали модель машинного обучения, с которой вы работаете, иначе трудно будет понять, что представляет из себя каждый из гиперпараметров.

Взгляните на все гиперпараметры случайного леса:

class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None

Например, было бы неплохо понять, что такое minimpuritydecrease, чтобы если вдруг вы захотите, чтобы ваша модель машинного обучения была более снисходительной, вы могли настроить этот параметр! ;)

Спасибо за прочтение!

После прочтения этой статьи у вас должно было возникнуть несколько идей, как повысить точность вашей модели с 80% до 90+%. Эта информация также поможет вам в ваших будущих проектах. Желаю удачи в ваших начинаниях и в Data Science.

Если вас заинтересовал курс, запишитесь на бесплатный вебинар, в рамках которого наши эксперты подробно расскажут о программе обучения и ответят на интересующие вопросы.

Читать ещё:

Риски и предостережения при применении метода главных компонент к задачам обучения с учителем

Привет, хабровчане. Для будущих студентов курса "C++ Developer. Professional" Александр Колесников подготовил статью.

Приглашаем также посмотреть открытый вебинар на тему Области видимости и невидимости. За 1,5 часа участники вместе с экспертом успеют реализ

Для будущих учащихся на курсе "MS SQL Server Developer" преподаватель и эксперт по базам данных Евгений Туркестанов подготовил полезную статью.

Приглашаем также на открытый вебинар по теме Polybase: жизнь до и после. На занятии участники вместе с экспертом

Привет, Хабр. Для будущих студентов курса Scala-разработчик подготовили перевод материала.

Приглашаем также на открытый вебинар Эффекты в Scala. Участники вместе с экспертом рассмотрят понятие эффекта и сложности, которые могут возникать при их наличии, а также рассмотрят понятие функционального

Как использовать memoization, contexts, useMemo, useState, и useEffect

Для будущих учащихся на курсе "React.js Developer" подготовили перевод материала. Также приглашаем всех желающих на открытый вебинар ReactJS: быстрый старт. Сильные и слабые стороны.

Привет, хабровчане. Для будущих студентов курса Reverse-Engineering. Basic Александр Колесников подготовил полезную статью.

Также приглашаем всех желающих посетить открытый вебинар на тему Эксплуатация уязвимостей в драйвере. В первой части вебинара будет пример классической уязвимости переполнени

Для будущих студентов курса Python QA Engineer подготовили авторскую статью.

Также приглашаем на открытый вебинар по теме Непрерывная интеграция с Jenkins. Рассмотрим, как настраивать автоматический запуск тестов, устанавливать плагины и создавать бекапы ко

Логотип статьи определяет три, как временные, так и географические, точки на моём жизненном пути, через которые лежал мой путь в страну под названием Программирование. В городе Чебоксары, на родине легендарного комдива Гражданской войны В.И.Чапаева, прошло моё детство (1954-1968 г.г.), там я закончил 8

Всем привет. С вами я, stalker320, и сегодня я хотел бы рассказать про написание служебных скриптов, запускающихся в редакторе. Всем желающим прочесть - добро пожаловать под кат

EditorScript - это такой скрипт, который можно запустить по нажатию комбинации Ctrl+Shift+X прямо из движка. Он может исполнять различные служебные функции. К примеру создать необходимую структуру каталогов в проекте.

Привет, меня зовут Александр, я старший разработчик ПО в Центре разработкиOrionInnovation. Хочу признаться, я люблю рассказывать про C++ и не только на различных митапах и конференциях.Ивотядобрался доХабра. НаCppConfRussiaPiter2020 я рассказывал про концепты и послевыступлен

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

В 26-м выпуске NP-полного подкаста я рассказывал, что начал переводить один из своих сервисов из Redis Sentinel на Redis Cluster. На этой неделе я захотел потестировать данный код, и, конечно же, выбрал Testcontainers для этого. К сожалению, Redis Cluster в тестовых контейнерах не з

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Всем привет! Меня зовут Александр и я пишу код для 2ip.ru. За добрую половину сервисов можно пинать меня, готов отбиваться. Cегодня я хочу немного рассказать про переделку одного нашего старого сервиса. Это конечно не "big data", но всё равно довольно большие объемы информации, поэтому думаю будет интересно.

Речь пойдет про

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная

Всем привет!

В недавней статье мы рассказали, как мы шли к построению нашей Data Platform. Сегодня хотелось бы глубже погрузиться в желудок нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной картинке из упомянутой выше статьи (специально дублирую ее, чтобы уважаемым чи

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

В один прекрасный день в конце 2020 года мы решили сделать еще один агрегатор удаленных вакансий, начав с исключительно IT-позиций. Логично спросить: зачем? Мол, на ры

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о п

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов

Революция искусственного интеллекта не грядёт, она уже здесь и требует от компаний переосмысления бизнес-процессов, чтобы максимально использовать возможности искусственного интеллекта (ИИ) для расширения человеческих способностей.

Итак, у всех, кто интересуется современными технологиями, н

Некоторое время назад мы искали оптимальное аппаратное и программное обеспечение для исполнения нейронных сетей в ЦОД и "на краю" (edge computing). В рамках нашего исследования мы протестировали множество устройств, от процессоров до встроенной графики iGPU и GPGPU различных производителей. С результатами исследования можно ознакомиться

Кадр из аниме "Жрица и медведь"

До появления YOLO большинство способов обнаружения объектов пытались адаптировать классификаторы для детекции. В YOLO же, обнаружение объектов было сформулировано как

Хм. Один из пунктов, регламентирующих действия модераторов на Хабре, сформулирован следующим образом: не надо пропускать статьи, слабо относящиеся к IT-тематике или не относящиеся к ней вовсе. Что сходу заставило автора призадуматься, а имеет ли прямое отношение к "IT-тематике" его пост, повествующий о некоторых этапах программирования забавного и увлекательного своего pet-проекта, несложного AI, выстраивающего нейронную сеть на ос

Использование сложения вместо умножения для свертки результирует в меньшей задержке, чем у стандартной CNN

Сотрудники лаборатории машинного обучения Университета ИТМО занимаются не только теорией, но и прикладными проектами. Некоторым из них удается вдохновлять участников научного и профессионального сообщества по всему миру, преображать бизнес и цифровое пространство. Такую работу ведет Media Research Group под руководством профессора

	Русский
	English

Перевод Как я регулярно улучшаю точность моделей обучения с 80 до 90

Введение

1. Обработка пропущенных значений

2. Инженерия признаков

3. Отбор признаков

4. Алгоритмы Ensemble Learning

5. Настройка гиперпараметров

Читать ещё:

Сейчас читают

Блог компании otus. онлайн-образование

С безопасность для новичков

Хранимая процедура с возвращаемыми значениями в SSIS

Перевод Scala 3 Dotty Факты и Мнения. Что мы ожидаем?

Перевод Изучение методов кэширования в React

Как использовать memoization, contexts, useMemo, useState, и useEffect

Исполняемый обвес

Тестирование скриншотами

Программирование

Пятьдесят лет на стезе программирования. Часть I. Начало пути. Отчий дом и Казанское суворовское военное училище

Принцип работы EditorScript

Производительность компилятора при работе с концептами в C20

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Как подружить Redis Cluster c Testcontainers?

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Big data

Стоит ли смотреть в сторону Data science?

Как мы весь интернет сканировали

RamblerMeetupampUsermodel

Что нам стоит загрузить JSON в Data Platform

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Data science

RamblerMeetupampUsermodel

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Как я предсказал LGD на хакатоне и устроился на работу

Перевод Прогнозирование временных рядов на JS анализ данных для самых маленьких фронтендеров

В чем суть?

Machine learning

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Геопространственное моделирование с применением методов машинного обучения

Как мы запустили агрегатор удаленных вакансий и зачем в нем ML

Разработка Computer Vision в онкологии почему всегда нужно еще больше сил, времени и денег

KotlinDL 0.2 Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Artificial intelligence

5 условий зарождения искуственного интеллекта в индустрии

Как мы сделали акселератор инференса нейронных сетей для ЦОД с 64 чипами Intel Movidius

Обнаружение объектов с помощью YOLOv3 на Tensorflow 2.0

Artificial Intelligence, герой нашего времени. Этюд

Перевод Обзор статьи AdderNet Действительно ли нам нужно умножение в глубоком обучении? (Классификация изображений)

Использование сложения вместо умножения для свертки результирует в меньшей задержке, чем у стандартной CNN

Как системы ИИ преображают digital-маркетинг мнение эксперта и обсуждение проектов

Категории

Последние комментарии