Из песочницы Учим ИИ распределять пироги по магазинам с помощью обучения с подкреплением

Вступление

Как-то во время чтения книги Reinforcement Learning: An Introduction я задумался над дополнением своих теоретических знаний практическими, однако решать очередную задачу балансировки бруска, учить агента играть в шахматы или же изобретать другой велосипед желания не было.

При этом в книге был один интересный пример на оптимизацию очереди клиентов, который с одной стороны не слишком сложен в плане реализации/понимания процесса, а с другой вполне интересный и может быть с тем или иным успехом внедрен в реальную жизнь.

Немного изменив данный пример, я и пришел к той идее, о которой далее и пойдет речь.

Постановка задачи

Итак, представьте следующую картину:

Мы имеем в своем распоряжении пекарню, которая производит каждый день 6 (условно) тонн малиновых пирогов и каждый день распределяет данную продукцию по трем магазинам.

Однако как лучше это делать так, чтобы было как можно меньше просроченной продукции (при условии, что срок годности пирогов составляет три дня), если мы имеем только три грузовика с вместительностью в 1, 2 и 3 тонны соответственно, в каждую точку продажи наиболее выгодно отправлять только один грузовик (ибо они расположены друг от друга достаточно далеко) и притом только раз в сутки после выпечки пирогов, да к тому же мы не знаем покупательской способности в наших магазинах (так как бизнес только запустили)?

Условимся, что в магазинах отлично работает стратегия выкладки FIFO, при которой покупатели берут только тот товар, который был произведен позже остальных, однако если малиновый пирог не был куплен в течении трех дней, то персонал магазина избавляется от него.

Мы (условно) не знаем какой спрос на пироги в конкретный день в том или ином магазине будет, однако в нашей симуляции мы задаем его следующим образом для каждого из трех магазинов: 3 0.1, 1 0.1, 2 0.1.

Очевидно, что самый выгодный для нас вариант это отправлять в первый магазин три, во второй одну, а в третий две тонны пирогов соответственно.

Для решения данной задачи используем кастомную среду gym, а также Deep Q Learning (Keras имплементация).

Кастомная среда

Состояние среды будем описывать тремя действительными положительными числами остатками продукции на текущий день в каждом из трех магазинов. Действия агента это числа от 0 до 5 включительно, обозначающие индексы перестановки целых чисел 1, 2 и 3. Ясно, что наиболее выгодное действие будет под 4-ым индексом (3, 1, 2). Задачу рассматриваем как эпизодическую, в одном эпизоде 30 дней.

import gymfrom gym import error, spaces, utilsfrom gym.utils import seedingimport itertoolsimport randomimport timeclass ShopsEnv(gym.Env):  metadata = {'render.modes': ['human']}    # конструктор класса, в котором происходит  # инициализация среды  def __init__(self):    self.state = [0, 0, 0]  # текущее состояние    self.next_state = [0, 0, 0]  # следующее состояние    self.done = False  # флажок завершения эпизода    self.actions = list(itertools.permutations([1, 2, 3]))  # массив возможных действий агента    self.reward = 0  # текущая награда за действие    self.time_tracker = 0  # трекер дня эпизода        self.remembered_states = []  # очередь из трех последних состояний        # для стохастичности среды    t = int( time.time() * 1000.0 )    random.seed( ((t & 0xff000000) >> 24) +                 ((t & 0x00ff0000) >>  8) +                 ((t & 0x0000ff00) <<  8) +                 ((t & 0x000000ff) << 24)   )    # метод позволяет агенту выполнить одно действие (шаг) в среде  def step(self, action_num):    # проверяем не завершен ли уже эпизод    if self.done:        return [self.state, self.reward, self.done, self.next_state]    else:        # выбираем следующее состояние текущим        self.state = self.next_state                # запоминаем состояние        self.remembered_states.append(self.state)             # инкрементируем трекер        self.time_tracker += 1                # выбираем действие в соответствии с полученным индексом        action = self.actions[action_num]                # обновляем состояние, используя выбранное действие (добавляем пироги)        self.next_state = [x + y for x, y in zip(action, self.state)]                # генерируем сколько будет куплено        self.next_state[0] -= (3 + random.uniform(-0.1, 0.1))        self.next_state[1] -= (1 + random.uniform(-0.1, 0.1))        self.next_state[2] -= (2 + random.uniform(-0.1, 0.1))                # вычисляем награду за действие        if any([x < 0 for x in self.next_state]):            self.reward = sum([x for x in self.next_state if x < 0])        else:            self.reward = 1                    # если накопилась очередь из минимум трех состояний        # значит нужно убрать просроченные продукты        # при этом если ушли в минус (не хватило пирогов для покупателей),        # то также убираем данные отрицательные значения        if self.time_tracker >= 3:            remembered_state = self.remembered_states.pop(0)            self.next_state = [max(x - y, 0) for x, y in zip(self.next_state, remembered_state)]        else:            self.next_state = [max(x, 0) for x in self.next_state]                        # проверяем прошло ли уже 30 дней        self.done = self.time_tracker == 30                # возвращаем результат шага агента в среде        return [self.state, self.reward, self.done, self.next_state]    # метод перезагрузки среды  def reset(self):    # устанавливаем все параметры в изначальное положение    self.state = [0, 0, 0]    self.next_state = [0, 0, 0]    self.done = False    self.reward = 0    self.time_tracker = 0        self.remembered_states = []        t = int( time.time() * 1000.0 )    random.seed( ((t & 0xff000000) >> 24) +                 ((t & 0x00ff0000) >>  8) +                 ((t & 0x0000ff00) <<  8) +                 ((t & 0x000000ff) << 24)   )        # возвращаем изначальное состояние    return self.state    # метод рендера текущего состояния среды:  # сколько и в каком магазине пирогов  def render(self, mode='human', close=False):    print('-'*20)    print('First shop')    print('Pies:', self.state[0])    print('Second shop')    print('Pies:', self.state[1])    print('Third shop')    print('Pies:', self.state[2])    print('-'*20)    print('')

Главные импорты

import numpy as np # линейная алгебраimport pandas as pd # препроцессинг данныхimport gym # для средimport gym_shops # для своей кастомной средыfrom tqdm import tqdm # для прогресс бара# для графиковimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import clear_outputsns.set_color_codes()# для моделированияfrom collections import dequefrom keras.models import Sequentialfrom keras.layers import Densefrom keras.optimizers import Adamimport random # для стохастичности среды

Определяем агента

class DQLAgent():         def __init__(self, env):        # определяем параметры и гиперпараметры               self.state_size = 3 # размер входа нейронной сети        self.action_size = 6 # размер выхода нейронной сети                # эта часть для replay()        self.gamma = 0.99        self.learning_rate = 0.01                # эта часть для adaptiveEGreedy()        self.epsilon = 0.99        self.epsilon_decay = 0.99        self.epsilon_min = 0.0001                self.memory = deque(maxlen = 5000) # дек с 5000 ячейками памяти, если он переполнится - удалятся первые ячейки                # собираем модель (NN)        self.model = self.build_model()        # метод сборки нейронной сети для Deep Q Learning    def build_model(self):        model = Sequential()        model.add(Dense(10, input_dim = self.state_size, activation = 'sigmoid')) # первый скрытый слой        model.add(Dense(50, activation = 'sigmoid')) # второй слой        model.add(Dense(10, activation = 'sigmoid')) # третий слой        model.add(Dense(self.action_size, activation = 'sigmoid')) # выходной слой        model.compile(loss = 'mse', optimizer = Adam(lr = self.learning_rate))        return model        # метод для запоминания состояния    def remember(self, state, action, reward, next_state, done):        self.memory.append((state, action, reward, next_state, done))        # метод выбора действия    def act(self, state):        # если случайное число от 0 до 1 меньше epsilon        # то выбираем действие случайно (exploration)        if random.uniform(0,1) <= self.epsilon:            return random.choice(range(6))        else:            # иначе нейронная сеть предсказывает следующее действие на основе текущего состояния            act_values = self.model.predict(state)            return np.argmax(act_values[0])                    # метод для тренировки нейронной сети    def replay(self, batch_size):                # выходим из метода, если еще на накопили достаточно опыта в памяти        if len(self.memory) < batch_size:            return                minibatch = random.sample(self.memory, batch_size) # берем batch_size примеров рандомно из памяти        # обучаемся на каждой записи батча        for state, action, reward, next_state, done in minibatch:            if done: # если эпизод закончен - тогда у нас есть только награда                target = reward            else:                # иначе таргет формируем с помощью следующего состояния                target = reward + self.gamma * np.amax(self.model.predict(next_state)[0])                 # target = R(s,a) + gamma * max Q`(s`,a`)                # target (max Q` value) это выход из нейронной сети, которая принимает s` на вход            train_target = self.model.predict(state) # s --> NN --> Q(s,a) = train_target            train_target[0][action] = target            self.model.fit(state, train_target, verbose = 0)        # метод для уменьшения exploration rate,    # то есть epsilon    def adaptiveEGreedy(self):        if self.epsilon > self.epsilon_min:            self.epsilon *= self.epsilon_decay

Тренируем агента

# инициализация gym среды и агентаenv = gym.make('shops-v0')agent = DQLAgent(env)# устанавливаем параметры тренировкиbatch_size = 100episodes = 1000# начинаем тренировкуprogress_bar = tqdm(range(episodes), position=0, leave=True)for e in progress_bar:    # инициализируем среду    state = env.reset()    state = np.reshape(state, [1, 3])    # запоминаем текущий день симуляции, id выбранных действий и сумму наград за эпизод    time = 0    taken_actions = []    sum_rewards = 0    # симулируем эпизод среды    while True:        # выбираем действие        action = agent.act(state)        # запоминаем действие        taken_actions.append(action)        # выполняем шаг агентом в среде        next_state, reward, done, _ = env.step(action)        next_state = np.reshape(next_state, [1, 3])        # добавляем полученную награду к остальным        sum_rewards += reward        # запоминаем результат шага        agent.remember(state, action, reward, next_state, done)        # переходим к следующему состоянию        state = next_state        # выполняем replay        agent.replay(batch_size)        # обновляем epsilon        agent.adaptiveEGreedy()        # инкрементируем счетчик времени        time += 1        # выводим прогресс тренировки        progress_bar.set_postfix_str(s='mean reward: {}, time: {}, epsilon: {}'.format(round(sum_rewards/time, 3), time, round(agent.epsilon, 3)), refresh=True)        # проверяем не завершился ли эпизод        if done:            # выводим распределение выбранных действий в течении эпизода            clear_output(wait=True)            sns.distplot(taken_actions, color="y")            plt.title('Episode: ' + str(e))            plt.xlabel('Action number')            plt.ylabel('Occurrence in %')            plt.show()            break

Тестируем агента

import timetrained_model = agent  # теперь мы имеем натренированного агентаstate = env.reset()  # перезапускаем средуstate = np.reshape(state, [1,3])# следим за основными параметрами в течении тестового эпизодаtime_t = 0MAX_EPISOD_LENGTH = 1000  # для прогресс бараtaken_actions = []mean_reward = 0# симулируем тестовый эпизодprogress_bar = tqdm(range(MAX_EPISOD_LENGTH), position=0, leave=True)for time_t in progress_bar:    # выполняем шаг агентом в среде    action = trained_model.act(state)    next_state, reward, done, _ = env.step(action)    next_state = np.reshape(next_state, [1,3])    state = next_state    taken_actions.append(action)    # выводим результат шага    clear_output(wait=True)    env.render()    progress_bar.set_postfix_str(s='time: {}'.format(time_t), refresh=True)    print('Reward:', round(env.reward, 3))    time.sleep(0.5)    mean_reward += env.reward    if done:        break# выводим распределение выбранных действийsns.distplot(taken_actions, color='y')plt.title('Test episode - mean reward: ' + str(round(mean_reward/(time_t+1), 3)))plt.xlabel('Action number')plt.ylabel('Occurrence in %')plt.show()

Итого

Таким образом, достаточно быстро агент понял, как наиболее выгодно действовать.

В целом, остается еще много места для экспериментов: можно увеличить количество магазинов, разнообразить действия, да хоть просто изменить гиперпараметры модели обучения и это только начало списка.

Источники

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Всем привет! Меня зовут Владислав Мосин, я учусь на 4-м курсе бакалаврской программы Прикладная математика и информатика в Питерской Вышке. Прошлым летом вместе с Алиной Плешковой, магистранткой нашего факультета, я проходил стажировку в JetBrains Research. Мы работали над проектом Music2Dance, цель которого научиться генерировать танцевальные движения, подхо

Если вы полагаете, что фундаментальные исследования всегда скучны и с трудом находят применение на практике, то прочитайте эту статью. Старший научный сотрудник нашей лаборатории Сергей Муравьев, занимающийся автоматизацией решения задач кластеризации, рассказывает о собственном проекте, у которого, кажется, есть всё, что только можно пожелать: научная фундаментальность, хитрые задачи на пути к цели, а

Всем привет! Мы команда из Питерской Вышки, и в этом году мы заняли первое место в RL треке соревнования NeurIPS 2020: Flatland. Цель Flatland разработать алгоритм, способный как можно лучше управлять трафиком движения поездов по сети железных дорог, при этом система должна принимать решения за ограниченное время.

Как я учил агента собирать клетку 2048 в игре 2048

Рассказываем о нейросети, которая применяет глубокое обучение и обучение с подкреплением, чтобы играть в Змей

Обучение с подкреплением (Reinforcement Learning) плохо, а точнее, совсем не работает с высокими размерностями. А также сталкивается с проблемой, что физические симуляторы довольно медленные. Поэтому в последнее время стал популярен способ обойти эти ограничения с помощью обучен

(Q-learning, SARSA, DQN, DDPG)

Обучение с подкреплением (RL далее ОП) относится к разновидности метода машинного обучения, при котором агент получает отложенное вознаграждение на следующем временном шаге, чтобы оценить свое предыдущее действие. Он в основном использовался в играх (например, Atari, Mario), с производительностью на уровне или даже превосходящей людей. В последнее время, когда алгоритм развивае

Методы градиента политики PG довольно популярны в обучении с подкреплением (RL). Базовый принцип состоит в использовании градиентного спуска и подъема в направлениях, где ожидается наибольшая награда. Но при первом приближении оптимизация получается неаккуратной. При чрезмерной самоуверенности мы можем сделать действия, которые разрушат прогресс, достигнутый предыдущей тренировкой. Работы, посвященные TRPO, явля

Введение или о каком ИИ я говорю

В первую очередь меня интересует универсальный ИИ как машина достижения сложных целей. То есть некий программно-аппаратный комплекс, которому можно сказать: сделай самолёт, который будет стоить 100$, летать на 1000 километров со скоростью 800 км/ч и перевозить 5 человек. Или так: вылечи человека такого-то от рака на терминальной стадии.

ИИ должен с такими задачами уметь справляться,

Рано или поздно это должно произойти

Рано или поздно, фронтенд - разработчик устает играть со своими фреймворками, устает докучать коллегам - бэкендерам, устает играть в девопс и начинает смотреть в сторону машинного обучения, дата - саенс и вот это вот все. Благо, каждый второй курс для тех кто хочет войти вайти способствует этому, крича на всех платформах, как это легко. Я тоже, насытившись перекладыванием данных из базы

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

В один прекрасный день в конце 2020 года мы решили сделать еще один агрегатор удаленных вакансий, начав с исключительно IT-позиций. Логично спросить: зачем? Мол, на ры

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о п

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов

	Русский
	English

Из песочницы Учим ИИ распределять пироги по магазинам с помощью обучения с подкреплением

Вступление

Постановка задачи

Кастомная среда

Главные импорты

Определяем агента

Тренируем агента

Тестируем агента

Итого

Источники

Сейчас читают

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Обучение с подкреплением

Music2Dance как мы пытались научиться танцевать

Кластерный анализ каждому

Как мы управляли поездами на соревновании NeurIPS 2020 Flatland

Головоломка для ИИ

Перевод Как искусственный интеллект играет в Змейку

World Models обучение в воображении

Reinforcement learning

Перевод r

Перевод - recovery mode RL Trust Region Policy Optimization (TRPO) Explained. (Часть 1)

Постановка задач для универсального интеллекта у нас нет общего языка

Введение или о каком ИИ я говорю

Как мы управляли поездами на соревновании NeurIPS 2020 Flatland

Фронтендер пишет нейронки. Уровень сложности хочу на ручки

Рано или поздно это должно произойти

World Models обучение в воображении

Machine learning

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Геопространственное моделирование с применением методов машинного обучения

Как мы запустили агрегатор удаленных вакансий и зачем в нем ML

Разработка Computer Vision в онкологии почему всегда нужно еще больше сил, времени и денег

KotlinDL 0.2 Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Категории

Последние комментарии