Сегодня попробуем создать простую музыку при помощи сетей LSTM.

Целю статьи есть указание возможностей сетей на практике, будет интересно какой результат получится у читателя, сможете оставить ссылки на свой варианты в комментариях.
Минимальные навыки, нужные читателю, чтобы мочь сделать собственный вариант:

Python3
BASH
jupyter-notebook.

Не буду одобрять комментарии, в которых есть суть только:

причинить досаду автору, примерно про опечатки(я не являюсь носителем русского языка).
нериторические замечания и комментарии.
все что не касается сути стати.

Входные данные

Мы используем входные данные в формате ABC
Примерные строки:

[V: S] (BA) !p!G2 |z AGA|(FG) A2|w: ple -na, Do-mi-nus te -cum,[V: A] F2       E2|z FEC|(DE) F2 |w: ple-na, Do-mi-nus te -cum,[V: T] (dc)     c2|z ccA|(Ac) c2 |w: ple -na, Do-mi-nus te -cum,[V: B] (B,,F,) C,2|z F,C,F,|(D,C,) F,2 |w: ple -na, Do-mi-nus te -cum,

Примеры массивов данных можно скачать здесь.
Для любителей теории заговора, это просто первая ссылка в гугле, я никак не связан с этим источником.

Чтение файла

Для вашего удобства, используйте jupyter notebook .

import numpy as npimport matplotlib.pyplot as pltimport tensorflow as tf

with open('my_song.abc', 'r') as f:    text = f.read()

Прослушивание песни

Чтобы прослушать песню, мы должны установить в нашу среду несколько дополнительных инструментов

!apt-get install -y -qq abcmidi timidity

Сохраняем выбранную песню в файл:

#этот шаг зависит от входных данных, тут нужен гибкий подходsong = text.split('\n\n')with open('my_song.abc', "w") as f:    f.write(song)

Мы конвертируем в файл mid, а затем wav.

!abc2midi "my_song.abc" -o "my_song.mid" && timidity "my_song.mid" -Ow "my_song.wav"

Результат

from IPython.display import AudioAudio('my_song.wav')#ссылка#https://github.com/fuwiak/Habr/blob/master/my_song.wav

Время на LSTM

Результат my_song.wav оказывается неплохим, сейчас попробуем сделать свой вариант при помощи LSTM.

Создание обучающей выборки

#уникальные символы, найденные в песнях.vocab = set(text)# словарь: ключ=символ, значение=индекс, указав символ, мы получаем его индексchar_to_index = {char_ :ind for ind, char_  in enumerate (vocab)}ind_to_char = np.array(vocab)text_as_int = np.array([char_to_index[c] for c in text])#'X:1\nT:dfkjds ' ----- > [49 22 13  0 45 22 26 67 60 79 56 69 59]

Генерация последовательности

Создаются обучающие последовательности

input: строка из 100 символов
target: строка из 100 символов, но сдвинутая на 1.

Нашей модели будет поручено научиться прогнозировать следующий знак на основе 100 предыдущих. Это будет модель RNN версии "many to many", которая на самом деле будет прогнозировать один следующий символ, но в процессе обучения ошибка будет учитываться по всей последовательности (100 предсказаний).

seq_length = 100step = 10sequences = np.array([text_as_int[i:i+seq_length+1] for i in range(0, len(text_as_int)-seq_length-1,step)])input_text = np.array([seq[:-1] for seq in sequences])target_text = np.array([seq[1:] for seq in sequences])

LSTM

from tensorflow.keras.models import Modelfrom tensorflow.keras.layers import Input, LSTM, Dense, Embeddingvocab_size = len(vocab)#new valueembedding_dim = 256*2rnn_units = 1024*2x = Input(shape=(seq_length,))e = Embedding(vocab_size, embedding_dim)(x)l = LSTM(rnn_units, return_sequences=True)(e)d = Dense(vocab_size, activation='softmax')(l)model = Model(inputs=x, outputs=d)model.summary()

Обучение сети

from tensorflow.keras.optimizers import Adammodel.compile(optimizer=Adam(), loss='sparse_categorical_crossentropy')EP=5BS = 128hist = model.fit(input_text, target_text, batch_size=BS, epochs=EP)

Создание музыки из модели

def generate_text(model, start_string, generation_length=100):  input_eval = np.array([char_to_index[s] for s in start_string])  x = np.zeros((1, seq_length))  x[0,-len(input_eval):] = input_eval[:]  text_generated = []  model.reset_states()  for i in range(generation_length):      predictions = model.predict(x)[0,-1]       predictions = predictions.astype(np.float64)      predictions = predictions/np.sum(predictions)          predicted_id = np.argmax(np.random.multinomial(1, predictions))      x[0,:-1] = x[0,1:]      x[0,-1] = predicted_id      text_generated.append([predicted_id])   return (start_string + ''.join(text_generated))

new_song = generate_text(model, "X:", generation_length=500)

Наш результат

with open('new_song.abc', "w") as f:    f.write(new_song)

!abc2midi "new_song.abc" -o "new_song.mid" && timidity "new_song.mid" -Ow "new_song.wav"

Audio('new_song.wav')#https://github.com/fuwiak/Habr/blob/master/new_song.wav

Итоги

В статии не описывал всех математических/технических нюансов машинного обучения, для заитересованых оставляю источники, которыми я пользовался. Пишите в коментарях, если что-то будет непонятно, постараюсь адвекватно ответить. Как и уже сказал, жду ваших вариантов!

Ссылки:

https://www.analyticsvidhya.com/blog/2020/01/how-to-perform-automatic-music-generation/
https://en.wikipedia.org/wiki/MIDI
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://towardsdatascience.com/how-to-generate-music-using-a-lstm-neural-network-in-keras-68786834d4c5
https://en.wikipedia.org/wiki/ABC_notation
http://abcplus.sourceforge.net
https://www.tensorflow.org/tutorials/text/text_generation

Последние несколько лет я занимаюсь дата-инженерингом: строю пайплайны разного уровня сложности, добываю данные, нужные бизнесу, преобразую их и сохраняю, в общем, строю классические ETL.

В этом деле проблем можно ждать откуда угодно и на каждом шаге: источник данных прилег, данные пришли битые, источник без объявления войны поменял формат данных или доступ к ним, хранилище тупит, данных внезапно стало меньше или больше и мн

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи.

При попытке получить котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги

BERT нейросеть, способная весьма неплохо понимать смысл текстов на человеческом языке. Впервые появивишись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной

Случайный лес (в буквальном смысле, сфотографировал с телефона)

Эта маленькая заметка предназначена для начинающих разработчиков, которые хотят понять как линейные функции устроены под капотом. Для опытных специалистов в моей заметки нет ничего нового. И так. Линейные функции применяются очень часто

1. Вступление

В самых различных проектах разработчику приходится сталкиваться с задачами ранжирования. Список подобных задач весьма обширен: от банальной сортировки новостей по дате публикации до сложных рейтингов на основе поведенческих факторов.

В ходе обсуждений возникла маленькая задачка построить динамику структуры кредитного портфеля (динамика кредитной карты, например). В качестве важной специфики необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения.

Ниже приведе

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Автор: Eugenio Culurciello, оригинальное название: The fall of RNN / LSTM

Перевод: Давыдов А.Н.

Ссылка на оригинал

Мы полюбили RNN (рекуррентные нейронные сети), LSTM (Long-short term memory), и все их варианты. А теперь пора от них отказаться!

В 2014 году LSTM и RNN,

Введение

Распознавание рукописного текста (англ. Handwritten Text Recognition, HTR) - это автоматический способ расшифровки записей с помощью компьютера. Оцифрованный текст рукописных записей позволило бы автоматизировать бизнес процессы множества компаний, упростив работу человека. В данной работе рассматривается модель распознавания рукописного текста на кириллице на основе искусственной нейронной сети. В исследовании ис

Сегодня попробуем создать простую музыку при помощи сетей LSTM.

Целю статьи есть указание возможностей сетей на практике, будет интересно какой результат

Всем привет! Меня зовут Константин Измайлов, я руководитель направления Data Science в Delivery Club. Мы работаем над многочисленными интересными и сложными задачами: от формирования классических аналитических отчетов до построения рекомендательных моделей в ленте приложения.

Сегодня я расскажу пр

В один прекрасный день в конце 2020 года мы решили сделать еще один агрегатор удаленных вакансий, начав с исключительно IT-позиций. Логично спросить: зачем? Мол, на ры

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о п

Представляем вам версию 0.2 библиотеки глубокого обучения KotlinDL.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: нов

	Русский
	English

Рекурсивные нейронные сети пример генерации музыки

Входные данные

Чтение файла

Прослушивание песни

Результат

Время на LSTM

Создание обучающей выборки

Генерация последовательности

LSTM

Обучение сети

Создание музыки из модели

Наш результат

Итоги

Сейчас читают

Data mining

Проблемы мониторинга дата-пайплайнов и как я их решал

Гугл финанс перестал транслировать данные российских акций что делать?

Маленький и быстрый BERT для русского языка

Простыми словами о простых линейных функциях

Несколько мыслей про ранжирование

1. Вступление

Оценка кредитного портфеля на R

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Lstm

Упадок RNN и LSTM сетей

Автор: Eugenio Culurciello, оригинальное название: The fall of RNN / LSTM

Эксперимент в распознавании рукописных текстов на кириллице

Введение

Рекурсивные нейронные сети пример генерации музыки

Machine learning

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Геопространственное моделирование с применением методов машинного обучения

Как мы запустили агрегатор удаленных вакансий и зачем в нем ML

Разработка Computer Vision в онкологии почему всегда нужно еще больше сил, времени и денег

KotlinDL 0.2 Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Категории

Последние комментарии