Перевод Python и разработка простого веб-приложения, использующего технологии машинного обучения

Тот, кто занимается машинным обучением (Machine Learning, ML), обычно, реализуя различные проекты, выполняет следующие действия: сбор данных, их очистка, разведочный анализ данных, разработка модели, публикация модели в локальной сети или в интернете. Вот хорошее видео, в котором можно узнать подробности об этом.

Жизненный цикл проекта в сфере машинного обучения

Этап публикации модели завершает жизненный цикл ML-проектов. Он так же важен для дата-сайентистов и специалистов по машинному обучению, как и другие этапы. Обычные подходы к публикации моделей предусматривают использование универсальных фреймворков, таких, как Django или Flask. Главные проблемы тут заключаются в том, что для применения подобных инструментов требуются особые знания и навыки, и в том, что работа с ними может потребовать немалых затрат времени.

Автор статьи, перевод которой мы сегодня публикуем, хочет рассказать о том, как, используя Python-библиотеки streamlit, pandas и scikit-learn, создать простое веб-приложение, в котором применяются технологии машинного обучения. Он говорит, что размер этого приложения не превышает 50 строк. Статья основана на этом видео, которое можно смотреть параллельно с чтением. Инструменты, которые будут здесь рассмотрены, кроме прочего, позволяют ускорить и упростить развёртывание ML-проектов.

Обзор модели, определяющей вид цветка ириса

Сегодня мы создадим простое веб-приложение, использующее технологии машинного обучения. Оно будет классифицировать цветки ириса из выборки Фишера, относя их к одному из четырёх видов: ирис щетинистый (iris setosa), ирис версиколор (iris versicolor), ирис виргинский (iris virginica). Возможно, вы уже видели множество ML-примеров, построенных на основе этого знаменитого набора данных. Но, надеюсь, то, что я тут буду рассматривать ещё один такой пример, вам не помешает. Ведь этот набор он как lorem ipsum классический бессмысленный текст-заполнитель, который вставляют в макеты страниц.

Нам, чтобы построить модель и опубликовать её где-нибудь, понадобятся библиотеки streamlit, pandas и scikit-learn. Взглянем на общую схему проекта. Он будет состоять из двух больших частей: фронтенд и бэкенд.

Во фронтенд-части приложения, а именно, на веб-странице, будет боковая панель, находящаяся слева, в которой можно будет вводить входные параметры модели, которые связаны с характеристиками цветков ириса: длина лепестка (petal length), ширина лепестка (petal width), длина чашелистика (sepal length), ширина чашелистика (sepal width). Эти данные будут передаваться бэкенду, где предварительно обученная модель будет классифицировать цветки, используя заданные характеристики. Фактически, речь идёт о функции, которая, получая характеристики цветка, возвращает его вид. Результаты классификации отправляются фронтенду.

В бэкенд-части приложения то, что ввёл пользователей, сохраняется в датафрейме, который будет использоваться в виде тестовых данных для модели. Потом будет построена модель для обработки данных. В ней будет применяться алгоритм случайный лес из библиотеки scikit-learn. И наконец, модель будет применена для классификации данных, введённых пользователем, то есть для определения вида цветка. Кроме того, вместе со сведениями о виде цветка, будут возвращаться и данные о прогностической вероятности. Это позволит нам определить степень достоверности результатов классификации.

Установка библиотек

Как уже было сказано, здесь мы будем пользоваться тремя библиотеками: streamlit, pandas и scikit-learn. Установить их можно, пользуясь

pip
install

pip install streamlitpip install pandaspip install -U scikit-learn

Разработка веб-приложения

Теперь напишем код приложения. Проект у нас довольно скромный. Он состоит из менее чем 50 строк кода. А если точнее то их тут всего 48. Если же этот код уплотнить, избавившись от комментариев и пустых строк, то размер текста программы сократится до 36 строк.

import streamlit as stimport pandas as pdfrom sklearn import datasetsfrom sklearn.ensemble import RandomForestClassifierst.write("""# Simple Iris Flower Prediction AppThis app predicts the **Iris flower** type!""")st.sidebar.header('User Input Parameters')def user_input_features():sepal_length = st.sidebar.slider('Sepal length', 4.3, 7.9, 5.4)sepal_width = st.sidebar.slider('Sepal width', 2.0, 4.4, 3.4)petal_length = st.sidebar.slider('Petal length', 1.0, 6.9, 1.3)petal_width = st.sidebar.slider('Petal width', 0.1, 2.5, 0.2)data = {'sepal_length': sepal_length,'sepal_width': sepal_width,'petal_length': petal_length,'petal_width': petal_width}features = pd.DataFrame(data, index=[0])return featuresdf = user_input_features()st.subheader('User Input parameters')st.write(df)iris = datasets.load_iris()X = iris.dataY = iris.targetclf = RandomForestClassifier()clf.fit(X, Y)prediction = clf.predict(df)prediction_proba = clf.predict_proba(df)st.subheader('Class labels and their corresponding index number')st.write(iris.target_names)st.subheader('Prediction')st.write(iris.target_names[prediction])#st.write(prediction)st.subheader('Prediction Probability')st.write(prediction_proba)

Разбор кода

Теперь разберём этот код.

Импорт библиотек

import streamlit as stimport pandas as pdfrom sklearn import datasetsfrom sklearn.ensemble import RandomForestClassifier

В этих строках мы импортируем библиотеки streamlit и pandas, назначая им, соответственно, псевдонимы st и pd. Мы, кроме того, импортируем пакет datasets из библиотеки scikit-learn (sklearn). Мы воспользуемся этим пакетом ниже, в команде iris = datasets.load_iris(), для загрузки интересующего нас набора данных. И наконец, тут мы импортируем функцию RandomForestClassifier() из пакета sklearn.ensemble.

Формирование боковой панели

st.sidebar.header('User Input Parameters')

В этой строке мы описываем заголовок боковой панели, используя функцию st.sidebar.header(). Обратите внимание на то, что тут sidebar стоит между st

и
header()

, что и даёт полное имя функции st.sidebar.header(). Эта функция сообщает библиотеке streamlit о том, что мы хотим поместить заголовок в боковую панель.

def user_input_features():sepal_length = st.sidebar.slider('Sepal length', 4.3, 7.9, 5.4)sepal_width = st.sidebar.slider('Sepal width', 2.0, 4.4, 3.4)petal_length = st.sidebar.slider('Petal length', 1.0, 6.9, 1.3)petal_width = st.sidebar.slider('Petal width', 0.1, 2.5, 0.2)data = {'sepal_length': sepal_length,'sepal_width': sepal_width,'petal_length': petal_length,'petal_width': petal_width}features = pd.DataFrame(data, index=[0])return features

Здесь мы объявляем функцию user_input_features(), которая берёт данные, введённые пользователем (то есть четыре характеристики цветка, которые вводятся с использованием ползунков), и возвращает результат в виде датафрейма. Стоит отметить, что каждый входной параметр вводится в систему с помощью ползунка. Например, ползунок для ввода длины чашелистика (sepal length) описывается так:

st.sidebar.slider(Sepal length, 4.3,
7.9, 5.4)

. Первый из четырёх входных аргументов этой функции задаёт подпись ползунка, выводимую выше него. Это, в данном случае, текст Sepal length. Два следующих аргумента задают минимальное и максимальное значения, которые можно задавать с помощью ползунка. Последний аргумент задаёт значение, выставляемое на ползунке по умолчанию, при загрузке страницы. Здесь это 5.4.

Создание модели

df = user_input_features()

Здесь датафрейм, сформированный функцией user_input_features(), которую мы только что обсудили, записывается в переменную df.

iris = datasets.load_iris()

Загрузка набора данных Iris из пакета sklearn.datasets и запись его в переменную iris.

X = iris.data

Создание переменной Х, содержащей сведения о 4 характеристиках цветка, которые имеются в iris.data.

Y = iris.target

Создание переменной Y, которая содержит сведения о виде цветка. Эти сведения хранятся в iris.target.

clf = RandomForestClassifier()

Здесь мы, пользуясь функцией RandomForestClassifier(), назначаем классификатор, основанный на алгоритме случайный лес, переменной clf.

clf.fit(X, Y)

Тут мы обучаем модель, пользуясь функцией clf.fit(), передавая ей в качестве аргументов переменные X и Y. Суть происходящего заключается в том, что модель будет обучена определению вида цветка (Y) на основе его характеристик (X).

prediction = clf.predict(df)

Получение сведений о виде цветка с помощью обученной модели.

prediction_proba = clf.predict_proba(df)

Получение сведений о прогностической вероятности.

Формирование основной панели

st.write("""# Simple Iris Flower Prediction AppThis app predicts the **Iris flower** type!""")

Здесь мы, пользуясь функцией st.write(), выводим текст. А именно, речь идёт о заголовке, выводимом в главной панели приложения, текст которого задан в формате Markdown. Символ # используется для указания того, что текст является заголовком. За строкой заголовка идёт строка обычного текста.

st.subheader('User Input parameters')

В этой строке, пользуясь функцией st.subheader(), мы указываем подзаголовок, выводимый в основной панели. Этот подзаголовок используется для оформления раздела страницы, в котором будет выведено содержимое датафрейма, то есть того, что было введено пользователем с помощью ползунков.

st.write(df)

Этой командой мы выводим на основную панель содержимое датафрейма df.

st.subheader('Class labels and their corresponding index number')

Данный код описывает второй подзаголовок основной панели. В этом разделе будут выведены данные о видах цветков.

st.write(iris.target_names)

Здесь, во второй раздел основной панели, выводятся названия видов цветков (setosa, versicolor и virginica) и соответствующие им номера (0, 1, 2).

st.subheader('Prediction')

Вывод третьего подзаголовка для раздела, в котором будет находиться результат классификации.

st.write(iris.target_names[prediction])

Вывод результата классификации. Стоит отметить, что содержимое переменной prediction это номер вида цветка, выданный моделью на основе входных данных, введённых пользователем. Для того чтобы вывести название вида, используется конструкция iris.target_names[prediction].

st.subheader('Prediction Probability')

Выводим заголовок четвёртого (и последнего) раздела основной панели. Здесь будут представлены данные о прогностической вероятности.

st.write(prediction_proba)

Вывод данных о прогностической вероятности.

Запуск веб-приложения

Код приложения сохранён в файле iris-ml-app.py. Мы готовы к тому, чтобы его запустить. Сделать это можно, выполнив следующую команду в терминале:

streamlit run iris-ml-app.py

Если всё идёт как надо, через некоторое время вы должны увидеть следующее:

> streamlit run iris-ml-app.pyYou can now view your Streamlit app in your browser.Local URL: http://localhost:8501Network URL: http://10.0.0.11:8501

Через несколько секунд должно появиться окно браузера, в котором будет открыт адрес http://localhost:8501.

То, что вы увидите, будет похоже на следующий рисунок.

Скриншот веб-приложения для классификации цветков ириса. Если щёлкнуть по стрелке, находящейся в левом верхнем углу окна, расположенного в верхней части рисунка, будет открыта боковая панель

Итоги

Можете себя поздравить: только что вы создали веб-приложение, в котором используются технологии машинного обучения. Вы вполне можете упомянуть подобное приложение в своём портфолио ML-проектов, а если хотите, можете опубликовать его на своём веб-сайте (правда, вы, вполне возможно, решите построить собственную модель, используя другие данные).

Пользуетесь ли вы библиотекой streamlit?

Они отличаются тем, что у гибридных (Ca+, Ca/Sb) свинцовый сплав положительных решёток легирован сурьмой, а отрицательных кальцием, тогда как у кальциевых (Ca/Ca) те и другие кальцием. В результате, выделение газов происходит при разных напряжениях заряда, и токи окончания заряда при этих напряжениях тоже разные.

Однако, современные автом

Приветствую всех читателей Habr! В своей сегодняшней статье, хочу рассказать вам о своем новом DIY беспроводном устройстве датчике качества воздуха. Помимо оценки качества воздуха, датчик может оценивать уровень освещенности в помещении, температуру, влажность и атмосферное давление, на основе данных атмосферного давления, устройство может предсказывать прогноз погоды. Это полностью открытый проект.

Изображения, используемые на веб-страницах, привлекают пользователей, пользователи довольно-таки охотно щёлкают по ним мышью. Изображения делают веб-страницы лучше во всём кроме скорости работы страниц. Изображения это огромные куски байтов, которые обычно являются теми частями сайтов, которые загружаются медленнее всего. В этом материале я собрал всё, что нужно знать в 2021 году об улучшении скорости работы веб-страни

Журналы все чаще отзывают научные статьи, потому что оказывается, что написаны они не теми, кем заявлено. Необходимо выработать более эффективные способы решения проблемы, в противном случае мы рискуем полностью утерять общественное доверие к науке.

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Сравнительно недавно Raspberry Pi Foundation выпустила плату Raspberry Pi Pico, основанную на микроконтроллере (Micro Controller Unit, MCU) RP2040. Эта плата привлекла большое внимание членов сообщества разработчиков различных электронных устройств. Появилось довольно много проектов, в которых используются программируемые модули ввода-вывода (Programmable I/O, PIO) Raspberry Pi Pico. Например, это проект

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

App Store самая строгая площадка для размещения приложений. Ревью проходит дольше и строже, чем у Google Play и Huawei App Gallery. В 2020 году AppStore отклонил миллион приложений, которые публиковались впервые, и миллион апдейтов.

С одной стороны, такая строгая политика это хорошо: пользователям легче выбрать приложение и быть уверенным, что оно безопасно. Однако для разработчиков это настоящая головная боль.

Наприм

Тестировать рекламные механики не так просто, как может показаться. Главные действующие лица здесь сторонние SDK, которые не особо подконтрольны команде разработки. А так как рекламные интеграции важная часть наших мобильных приложений, то ниже вместе с

Сталкивались ли вы с такой ошибкой? Пытались ее решить? Пробовали найти решение в сети и ничего не находили? Обычно, данная проблема решается простой перезагрузкой страницы.

Около года назад в Techgoise я получил возможность поработать с

В этом дайджесте обсуждаем конференцию WWDC и ее последствия, быстрые обновления Android и ответственность команд, автоматизацию с помощью таблиц, применение КММ, цвета, элементы управления и многое другое.

Этот дайджест доступен в виде еженедельной

Мы знаем, что ожидание заказа часто бывает утомительным, особенно когда очень хочется кушать. Мы пристально следим за пользовательским опытом, но над временем не властны и сократить ожидание ниже объективного минимума не можем.

В декабре у нашего разработчика Александра Верестникова возникла идея

На рынке мессенджеров сейчас есть примерно всё, как на Привозе. Есть решения на открытом коде, есть мессенджеры с миллиардом пользователей (или даже двумя). Но четкого понимания, что же взять с прилавка, чтоб все сотрудники огромного банка (и его 300+ дочек) с улыбкой открывали какой-то один и это всё

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Термин бережливого производства (Lean) в настоящее время на слуху. Мы все знаем результаты применения данной идеи в компании Toyota, которые позволили выпускать малые партии комплектующих точно в срок (Just-In-Time, JIT).

В книге Microsoft Secrets (1995 года) авторы (Кузумано и Ричард Селби) описали подходы контроля качества схожие с Lean применяемым в Toyota.

Выпуск малыми партиями как нельзя лучше подходит для разра

Для меня попадание в состояние потока является единственным способом продуктивной работы над сложными программными проектами. И я полагаю, что разработчик может так организовать свою жизнь, чтобы как можно сильнее удлинить время, которое он каждый день может проводить в этом состоянии. Тут я хочу рассказать о том, что лично я пытаюсь делать для того, чтобы чаще попадать в состояние потока.

	Русский
	English

Перевод Python и разработка простого веб-приложения, использующего технологии машинного обучения

Обзор модели, определяющей вид цветка ириса

Установка библиотек

Разработка веб-приложения

Разбор кода

Импорт библиотек

Формирование боковой панели

Создание модели

Формирование основной панели

Запуск веб-приложения

Итоги

Сейчас читают

Блог компании ruvds.com

Чем кальциевые аккумуляторы отличаются от гибридных?

Миниатюрный датчик качества воздуха на батарейке с e-ink экраном

Перевод Оптимизация веб-графики в 2021 году

Перевод Мы стоим на пороге кризиса Фальшивой науки

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Перевод Практический взгляд на Raspberry Pi Pico с точки зрения STM32

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Разработка мобильных приложений

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

За что App Store может отклонить приложение чек-лист

Гайд по тестированию рекламы для мобильных приложений

Перевод Десятикратное улучшение производительности React-приложения

Дайджест интересных материалов для мобильного разработчика 397 (7 13 июня)

We need to go deeper как пасхалка в приложении Delivery Club сократила субъективное время ожидания еды

Разработка

Недоумение про ещё один корпоративный чат или как сделать приятно всем

Перевод Оптимизация веб-графики в 2021 году

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Перевод Практический взгляд на Raspberry Pi Pico с точки зрения STM32

Мы решили внедрить Agile-Lean принципы в процесс разработки на ходу и вот что из этого получилось

Перевод Как попасть в состояние потока?

Категории

Последние комментарии