Перевод Data Science на пальцах. Статистика это наука менять свой взгляд на вещи в условиях неопределенности

Сотрудница Google объясняет статистику на пальцах для гуманитариев, которые хотят стать Data Scientists.

Что такое статистика? Какой-то устаревший способ погрязнуть в данных. Ага. На 100% технически правильное определение. Теперь давайте посмотрим, что есть статистика как дисциплина.

Статистика это наука о том, как менять свои представления.

Принимать решения, основываясь на фактах (параметрах), и так достаточно сложно, но проклятие! иногда у нас даже фактов нужных нет. Вместо этого то, что мы знаем (выборка), отличается от того, что мы хотели бы знать (совокупность). Вот что значит попасть в неопределенность.

Статистика это наука о том, как менять свои решения в условиях неопределенности. Как вы можете думать? Выбирать действия по умолчанию или следовать по пути априорных убеждений. Но что делать, если у вас в голове чистый лист? Почитайте лучше это.

Байесианцы меняют свое мнение насчет представлений.

Байесовская статистика это школа мысли, которая использует данные, чтобы обновить ваше представление. Байесианцы предпочитают сообщать результаты, используя доверительный интервал (два числа, которые интерпретируются как Я считаю, что ответ находится где-то между этим и этим).

Приверженцы частотной статистики меняют свое мнение насчет действий.

Частотная статистика использует данные, чтобы изменить ваше мнение о действиях. Вам не нужно иметь каких-либо представлений, чтобы совершить действия по умолчанию. Это в принципе то, как вы поступите, если не проанализируете данные. Частотная (она же классическая) это статистика, с которой вы чаще сталкиваетесь в природе, поэтому давайте присвоим ей имя классической до конца этой статьи.

Гипотезы это описания того, как может выглядеть мир.

Нулевая гипотеза описывает все миры, где выбор в пользу действия по умолчанию будет иметь удачным исход; альтернативная гипотеза описывает все остальные миры. Если я смогу вас убедить используя данные! что вы живете в мире не нулевых гипотез, то вам лучше передумать и предпринять альтернативные действия.

Например: Мы можем пойти на занятие вместе (действие по умолчанию), если вам обычно требуется меньше 15 минут, чтобы подготовиться (нулевая гипотеза), но если доказательства (данные) предполагают, что вам нужно больше времени (альтернативная гипотеза), вы можете пойти один, потому что я пошел (альтернативное действие).

Быстрая проверка: Мои доказательства превращают нулевую гипотезу в нелепость?

Вся проверка гипотез сводится к вопросу: делают ли мои доказательства нулевую гипотезу нелепой? Отказ от нулевой гипотезы означает, что мы что-то узнали и должны изменить свое мнение. Не опровержение значит, что мы не узнали ничего интересного. Это как оказаться в лесу, не встретить там людей и сделать вывод, что на планете нет больше людей. Это всего лишь значит, что мы не узнали ничего интересного о существовании людей. Вам грустно, что мы ничего не узнали? Так быть не должно, потому что у вас есть прекрасный страховой полис: вы точно знаете, какие действия предпринять. Если вы ничему не научились, у вас нет причин менять свои представления продолжайте следовать действиям по умолчанию.

Итак, как мы поймем, что узнали нечто интересное нечто не соответствующее миру, в котором мы хотим продолжать выполнять наши действия по умолчанию? Чтобы получить ответ, мы можем взглянуть на p-значение или на достоверный интервал.

Р-значение в периодической таблице элемент неожиданности.

P-значение говорит: Если я живу в мире, в котором должен принимать такое-то действие по умолчанию, насколько тогда не удивительны мои доказательства? Чем ниже p-значение, тем больше данные кричат: Ого, это же удивительно! Может, вам стоит изменить ваше мнение!

Чтобы пройти тест, сравните p-значение с порогом, называемым уровнем значимости. Это рычаг, с помощью которого вы можете регулировать количество риска. Максимальная вероятность по глупости покинуть уютное, нагретое местечко в виде действия по умолчанию. Если установите уровень значимости равным 0, значит вы не хотите совершать ошибку и неоправданно отказываться от действия по умолчанию. Крутим рычаг вниз! Не анализируйте данные, просто выполняйте действия по умолчанию. (Но это также может значит, что вы в конечном итоге тупо НЕ откажетесь от плохого действия по умолчанию.)

Как использовать p-значения, чтобы узнать результат проверки гипотезы. (Никто не заподозрит, что мой xkcd-подделка)

Достоверный интервал это просто способ узнать результаты проверки гипотезы. Чтобы его использовать, проверьте, совпадает ли он с вашей нулевой гипотезой. Если да, совпадает, то узнавать нечего. Если нет примите другое решение.

Меняйте мнение только в том случае, если достоверный интервал не совпадает с вашей нулевой гипотезой.

Хотя техническое значение термина достоверный интервал немного странновато (я расскажу вам подробно о нем в следующем посте, он определенно не так прост как доверительный интервал, с которым мы познакомились ранее), он также обладает двумя полезными свойствами, которые аналитики любят использовать при описании своих данных: (1) всегда есть лучшее предположение и (2) с появлением данных интервал становится уже. Берегитесь, ни интервал, ни p-значение не были созданы не для того, чтобы говорить о них было приятно, поэтому не ожидайте содержательных определений. Это просто способ обобщить результаты тестов. (Если вы ходили на занятия и не могли запомнить определения, то вот оно почему. От имени статистики: это не вы, это все я).

Какой в этом смысл? Если вы проводите тестирование так, как я только что описала, математика гарантирует, что ваш риск совершить ошибку ограничен выбранным вами уровнем значимости (именно поэтому важно, чтобы вы, эм, выбирали его математика и существует для того, чтобы гарантировать выбранные вами параметры риска, и будет немного бессмысленно, если вы не потрудитесь их все-таки выбрать).

Математика это построение игрушечной модели вселенной нулевых гипотез. Так вы получаете p-значение.

Математика это все о создании и изучении игрушечных вселенных (как это круто, да, товарищи, одержимые манией величия?! Очень круто!) чтобы проверить, насколько вероятно возникновение наборов данных, подобных вашим. Если едва ли ваша игрушечная модель вселенной нулевой гипотезы даст данные подобные тем, которые вы получили из реального мира, то тогда ваше p-значение будет низким, и в итоге вы отвергнете нулевую гипотезу надо вам передумать!

К чему все эти безумные формулы, вероятности и распределения? Благодаря им мы излагаем правила, регулирующие вселенную нулевой гипотезы. Мы можем выяснить, является ли эта вселенная местом, которое выдает данные, похожие на те, что вы получили в реальной жизни. Если нет, то вы кричите: Смешно! Голову с плеч! А если да, то просто пожимаете плечами и ничего нового не получаете. Подробнее об этом я расскажу в следующем посте. А пока, просто поразмыслите о математике, как об инструменте создания маленьких игрушечных миров, чтобы мы могли посмотреть, выглядит ли наш набор данных в них разумным. P-значение и достоверный интервал это способы обобщить всю эту информацию для, поэтому вам не нужно жмуриться от многословного описания вселенной. Здесь кроется развязка: используйте их, чтобы проверить, стоит ли следовать действиям по умолчанию. И работа сделана!

А мы сделали домашнее задание? Вот в чем меры мощности.

Подождите-ка, а мы выполнили домашнюю работу, чтобы убедиться, что действительно собрали достаточно доказательств, чтобы появилась честная возможность изменить свое мнение? Вот в чем заключается концепция мощности в статистике. Очень легко не найти никаких меняющих мнение доказательств просто не искать их. Чем выше мощность, тем больше возможностей изменить свое мнение, в случае, если это будет правильным. Мощность это вероятность правильного отказа от действия по умолчанию.

Когда мы не узнаем ничего нового и продолжаем делать, что делали, то, имея большую мощность, нам становится проще относится к нашему процессу. По крайней мере, мы сделали домашнее задание. Если бы у нас не было вообще никакой мощности, мы бы знали, что нет нужды менять свое мнение. С таким же успехом можно не утруждать себя анализом данных.

Используйте анализ мощности, чтобы проверить, достаточно ли данных вы предусмотрели, прежде чем начинать.

Анализ мощности это способ проверить, какую мощность вы ожидаете получить для данного объема данных. Вы используете его, чтобы спланировать свои исследования, прежде чем начать. (Все довольно просто; в следующем посте я покажу вам, что на самом деле нужно всего несколько циклов.)

Неопределенность означает, что вы можете прийти к неправильному выводу, даже если у вас лучшая математика в мире.

Чего нет в статистике? Волшебной магии, которая может неопределенность превратить в определенность. Нет такой магии, которая могла бы сделать это; вы все еще можете допустить ошибку. К слову об ошибках, вот две ошибки, которые вы можете допустить в частотной статистике. (Байесианцы не ошибаются. Шучу! Ну, вроде того.)

Ошибка I типа отказаться по глупости от действия по умолчанию. Эй, вы же говорили, что вам было удобно следовать действию по умолчанию, и теперь, после всех своих расчетов, отказались от него. Ой! Ошибка II типа по глупости не отказаться от действий по умолчанию. (Мы, статистики, крайне изобретательны в придумывании названий. Угадайте, какая ошибка хуже. Тип I? Ага. Очень креативно.)

Ошибка I типа поменять мнения, когда не следовало бы.

Ошибка II типа не поменять мнения, когда следовало бы.

Ошибка I типа похожа на осуждение невиновного, а ошибка II типа на неспособность осудить виновного. Это равновесно вероятные ошибки (что упрощает суд над виновным, также упрощает его и над невиновным), если только у вас не будет больше доказательств (данных!), тогда уже вероятность допустить ошибку становится ниже, и дела идут на поправку. Вот почему статистики хотят, чтобы у вас было много, РЕАЛЬНО МНОГО данных! Всё идет хорошо, когда вы располагаете большим количеством данных.

Чем больше данных, тем ниже вероятность прийти к неверному выводу.

Что такое множественная проверка гипотез? Вы должны проводить тестирование другим, скорректированным образом, если собираетесь задавать несколько вопросов одного и того же набора данных. Если вы продолжите снова и снова подвергать невиновных подозреваемых суду (прощупывая почву своих данных), в конце концов, из-за случайного совпадения кто-нибудь да окажется виновным. Термин статистическая значимость не означает, что в рамках вселенной произошло что-то важное. Это всего лишь значит, что мы поменяли мнение. Возможно, на неправильное. Будь проклята эта неопределенность!

Не тратьте время, старательно отвечая на неправильные вопросы. Пользуйтесь статистикой с умом (и только при необходимости).

Что такое ошибка III типа? Это своего рода статистическая шутка: она относится к правильному отклонению неправильной нулевой гипотезы. Другими словами, использование правильной математики для ответа на неправильный вопрос.

Лекарство от задавания неправильных вопросов и неправильных ответов на них можно найти, заглянув в Decision Intelligence. Это новая дисциплина, которая занимается наукой о данных и применяет ее для решения бизнес-задач и поиска правильных решений. С помощью decision intelligence вы повысите свой иммунитет к ошибкам III типа и бесполезной аналитике.

Итак, подытожим: статистика это наука о том, как менять свои представления. Существует две школы мысли. Наиболее популярная частотная статистика проверяет, следует ли отказаться от действия по умолчанию. Байесовская статистика занимается априорным мнением и его модернизацией с помощью новых данных. Если у вас в голове чистый лист, прежде чем начать, взгляните на данные и просто прислушайтесь к своей интуиции.

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Курс по Machine Learning (12 недель)
Курс Профессия Data Scientist (24 месяца)
Курс Профессия Data Analyst (18 месяцев)
Курс Python для веб-разработки (9 месяцев)

Читать еще

Крутые Data Scientist не тратят время на статистику
Как стать Data Scientist без онлайн-курсов
Шпаргалка по сортировке для Data Science
Data Science для гуманитариев: что такое data
Data Scienсe на стероидах: знакомство с Decision Intelligence

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Примечание переводчика: перед началом чтения этого лонгрида налейте себе кружку любимого напитка, потому что чтиво будет непростым и, возможно, навсегда изменит ваше отношение к сервису.

Наверняка вам приходилось слышать о нелёгкой работе мод

Автор: Alex Wulff (из-за глюков хабраредактора не получилось оформить как перевод)

К старту курса о

Системы обнаружения Covid-19 на рентгеновских снимках выдают быстрые результаты, в частности информацию о том, насколько серьёзно лёгкие поражены вирусом Covid-19. Традиционные системы обнаружения Covid-19 обладают тем недостатком, что для формирования отчётов им требуется дов

Линейный поиск это алгоритм оптимизации, который может использоваться для целевых функций с одной или несколькими переменными. Он предоставляет возможность использовать алгоритм одномерной оптимизации, например поиск методом деления пополам (бисекции) для многомерной целевой

Пример расчётного доказательства в Lean

Математики давно используют компьютеры в своей работе как инструменты для сложных вычислений и выполнения рутинных операций перебора. Например, в 1976 году методом компьютерного перебора была доказана

Зарабатывать продажей лекарств, которые заведомо не работают, не только аморально, но и не особо легко. Люди всё-таки обычно не хотят покупать препараты, неэффективность которых была доказана. А вот если вы сумели выдавить заветное p < 0.05 в пользу того, что акупунктура та

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

В дополнение к открытым спутниковым данным, некоторые из которых перечислены в статье Общедоступные данные дистанционного зондирования Земли: как получить и использовать, существует и множество производных продуктов например, рельеф. Притом можно найти открытый рельеф разного пространственного разрешения, равно как и множество коммерческих, и появляется задача выбрать лучший продукт из доступных.

Призма Вельда-Бланделла

На рубеже четвертого и третьего тысячелетия до нашей эры на Земле возникли две первые цивилизации. В долине Нила после объединения верхнего и нижнего Египта образовалось

Они отличаются тем, что у гибридных (Ca+, Ca/Sb) свинцовый сплав положительных решёток легирован сурьмой, а отрицательных кальцием, тогда как у кальциевых (Ca/Ca) те и другие кальцием. В результате, выделение газов происходит при разных напряжениях заряда, и токи окончания заряда при этих напряжениях тоже разные.

Однако, современные автом

Обложка к комиксу Weird science. 50-годы

NASA разрабатывает планетоход VIPER (Volatiles Investigating Polar Exploration Rover), который будет искать и составлять карту залежей воды на Луне.

Взгляд на наше космическое будущее из 1970-х годов

В период с 1956 по 1962 годы психолог Кейптаунского университета Курт Данцигер проводил масштабный опрос. По его просьбе 436 южноафриканских школьников и студентов написали

Восставший может погрузиться вбездну, апогрузившийся вбездну может вновь восстать. (Говард Филипс Лавкрафт. Зов Ктулху)

В бездну пучин сланцевых пород скалы эпохи Велнока,что на юге графства Херефордшир (Великобритания) раз за разом п

(Примечание переводчика: не нашёл публикации (-ий) по данной теме на Хабре.)

Блоуинг Рок, Северная Каролина, 21 декабря 2018 года организация Great Internet Mersenne

^{Предтеча мультиметра гальванометр}
Многие из нас практически ежедневно использует мультиметр по работе или в ходе реализации каких-то хобби-проектов. Есть простенькие мультиметры, которые измеряют лишь силу тока и напряжение. Есть очень сложные приборы, которые, кажется, способны измерить

Логотип статьи определяет три, как временные, так и географические, точки на моём жизненном пути, через которые лежал мой путь в страну под названием Программирование. В городе Чебоксары, на родине легендарного комдива Гражданской войны В.И.Чапаева, прошло моё детство (1954-1968 г.г.), там я закончил 8

Как пришел я к тому чтобы вообще начать учить JS

В 2019 году, 1 сентября, в дождливый осенний день, я решил навсегда завязать с прошлым. Последние 5 лет работы менеджером не приносили удовольствия и не несли перспектив. Увольняюсь с должности менеджера вино-торговой компании, подумал я. И погружаюсь в программирование!

Три месяца до декабря я упорно изучал HTML + CSS и верил, что легко попаду в разработчики, стоит м

Я учусь иллюстрировать сложные процессы с помощью комиксов. Нашла себе в копилку крутой кейс: как с помощью комиксов про милых выдр можно ребенку объяснить такую сложную штуку как Apache Kafka,

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Всем привет!

Статья посвящена тем, кто только врывается в увлекательный мир программирования на Java и ищет применения своим знаниям. Классно, что вы теперь знаете, как создавать переменные, методы и массивы, но, конечно, хочется писать "полезные" для человечества программы, а не выполнять многочисленные мелкие упражнения и задачи, хотя без этого тоже никуда. В общем, будем дополнять теорию практикой. Поехали!

Для нач

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится изучать их код и представлять, как компьютер будет его выполнять. Это странно почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать на

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Митап пройдет в онлайн-формате, начало в 19:00. Обязательна предварительная

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие ба

Иллюстрация: UCI

Наша [Ирвинга Капланского и Пола Халмоша] общая философия в отношении линейной алгебры такова: мы думаем в безбазисных терминах, пишем в безбазисных терминах, но когда доходит до серьезно

Всем привет! Меня зовут Андрей, недавно яприсоединился ккоманде VSRobotics изанимаюсь проектом автопостроителя сценариев диалогов робота-оператора. Вэтом посте хочу поделиться историей своего трудоустройства ирешением задачи LGD prediction, которое мне вэтом очень помогло. Не

В этой статье я расскажу о том, почему нормально иногда делать анализ данных в браузере.

В чем суть?

На своей работе в качестве React Front-end разработчика я обычно работаю с дашбордами и различными видами данных. В какой-то момент нам понадобилось добавить предсказания по метрикам, а в команде не было специалистов по анализу данных, которые могли бы этим заняться.

Школа наставников это онлайн-интенсив из 5 занятий, где обучают будущих наставников сервиса онлайн-образования Яндекс.Практикум.

Наставники это опытные IT-специалисты, которые отвечают на вопросы студентов и проводят в

Как выбрать школу или преподавателя иностранного языка, чтобы не потерять время и деньги? Объясняем на пальцах.

Это такая же непростая задача, как выбрать подрядчика для выполнения любых работ и оказания любых услуг, в которых вы не профи.

Есть

Многие из нас начинают и бросают много самых разных дел. В этом плане онлайн-обучение не исключение, а один из самых частых примеров. По данным исследования, про

Предыдущий пост см. здесь.

Предсказание

В заключении, мы подходим к одному из наиболее важных применений линейной регрессии: предсказанию. Мы натренировали модель способную предсказывать вес олимпийских пловцов при наличии данных об их росте, половой принадлежности и годе рождения.

9-кратный олимпийский чемпион по плаванию Марк Шпитц завоевал 7 золотых медал

Предыдущий пост см. здесь.

Регрессия

Хотя, возможно, и полезно знать, что две переменные коррелируют, мы не можем использовать лишь одну эту информацию для предсказания веса олимпийских пловцов при наличии данных об их росте или наоборот. При установлении корреляции мы измерили силу и знак связи, но не наклон, т.е. угловой коэффициент. Для генерирования предсказания необход

Чем больше я узнаю людей, тем больше мне нравится моя собака.

Марк Твен

В предыдущих сериях постов из ремикса книги Генри Гарнера Clojure для исследования данных (Clojure for Data Science) на языке Python мы рассмотрели методы описания выборок с точки зрения сводных статистик и методов статистического вывода из них параметров популяции. Такой анализ сообщает нам не

	Русский
	English

Перевод Data Science на пальцах. Статистика это наука менять свой взгляд на вещи в условиях неопределенности

Читать еще

Сейчас читают

Блог компании skillfactory

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод Как Airbnb скрывает кошмары при помощи тайной команды чистильщиков

DIY регистратор молний

Перевод Быстрое обнаружение Covid-19 на рентгеновских снимках с помощью Raspberry Pi

Перевод Оптимизация при помощи линейного поиска на Python

Математика

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Компьютерное доказательство теории конденсированной математики первый шаг к великому объединению

Перевод Plt0.05, и откуда оно (иногда) берётся

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Оцениваем открытые и коммерческие цифровые модели рельефа

Тайна списка шумерских царей. Часть 1. Машина времени

Научно-популярное

Чем кальциевые аккумуляторы отличаются от гибридных?

Странник VIPER как сконструирован планетоход и что он будет делать на Луне

Почему люди так плохо прогнозируют будущее

По просьбам читателей Хтоническое существо в реальном прошлом

Новые рекорды найдено 51-ое простое число Мерсенна

Краткая история мультиметра как он появился и кто его создатели

Учебный процесс в it

Пятьдесят лет на стезе программирования. Часть I. Начало пути. Отчий дом и Казанское суворовское военное училище

История о том, как я иду к должности JS разработчика через обучение на курсах в Skillbox

Как пришел я к тому чтобы вообще начать учить JS

Перевод Как объяснить детям, что такое Apache Kafka за 15 минут с картинками и выдрами

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Морской бой на Java для новичков. Level 1

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

Data science

RamblerMeetupampUsermodel

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

Перевод Линейная алгебра для исследователей данных

Как я предсказал LGD на хакатоне и устроился на работу

Перевод Прогнозирование временных рядов на JS анализ данных для самых маленьких фронтендеров

В чем суть?

Учебный процесс

Бесплатная Школа наставников для разработчиков, тестировщиков и аналитиков стартует 5 июля

Английский язык выбери меня, птица счастья

Пройти до конца почему бросать и снова начинать учиться это нормально

Python, корреляция и регрессия часть 4

Предсказание

Python, корреляция и регрессия часть 2

Регрессия

Python, корреляция и регрессия часть 1

Категории

Последние комментарии