Зная, насколько эта публикация может оказаться воспринятой как "политическая" и насколько разнятся мнения людей по определенным злободневным вопросам, сразу внесу следующие оговорки:
Автор публикации не является расистом, не считает, что представителей одних рас должны обладать какими-либо привилегиями или предпочтениями по сравнению с представителями других рас. Для меня все люди - братья!
Автор не стремится придать публикации политическую или социальную окраску, поддерживая ту или иную распространенную точку зрения на социально-политические темы, которые выходят за рамки этой публикации.
Цель публикации - статистический анализ данных из открытых источников и выявление взаимосвязей и закономерностей; широкие выводы предоставляется сделать читателям.
Все данные, использованные в статье, взяты их открытых источников, прямо указанных в самом тексте. Каждый из вас может их верифицировать. При этом автор не несет ответственность за валидность данных в самих источниках, принимая их "как есть" и не изменяя никакие исходные данные. Поэтому сомнения в валидности настоящего исследования должны относиться к исходным данным, на которые автор не может повлиять.
Я не считаю себя профессиональным Data Scientist и использую самые базовые инструменты анализа данных (при этом, наверное, не всегда наиболее оптимальным способом). Буду благодарен каждому за подсказки, как можно сделать то или иное более эффективно или углубить исследование!
Во времена Советского Союза нашим с вами, уважаемые читатели, папам и мамам, дедушкам и бабушкам неустанно и отовсюду напоминали о том, как "империалисты" притесняли и угнетали представителей иных рас, как уже после отмены крепостного права в Российской Империи американские капиталисты продолжали использовать рабский труд африканцев и их потомков, как и в нынешнем (на то время) двадцатом веке издевательства не прекращаются даже после формального упразднения рабства, выражаясь в самых возмутительных формах апартеида, унижений, расизма и ненависти... Классические романы вроде "Хижины дяди Тома" Гарриет Бичер-Стоу и "Убить пересмешника" Харпер Ли еще сильнее упрочняли негодование борцов за свободу по всему миру. Да, расизм со стороны белых процветал в США до 1960-х - 1970-х. Но и, конечно, эти притеснения были отличным подспорьем для социалистической пропаганды, не щадящей красок в живописании "зверств акул капитализма". С середины 1950-х в США началось сильное движение за борьбу с расовым неравенством, которое было в итоге поддержано властями и кардинально изменило ситуацию с социальными свободами к 1980-м. Обо всем этом можно прочитать хотя бы в Википедии. А что теперь?..
Иллюстрация к роману Г. Бичер-Стоу "Хижина дяди Тома". "Классическое" изображение рабского труда африканцев.Почти все то же, что наши родичи читали со страниц "Правды" в 1960-х, сейчас мы слышим со всех американских СМИ. Расовая несправедливость! Насилие со стороны полиции и иных слуг закона! Как мы все видели, после гибели Джорджа Флойда в США начались массовые протесты, перешедшие местами в беспорядки и погромы под лозунгом Black Lives Matter. Итог общественного мнения в США на сегодняшний день: полиция убивает чернокожих по причине массового расизма со стороны белых.
Как и многим из вас (я уверен), мне часто хочется самостоятельно разобраться в каком-то вопросе, особенно если:
вопрос широко обсуждается и составляет предмет споров
освещение почти во всех СМИ носит явно окрашенный характер (т.е. налицо пропаганда той или иной позиции)
есть достаточное количество исходных данных, доступных для изучения
Интересно заметить, что эти три пункта связаны между собой: 1) злободневные вопросы почти всегда однобоко освещаются прессой, так как истинно свободной прессы почти нет (да и была ли когда-то?) 2) злободневные темы порождают сообщества активистов, которые начинают собирать и анализировать данные в поддержку своей точки зрения (или во имя справедливости); также данные начинают открывать / предоставлять публике официальные источники (чтобы их нельзя было обвинить в сокрытии оных). Об имеющихся данных поговорим чуть позже, а пока - цели исследования.
Я хотел для себя ответить на несколько вопросов:
Какова статистика применения поражающего огня полицейскими против черных и белых в абсолютном выражении (т.е. количество случаев) и в удельном выражении (на количество представителей обеих рас)? Можно ли сказать, что полицейские убивают черных чаще, чем белых?
Какова статистика совершения преступлений представителями обеих рас (в абсолютном и удельном выражениях)? Представители какой расы статистически чаще совершают преступления?
Имеется ли взаимосвязь между статистикой совершения преступлений и статистикой гибели от рук полиции (в целом по США, а также отдельно для белых и черных)? Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?
Каким образом найденные закономерности (по пунктам 1-3) распределены между отдельными штатами США?
На данный момент это все вопросы, однако, я не исключаю, что могут добавиться и другие в процессе исследования, которое пока выполнено лишь на самом поверхностном уровне.
Вы ведь прочитали дисклеймер в начале статьи? :) Кроме того, что там написано, вот еще несколько допущений и оговорок, принятых для исследования в основном в целях упрощения:
Исследование касается только США и не распространяется на другие страны.
Представителей чернокожей расы в США для краткости я могу называть "черными", а представителей белокожей расы - "белыми"; эти краткие наименования не отражают какого-то неуважения, а приняты именно для лаконичности.
Представители белокожей расы ("белые") включают латиноамериканцев (проживающих на территории США), но исключают представителей азиатских рас, американских индейцев, гавайцев, эскимосов и представителей смешанных рас, в соответствии с данными по населению в Википедии, взятыми из официальной переписи населения в США.
Для настоящего исследования взяты только белая и черная расы; представители иных рас, а также те, чья раса не указана в источниках, не включены в исследование. Это ограничение сделано для упрощения, основываясь на том, что эти две категории составляют совместно более 80% всего населения США. При этом я не исключаю, что на будущих этапах будут добавлены и остальные расовые категории для полной картины.
Теперь поговорим о том, какие данные используются для исследования. Исходя из обозначенных целей нам нужны данные по:
совершенным преступлениям с указанием расовой принадлежности, видов преступления и штатов
гибели от рук полиции с указанием расовой принадлежности погибших и места события (штата)
численности населения по годам с указанием расовой принадлежности (для вычисления удельных показателей)
Для данных по преступлениям использовалась открытая база данных ФБР Crime Data Explorer, обладающая расширенным API и содержащая детальные данные по преступлениям, арестам, жертвам преступлений в США с 1991 по 2018 год.
Для данных по гибели от рук полиции использовалась открытая база данных на сайте Fatal Encounters, поддерживаемая сообществом. На настоящий момент база (доступная для скачивания) содержит более 28 тысяч записей начиная с 2000 года с подробной информацией о каждом погибшем, кратким описанием события, ссылками на СМИ, местом события и т.д. В Интернете есть и другие базы данных с тем же назначением, например, на сайте MappingPoliceViolence (около 8400 записей с 2013 г.) или БД Washington Post (ок. 5600 записей с 2015 г.). Но БД Fatal Encounters (FENC) на текущий момент самая подробная и имеет самый длинный период наблюдений (20 лет), поэтому я использовал ее. Кстати сказать, официальные источники (ФБР) также обещают открыть базу данных применения силы службами порядка, но это наступит только когда наберется представительная выборка данных. Прочитать об этой будущей официальной базе можно по ссылке.
Наконец, данные по общей численности представителей различных рас взяты из Википедии, которая в свою очередь, берет эти данные из официальных источников - Бюро переписи населения США. К сожалению, данные доступны только за промежуток с 2010 по 2018 год. В связи с этим в рамках данного исследования пришлось: 1) ограничить конечную точку наблюдений 2018 годом; 2) для промежутка с 2000 по 2009 год использовать данные по численности населения, смоделированные при помощи простой линейной регрессии (что вполне оправдано учитывая линейную природу прироста населения). Таким образом, мы будем исследовать все данные за период с 2000 г. (начальная точка в БД FENC) по 2018 г. (конечная точка в данных по численности населения). Все результаты будут основаны на наблюдениях за эти 18 лет.
Прежде чем приступить к анализу, необходимо загрузить вышеуказанные исходные данные в удобном виде и подготовить их для использования.
С данными по гибели от рук полиции все понятно: просто скачиваем всю БД с сайта и сохраняем как CSV (можно оставить и в XLSX, но я предпочитаю CSV для унификации и экономии). Здесь прямая ссылка на исходный датасет в Google Spreadsheets, здесь уже готовый CSV.
Поля данных (использованные в анализе выделены жирным шрифтом):Unique ID - ID в БД
Subject's name - имя жертвы
Subject's age - возраст жертвы
Subject's gender - пол жертвы
Subject's race - раса жертвы (официально указанная)
Subject's race with imputations - раса жертвы (официально указанная или заполненная экспертом)
Imputation probability - вероятность экспертной оценки расы
URL of image of deceased - фото жертвы
Date of injury resulting in death (month/day/year) - дата события
Location of injury (address) - адрес события
Location of death (city) - город события
Location of death (state) - штат события
Location of death (zip code) - почтовый индекс адреса события
Location of death (county) - округ события
Full Address - полный адрес события
Latitude - координата широты
Longitude - координата долготы
Agency responsible for death - правоохранительная служба, причинившая смерть
Cause of death - причина смерти
A brief description of the circumstances surrounding the death - краткое описание обстоятельств
Dispositions/Exclusions INTERNAL USE, NOT FOR ANALYSIS - исключения (НЕ ДЛЯ АНАЛИЗА)
Intentional Use of Force (Developing) - применение силы (намеренное)
Link to news article or photo of official document - ссылка на СМИ
Symptoms of mental illness? INTERNAL USE, NOT FOR ANALYSIS - симптомы помешательства жертвы (НЕ ДЛЯ АНАЛИЗА)
Video - видео
Date&Description - дата и описание
Unique ID formula - формула ID
Unique identifier (redundant) - НЕ ИСПОЛЬЗУЕТСЯ
Date (Year) - год события
Данные по численности населения я сохранил с Википедии и при помощи Excel дополнил модельными данными за 2000 - 2009 гг., применив простую регрессию. Здесь можете взять Excel и итоговый CSV.
Поля данных (использованные в анализе выделены жирным шрифтом):Year - год
Whitepop - численность белых
Blackpop - численность черных
Asianpop - численность азиатов
Native Hawaiianpop - численность гавайцев
American Indianpop - численность индейцев и эскимосов
Unknownpop - численность других рас / без указания расы
Самое интересное - это скачать и подготовить данные по преступлениям с БД ФБР. Для этого я написал программу на Python, которая подключается к публичному API при помощи API-ключа (который я специально получил на том же сайте). API использует REST для запросов к различным имеющимся базам данных и возвращает данные в виде JSON. Программа скачивает и объединяет данные в единый DataFrame, который затем сохраняется в CSV. В тот же файл добавляются и данные по численности населения с вычислением удельных показателей по преступлениям.
Поля данных (использованные в анализе выделены жирным шрифтом):Year - год
Offense - вид преступления, одно из:
All Offenses - все преступления
Assault Offenses - нападения
Drugs Narcotic Offenses - преступления, связанные с оборотом наркотиков
Larceny Theft Offenses - воровство
Murder And Nonnegligent Manslaughter - убийство
Sex Offenses - преступления на сексуальной почве
Weapon Law Violation - нарушение хранения / оборота оружия
Class - классификатор (здесь это раса, но может быть также возраст, пол и т.д.)
Offender/Victim - данные по преступникам или жертвам (в этом анализе речь пока только о преступниках)
Asian - количество преступлений, совершенных азиатами
Native Hawaiian - количество преступлений, совершенных гавайцами
Black - количество преступлений, совершенных черными
American Indian - количество преступлений, совершенных индейцами и эскимосами
Unknown - количество преступлений, совершенных представителями других рас
White - количество преступлений, совершенных белыми
Whitepop - численность белых на соответствующий год
Blackpop - численность черных на соответствующий год
Asianpop - численность азиатов на соответствующий год
Native Hawaiianpop - численность гавайцев на соответствующий год
American Indianpop - численность индейцев и эскимосов на соответствующий год
Unknownpop - численность представителей других рас на соответствующий год
Asian pro capita - удельное количество преступлений, совершенных азиатами (на 1 человека)
Native Hawaiian pro capita - удельное количество преступлений, совершенных гавайцами (на 1 человека)
Black pro capita - удельное количество преступлений, совершенных черными (на 1 человека)
American Indian pro capita - удельное количество преступлений, совершенных индейцами и эскимосами (на 1 человека)
Unknown pro capita - удельное количество преступлений, совершенных представителями других рас (на 1 человека)
White pro capita - удельное количество преступлений, совершенных белыми (на 1 человека)
Весь анализ я провожу с помощью Python 3.8, используя интерактивный Jupyter Notebook. Дополнительные библиотеки:
pandas 1.0.3 (для анализа данных)
folium 0.11 (для визуализации карт)
Все это "добро" (включая сам Python) доступно мне из дистрибутива WinPython, который я давно использую на Windows из-за его очевидных преимуществ. Вы, конечно, можете использовать любой другой на ваш вкус (например Anaconda) или вообще обойтись просто Python, установив нужные пакеты.
Вообще же, этот же анализ можно с легкостью выполнить с помощью любого другого статистического / математического ПО: R, MatLab, SAS и даже Excel. Как говорится, выбирайте свое оружие :)
В следующей части приступим непосредственно к анализу.
В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...
Импортируем библиотеки и определяем путь к директории со всеми файлами:
import pandas as pd, numpy as np# путь к папке с исходными файламиROOT_FOLDER = r'c:\_PROG_\Projects\us_crimes'
Начнем с анализа данных по жертвам полиции. Давайте подгрузим файл из CSV в DataFrame:
# Файл с БД Fatal Encounters (FENC)FENC_FILE = ROOT_FOLDER + '\\fatal_enc_db.csv'# грузим в DataFramedf_fenc = pd.read_csv(FENC_FILE, sep=';', header=0, usecols=["Date (Year)", "Subject's race with imputations", "Cause of death", "Intentional Use of Force (Developing)", "Location of death (state)"])
Заметьте сразу, что мы не грузим все поля из БД, а только необходимые нам для анализа: год, расовая принадлежность (с учетом экспертной оценки), причина смерти (здесь пока не используется, но может понадобиться в дальнейшем), признак намеренного применения силы и штат, в котором имело место событие.
Здесь надо пояснить, что такое "экспертная оценка" расовой принадлежности. Дело в том, что официальные источники, откуда FENC собирает данные, не всегда указывают расу жертвы, отсюда получаются пропуски в данных. Для компенсации этих пропусков сообщество привлекает экспертов, оценивающих расу жертвы по другим данным (с определенной погрешностью). Более подробно на эту тему можете почитать на самом сайте Fatal Encounters или загрузив исходный Excel файл (во втором листе).
Переименуем столбцы для удобства и очистим строки с пропущенными данными:
df_fenc.columns = ['Race', 'State', 'Cause', 'UOF', 'Year']df_fenc.dropna(inplace=True)
Теперь нам надо унифицировать наименования расовой принадлежности для того, чтобы в дальнейшем сопоставлять эти данные с данными по преступлениям и численности населения. Классификация рас в этих источниках немного разная. БД FENC, в частности, выделяет латиноамериканцев (Hispanic/Latino), азиатов и уроженцев тихоокеанских территорий (Asian/Pacific Islander) и среднеазиатов (Middle Eastern). Нас же интересуют только белые и черные. Поэтому сделаем укрупнение:
df_fenc = df_fenc.replace({'Race': {'European-American/White': 'White', 'African-American/Black': 'Black', 'Hispanic/Latino': 'White', 'Native American/Alaskan': 'American Indian', 'Asian/Pacific Islander': 'Asian', 'Middle Eastern': 'Asian', 'NA': 'Unknown', 'Race unspecified': 'Unknown'}}, value=None)
Оставляем только данные по белым (теперь с учетом латино) и черным:
df_fenc = df_fenc.loc[df_fenc['Race'].isin(['White', 'Black'])]
Зачем нам поле "UOF" (намеренное использование силы)? Для исследования мы хотим оставить только случаи, когда полиция (или иные правоохранительные органы) намеренно применяли силу против человека. Мы опускаем случаи, когда человек совершил самоубийство (например, в результате осады полицией) или погиб в результате ДТП, преследуемый полицейскими. Это допущение сделано по двум причинам: 1) обстоятельства гибели по косвенным причинам часто не позволяют провести прямую причинно-следственную связь между действиями правоохранительных органов и смертью (пример: полицейский держит на мушке человека, который затем умирает от сердечного приступа; другой пример: при задержании преступник пускает себе пулю в лоб); 2) при рассмотрении действий властей расценивается именно применение силы; так, например, будущая официальная БД по применению силы (которую я упомянул в предыдущей статье) будет содержать именно данные, отражающая намеренное применение смертельной силы против граждан. Итак, оставляем только эти данные:
df_fenc = df_fenc.loc[df_fenc['UOF'].isin(['Deadly force', 'Intentional use of force'])]
Для удобства добавим полные названия штатов. Для этого я приготовил отдельный CSV, который мы и подгрузим в наш датасет:
df_state_names = pd.read_csv(ROOT_FOLDER + '\\us_states.csv', sep=';', header=0)df_fenc = df_fenc.merge(df_state_names, how='inner', left_on='State', right_on='state_abbr')
Отобразим начальные строки командой df_fenc.head()
,
чтобы получить представление о датасете:
Race |
State |
Cause |
UOF |
Year |
state_name |
state_abbr |
|
---|---|---|---|---|---|---|---|
0 |
Black |
GA |
Gunshot |
Deadly force |
2000 |
Georgia |
GA |
1 |
Black |
GA |
Gunshot |
Deadly force |
2000 |
Georgia |
GA |
2 |
Black |
GA |
Gunshot |
Deadly force |
2000 |
Georgia |
GA |
3 |
Black |
GA |
Gunshot |
Deadly force |
2000 |
Georgia |
GA |
4 |
Black |
GA |
Gunshot |
Deadly force |
2000 |
Georgia |
GA |
Нам не нужно разбирать отдельные случаи гибели, давайте агрегируем данные по годам и расовой принадлежности:
# группируем по году и расеds_fenc_agg = df_fenc.groupby(['Year', 'Race']).count()['Cause']df_fenc_agg = ds_fenc_agg.unstack(level=1)# конвертируем численные данные в UINT16 для экономииdf_fenc_agg = df_fenc_agg.astype('uint16')
В итоге получили таблицу с 2 столбцами: White (количество белых жертв) и Black (количество черных жертв), индексированную по годам (с 2000 по 2020). Давайте взглянем на эти данные в виде графика:
# белые и черные жертвы полицейских по годам (кол-во гибелей)plt = df_fenc_agg.plot(xticks=df_fenc_agg.index)plt.set_xticklabels(df_fenc_agg.index, rotation='vertical')plt
Промежуточный вывод:
В количественном (абсолютном) выражении белых жертв больше, чем черных.
Разница между этими данными составляет в среднем 2.4 раза. Напрашивается справедливое заключение о том, что это связано с разницей в численности белых и черных. Что же, давайте посмотрим теперь на удельные показатели.
Подгрузим данные по численности населения (по расам):
# файл CSV с данными по населению (1991 - 2018)POP_FILE = ROOT_FOLDER + '\\us_pop_1991-2018.csv'df_pop = pd.read_csv(POP_FILE, index_col=0, dtype='int64')
Добавим эти данные в наш датасет:
# выбираем только данные по числ-ти белых и черных за 2000 - 2018 гг.df_pop = df_pop.loc[2000:2018, ['White_pop', 'Black_pop']]# объединяем датафреймы, выкидываем строки с пропускамиdf_fenc_agg = df_fenc_agg.join(df_pop)df_fenc_agg.dropna(inplace=True)# конвертируем данные по численности в целочисленный типdf_fenc_agg = df_fenc_agg.astype({'White_pop': 'uint32', 'Black_pop': 'uint32'})
ОК. Осталось создать 2 столбца с удельными значениями, разделив количество жертв на численность и умножив на миллион (количество жертв на 1 млн. человек):
df_fenc_agg['White_promln'] = df_fenc_agg['White'] * 1e6 / df_fenc_agg['White_pop']df_fenc_agg['Black_promln'] = df_fenc_agg['Black'] * 1e6 / df_fenc_agg['Black_pop']
Смотрим, что получилось:
Black |
White |
White_pop |
Black_pop |
White_promln |
Black_promln |
|
---|---|---|---|---|---|---|
Year |
||||||
2000 |
148 |
291 |
218756353 |
35410436 |
1.330247 |
4.179559 |
2001 |
158 |
353 |
219843871 |
35758783 |
1.605685 |
4.418495 |
2002 |
161 |
363 |
220931389 |
36107130 |
1.643044 |
4.458953 |
2003 |
179 |
388 |
222018906 |
36455476 |
1.747599 |
4.910099 |
2004 |
157 |
435 |
223106424 |
36803823 |
1.949742 |
4.265861 |
2005 |
181 |
452 |
224193942 |
37152170 |
2.016112 |
4.871855 |
2006 |
212 |
460 |
225281460 |
37500517 |
2.041890 |
5.653255 |
2007 |
219 |
449 |
226368978 |
37848864 |
1.983487 |
5.786171 |
2008 |
213 |
442 |
227456495 |
38197211 |
1.943229 |
5.576323 |
2009 |
249 |
478 |
228544013 |
38545558 |
2.091501 |
6.459888 |
2010 |
219 |
506 |
229397472 |
38874625 |
2.205778 |
5.633495 |
2011 |
290 |
577 |
230838975 |
39189528 |
2.499578 |
7.399936 |
2012 |
302 |
632 |
231992377 |
39623138 |
2.724227 |
7.621809 |
2013 |
310 |
693 |
232969901 |
39919371 |
2.974633 |
7.765653 |
2014 |
264 |
704 |
233963128 |
40379066 |
3.009021 |
6.538041 |
2015 |
272 |
729 |
234940100 |
40695277 |
3.102919 |
6.683822 |
2016 |
269 |
723 |
234644039 |
40893369 |
3.081263 |
6.578084 |
2017 |
265 |
743 |
235507457 |
41393491 |
3.154889 |
6.401973 |
2018 |
265 |
775 |
236173020 |
41617764 |
3.281493 |
6.367473 |
Последние 2 столбца - наши удельные показатели на миллион человек по каждой из двух рас. Пора посмотреть на графике:
plt = df_fenc_agg.loc[:, ['White_promln', 'Black_promln']].plot(xticks=df_fenc_agg.index)plt.set_xticklabels(df_fenc_agg.index, rotation='vertical')plt
Также выведем основную статистику по этим данным:
df_fenc_agg.loc[:, ['White_promln', 'Black_promln']].describe()
White_promln |
Black_promln |
|
---|---|---|
count (количество) |
19.000000 |
19.000000 |
mean (среднее арифм.) |
2.336123 |
5.872145 |
std (станд. отклонение) |
0.615133 |
1.133677 |
min (мин. значение) |
1.330247 |
4.179559 |
25% |
1.946485 |
4.890977 |
50% |
2.091501 |
5.786171 |
75% |
2.991827 |
6.558062 |
max (макс. значение) |
3.281493 |
7.765653 |
Промежуточные выводы:
1. В среднем от рук полиции погибает 5.9 на 1 млн. черных и 2.3 на 1 млн. белых (черных в 2.6 раз больше).
2. Разброс (отклонение) в данных по черным жертвам в 1.8 раз выше, чем в данных по белым жертвам. (На графике видно, что кривая по белым жертвам гораздо более плавная, без резких скачков.)
3. Максимальное количество жертв среди черных - в 2013 г. (7.7 на миллион); максимальное количество жертв среди белых - в 2018 г. (3.3 на миллион).
4. Жертвы среди белых монотонно растут (в среднем на 0.1 - 0.2 в год), в то время как жертвы среди черных вернулись на уровень 2009 г. после пика в 2011 - 2013 гг.
Итак, на первый поставленный вопрос мы ответили:
- Можно ли сказать, что полицейские убивают черных чаще, чем белых?
- Да, это верный вывод. От рук закона черных гибнет в среднем в 2.6 раз больше, чем белых.
Держа в голове эти промежуточные выводы, идем дальше - посмотрим данные по преступлениям, чтобы понять, как они соотносятся с расовой принадлежностью и жертвами от рук стражей закона.
Загружаем наш CSV по преступлениям:
CRIMES_FILE = ROOT_FOLDER + '\\culprits_victims.csv'df_crimes = pd.read_csv(CRIMES_FILE, sep=';', header=0, index_col=0, usecols=['Year', 'Offense', 'Offender/Victim', 'White', 'White pro capita', 'Black', 'Black pro capita'])
Здесь опять-таки используем только необходимые столбцы: год, вид преступления, классификатор и данные по количеству преступлений, совершенных черными и белыми (абсолютные - "White", "Black" и удельные на человека - "White pro capita", "Black pro capita").
Взглянем на данные (`df_crimes.head()`):
Offense |
Offender/Victim |
Black |
White |
Black pro capita |
White pro capita |
|
---|---|---|---|---|---|---|
Year |
||||||
1991 |
All Offenses |
Offender |
490 |
598 |
1.518188e-05 |
2.861673e-06 |
1991 |
All Offenses |
Offender |
4 |
4 |
1.239337e-07 |
1.914160e-08 |
1991 |
All Offenses |
Offender |
508 |
122 |
1.573958e-05 |
5.838195e-07 |
1991 |
All Offenses |
Offender |
155 |
176 |
4.802432e-06 |
8.422314e-07 |
1991 |
All Offenses |
Offender |
13 |
19 |
4.027846e-07 |
9.092270e-08 |
Нам пока не нужны данные по жертвам преступлений. Убираем лишние данные и столбцы:
# оставляем только преступников (убираем жертв)df_crimes1 = df_crimes.loc[df_crimes['Offender/Victim'] == 'Offender']# берем исследуемый период (2000-2018) и удаляем лишние столбцыdf_crimes1 = df_crimes1.loc[2000:2018, ['Offense', 'White', 'White pro capita', 'Black', 'Black pro capita']]
Получили такой датасет (1295 строк * 5 столбцов):
Offense |
White |
White pro capita |
Black |
Black pro capita |
|
---|---|---|---|---|---|
Year |
|||||
2000 |
All Offenses |
679 |
0.000003 |
651 |
0.000018 |
2000 |
All Offenses |
11458 |
0.000052 |
30199 |
0.000853 |
2000 |
All Offenses |
4439 |
0.000020 |
3188 |
0.000090 |
2000 |
All Offenses |
10481 |
0.000048 |
5153 |
0.000146 |
2000 |
All Offenses |
746 |
0.000003 |
63 |
0.000002 |
... |
... |
... |
... |
... |
... |
2018 |
Larceny Theft Offenses |
1961 |
0.000008 |
1669 |
0.000040 |
2018 |
Larceny Theft Offenses |
48616 |
0.000206 |
30048 |
0.000722 |
2018 |
Drugs Narcotic Offenses |
555974 |
0.002354 |
223398 |
0.005368 |
2018 |
Drugs Narcotic Offenses |
305052 |
0.001292 |
63785 |
0.001533 |
2018 |
Weapon Law Violation |
70034 |
0.000297 |
58353 |
0.001402 |
Теперь нам надо превратить удельные показатели на 1 человека в удельные на 1 миллион (так как именно эти данные используются во всем исследовании). Для этого просто умножаем на миллион соответствующие столбцы:
df_crimes1['White_promln'] = df_crimes1['White pro capita'] * 1e6df_crimes1['Black_promln'] = df_crimes1['Black pro capita'] * 1e6
Чтобы увидеть целую картину, как соотносится количество преступлений между белыми и черными по видам преступлений (в абсолютном выражении), просуммируем годовые наблюдения:
df_crimes_agg = df_crimes1.groupby(['Offense']).sum().loc[:, ['White', 'Black']]
White |
Black |
|
---|---|---|
Offense |
||
All Offenses |
44594795 |
22323144 |
Assault Offenses |
12475830 |
7462272 |
Drugs Narcotic Offenses |
9624596 |
3453140 |
Larceny Theft Offenses |
9563917 |
4202235 |
Murder And Nonnegligent Manslaughter |
28913 |
39617 |
Sex Offenses |
833088 |
319366 |
Weapon Law Violation |
829485 |
678861 |
Или в виде графика:
df_crimes_agg.plot.barh()
Итак, видим, что:
В количественном отношении нападения, наркотики, воровство и "все преступления" сильно превалируют над преступлениями, связанными с убийством, оружием и сексом
В абсолютных значениях белые совершают больше преступлений, чем черные (ровно в 2 раза для категории "все преступления")
Опять понимаем, что без информации о численности никакие выводы о "криминальности" рас не сделаешь. Соответственно, посмотрим на удельные показатели:
df_crimes_agg1 = df_crimes1.groupby(['Offense']).sum().loc[:, ['White_promln', 'Black_promln']]
White_promln |
Black_promln |
|
---|---|---|
Offense |
||
All Offenses |
194522.307758 |
574905.952459 |
Assault Offenses |
54513.398833 |
192454.602875 |
Drugs Narcotic Offenses |
41845.758869 |
88575.523095 |
Larceny Theft Offenses |
41697.303725 |
108189.184125 |
Murder And Nonnegligent Manslaughter |
125.943007 |
1016.403706 |
Sex Offenses |
3633.777035 |
8225.144985 |
Weapon Law Violation |
3612.671402 |
17389.163849 |
И на графике:
df_crimes_agg1.plot.barh()
Здесь уже совсем иная картина. По всем видам преступлений (из анализируемых) черные совершают больше, чем белые. По категории "все преступления" эта разница составляет почти 3 раза.
Давайте теперь оставим только категорию "все преступления" (All Offenses) как наиболее представительную, только удельные показатели по преступлениям (на миллион человек) и сгруппируем данные по годам (так как в исходных данных на каждый год может быть несколько записей - по количеству служб, предоставивших данные).
# оставляем только 'All Offenses' = все преступленияdf_crimes1 = df_crimes1.loc[df_crimes1['Offense'] == 'All Offenses']# чтобы использовать другую выборку, можем, например, оставить нападения и убийства:#df_crimes1 = df_crimes1.loc[df_crimes1['Offense'].str.contains('Assault|Murder')]# убираем абсолютные значения и агрегируем по годамdf_crimes1 = df_crimes1.groupby(level=0).sum().loc[:, ['White_promln', 'Black_promln']]
Полученный датасет:
White_promln |
Black_promln |
|
---|---|---|
Year |
||
2000 |
6115.058976 |
17697.409882 |
2001 |
6829.701429 |
20431.707645 |
2002 |
7282.333249 |
20972.838329 |
2003 |
7857.691182 |
22218.966500 |
2004 |
8826.576863 |
26308.815799 |
2005 |
9713.826255 |
30616.569637 |
2006 |
10252.894313 |
33189.382429 |
2007 |
10566.527362 |
34100.495064 |
2008 |
10580.520024 |
34052.276749 |
2009 |
10889.263592 |
33954.651792 |
2010 |
10977.017218 |
33884.236826 |
2011 |
11035.346176 |
32946.454471 |
2012 |
11562.836825 |
33150.706035 |
2013 |
11211.113491 |
32207.571607 |
2014 |
11227.354594 |
31517.346141 |
2015 |
11564.786088 |
31764.865490 |
2016 |
12193.026562 |
33186.064958 |
2017 |
12656.261666 |
34900.390499 |
2018 |
13180.171893 |
37805.202605 |
Посмотрим на графике:
plt = df_crimes1.plot(xticks=df_crimes1.index)plt.set_xticklabels(df_fenc_agg.index, rotation='vertical')plt
Промежуточные выводы:
1. Белые совершают в 2 раза больше преступлений, чем черные, в абсолютном выражении, но в 3 раза меньше в относительном выражении (на миллион представителей своей расы).
2. Преступность среди белых относительно монотонно растет на протяжении всего периода (выросла в 2 раза за 18 лет). Преступность среди черных также растет, но скачкообразно: с 2001 по 2006 г. резкий рост, с 2007 по 2016 она даже убывала, с 2017 года опять резкий рост. За весь период преступность среди черных выросла также в 2 раза (аналогично белым).
3. Если не принимать во внимание спад среди черной преступности в 2007-2016 гг., преступность среди черных растет более быстрыми темпами, чем среди белых.
Итак, мы ответили на второй вопрос:
- Представители какой расы статистически чаще совершают преступления?
- Черные статистически совершают преступления в 3 раза чаще белых.
Теперь мы подошли к самому важному: необходимо ответить на третий поставленный вопрос, а именно "Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?"
То есть надо как-то проследить корреляцию между двумя нашими наборами данных - данных по жертвам полиции и данных по преступлениям.
Начнем с того, что объединим эти два датасета в один:
# объединяем датасетыdf_uof_crimes = df_fenc_agg.join(df_crimes1, lsuffix='_uof', rsuffix='_cr')# удаляем лишние столбцы (абс. показатели по жертвам)df_uof_crimes = df_uof_crimes.loc[:, 'White_pop':'Black_promln_cr']
Что получили?
White_pop |
Black_pop |
White_promln_uof |
Black_promln_uof |
White_promln_cr |
Black_promln_cr |
|
---|---|---|---|---|---|---|
Year |
||||||
2000 |
218756353 |
35410436 |
1.330247 |
4.179559 |
6115.058976 |
17697.409882 |
2001 |
219843871 |
35758783 |
1.605685 |
4.418495 |
6829.701429 |
20431.707645 |
2002 |
220931389 |
36107130 |
1.643044 |
4.458953 |
7282.333249 |
20972.838329 |
2003 |
222018906 |
36455476 |
1.747599 |
4.910099 |
7857.691182 |
22218.966500 |
2004 |
223106424 |
36803823 |
1.949742 |
4.265861 |
8826.576863 |
26308.815799 |
2005 |
224193942 |
37152170 |
2.016112 |
4.871855 |
9713.826255 |
30616.569637 |
2006 |
225281460 |
37500517 |
2.041890 |
5.653255 |
10252.894313 |
33189.382429 |
2007 |
226368978 |
37848864 |
1.983487 |
5.786171 |
10566.527362 |
34100.495064 |
2008 |
227456495 |
38197211 |
1.943229 |
5.576323 |
10580.520024 |
34052.276749 |
2009 |
228544013 |
38545558 |
2.091501 |
6.459888 |
10889.263592 |
33954.651792 |
2010 |
229397472 |
38874625 |
2.205778 |
5.633495 |
10977.017218 |
33884.236826 |
2011 |
230838975 |
39189528 |
2.499578 |
7.399936 |
11035.346176 |
32946.454471 |
2012 |
231992377 |
39623138 |
2.724227 |
7.621809 |
11562.836825 |
33150.706035 |
2013 |
232969901 |
39919371 |
2.974633 |
7.765653 |
11211.113491 |
32207.571607 |
2014 |
233963128 |
40379066 |
3.009021 |
6.538041 |
11227.354594 |
31517.346141 |
2015 |
234940100 |
40695277 |
3.102919 |
6.683822 |
11564.786088 |
31764.865490 |
2016 |
234644039 |
40893369 |
3.081263 |
6.578084 |
12193.026562 |
33186.064958 |
2017 |
235507457 |
41393491 |
3.154889 |
6.401973 |
12656.261666 |
34900.390499 |
2018 |
236173020 |
41617764 |
3.281493 |
6.367473 |
13180.171893 |
37805.202605 |
Давайте вспомним, что хранится в каждом поле:
White_pop - численность белых
Black_pop - численность черных
White promln_uof - количество жертв полиции среди белых (на 1 млн)
Black promln_uof - количество жертв полиции среди черных (на 1 млн)
White promln_cr - количество преступлений, совершенных белыми (на 1 млн)
Black promln_cr - количество преступлений, совершенных черными (на 1 млн)
Наверное, можно было бы не полениться и дать этим столбцам русские названия... Но я надеюсь, читатели меня простят :)
Взглянем, как соотносятся графики преступлений и жертв полиции для каждой расы. Начнем с белых - в шахматном порядке :)
plt = df_uof_crimes['White_promln_cr'].plot(xticks=df_uof_crimes.index, legend=True)df_uof_crimes['White_promln_uof'].plot(xticks=df_uof_crimes.index, legend=True, secondary_y=True, style='g')plt.set_xticklabels(df_uof_crimes.index, rotation='vertical')plt
То же самое на диаграмме рассеяния:
Отметим мимоходом, что определенная корреляция есть. ОК, теперь то же для черных:
plt = df_uof_crimes['Black_promln_cr'].plot(xticks=df_uof_crimes.index, legend=True)df_uof_crimes['Black_promln_uof'].plot(xticks=df_uof_crimes.index, legend=True, secondary_y=True, style='g')plt.set_xticklabels(df_uof_crimes.index, rotation='vertical')plt
И скаттерплот:
Здесь все намного хуже: тренды явно "пляшут", хотя общая тенденция все равно прослеживается: пропорция здесь явно прямая, хотя и нелинейная.
Давайте воспользуемся методами матстатистики для определения величины этих корреляций, построив корреляционную матрицу на основе коэффициента Пирсона:
df_corr = df_uof_crimes.loc[:, ['White_promln_cr', 'White_promln_uof', 'Black_promln_cr', 'Black_promln_uof']].corr(method='pearson')df_corr.style.background_gradient(cmap='PuBu')
Получаем такую картинку:
White_promln_cr |
White_promln_uof |
Black_promln_cr |
Black_promln_uof |
|
---|---|---|---|---|
White_promln_cr |
1.000000 |
0.885470 |
0.949909 |
0.802529 |
White_promln_uof |
0.885470 |
1.000000 |
0.710052 |
0.795486 |
Black_promln_cr |
0.949909 |
0.710052 |
1.000000 |
0.722170 |
Black_promln_uof |
0.802529 |
0.795486 |
0.722170 |
1.000000 |
Коэффициенты корреляции для обеих рас выделены жирным: для белых = 0.885, для черных = 0.722. Таким образом, положительная корреляция между гибелью от полиции и преступностью прослеживается и для белых, и для черных, но для белых она гораздо выше (статистически значима), в то время как для черных она близка к статистической незначимости. Последний результат, конечно, связан с большей неоднородностью данных как по жертвам полиции, так и по преступлениям среди черных.
Напоследок для этой статьи попробуем выяснить, какова вероятность белых и черных преступников быть застреленным полицией. Прямых способом это выяснить у нас нет (нет данных по тому, кто из погибших от рук полиции был зарегистрирован как преступник, а кто как невинная жертва). Поэтому пойдем простым путем: разделим удельное количество жертв полиции на удельное количество преступлений по каждой расовой группе (и умножим на 100, чтобы выразить в %):
# агрегированные значения (по годам)df_uof_crimes_agg = df_uof_crimes.loc[:, ['White_promln_cr', 'White_promln_uof', 'Black_promln_cr', 'Black_promln_uof']].agg(['mean', 'sum', 'min', 'max'])# "вероятность" преступника быть застреленнымdf_uof_crimes_agg['White_uof_cr'] = df_uof_crimes_agg['White_promln_uof'] * 100. / df_uof_crimes_agg['White_promln_cr']df_uof_crimes_agg['Black_uof_cr'] = df_uof_crimes_agg['Black_promln_uof'] * 100. / df_uof_crimes_agg['Black_promln_cr']
Получаем такие данные:
White_promln_cr |
White_promln_uof |
Black_promln_cr |
Black_promln_uof |
White_uof_cr |
Black_uof_cr |
|
---|---|---|---|---|---|---|
mean |
10238.016198 |
2.336123 |
30258.208024 |
5.872145 |
0.022818 |
0.019407 |
sum |
194522.307758 |
44.386338 |
574905.952459 |
111.570747 |
0.022818 |
0.019407 |
min |
6115.058976 |
1.330247 |
17697.409882 |
4.179559 |
0.021754 |
0.023617 |
max |
13180.171893 |
3.281493 |
37805.202605 |
7.765653 |
0.024897 |
0.020541 |
Отобразим полученные значения в виде столбчатой диаграммы:
plt = df_uof_crimes_agg.loc['mean', ['White_uof_cr', 'Black_uof_cr']].plot.bar()
На диаграмме видно, что вероятность белого преступника быть застреленным несколько выше, чем черного преступника. Конечно, этот анализ весьма условный, но все же дает какое-то представление.
Промежуточные выводы:
1. Гибель от рук полиции связана с криминальностью (количеством совершаемых преступлений). При этом эта корреляция неоднородна по расам: для белых она близка к идеальной, для черных далека от идеальной.
2. При рассмотрении совмещенных диаграмм гибели от полиции и преступности видно, что фатальные встречи с полицией растут "в ответ" на рост преступности, с лагом в несколько лет (особенно видно по данным среди черных). Это согласуется с логическим предположением о том, что власти "отвечают" на преступность (больше преступлений -> больше безнаказанности -> больше стычек с представителями закона -> больше смертельных исходов).
3. Белые преступники немного чаще встречают смерть от рук полиции, чем черные. Однако эта разница почти несущественна.
Итак, ответ на третий вопрос:
- Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?
- Да, такая корреляция наблюдается, хотя она неоднородна по расам: для белых почти идеальная, для черных - почти неидеальная.
В следующей части статьи посмотрим на географическое распределение анализируемых данных по штатам США.
The FBIs UCR Program defines hate crime as a committed criminal offense which is motivated, in whole or in part, by the offenders bias(es) against a race, religion, disability, sexual orientation, ethnicity, gender, or gender identity.
Программа криминальной отчетности ФБР определяет преступление на почве нетерпимости как совершенное преступление, мотивированное (частично или полностью) предвзятостью правонарушителя против расы, религии, физического ограничения, сексульной ориентации, принадлежности к этнической группе, пола или половой самоидентификации.
Because motivation is subjective, it is sometimes difficult to know with certainty whether a crime resulted from the offenders bias. Moreover, the presence of bias alone does not necessarily mean that a crime can be considered a hate crime. Only when a law enforcement investigation reveals sufficient evidence to lead a reasonable and prudent person to conclude that the offenders actions were motivated, in whole or in part, by his or her bias, should an agency report an incident as a hate crime.
YEAR | STATE_NAME | OFFENDER_RACE | OFFENSE_NAME | BIAS_DESC | VICTIM_TYPES | |
---|---|---|---|---|---|---|
0 | 1991 | Arkansas | White | Intimidation | Anti-Black or African American | Individual |
1 | 1991 | Arkansas | Black or African American | Simple Assault | Anti-White | Individual |
2 | 1991 | Arkansas | Black or African American | Aggravated Assault | Anti-Black or African American | Individual |
3 | 1991 | Arkansas | Black or African American | Aggravated Assault;Destruction/Damage/Vandalis... | Anti-White | Individual |
4 | 1991 | Arkansas | Black or African American | Aggravated Assault | Anti-White | Individual |
... | ... | ... | ... | ... | ... | ... |
201398 | 2018 | West Virginia | NaN | Burglary/Breaking & Entering | Anti-Black or African American | Individual |
201399 | 2018 | West Virginia | White | Simple Assault | Anti-Black or African American | Individual |
201400 | 2018 | West Virginia | NaN | Intimidation | Anti-Asian | Individual |
201401 | 2018 | West Virginia | White | Intimidation | Anti-White | Law Enforcement Officer |
201402 | 2018 | West Virginia | NaN | Burglary/Breaking & Entering;Destruction/Damag... | Anti-Other Religion | Religious Organization |
201403 rows 6 columns
OFFENSE_COUNT | TOP_OFFENSE | TOP_OFFENSE_SHARE | TOP_BIAS | TOP_BIAS_SHARE | TOP_VICTIM | TOP_VICTIM_SHARE | |
---|---|---|---|---|---|---|---|
OFFENDER_RACE | |||||||
White | 79514 | Intimidation | 36.796036 | Anti-Black or African American | 46.877279 | Individual | 92.730840 |
Black or African American | 25956 | Simple Assault | 36.292187 | Anti-White | 46.594236 | Individual | 94.760364 |
Multiple | 4047 | Simple Assault | 36.545589 | Anti-Black or African American | 29.033852 | Individual | 91.153941 |
Asian | 1453 | Simple Assault | 31.865107 | Anti-Black or African American | 30.075705 | Individual | 93.048864 |
American Indian or Alaska Native | 1095 | Simple Assault | 40.182648 | Anti-White | 31.415525 | Individual | 93.059361 |
Native Hawaiian or Other Pacific Islander | 35 | Simple Assault | 45.714286 | Anti-Other Religion | 22.857143 | Individual | 77.142857 |
YEAR | STATE_NAME | OFFENDER_RACE | OFFENSE_NAME | BIAS_DESC | COUNT | |
---|---|---|---|---|---|---|
0 | 1991 | Arizona | Black or African American | Assault | Anti-Gay (Male) | 1 |
1 | 1991 | Arizona | Black or African American | Assault | Anti-White | 4 |
2 | 1991 | Arizona | White | Assault | Anti-Black or African American | 10 |
3 | 1991 | Arkansas | Black or African American | Assault | Anti-Black or African American | 1 |
4 | 1991 | Arkansas | Black or African American | Assault | Anti-White | 4 |
... | ... | ... | ... | ... | ... | ... |
16428 | 2018 | Wisconsin | White | Assault | Anti-Hispanic or Latino | 1 |
16429 | 2018 | Wisconsin | White | Assault | Anti-Hispanic or Latino;Anti-White | 1 |
16430 | 2018 | Wisconsin | White | Assault | Anti-Physical Disability | 1 |
16431 | 2018 | Wisconsin | White | Assault | Anti-Sikh | 1 |
16432 | 2018 | Wisconsin | White | Assault | Anti-White | 1 |
16433 rows 6 columns
YEAR | STATE_NAME | OFFENDER_RACE | OFFENSE_NAME | BIAS_DESC | COUNT | |
---|---|---|---|---|---|---|
0 | 1991 | Arizona | Black | Assault | Anti-White | 4 |
1 | 1991 | Arizona | White | Assault | Anti-Black | 10 |
2 | 1991 | Arkansas | Black | Assault | Anti-Black | 1 |
3 | 1991 | Arkansas | Black | Assault | Anti-White | 4 |
4 | 1991 | Arkansas | Black | Murder | Anti-White | 1 |
... | ... | ... | ... | ... | ... | ... |
3870 | 2018 | West Virginia | White | Assault | Anti-White | 2 |
3871 | 2018 | Wisconsin | Black | Assault | Anti-Black | 1 |
3872 | 2018 | Wisconsin | Black | Assault | Anti-White | 4 |
3873 | 2018 | Wisconsin | White | Assault | Anti-Black | 6 |
3874 | 2018 | Wisconsin | White | Assault | Anti-White | 2 |
3875 rows 6 columns
us_pop_1991-2018.csv
.us_pop_states_race_2010-2019.csv
.