Русский
Русский
English
Статистика
Реклама

Полиция

Black Olives Matter раса, криминал и огонь на поражение в США. Часть 1

04.09.2020 04:18:51 | Автор: admin
Дисклеймер

Зная, насколько эта публикация может оказаться воспринятой как "политическая" и насколько разнятся мнения людей по определенным злободневным вопросам, сразу внесу следующие оговорки:

  • Автор публикации не является расистом, не считает, что представителей одних рас должны обладать какими-либо привилегиями или предпочтениями по сравнению с представителями других рас. Для меня все люди - братья!

  • Автор не стремится придать публикации политическую или социальную окраску, поддерживая ту или иную распространенную точку зрения на социально-политические темы, которые выходят за рамки этой публикации.

  • Цель публикации - статистический анализ данных из открытых источников и выявление взаимосвязей и закономерностей; широкие выводы предоставляется сделать читателям.

  • Все данные, использованные в статье, взяты их открытых источников, прямо указанных в самом тексте. Каждый из вас может их верифицировать. При этом автор не несет ответственность за валидность данных в самих источниках, принимая их "как есть" и не изменяя никакие исходные данные. Поэтому сомнения в валидности настоящего исследования должны относиться к исходным данным, на которые автор не может повлиять.

  • Я не считаю себя профессиональным Data Scientist и использую самые базовые инструменты анализа данных (при этом, наверное, не всегда наиболее оптимальным способом). Буду благодарен каждому за подсказки, как можно сделать то или иное более эффективно или углубить исследование!

Во времена Советского Союза нашим с вами, уважаемые читатели, папам и мамам, дедушкам и бабушкам неустанно и отовсюду напоминали о том, как "империалисты" притесняли и угнетали представителей иных рас, как уже после отмены крепостного права в Российской Империи американские капиталисты продолжали использовать рабский труд африканцев и их потомков, как и в нынешнем (на то время) двадцатом веке издевательства не прекращаются даже после формального упразднения рабства, выражаясь в самых возмутительных формах апартеида, унижений, расизма и ненависти... Классические романы вроде "Хижины дяди Тома" Гарриет Бичер-Стоу и "Убить пересмешника" Харпер Ли еще сильнее упрочняли негодование борцов за свободу по всему миру. Да, расизм со стороны белых процветал в США до 1960-х - 1970-х. Но и, конечно, эти притеснения были отличным подспорьем для социалистической пропаганды, не щадящей красок в живописании "зверств акул капитализма". С середины 1950-х в США началось сильное движение за борьбу с расовым неравенством, которое было в итоге поддержано властями и кардинально изменило ситуацию с социальными свободами к 1980-м. Обо всем этом можно прочитать хотя бы в Википедии. А что теперь?..

Иллюстрация к роману Г. Бичер-Стоу "Хижина дяди Тома". "Классическое" изображение рабского труда африканцев.Иллюстрация к роману Г. Бичер-Стоу "Хижина дяди Тома". "Классическое" изображение рабского труда африканцев.

Почти все то же, что наши родичи читали со страниц "Правды" в 1960-х, сейчас мы слышим со всех американских СМИ. Расовая несправедливость! Насилие со стороны полиции и иных слуг закона! Как мы все видели, после гибели Джорджа Флойда в США начались массовые протесты, перешедшие местами в беспорядки и погромы под лозунгом Black Lives Matter. Итог общественного мнения в США на сегодняшний день: полиция убивает чернокожих по причине массового расизма со стороны белых.

Цели исследования

Как и многим из вас (я уверен), мне часто хочется самостоятельно разобраться в каком-то вопросе, особенно если:

  • вопрос широко обсуждается и составляет предмет споров

  • освещение почти во всех СМИ носит явно окрашенный характер (т.е. налицо пропаганда той или иной позиции)

  • есть достаточное количество исходных данных, доступных для изучения

Интересно заметить, что эти три пункта связаны между собой: 1) злободневные вопросы почти всегда однобоко освещаются прессой, так как истинно свободной прессы почти нет (да и была ли когда-то?) 2) злободневные темы порождают сообщества активистов, которые начинают собирать и анализировать данные в поддержку своей точки зрения (или во имя справедливости); также данные начинают открывать / предоставлять публике официальные источники (чтобы их нельзя было обвинить в сокрытии оных). Об имеющихся данных поговорим чуть позже, а пока - цели исследования.

Я хотел для себя ответить на несколько вопросов:

  1. Какова статистика применения поражающего огня полицейскими против черных и белых в абсолютном выражении (т.е. количество случаев) и в удельном выражении (на количество представителей обеих рас)? Можно ли сказать, что полицейские убивают черных чаще, чем белых?

  2. Какова статистика совершения преступлений представителями обеих рас (в абсолютном и удельном выражениях)? Представители какой расы статистически чаще совершают преступления?

  3. Имеется ли взаимосвязь между статистикой совершения преступлений и статистикой гибели от рук полиции (в целом по США, а также отдельно для белых и черных)? Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?

  4. Каким образом найденные закономерности (по пунктам 1-3) распределены между отдельными штатами США?

На данный момент это все вопросы, однако, я не исключаю, что могут добавиться и другие в процессе исследования, которое пока выполнено лишь на самом поверхностном уровне.

Оговорки и допущения

Вы ведь прочитали дисклеймер в начале статьи? :) Кроме того, что там написано, вот еще несколько допущений и оговорок, принятых для исследования в основном в целях упрощения:

  • Исследование касается только США и не распространяется на другие страны.

  • Представителей чернокожей расы в США для краткости я могу называть "черными", а представителей белокожей расы - "белыми"; эти краткие наименования не отражают какого-то неуважения, а приняты именно для лаконичности.

  • Представители белокожей расы ("белые") включают латиноамериканцев (проживающих на территории США), но исключают представителей азиатских рас, американских индейцев, гавайцев, эскимосов и представителей смешанных рас, в соответствии с данными по населению в Википедии, взятыми из официальной переписи населения в США.

  • Для настоящего исследования взяты только белая и черная расы; представители иных рас, а также те, чья раса не указана в источниках, не включены в исследование. Это ограничение сделано для упрощения, основываясь на том, что эти две категории составляют совместно более 80% всего населения США. При этом я не исключаю, что на будущих этапах будут добавлены и остальные расовые категории для полной картины.

Источники данных

Теперь поговорим о том, какие данные используются для исследования. Исходя из обозначенных целей нам нужны данные по:

  • совершенным преступлениям с указанием расовой принадлежности, видов преступления и штатов

  • гибели от рук полиции с указанием расовой принадлежности погибших и места события (штата)

  • численности населения по годам с указанием расовой принадлежности (для вычисления удельных показателей)

Для данных по преступлениям использовалась открытая база данных ФБР Crime Data Explorer, обладающая расширенным API и содержащая детальные данные по преступлениям, арестам, жертвам преступлений в США с 1991 по 2018 год.

Для данных по гибели от рук полиции использовалась открытая база данных на сайте Fatal Encounters, поддерживаемая сообществом. На настоящий момент база (доступная для скачивания) содержит более 28 тысяч записей начиная с 2000 года с подробной информацией о каждом погибшем, кратким описанием события, ссылками на СМИ, местом события и т.д. В Интернете есть и другие базы данных с тем же назначением, например, на сайте MappingPoliceViolence (около 8400 записей с 2013 г.) или БД Washington Post (ок. 5600 записей с 2015 г.). Но БД Fatal Encounters (FENC) на текущий момент самая подробная и имеет самый длинный период наблюдений (20 лет), поэтому я использовал ее. Кстати сказать, официальные источники (ФБР) также обещают открыть базу данных применения силы службами порядка, но это наступит только когда наберется представительная выборка данных. Прочитать об этой будущей официальной базе можно по ссылке.

Наконец, данные по общей численности представителей различных рас взяты из Википедии, которая в свою очередь, берет эти данные из официальных источников - Бюро переписи населения США. К сожалению, данные доступны только за промежуток с 2010 по 2018 год. В связи с этим в рамках данного исследования пришлось: 1) ограничить конечную точку наблюдений 2018 годом; 2) для промежутка с 2000 по 2009 год использовать данные по численности населения, смоделированные при помощи простой линейной регрессии (что вполне оправдано учитывая линейную природу прироста населения). Таким образом, мы будем исследовать все данные за период с 2000 г. (начальная точка в БД FENC) по 2018 г. (конечная точка в данных по численности населения). Все результаты будут основаны на наблюдениях за эти 18 лет.

Подготовка данных

Прежде чем приступить к анализу, необходимо загрузить вышеуказанные исходные данные в удобном виде и подготовить их для использования.

С данными по гибели от рук полиции все понятно: просто скачиваем всю БД с сайта и сохраняем как CSV (можно оставить и в XLSX, но я предпочитаю CSV для унификации и экономии). Здесь прямая ссылка на исходный датасет в Google Spreadsheets, здесь уже готовый CSV.

Поля данных (использованные в анализе выделены жирным шрифтом):
  1. Unique ID - ID в БД

  2. Subject's name - имя жертвы

  3. Subject's age - возраст жертвы

  4. Subject's gender - пол жертвы

  5. Subject's race - раса жертвы (официально указанная)

  6. Subject's race with imputations - раса жертвы (официально указанная или заполненная экспертом)

  7. Imputation probability - вероятность экспертной оценки расы

  8. URL of image of deceased - фото жертвы

  9. Date of injury resulting in death (month/day/year) - дата события

  10. Location of injury (address) - адрес события

  11. Location of death (city) - город события

  12. Location of death (state) - штат события

  13. Location of death (zip code) - почтовый индекс адреса события

  14. Location of death (county) - округ события

  15. Full Address - полный адрес события

  16. Latitude - координата широты

  17. Longitude - координата долготы

  18. Agency responsible for death - правоохранительная служба, причинившая смерть

  19. Cause of death - причина смерти

  20. A brief description of the circumstances surrounding the death - краткое описание обстоятельств

  21. Dispositions/Exclusions INTERNAL USE, NOT FOR ANALYSIS - исключения (НЕ ДЛЯ АНАЛИЗА)

  22. Intentional Use of Force (Developing) - применение силы (намеренное)

  23. Link to news article or photo of official document - ссылка на СМИ

  24. Symptoms of mental illness? INTERNAL USE, NOT FOR ANALYSIS - симптомы помешательства жертвы (НЕ ДЛЯ АНАЛИЗА)

  25. Video - видео

  26. Date&Description - дата и описание

  27. Unique ID formula - формула ID

  28. Unique identifier (redundant) - НЕ ИСПОЛЬЗУЕТСЯ

  29. Date (Year) - год события

Данные по численности населения я сохранил с Википедии и при помощи Excel дополнил модельными данными за 2000 - 2009 гг., применив простую регрессию. Здесь можете взять Excel и итоговый CSV.

Поля данных (использованные в анализе выделены жирным шрифтом):
  1. Year - год

  2. Whitepop - численность белых

  3. Blackpop - численность черных

  4. Asianpop - численность азиатов

  5. Native Hawaiianpop - численность гавайцев

  6. American Indianpop - численность индейцев и эскимосов

  7. Unknownpop - численность других рас / без указания расы

Самое интересное - это скачать и подготовить данные по преступлениям с БД ФБР. Для этого я написал программу на Python, которая подключается к публичному API при помощи API-ключа (который я специально получил на том же сайте). API использует REST для запросов к различным имеющимся базам данных и возвращает данные в виде JSON. Программа скачивает и объединяет данные в единый DataFrame, который затем сохраняется в CSV. В тот же файл добавляются и данные по численности населения с вычислением удельных показателей по преступлениям.

Поля данных (использованные в анализе выделены жирным шрифтом):
  1. Year - год

  2. Offense - вид преступления, одно из:

    • All Offenses - все преступления

    • Assault Offenses - нападения

    • Drugs Narcotic Offenses - преступления, связанные с оборотом наркотиков

    • Larceny Theft Offenses - воровство

    • Murder And Nonnegligent Manslaughter - убийство

    • Sex Offenses - преступления на сексуальной почве

    • Weapon Law Violation - нарушение хранения / оборота оружия

  3. Class - классификатор (здесь это раса, но может быть также возраст, пол и т.д.)

  4. Offender/Victim - данные по преступникам или жертвам (в этом анализе речь пока только о преступниках)

  5. Asian - количество преступлений, совершенных азиатами

  6. Native Hawaiian - количество преступлений, совершенных гавайцами

  7. Black - количество преступлений, совершенных черными

  8. American Indian - количество преступлений, совершенных индейцами и эскимосами

  9. Unknown - количество преступлений, совершенных представителями других рас

  10. White - количество преступлений, совершенных белыми

  11. Whitepop - численность белых на соответствующий год

  12. Blackpop - численность черных на соответствующий год

  13. Asianpop - численность азиатов на соответствующий год

  14. Native Hawaiianpop - численность гавайцев на соответствующий год

  15. American Indianpop - численность индейцев и эскимосов на соответствующий год

  16. Unknownpop - численность представителей других рас на соответствующий год

  17. Asian pro capita - удельное количество преступлений, совершенных азиатами (на 1 человека)

  18. Native Hawaiian pro capita - удельное количество преступлений, совершенных гавайцами (на 1 человека)

  19. Black pro capita - удельное количество преступлений, совершенных черными (на 1 человека)

  20. American Indian pro capita - удельное количество преступлений, совершенных индейцами и эскимосами (на 1 человека)

  21. Unknown pro capita - удельное количество преступлений, совершенных представителями других рас (на 1 человека)

  22. White pro capita - удельное количество преступлений, совершенных белыми (на 1 человека)

Инструменты

Весь анализ я провожу с помощью Python 3.8, используя интерактивный Jupyter Notebook. Дополнительные библиотеки:

  • pandas 1.0.3 (для анализа данных)

  • folium 0.11 (для визуализации карт)

Все это "добро" (включая сам Python) доступно мне из дистрибутива WinPython, который я давно использую на Windows из-за его очевидных преимуществ. Вы, конечно, можете использовать любой другой на ваш вкус (например Anaconda) или вообще обойтись просто Python, установив нужные пакеты.

Вообще же, этот же анализ можно с легкостью выполнить с помощью любого другого статистического / математического ПО: R, MatLab, SAS и даже Excel. Как говорится, выбирайте свое оружие :)

В следующей части приступим непосредственно к анализу.

Подробнее..

Black Olives Matter раса, криминал и огонь на поражение в США. Часть 2

04.09.2020 08:20:07 | Автор: admin

В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...

Поехали!

Импортируем библиотеки и определяем путь к директории со всеми файлами:

import pandas as pd, numpy as np# путь к папке с исходными файламиROOT_FOLDER = r'c:\_PROG_\Projects\us_crimes'

Гибель от рук закона

Начнем с анализа данных по жертвам полиции. Давайте подгрузим файл из CSV в DataFrame:

# Файл с БД Fatal Encounters (FENC)FENC_FILE = ROOT_FOLDER + '\\fatal_enc_db.csv'# грузим в DataFramedf_fenc = pd.read_csv(FENC_FILE, sep=';', header=0, usecols=["Date (Year)", "Subject's race with imputations", "Cause of death", "Intentional Use of Force (Developing)", "Location of death (state)"])

Заметьте сразу, что мы не грузим все поля из БД, а только необходимые нам для анализа: год, расовая принадлежность (с учетом экспертной оценки), причина смерти (здесь пока не используется, но может понадобиться в дальнейшем), признак намеренного применения силы и штат, в котором имело место событие.

Здесь надо пояснить, что такое "экспертная оценка" расовой принадлежности. Дело в том, что официальные источники, откуда FENC собирает данные, не всегда указывают расу жертвы, отсюда получаются пропуски в данных. Для компенсации этих пропусков сообщество привлекает экспертов, оценивающих расу жертвы по другим данным (с определенной погрешностью). Более подробно на эту тему можете почитать на самом сайте Fatal Encounters или загрузив исходный Excel файл (во втором листе).

Переименуем столбцы для удобства и очистим строки с пропущенными данными:

df_fenc.columns = ['Race', 'State', 'Cause', 'UOF', 'Year']df_fenc.dropna(inplace=True)

Теперь нам надо унифицировать наименования расовой принадлежности для того, чтобы в дальнейшем сопоставлять эти данные с данными по преступлениям и численности населения. Классификация рас в этих источниках немного разная. БД FENC, в частности, выделяет латиноамериканцев (Hispanic/Latino), азиатов и уроженцев тихоокеанских территорий (Asian/Pacific Islander) и среднеазиатов (Middle Eastern). Нас же интересуют только белые и черные. Поэтому сделаем укрупнение:

df_fenc = df_fenc.replace({'Race': {'European-American/White': 'White', 'African-American/Black': 'Black',                           'Hispanic/Latino': 'White', 'Native American/Alaskan': 'American Indian',                          'Asian/Pacific Islander': 'Asian', 'Middle Eastern': 'Asian',                          'NA': 'Unknown', 'Race unspecified': 'Unknown'}}, value=None)

Оставляем только данные по белым (теперь с учетом латино) и черным:

df_fenc = df_fenc.loc[df_fenc['Race'].isin(['White', 'Black'])]

Зачем нам поле "UOF" (намеренное использование силы)? Для исследования мы хотим оставить только случаи, когда полиция (или иные правоохранительные органы) намеренно применяли силу против человека. Мы опускаем случаи, когда человек совершил самоубийство (например, в результате осады полицией) или погиб в результате ДТП, преследуемый полицейскими. Это допущение сделано по двум причинам: 1) обстоятельства гибели по косвенным причинам часто не позволяют провести прямую причинно-следственную связь между действиями правоохранительных органов и смертью (пример: полицейский держит на мушке человека, который затем умирает от сердечного приступа; другой пример: при задержании преступник пускает себе пулю в лоб); 2) при рассмотрении действий властей расценивается именно применение силы; так, например, будущая официальная БД по применению силы (которую я упомянул в предыдущей статье) будет содержать именно данные, отражающая намеренное применение смертельной силы против граждан. Итак, оставляем только эти данные:

df_fenc = df_fenc.loc[df_fenc['UOF'].isin(['Deadly force', 'Intentional use of force'])]

Для удобства добавим полные названия штатов. Для этого я приготовил отдельный CSV, который мы и подгрузим в наш датасет:

df_state_names = pd.read_csv(ROOT_FOLDER + '\\us_states.csv', sep=';', header=0)df_fenc = df_fenc.merge(df_state_names, how='inner', left_on='State', right_on='state_abbr')

Отобразим начальные строки командой df_fenc.head(), чтобы получить представление о датасете:

Race

State

Cause

UOF

Year

state_name

state_abbr

0

Black

GA

Gunshot

Deadly force

2000

Georgia

GA

1

Black

GA

Gunshot

Deadly force

2000

Georgia

GA

2

Black

GA

Gunshot

Deadly force

2000

Georgia

GA

3

Black

GA

Gunshot

Deadly force

2000

Georgia

GA

4

Black

GA

Gunshot

Deadly force

2000

Georgia

GA

Нам не нужно разбирать отдельные случаи гибели, давайте агрегируем данные по годам и расовой принадлежности:

# группируем по году и расеds_fenc_agg = df_fenc.groupby(['Year', 'Race']).count()['Cause']df_fenc_agg = ds_fenc_agg.unstack(level=1)# конвертируем численные данные в UINT16 для экономииdf_fenc_agg = df_fenc_agg.astype('uint16')

В итоге получили таблицу с 2 столбцами: White (количество белых жертв) и Black (количество черных жертв), индексированную по годам (с 2000 по 2020). Давайте взглянем на эти данные в виде графика:

# белые и черные жертвы полицейских по годам (кол-во гибелей)plt = df_fenc_agg.plot(xticks=df_fenc_agg.index)plt.set_xticklabels(df_fenc_agg.index, rotation='vertical')plt

Промежуточный вывод:

В количественном (абсолютном) выражении белых жертв больше, чем черных.

Разница между этими данными составляет в среднем 2.4 раза. Напрашивается справедливое заключение о том, что это связано с разницей в численности белых и черных. Что же, давайте посмотрим теперь на удельные показатели.

Подгрузим данные по численности населения (по расам):

# файл CSV с данными по населению (1991 - 2018)POP_FILE = ROOT_FOLDER + '\\us_pop_1991-2018.csv'df_pop = pd.read_csv(POP_FILE, index_col=0, dtype='int64')

Добавим эти данные в наш датасет:

# выбираем только данные по числ-ти белых и черных за 2000 - 2018 гг.df_pop = df_pop.loc[2000:2018, ['White_pop', 'Black_pop']]# объединяем датафреймы, выкидываем строки с пропускамиdf_fenc_agg = df_fenc_agg.join(df_pop)df_fenc_agg.dropna(inplace=True)# конвертируем данные по численности в целочисленный типdf_fenc_agg = df_fenc_agg.astype({'White_pop': 'uint32', 'Black_pop': 'uint32'})

ОК. Осталось создать 2 столбца с удельными значениями, разделив количество жертв на численность и умножив на миллион (количество жертв на 1 млн. человек):

df_fenc_agg['White_promln'] = df_fenc_agg['White'] * 1e6 / df_fenc_agg['White_pop']df_fenc_agg['Black_promln'] = df_fenc_agg['Black'] * 1e6 / df_fenc_agg['Black_pop']

Смотрим, что получилось:

Black

White

White_pop

Black_pop

White_promln

Black_promln

Year

2000

148

291

218756353

35410436

1.330247

4.179559

2001

158

353

219843871

35758783

1.605685

4.418495

2002

161

363

220931389

36107130

1.643044

4.458953

2003

179

388

222018906

36455476

1.747599

4.910099

2004

157

435

223106424

36803823

1.949742

4.265861

2005

181

452

224193942

37152170

2.016112

4.871855

2006

212

460

225281460

37500517

2.041890

5.653255

2007

219

449

226368978

37848864

1.983487

5.786171

2008

213

442

227456495

38197211

1.943229

5.576323

2009

249

478

228544013

38545558

2.091501

6.459888

2010

219

506

229397472

38874625

2.205778

5.633495

2011

290

577

230838975

39189528

2.499578

7.399936

2012

302

632

231992377

39623138

2.724227

7.621809

2013

310

693

232969901

39919371

2.974633

7.765653

2014

264

704

233963128

40379066

3.009021

6.538041

2015

272

729

234940100

40695277

3.102919

6.683822

2016

269

723

234644039

40893369

3.081263

6.578084

2017

265

743

235507457

41393491

3.154889

6.401973

2018

265

775

236173020

41617764

3.281493

6.367473

Последние 2 столбца - наши удельные показатели на миллион человек по каждой из двух рас. Пора посмотреть на графике:

plt = df_fenc_agg.loc[:, ['White_promln', 'Black_promln']].plot(xticks=df_fenc_agg.index)plt.set_xticklabels(df_fenc_agg.index, rotation='vertical')plt

Также выведем основную статистику по этим данным:

df_fenc_agg.loc[:, ['White_promln', 'Black_promln']].describe()

White_promln

Black_promln

count (количество)

19.000000

19.000000

mean (среднее арифм.)

2.336123

5.872145

std (станд. отклонение)

0.615133

1.133677

min (мин. значение)

1.330247

4.179559

25%

1.946485

4.890977

50%

2.091501

5.786171

75%

2.991827

6.558062

max (макс. значение)

3.281493

7.765653

Промежуточные выводы:

1. В среднем от рук полиции погибает 5.9 на 1 млн. черных и 2.3 на 1 млн. белых (черных в 2.6 раз больше).

2. Разброс (отклонение) в данных по черным жертвам в 1.8 раз выше, чем в данных по белым жертвам. (На графике видно, что кривая по белым жертвам гораздо более плавная, без резких скачков.)

3. Максимальное количество жертв среди черных - в 2013 г. (7.7 на миллион); максимальное количество жертв среди белых - в 2018 г. (3.3 на миллион).

4. Жертвы среди белых монотонно растут (в среднем на 0.1 - 0.2 в год), в то время как жертвы среди черных вернулись на уровень 2009 г. после пика в 2011 - 2013 гг.

Итак, на первый поставленный вопрос мы ответили:

- Можно ли сказать, что полицейские убивают черных чаще, чем белых?

- Да, это верный вывод. От рук закона черных гибнет в среднем в 2.6 раз больше, чем белых.

Держа в голове эти промежуточные выводы, идем дальше - посмотрим данные по преступлениям, чтобы понять, как они соотносятся с расовой принадлежностью и жертвами от рук стражей закона.

Данные по преступлениям

Загружаем наш CSV по преступлениям:

CRIMES_FILE = ROOT_FOLDER + '\\culprits_victims.csv'df_crimes = pd.read_csv(CRIMES_FILE, sep=';', header=0, index_col=0, usecols=['Year', 'Offense', 'Offender/Victim', 'White', 'White pro capita', 'Black', 'Black pro capita'])

Здесь опять-таки используем только необходимые столбцы: год, вид преступления, классификатор и данные по количеству преступлений, совершенных черными и белыми (абсолютные - "White", "Black" и удельные на человека - "White pro capita", "Black pro capita").

Взглянем на данные (`df_crimes.head()`):

Offense

Offender/Victim

Black

White

Black pro capita

White pro capita

Year

1991

All Offenses

Offender

490

598

1.518188e-05

2.861673e-06

1991

All Offenses

Offender

4

4

1.239337e-07

1.914160e-08

1991

All Offenses

Offender

508

122

1.573958e-05

5.838195e-07

1991

All Offenses

Offender

155

176

4.802432e-06

8.422314e-07

1991

All Offenses

Offender

13

19

4.027846e-07

9.092270e-08

Нам пока не нужны данные по жертвам преступлений. Убираем лишние данные и столбцы:

# оставляем только преступников (убираем жертв)df_crimes1 = df_crimes.loc[df_crimes['Offender/Victim'] == 'Offender']# берем исследуемый период (2000-2018) и удаляем лишние столбцыdf_crimes1 = df_crimes1.loc[2000:2018, ['Offense', 'White', 'White pro capita', 'Black', 'Black pro capita']]

Получили такой датасет (1295 строк * 5 столбцов):

Offense

White

White pro capita

Black

Black pro capita

Year

2000

All Offenses

679

0.000003

651

0.000018

2000

All Offenses

11458

0.000052

30199

0.000853

2000

All Offenses

4439

0.000020

3188

0.000090

2000

All Offenses

10481

0.000048

5153

0.000146

2000

All Offenses

746

0.000003

63

0.000002

...

...

...

...

...

...

2018

Larceny Theft Offenses

1961

0.000008

1669

0.000040

2018

Larceny Theft Offenses

48616

0.000206

30048

0.000722

2018

Drugs Narcotic Offenses

555974

0.002354

223398

0.005368

2018

Drugs Narcotic Offenses

305052

0.001292

63785

0.001533

2018

Weapon Law Violation

70034

0.000297

58353

0.001402

Теперь нам надо превратить удельные показатели на 1 человека в удельные на 1 миллион (так как именно эти данные используются во всем исследовании). Для этого просто умножаем на миллион соответствующие столбцы:

df_crimes1['White_promln'] = df_crimes1['White pro capita'] * 1e6df_crimes1['Black_promln'] = df_crimes1['Black pro capita'] * 1e6

Чтобы увидеть целую картину, как соотносится количество преступлений между белыми и черными по видам преступлений (в абсолютном выражении), просуммируем годовые наблюдения:

df_crimes_agg = df_crimes1.groupby(['Offense']).sum().loc[:, ['White', 'Black']]

White

Black

Offense

All Offenses

44594795

22323144

Assault Offenses

12475830

7462272

Drugs Narcotic Offenses

9624596

3453140

Larceny Theft Offenses

9563917

4202235

Murder And Nonnegligent Manslaughter

28913

39617

Sex Offenses

833088

319366

Weapon Law Violation

829485

678861

Или в виде графика:

df_crimes_agg.plot.barh()

Итак, видим, что:

  • В количественном отношении нападения, наркотики, воровство и "все преступления" сильно превалируют над преступлениями, связанными с убийством, оружием и сексом

  • В абсолютных значениях белые совершают больше преступлений, чем черные (ровно в 2 раза для категории "все преступления")

Опять понимаем, что без информации о численности никакие выводы о "криминальности" рас не сделаешь. Соответственно, посмотрим на удельные показатели:

df_crimes_agg1 = df_crimes1.groupby(['Offense']).sum().loc[:, ['White_promln', 'Black_promln']]

White_promln

Black_promln

Offense

All Offenses

194522.307758

574905.952459

Assault Offenses

54513.398833

192454.602875

Drugs Narcotic Offenses

41845.758869

88575.523095

Larceny Theft Offenses

41697.303725

108189.184125

Murder And Nonnegligent Manslaughter

125.943007

1016.403706

Sex Offenses

3633.777035

8225.144985

Weapon Law Violation

3612.671402

17389.163849

И на графике:

df_crimes_agg1.plot.barh()

Здесь уже совсем иная картина. По всем видам преступлений (из анализируемых) черные совершают больше, чем белые. По категории "все преступления" эта разница составляет почти 3 раза.

Давайте теперь оставим только категорию "все преступления" (All Offenses) как наиболее представительную, только удельные показатели по преступлениям (на миллион человек) и сгруппируем данные по годам (так как в исходных данных на каждый год может быть несколько записей - по количеству служб, предоставивших данные).

# оставляем только 'All Offenses' = все преступленияdf_crimes1 = df_crimes1.loc[df_crimes1['Offense'] == 'All Offenses']# чтобы использовать другую выборку, можем, например, оставить нападения и убийства:#df_crimes1 = df_crimes1.loc[df_crimes1['Offense'].str.contains('Assault|Murder')]# убираем абсолютные значения и агрегируем по годамdf_crimes1 = df_crimes1.groupby(level=0).sum().loc[:, ['White_promln', 'Black_promln']]

Полученный датасет:

White_promln

Black_promln

Year

2000

6115.058976

17697.409882

2001

6829.701429

20431.707645

2002

7282.333249

20972.838329

2003

7857.691182

22218.966500

2004

8826.576863

26308.815799

2005

9713.826255

30616.569637

2006

10252.894313

33189.382429

2007

10566.527362

34100.495064

2008

10580.520024

34052.276749

2009

10889.263592

33954.651792

2010

10977.017218

33884.236826

2011

11035.346176

32946.454471

2012

11562.836825

33150.706035

2013

11211.113491

32207.571607

2014

11227.354594

31517.346141

2015

11564.786088

31764.865490

2016

12193.026562

33186.064958

2017

12656.261666

34900.390499

2018

13180.171893

37805.202605

Посмотрим на графике:

plt = df_crimes1.plot(xticks=df_crimes1.index)plt.set_xticklabels(df_fenc_agg.index, rotation='vertical')plt

Промежуточные выводы:

1. Белые совершают в 2 раза больше преступлений, чем черные, в абсолютном выражении, но в 3 раза меньше в относительном выражении (на миллион представителей своей расы).

2. Преступность среди белых относительно монотонно растет на протяжении всего периода (выросла в 2 раза за 18 лет). Преступность среди черных также растет, но скачкообразно: с 2001 по 2006 г. резкий рост, с 2007 по 2016 она даже убывала, с 2017 года опять резкий рост. За весь период преступность среди черных выросла также в 2 раза (аналогично белым).

3. Если не принимать во внимание спад среди черной преступности в 2007-2016 гг., преступность среди черных растет более быстрыми темпами, чем среди белых.

Итак, мы ответили на второй вопрос:

- Представители какой расы статистически чаще совершают преступления?

- Черные статистически совершают преступления в 3 раза чаще белых.

Криминальность и гибель от рук полиции

Теперь мы подошли к самому важному: необходимо ответить на третий поставленный вопрос, а именно "Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?"

То есть надо как-то проследить корреляцию между двумя нашими наборами данных - данных по жертвам полиции и данных по преступлениям.

Начнем с того, что объединим эти два датасета в один:

# объединяем датасетыdf_uof_crimes = df_fenc_agg.join(df_crimes1, lsuffix='_uof', rsuffix='_cr')# удаляем лишние столбцы (абс. показатели по жертвам)df_uof_crimes = df_uof_crimes.loc[:, 'White_pop':'Black_promln_cr']

Что получили?

White_pop

Black_pop

White_promln_uof

Black_promln_uof

White_promln_cr

Black_promln_cr

Year

2000

218756353

35410436

1.330247

4.179559

6115.058976

17697.409882

2001

219843871

35758783

1.605685

4.418495

6829.701429

20431.707645

2002

220931389

36107130

1.643044

4.458953

7282.333249

20972.838329

2003

222018906

36455476

1.747599

4.910099

7857.691182

22218.966500

2004

223106424

36803823

1.949742

4.265861

8826.576863

26308.815799

2005

224193942

37152170

2.016112

4.871855

9713.826255

30616.569637

2006

225281460

37500517

2.041890

5.653255

10252.894313

33189.382429

2007

226368978

37848864

1.983487

5.786171

10566.527362

34100.495064

2008

227456495

38197211

1.943229

5.576323

10580.520024

34052.276749

2009

228544013

38545558

2.091501

6.459888

10889.263592

33954.651792

2010

229397472

38874625

2.205778

5.633495

10977.017218

33884.236826

2011

230838975

39189528

2.499578

7.399936

11035.346176

32946.454471

2012

231992377

39623138

2.724227

7.621809

11562.836825

33150.706035

2013

232969901

39919371

2.974633

7.765653

11211.113491

32207.571607

2014

233963128

40379066

3.009021

6.538041

11227.354594

31517.346141

2015

234940100

40695277

3.102919

6.683822

11564.786088

31764.865490

2016

234644039

40893369

3.081263

6.578084

12193.026562

33186.064958

2017

235507457

41393491

3.154889

6.401973

12656.261666

34900.390499

2018

236173020

41617764

3.281493

6.367473

13180.171893

37805.202605

Давайте вспомним, что хранится в каждом поле:

  1. White_pop - численность белых

  2. Black_pop - численность черных

  3. White promln_uof - количество жертв полиции среди белых (на 1 млн)

  4. Black promln_uof - количество жертв полиции среди черных (на 1 млн)

  5. White promln_cr - количество преступлений, совершенных белыми (на 1 млн)

  6. Black promln_cr - количество преступлений, совершенных черными (на 1 млн)

Наверное, можно было бы не полениться и дать этим столбцам русские названия... Но я надеюсь, читатели меня простят :)

Взглянем, как соотносятся графики преступлений и жертв полиции для каждой расы. Начнем с белых - в шахматном порядке :)

plt = df_uof_crimes['White_promln_cr'].plot(xticks=df_uof_crimes.index, legend=True)df_uof_crimes['White_promln_uof'].plot(xticks=df_uof_crimes.index, legend=True, secondary_y=True, style='g')plt.set_xticklabels(df_uof_crimes.index, rotation='vertical')plt

То же самое на диаграмме рассеяния:

Отметим мимоходом, что определенная корреляция есть. ОК, теперь то же для черных:

plt = df_uof_crimes['Black_promln_cr'].plot(xticks=df_uof_crimes.index, legend=True)df_uof_crimes['Black_promln_uof'].plot(xticks=df_uof_crimes.index, legend=True, secondary_y=True, style='g')plt.set_xticklabels(df_uof_crimes.index, rotation='vertical')plt

И скаттерплот:

Здесь все намного хуже: тренды явно "пляшут", хотя общая тенденция все равно прослеживается: пропорция здесь явно прямая, хотя и нелинейная.

Давайте воспользуемся методами матстатистики для определения величины этих корреляций, построив корреляционную матрицу на основе коэффициента Пирсона:

df_corr = df_uof_crimes.loc[:, ['White_promln_cr', 'White_promln_uof', 'Black_promln_cr', 'Black_promln_uof']].corr(method='pearson')df_corr.style.background_gradient(cmap='PuBu')

Получаем такую картинку:

White_promln_cr

White_promln_uof

Black_promln_cr

Black_promln_uof

White_promln_cr

1.000000

0.885470

0.949909

0.802529

White_promln_uof

0.885470

1.000000

0.710052

0.795486

Black_promln_cr

0.949909

0.710052

1.000000

0.722170

Black_promln_uof

0.802529

0.795486

0.722170

1.000000

Коэффициенты корреляции для обеих рас выделены жирным: для белых = 0.885, для черных = 0.722. Таким образом, положительная корреляция между гибелью от полиции и преступностью прослеживается и для белых, и для черных, но для белых она гораздо выше (статистически значима), в то время как для черных она близка к статистической незначимости. Последний результат, конечно, связан с большей неоднородностью данных как по жертвам полиции, так и по преступлениям среди черных.

Напоследок для этой статьи попробуем выяснить, какова вероятность белых и черных преступников быть застреленным полицией. Прямых способом это выяснить у нас нет (нет данных по тому, кто из погибших от рук полиции был зарегистрирован как преступник, а кто как невинная жертва). Поэтому пойдем простым путем: разделим удельное количество жертв полиции на удельное количество преступлений по каждой расовой группе (и умножим на 100, чтобы выразить в %):

# агрегированные значения (по годам)df_uof_crimes_agg = df_uof_crimes.loc[:, ['White_promln_cr', 'White_promln_uof', 'Black_promln_cr', 'Black_promln_uof']].agg(['mean', 'sum', 'min', 'max'])# "вероятность" преступника быть застреленнымdf_uof_crimes_agg['White_uof_cr'] = df_uof_crimes_agg['White_promln_uof'] * 100. / df_uof_crimes_agg['White_promln_cr']df_uof_crimes_agg['Black_uof_cr'] = df_uof_crimes_agg['Black_promln_uof'] * 100. / df_uof_crimes_agg['Black_promln_cr']

Получаем такие данные:

White_promln_cr

White_promln_uof

Black_promln_cr

Black_promln_uof

White_uof_cr

Black_uof_cr

mean

10238.016198

2.336123

30258.208024

5.872145

0.022818

0.019407

sum

194522.307758

44.386338

574905.952459

111.570747

0.022818

0.019407

min

6115.058976

1.330247

17697.409882

4.179559

0.021754

0.023617

max

13180.171893

3.281493

37805.202605

7.765653

0.024897

0.020541

Отобразим полученные значения в виде столбчатой диаграммы:

plt = df_uof_crimes_agg.loc['mean', ['White_uof_cr', 'Black_uof_cr']].plot.bar()

На диаграмме видно, что вероятность белого преступника быть застреленным несколько выше, чем черного преступника. Конечно, этот анализ весьма условный, но все же дает какое-то представление.

Промежуточные выводы:

1. Гибель от рук полиции связана с криминальностью (количеством совершаемых преступлений). При этом эта корреляция неоднородна по расам: для белых она близка к идеальной, для черных далека от идеальной.

2. При рассмотрении совмещенных диаграмм гибели от полиции и преступности видно, что фатальные встречи с полицией растут "в ответ" на рост преступности, с лагом в несколько лет (особенно видно по данным среди черных). Это согласуется с логическим предположением о том, что власти "отвечают" на преступность (больше преступлений -> больше безнаказанности -> больше стычек с представителями закона -> больше смертельных исходов).

3. Белые преступники немного чаще встречают смерть от рук полиции, чем черные. Однако эта разница почти несущественна.

Итак, ответ на третий вопрос:

- Можно ли сказать, что полиция стреляет насмерть пропорционально количеству совершаемых преступлений?

- Да, такая корреляция наблюдается, хотя она неоднородна по расам: для белых почти идеальная, для черных - почти неидеальная.

В следующей части статьи посмотрим на географическое распределение анализируемых данных по штатам США.

Подробнее..

Преступления на почве расизма в США статистический анализ

15.09.2020 04:20:57 | Автор: admin
После моей недавней статьи (части 1, 2, 3) о криминале и полицейской стрельбе в США и их связи с расовой принадлежностью я решил продолжить эту тему и в таком же ключе проанализировать другие открытые данные благо, таких еще достаточно благодаря программе криминальной отчетности ФБР.

Сегодня будем исследовать данные по преступлениям, совершенным на почве нетерпимости. Сначала посмотрим на всю статистику целиком, а затем подробно рассмотрим именно расовую нетерпимость и конкретно преступления, совершаемые белыми и черными на почве вражды к белым и черным.

Дисклеймер
Позвольте мне быть ленивым и отправить вас, уважаемые читатели, посмотреть дисклеймер в начале моей первой статьи о криминале в США :) Все, что там написано, подходит и для этого исследования.


Исходные данные


В качестве исходных данных я скачал датасет с сайта Crime Data Explorer, поддерживаемого ФБР в рамках программы криминальной отчетности США (об этом сайте я уже писал в предыдущей статье). Скачать по прямой ссылке можно здесь (4.4 МБ). Скачанный архив содержит собственно сами данные в формате CSV, а также текстовое описание. Данные я никак не трансформировал, поэтому если вы захотите повторить анализ самостоятельно, вы должны получить те же результаты.

Также я использовал данные по численности населения США с разбивкой по расовой принадлежности, полученные из официальных данных Бюро переписи населения и дополненные модельными данными за период с 1991 по 2009 г. Скачать можно здесь (Яндекс.Диск). Для анализа географического распределения удельных показателей мне понадобилась и численность населения по штатам, полученные из того же источника (скачать здесь). Эти же данные я использовал в своей предыдущей статье.

Что такое преступления на почве нетерпимости и как они регистрируются?


С сайта ФБР:
The FBIs UCR Program defines hate crime as a committed criminal offense which is motivated, in whole or in part, by the offenders bias(es) against a race, religion, disability, sexual orientation, ethnicity, gender, or gender identity.

Перевод:
Программа криминальной отчетности ФБР определяет преступление на почве нетерпимости как совершенное преступление, мотивированное (частично или полностью) предвзятостью правонарушителя против расы, религии, физического ограничения, сексульной ориентации, принадлежности к этнической группе, пола или половой самоидентификации.

В справке, сопровождающей исходный датасет по преступлениям, также указано следующее (курсив сохранен):
Because motivation is subjective, it is sometimes difficult to know with certainty whether a crime resulted from the offenders bias. Moreover, the presence of bias alone does not necessarily mean that a crime can be considered a hate crime. Only when a law enforcement investigation reveals sufficient evidence to lead a reasonable and prudent person to conclude that the offenders actions were motivated, in whole or in part, by his or her bias, should an agency report an incident as a hate crime.

Другими словами, все случаи, регистрируемые в базе как преступления на почве нетерпимости, попадают должны попадать туда только после того, как мотив действий преступника установлен следствием.

Естественно, проверить выводы следствия по каждому случаю невозможно, поскольку база агрегирует отчетность сотен различных служб правопорядка по всей стране и доступ ко всем материалам следствия есть (можно предположить) только для сотрудников ФБР. Сама база предоставляет только готовую статистику.

Структура базы данных


База содержит данные по преступлениям на почве нетерпимости с 1991 по 2018 г. На момент написания статьи последняя запись датируется 31 декабря 2018 г., всего 201403 записи. Каждая запись один случай преступления. Таким образом, получаем в среднем 7193 преступлений в год.

Список полей базы данных в исходном CSV формате
  1. INCIDENT_ID: ID события (преступления)
  2. DATA_YEAR: год, в который совершено преступление
  3. ORI: ID агентства (службы правопорядка), предоставившего данные
  4. PUB_AGENCY_NAME: публичное название агентства / службы (обычно совпадает с городом)
  5. PUB_AGENCY_UNIT: название подразделения службы (например, округ)
  6. AGENCY_TYPE_NAME: тип службы (муниципальная / окружная)
  7. STATE_ABBR: сокращенное наименование штата
  8. STATE_NAME: полное название штата
  9. DIVISION_NAME: название региона (куда входят несколько штатов)
  10. REGION_NAME: название макрорегиона (куда входят несколько регионов)
  11. POPULATION_GROUP_CODE: код места совершения преступления по численности населения
  12. POPULATION_GROUP_DESC: описание места совершения преступления по численности населения (например город с населением от 0,5 до 1 млн.)
  13. INCIDENT_DATE: дата совершения преступления
  14. ADULT_VICTIM_COUNT: количество совершеннолетних пострадавших
  15. JUVENILE_VICTIM_COUNT: количество несовершеннолетних пострадавших
  16. TOTAL_OFFENDER_COUNT: общее количество преступников
  17. ADULT_OFFENDER_COUNT: количество совершеннолетних преступников
  18. JUVENILE_OFFENDER_COUNT: количество несовершеннолетних преступников
  19. OFFENDER_RACE: раса/-ы преступника/-ов
  20. OFFENDER_ETHNICITY: этническая группа преступника/-ов (латиноамериканская / не латиноамериканская / смешанная / неизвестная)
  21. VICTIM_COUNT: общее количество пострадавших (физических и юридических лиц)
  22. OFFENSE_NAME: вид совершенного преступления
  23. TOTAL_INDIVIDUAL_VICTIMS: общее количество пострадавших (физических лиц)
  24. LOCATION_NAME: место преступления (например, квартира, шоссе, школа и т.д.)
  25. BIAS_DESC: вид нетерпимости (мотив преступления)
  26. VICTIM_TYPES: категория/-и пострадавших (физические лица / власти / частная компания и т.п.)
  27. MULTIPLE_OFFENSE: маркер множественного преступления (т.е. если совершено не одно, а несколько видов преступлений)
  28. MULTIPLE_BIAS: маркер множественного мотива (не один, а несколько видов нетерпимости)



В исследовании я использую только несколько полей (те, что выделены жирным шрифтом), поскольку моей основной целью является поиск связей между видами преступлений, видами нетерпимости и расой преступников. Однако в вашем собственном исследовании вы можете, конечно, пойти дальше и проанализировать, например, возраст преступников и жертв или типичные локации преступлений в зависимости от их видов и т.п. Как говорится, простор фантазии не ограничен :)

Виды преступлений


В базу попадают 13 основных видов преступлений:

  • преступления против личности: убийство, изнасилование, нападение, тяжкое нападение, личная угроза и торговля людьми (сексуальное рабство и рабский труд)
  • преступления против собственности: грабеж, незаконное проникновение, хищение, угон, поджог и порча имущества / вандализм

а также (в расширенной базе, которую мы будем использовать) дополнительные виды правонарушений, такие как торговля наркотиками, мошенничество и даже более экзотические в контексте нетерпимости, например, проституция, инцест или содомия.

Все 48 категорий преступлений (названия в оригинале)
Aggravated Assault
All Other Larceny
Animal Cruelty
Arson
Assisting or Promoting Prostitution
Betting/Wagering
Bribery
Burglary/Breaking & Entering
Counterfeiting/Forgery
Credit Card/Automated Teller Machine Fraud
Destruction/Damage/Vandalism of Property
Drug Equipment Violations
Drug/Narcotic Violations
Embezzlement
Extortion/Blackmail
False Pretenses/Swindle/Confidence Game
Fondling
Hacking/Computer Invasion
Human Trafficking, Commercial Sex Acts
Identity Theft
Impersonation
Incest
Intimidation
Kidnapping/Abduction
Motor Vehicle Theft
Murder and Nonnegligent Manslaughter
Negligent Manslaughter
Not Specified
Pocket-picking
Pornography/Obscene Material
Prostitution
Purchasing Prostitution
Purse-snatching
Rape
Robbery
Sexual Assault With An Object
Shoplifting
Simple Assault
Sodomy
Statutory Rape
Stolen Property Offenses
Theft From Building
Theft From Coin-Operated Machine or Device
Theft From Motor Vehicle
Theft of Motor Vehicle Parts or Accessories
Weapon Law Violations
Welfare Fraud
Wire Fraud


Виды нетерпимости / мотивы преступлений


В соответствии с определением выше, в базу заносятся следующие виды нетерпимости:
  1. против расовой принадлежности (против белых, против черных, против азиатов, против евреев и т.д.)
  2. против этнической принадлежности (против латиноамериканцев)
  3. против конфессии или религиозного мировоззрения (против христиан, против атеистов, против мусульман, против Свидетелей Иеговы и т.д.)
  4. против сексуальной ориентации или пола (против мужских и женских гомосексуалов, против мужчин, против женщин, против трансгендеров и т.д.)
  5. против физических ограничений (ненависть к инвалидам)


При этом каждое преступление может иметь до 5 различных видов нетерпимости в качестве мотива. Поэтому при работе с такими множественными характеристиками нам придется укрупнять категории.

Категории пострадавших


Программа регистрирует преступления как против отдельных физических лиц, так и против организаций, государства или даже общества в целом, выделяя при этом количество пострадавших физических лиц. Мы будем рассматривать только случаи с пострадавшими людьми.

Итак, вооружившись Python с pandas или еще парочкой библиотек (см. раздел Инструменты в моей предыдущей статье), а также не забыв пропустить кофе, чай, пиво или чайный гриб (кому что нравится) надвигаем маску на лицо, одеваем хирургические перчатки, поправляем операционную лампу и

Препарируем данные


image

Как и в предыдущей статье, весь анализ я выполняю в Jupyter Lab / Notebook на Python 3.8. Здесь я не буду приводить и комментировать сам код его вы можете скачать по этой ссылке (в архиве листинг и файл в формате Jupyter Notebook). Сосредоточимся больше на получаемых результатах. Все графики кликабельны.

Обзор данных и топ-листы


После загрузки данных из CSV (только нужных для исследования столбцов) получаем такой датафрейм:

YEAR STATE_NAME OFFENDER_RACE OFFENSE_NAME BIAS_DESC VICTIM_TYPES
0 1991 Arkansas White Intimidation Anti-Black or African American Individual
1 1991 Arkansas Black or African American Simple Assault Anti-White Individual
2 1991 Arkansas Black or African American Aggravated Assault Anti-Black or African American Individual
3 1991 Arkansas Black or African American Aggravated Assault;Destruction/Damage/Vandalis... Anti-White Individual
4 1991 Arkansas Black or African American Aggravated Assault Anti-White Individual
... ... ... ... ... ... ...
201398 2018 West Virginia NaN Burglary/Breaking & Entering Anti-Black or African American Individual
201399 2018 West Virginia White Simple Assault Anti-Black or African American Individual
201400 2018 West Virginia NaN Intimidation Anti-Asian Individual
201401 2018 West Virginia White Intimidation Anti-White Law Enforcement Officer
201402 2018 West Virginia NaN Burglary/Breaking & Entering;Destruction/Damag... Anti-Other Religion Religious Organization

201403 rows 6 columns



Более 200 тысяч строк и чуть больше 8 МБ памяти. Давайте для начала посмотрим на топ-10 совершаемых преступлений, видов нетерпимости (мотивов), рас преступников и категорий жертв:

Кликабельно

Кликабельно

Итак, что мы здесь наблюдаем:
  • Самый распространенный вид преступления порча имущества / вандализм, за ним с небольшим отставанием личная угроза (intimidation). Каждый из этих видов преступления занимает почти треть всех случаев. Далее идут нападения, а грабеж и другие преступления уже гораздо менее распространены.
  • Среди видов нетерпимости с большим отрывом лидирует нетерпимость к чернокожим (больше трети всех случаев), затем в порядке убывания, но примерно на одном уровне: нетерпимость к евреям, нетерпимость к белым, нетерпимость к геям. Остальные виды нетерпимости статистически на порядок реже лидера.
  • 70% всех преступлений совершаются белыми, порядка 23% черными, остальные в пределах погрешности.
  • Преступления против личности составляют 80% всех случаев.


Смотря только на эти графики, можно представить, будто почти все преступления это белые, угрожающие черным расправой или портящие их имущество Однако давайте посмотрим, какие преступления и виды нетерпимости наиболее типичны для каждой расовой категории преступников:


OFFENSE_COUNT TOP_OFFENSE TOP_OFFENSE_SHARE TOP_BIAS TOP_BIAS_SHARE TOP_VICTIM TOP_VICTIM_SHARE
OFFENDER_RACE
White 79514 Intimidation 36.796036 Anti-Black or African American 46.877279 Individual 92.730840
Black or African American 25956 Simple Assault 36.292187 Anti-White 46.594236 Individual 94.760364
Multiple 4047 Simple Assault 36.545589 Anti-Black or African American 29.033852 Individual 91.153941
Asian 1453 Simple Assault 31.865107 Anti-Black or African American 30.075705 Individual 93.048864
American Indian or Alaska Native 1095 Simple Assault 40.182648 Anti-White 31.415525 Individual 93.059361
Native Hawaiian or Other Pacific Islander 35 Simple Assault 45.714286 Anti-Other Religion 22.857143 Individual 77.142857


В этой таблице:

  • OFFENSE_COUNT общее количество преступлений, совершенных представителями данной расы
  • TOP_OFFENSE самый частый вид преступления для представителей данной расы
  • TOP_BIAS самый частый вид нетерпимости (мотива преступления) для представителей данной расы
  • TOP_VICTIM самая частая категория потерпевших для представителей данной расы

Для каждой типичной категории также представлены соответствующие процентные доли от общего количества преступлений, совершенных представителями данной расы.

Здесь можно увидеть, что для черных и белых основным мотивом является расовая нетерпимость по отношению к представителям противоположной расы (47% преступлений для обеих рас). При этом белые преступники, в основном, занимаются угрозами и запугиванием (37% преступлений), а черные нападениями без отягчающих обстоятельств (36% преступлений). (Удивительно, какое совпадение по процентным долям обнаруживают эти две расы!) Кстати говоря, только для белых преступников основной вид преступлений не связан с физическим ущербом (угрозы); представители других рас чаще совершают нападения.

Можно также отметить, что азиаты и представители смешанных рас (метисы) также, в основном, обнаруживают неприязнь к черным, индейцы и эскимосы к белым, а вот гавайцы к иноверцам. Что ж, эта статистика пока (лично для меня) оказалась довольно ожидаемой.

Взглянем на количество преступлений по годам для каждой расы преступников:

Кликабельно

Как и следовало предположить, преступления белых и черных на графике доминируют над остальными расами, по которым даже не видно изменений из-за разницы в масштабе. Пик со стороны белых здесь приходится на 1995 2002 гг., а со стороны черных начало 1990-х. С 2002 г. количество преступлений, совершенных белыми на почве нетерпимости, довольно уверенно спадало, снизившись в 2 раза по сравнению с пиковым 2001-м; однако после 2016 г. вновь начало круто расти. Нетерпимость среди черных плавно спадала с 1995 по 2004 г., однако затем так же плавно начала расти, выйдя в 2018 г. на уровень 1995 г.

Здесь интересно отметить, что при Бараке Обаме (который, как мы знаем, принадлежит к афроамериканской расе), то есть с 2009 по 2017 гг., количество преступлений среди белых очень резко снизилось, но в это же самое время количество преступлений среди черных обнаружило стабильный рост. Ранее при Буше (2001 2009 гг.) после пика преступлений среди белых в первый год его президентства количество преступлений, совершаемых представителями обеих рас, вышло на полку и практически не менялось. А вот при Клинтоне (1993 2001 гг.) преступления среди белых росли быстро, почти год от года, в то время как преступления среди черных, наоборот, плавно снизились.

Что ж, поглядели на основные тренды. Давайте теперь отфильтруем данные, оставив только самое необходимое для дальнейшего анализа.

Первая фильтрация: по видам преступлений и потерпевших


В соответствии с исследованием, представленным в моей предыдущей статье, произведем аналогичную фильтрацию данных для анализа:

  1. среди категорий потерпевших оставим только физических лиц (исключим преступления против организаций, властей и всего общества);
  2. среди видов преступлений оставим только убийства, нападения (тяжкие и обычные), грабежи и изнасилования как наиболее злодейские.

Посмотрим, что получилось:


YEAR STATE_NAME OFFENDER_RACE OFFENSE_NAME BIAS_DESC COUNT
0 1991 Arizona Black or African American Assault Anti-Gay (Male) 1
1 1991 Arizona Black or African American Assault Anti-White 4
2 1991 Arizona White Assault Anti-Black or African American 10
3 1991 Arkansas Black or African American Assault Anti-Black or African American 1
4 1991 Arkansas Black or African American Assault Anti-White 4
... ... ... ... ... ... ...
16428 2018 Wisconsin White Assault Anti-Hispanic or Latino 1
16429 2018 Wisconsin White Assault Anti-Hispanic or Latino;Anti-White 1
16430 2018 Wisconsin White Assault Anti-Physical Disability 1
16431 2018 Wisconsin White Assault Anti-Sikh 1
16432 2018 Wisconsin White Assault Anti-White 1

16433 rows 6 columns



Фильтрация и агрегация данных позволила сократить объем в 12 раз без ущерба для факторов, важных для анализа. Новый столбец COUNT в конце содержит количество преступлений для данного года, штата, расы преступника, вида преступления и мотива.

В качестве промежуточного шага посмотрим на распределение преступлений по расе преступников:

Кликабельно

и по видам нетерпимости:

Кликабельно

Итак, белые и черные преступники составляют вместе 93% всех случаев (преступлений среди белых в два раза больше, но мы же знаем, что белых и самих в 5 раз больше). Поэтому совершенно не удивляет и то, что почти та же пропорция и по видам нетерпимости: 33% преступлений мотивировано нетерпимостью к черным, 18% нетерпимостью к белым. Здесь попутно интересно отметить, что преступления на почве нетерпимости к белым количественно примерно равны преступлениям на почве нетерпимости к гомосексуалам это третий по величине мотив.

Вторая фильтрация: по расе преступников и мотиву преступлений


Следующий логический шаг оставить только черных и белых преступников и, соответственно, только черно-белые мотивы преступлений. Этим мы сужаем объект исследования до расизма среди белых и черных. После дополнительной фильтрации наш массив данных выглядит как-то так:


YEAR STATE_NAME OFFENDER_RACE OFFENSE_NAME BIAS_DESC COUNT
0 1991 Arizona Black Assault Anti-White 4
1 1991 Arizona White Assault Anti-Black 10
2 1991 Arkansas Black Assault Anti-Black 1
3 1991 Arkansas Black Assault Anti-White 4
4 1991 Arkansas Black Murder Anti-White 1
... ... ... ... ... ... ...
3870 2018 West Virginia White Assault Anti-White 2
3871 2018 Wisconsin Black Assault Anti-Black 1
3872 2018 Wisconsin Black Assault Anti-White 4
3873 2018 Wisconsin White Assault Anti-Black 6
3874 2018 Wisconsin White Assault Anti-White 2

3875 rows 6 columns



Пора включить в анализ удельные показатели (на количество населения по каждой расовой группе). Для этого подгрузим данные по численности населения из файла us_pop_1991-2018.csv.

Посмотрим, как в целом распределено население США по расам (среднегодовые показатели за 1991 2018 гг.):

Кликабельно

Белых получается в 5.8 раз больше, чем черных. Все остальные расы составляют 11% населения.

Далее добавляем в наш датасет данные по численности и вычисляем удельное количество преступлений на 1 млн. представителей каждой расы.

Помня, что после первой фильтрации у нас осталось 4 вида преступлений (убийство, нападение, грабеж и изнасилование), давайте посмотрим на распределение этих преступлений по обеим расам в абсолютных и удельных показателях:

Кликабельно

Отдельно для убийств и изнасилований (т.к. их на общих графиках не видно):

Кликабельно

Что же мы здесь видим? А видим вот что:

  • Из анализируемых видов преступлений с большим отрывом лидируют нападения (в 25 раз больше, чем грабеж, в 250 раз чем убийство и изнасилование).
  • Нападений, совершенных белыми, в два раза больше, но в удельном отношении черные совершают нападения почти в 3 раза чаще.
  • Грабежей, совершенных черными, в 1.5 раза больше в абсолютных цифрах и в 10 раз больше в удельных.
  • Суммарно белые совершили несколько больше убийств, чем черные, и примерно столько же изнасилований. В удельном же выражении черные насилуют в 6 раз чаще и убивают в 3.6 раз чаще, чем белые. Между убийством и изнасилованием белые предпочитают убийство, а черные изнасилование.


Преступления на почве расизма по годам


Посмотрим, как изменялось количество расистских преступлений, совершенных черными и белыми, за весь период:

Кликабельно

Кликабельно

Нетрудно по этим графикам сделать очевидные выводы:

  • В среднем белые совершают в год немного больше преступлений на почве расизма, но в 4-5 раз реже в удельном выражении (другими словами, вероятность совершения расистского преступления афроамериканцем в 4-5 раз выше, чем белым).
  • Тем не менее, с 1990-х годов удельный показатель расистских преступлений среди черных постепенно падает, снизившись в полтора раза за четверть века.
  • При переходе от абсолютных показателей к удельным скачки преступлений белых значительно сгладились, что говорит о прямой корреляции между количеством преступлений, совершаемых белыми, с численностью белокожего населения. Однако для черных это не так: сильные скачки остались и на удельном графике, что говорит о плохой связи расизма среди черных с приростом чернокожего населения. Проще говоря, расизм среди белых относительно стабилен (почти константен) начиная с 1993 года, а расизм среди черных, скорее всего, подвержен влиянию внешних факторов, таких как общественно-политические и внутренние события в стране.


Взглянем и на обобщенные (среднегодовые) показатели:

Кликабельно

Лишний раз убеждаемся в сделанных наблюдениях: в среднем белые совершают на 15-16% больше преступлений на почве расизма, но при этом из-за разницы в численности белых и черных, как мы знаем, почти в 6 раз, черные в столько же раз чаще совершают такие преступления.

Только ли белые против черных, черные против белых?


Давайте к нашим обобщенным показателям добавим параметр нетерпимости, т.е. мотива преступлений. Как вы помните, в результате фильтрации мы оставили только два мотива: нетерпимость к белой расе и нетерпимость к чернокожей расе. Как они распределены между белыми и черными преступниками? 100% полярно, конечно же? А вот и нет!

Кликабельно

Конечно, поляризация налицо, но выясняется, что есть преступления, совершенные черными на почве расовой вражды к своим же, и то же самое среди белых. (Уверен, что есть и преступления, совершенные гомосексуалами на почве ненависти к гомосексуалам, женщинами на почве ненависти к женщинам и т.д., ибо человек это звучит гордо сложно; конечно, все это вы можете проверить сами!)

Но что здесь любопытно: доля преступлений, совершаемых черными на почве ненависти к своим же составляет 11% от всех преступлений, совершаемых черными, а для белых этот показатель равен 9%. То есть чернокожий имеет несколько более высокий шанс обернуться против своих.

География преступлений


Наконец, посмотрим на распределение преступности на почве расизма по штатам США. Для вычисления удельных показателей нам, как обычно, надо будет загрузить численность по штатам и расам из файла us_pop_states_race_2010-2019.csv.

Среднегодовые показатели численности белых и черных по штатам:

Кликабельно

ОК, ничего нового: перенаселенные Калифорния, Техас, Флорида и Нью-Йорк, где, как вы могли видеть из прошлой статьи, совершается количественно больше преступлений.

Но везде ли одинакова доля чернокожего населения пресловутые 13%? Посмотрим:

Кликабельно

Итак, черных больше половины всего Округа Колумбия (где находится славный город Пентагон Вашингтон), около трети в хлопковых южных штатах Миссисипи, Луизиане, Джорджии, Алабаме, Южной Каролине и в одном северном (Мэриленде, где Округ Колумбия, где славный город...); в остальных меньше четверти. Это, как говорится, просто для справки.

А что с преступлениями? Смотрим на среднегодовые показатели в абсолютных и удельных выражениях:

Кликабельно

Кликабельно

Видно, что по абсолютному количеству преступлений лидирует самый населенный штат Калифорния. Но далее Флориду и Техас потеснили Мичиган, Иллинойс и Мэриленд экономически более развитые северные штаты. А на удельном графике выбились вперед наименее населенные штаты Монтана, Вермонт, Айдахо, Северная и Южная Дакота, Аляска (все тоже на севере страны). При этом видно, что пропорция преступлений между белыми и черными не одинакова по штатам, несмотря на доминирование черных по удельным показателям (например, в белую сторону выделяется Округ Колумбия и Гавайи).

Отобразим на карте (для большей наглядности заменим среднегодовые показатели накопленной суммой).

Сначала в абсолютном выражении:

Кликабельно

Здесь выделяется северо-восток страны (особенно Мичиган) плюс Калифорния и Вашингтон на тихоокеанском побережье. И в удельном выражении:

Кликабельно

Здесь заметно преобладание севера с наименее населенными штатами: Округ Колумбия, обе Дакоты и все тот же Вашингтон, а также по паре штатов с восточной и западной стороны. При этом южные штаты не обнаруживают значительной преступности среди населения.

В общем, если вы задаете вопрос Где я увижу больше преступлений, мотивированных расизмом?, смотрите первую карту. Если ваш вопрос Где выше вероятность каждого человека совершить расистское преступление? смотрите вторую карту. Других выводов относительно распределения делать не стану.

Вместо выводов


Как там у Булгакова? Факты самая упрямая в мире вещь. Если нам что-то твердят со всех сторон, совсем необязательно это является правдой это может оказаться полуправдой или же ложью. Но имея в руках факты в виде N-ного количества наборов данных, вы можете сами подтвердить или опровергнуть те или иные рассуждения. Можно строить гипотезы и подтверждать / опровергать их статистическими методами, а можно просто без всяких гипотез рассмотреть данные и найти в них некие закономерности, которые уже в свою очередь помогут либо сделать выводы, либо предложить гипотезы, которые далее можно так же препарировать. Вам решать верить всему на слово или проверять.

Конечно, этот маленький анализ далеко не полный. Он выполнен поверхностно, ведь я только рассмотрел базовые показатели, не применяя даже четверти доступного аппарата математической статистики. Конечно, и о качестве исходных данных можно спорить. Всем ли регистрируемым данным можно верить? Все ли преступления регистрируются? Кто и как определяет мотивы нетерпимости? Но как по мне, я лучше буду анализировать официальные открытые данные as-is, чем довольствоваться заявлениями вроде в крови господина N нашли отравляющее вещество X или страна W уже на протяжении десятков лет систематически нарушает права человека.

PS. В комментариях к моему предыдущему исследованию меня много раз просили разделить чисто белых и латиносов, так как культуры все-таки имеют различия. Я бы и не против, но, к сожалению, это невозможно сделать ни в том, ни в этом случае по причине скудности сведений об этом этническом признаке в исходных данных. Так, например, в данных, которые мы разбираем в этой статье, из 79514 преступлений, совершенных белыми, только 6999 имеют пометку об этнической принадлежности, причем только 489 помечены как Hispanic or Latino (это 0,6%). Конечно, такие данные нельзя использовать для анализа.
Подробнее..

Категории

Последние комментарии

  • Имя: Макс
    24.08.2022 | 11:28
    Я разраб в IT компании, работаю на арбитражную команду. Мы работаем с приламы и сайтами, при работе замечаются постоянные баны и лаги. Пацаны посоветовали сервис по анализу исходного кода,https://app Подробнее..
  • Имя: 9055410337
    20.08.2022 | 17:41
    поможем пишите в телеграм Подробнее..
  • Имя: sabbat
    17.08.2022 | 20:42
    Охренеть.. это просто шикарная статья, феноменально круто. Большое спасибо за разбор! Надеюсь как-нибудь с тобой связаться для обсуждений чего-либо) Подробнее..
  • Имя: Мария
    09.08.2022 | 14:44
    Добрый день. Если обладаете такой информацией, то подскажите, пожалуйста, где можно найти много-много материала по Yggdrasil и его уязвимостях для написания диплома? Благодарю. Подробнее..
© 2006-2024, personeltest.ru