Парсинг и аудит

Начнем с идеи. Допустим, вы, как настоящий аудитор, хотите провести экспертизу отчетности заводчика собак, используя в том числе и сторонние ресурсы. Для этого вы пробуете получить систематизированную информацию о щенках заводчика, зная, к примеру, лишь название их пород, и составить из нее таблицу в Pandas, пригодную к дальнейшей обработке любого характера (всевозможные статистические изыскания, агрегация и так далее). Но ваши данные хранятся в глубине некоторого абстрактного вебсайта, откуда вы можете вынуть их в только виде архива, где сложены документы нескольких форматов, внутри которых есть текст, картинки, таблицы. А если пород щенков много, а на каждую из них есть по десятку pdf-файлов с таблицами, откуда вам нужна не вся информация, а также, например, нужны названия этих таблиц или сноски? Добавим в наш проект несколько функций, решающих следующие задачи: выгрузка и распаковка архива с данными, поиск и обработка pdf файлов из архива, анализ полученных данных.

Для начала импортируем все необходимое. Разделим библиотеки, нужные нам, на системные:

import osimport reimport globimport csvimport shutil

и внешние, требующие установки (pip install, как я и говорил):

import requests as reqimport pandas as pdfrom zipfile import ZipFileimport tabulaimport PyPDF2from pdf2image import convert_from_pathfrom pytesseract import image_to_stringfrom PIL import Image, ImageDraw

Теперь для каждого вашего щеночка скачаем большой архив с данными, обратившись к сайту по названию его породы:

def get_doquments_archive(breed):            url = 'https://yourwebsite' + breed + '/document/download'              with req.get(url, stream=True) as r:                r.raise_for_status()                with open('/Users/user/Desktop/' + breed + '.zip', 'wb') as f:                         for chunk in r.iter_content(chunk_size=8192):                                   f.write(chunk)

Теперь у нас есть архив на рабочем столе. Распакуем его, для этого нам понадобится знать всего лишь путь к файлу с архивом:

def unzipper(zippath, cond = False): dirpath = zippath[:-4] + '_package' if os.path.exists(dirpath) and os.path.isdir(dirpath):shutil.rmtree(dirpath)os.mkdir(dirpath)with ZipFile(zippath, 'r') as zipObj:zipObj.extractall(path = dirpath)

На этом шаге мы получим папку с документами, где могут быть pdf, csv, xls, png и другие приятные штуки. Допустим, мы желаем обработать несколько pdf файлов, содержащих таблицы с данными. Но как их оттуда вынуть? Для начала выделим из папки документы нужного нам формата:

all_pdfs = glob.glob(dirpath + '/*_pd*.pdf')

Отлично. Теперь у нас есть набор файлов, внутри которых есть текст и таблицы. При попытке вынуть оттуда информацию может оказаться, что такую смесь инструменты распознают очень криво, особенно если таблицы склеены друг с другом, а их заголовки или сноски отдельно стоящий текст. На помощь приходит tabula! Но для начала вынем из первой страницы каждого документа немного текстового описания, не входящего в таблицу (такой текст для tabula может быть проблемой). Поскольку на первой странице также может быть таблица, воспользуемся фокусом:

def get_text_description(path):pdfFileObj = open(path,'rb')pdfReader = PyPDF2.PdfFileReader(pdfFileObj)pages = convert_from_path(declar, 0)page = pages[0]pname = '/Users/user/Desktop/text_description.png'page.save(pname, 'JPEG')text = image_to_string(Image.open('/Users/user/Desktop/text_description.png'),                                          lang = 'rus')text_file = open('res', "w")text_file.write(text)text_file.close()

Теперь начнем работать с таблицей. Если повезет, и таблица в нашем pdf вполне читемая, tabula корректно выгрузит ее в формате csv, таким образом, информацию даже не придется парсить:

tabula.convert_into(file, 'output_file.csv', output_format = "csv", pages = 'all')

Посмотрите, как теперь может быть просто получить, например, данные о характере выбранного щенка:

data = pd.read_csv('/Users/user/Desktop/output_file.csv')temperament = data[data['Порода'] == 'Цвергшнауцер']['Характер']

Но если автор текста склеил таблицы между собой, добавил в строки разное количество столбцов или перемешал их с текстом? Тогда мы приведем полученный от tabula файл в новый формат:

def get_table_data(path): data = [] with open(path) as csvfile:reader = csv.DictReader(csvfile)for row in reader:for val in row.values():data.append(val)data = str(data)data = re.sub('\]|\[|,|\'', '', data)data = data.replace("\\n", "")return data

Для чего? Это позволит искать нужную информацию быстро и безболезненно с помощью регулярных выражений. Хотим найти набор возможных цветов породы:

def get_colors(data): res = re.search('^Цвета: (.*)', data).group(1) return res

Теперь мы накопили некоторое количество информации из файлов по одному щенку (допустим, характер, цвета, масса). Добавим ее в pandas dataframe как новую строку:

def append_new_row(dataframe, breed, temperament, colors, weight):  return dataframe.append({'Порода': breed,'Характер': temperament,'Цвета': colors,'Масса' : weight}, ignore_index=True)

Что мы теперь имеем:

Итак, мы выгрузили с сайта архив с данными, распаковали его, вынули нужные нам документы, достали из них важную информацию и привели ее к удобному формату. Теперь эти данные можно сравнивать с предоставляемыми компанией, преобразовывать и анализировать, а также многое другое! Гораздо удобнее, чем качать и выписывать вручную.

def clean_all(path):os.remove(path + '.zip')shutil.rmtree(path + '_package')

Важно, чтобы ваши действия оставались полностью законными. Забирать данные с сайтов можно, красть контент нельзя. Качать автоматически можно, класть сервер нельзя. Изучайте авторские права и УК РФ, не наносите ущерб.

Datascience это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу вы

Наверное, все разработчики слышали, что нужно писать чистый код. Но не менее важно писать и использовать безопасный код.

Python-разработчики обычно устанавливают модули и сторонние пакеты, чтобы не изобретать велосипеды, а использовать готовые и проверенные решения. Но проблема в том, что они не в

Привет, Хабр!

Cо времен нашего последнего поста в JetBrains Academy изменилось довольно много: мы выпустили важные обновления платформы, опубликовали множество новых проектов и тем, а также ввели годовую подписку! Кроме того, мы проанализировали наши проекты и составили рейтинг лучших из них по мнению наших пользователей. Ниже мы расскажем обо всем этом подробнее.

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Этой весной Питерская Вышка и JetBrains впервые провели проектную смену для старшеклассников Школу по практическому программированию и анализу данных. В течение пяти дней 50 участников со всей страны работали над групповыми проектами по машинному обучению, NLP, мобильной и web-разработке.

Первое место заняла команда Deep Q-Mario ребята создали не

Мы рады сообщить, что стал доступен июньский релиз расширения Jupyter для Visual Studio Code. Если вы работаете с Python, мы рекомендуем загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее

Логотип статьи определяет три, как временные, так и географические, точки на моём жизненном пути, через которые лежал мой путь в страну под названием Программирование. В городе Чебоксары, на родине легендарного комдива Гражданской войны В.И.Чапаева, прошло моё детство (1954-1968 г.г.), там я закончил 8

Всем привет. С вами я, stalker320, и сегодня я хотел бы рассказать про написание служебных скриптов, запускающихся в редакторе. Всем желающим прочесть - добро пожаловать под кат

EditorScript - это такой скрипт, который можно запустить по нажатию комбинации Ctrl+Shift+X прямо из движка. Он может исполнять различные служебные функции. К примеру создать необходимую структуру каталогов в проекте.

Привет, меня зовут Александр, я старший разработчик ПО в Центре разработкиOrionInnovation. Хочу признаться, я люблю рассказывать про C++ и не только на различных митапах и конференциях.Ивотядобрался доХабра. НаCppConfRussiaPiter2020 я рассказывал про концепты и послевыступлен

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

В 26-м выпуске NP-полного подкаста я рассказывал, что начал переводить один из своих сервисов из Redis Sentinel на Redis Cluster. На этой неделе я захотел потестировать данный код, и, конечно же, выбрал Testcontainers для этого. К сожалению, Redis Cluster в тестовых контейнерах не з

Мне на удивление часто приходится говорить о том, почему мне всё ещё нравится язык C, и о том, почему я плохо отношусь к C++. Поэтому я решил, что мне стоит об этом написать, а не снова и снова повторять одно и то же.

Как это обычно бывает у C-программистов, язык C не был ни моим первым яз

Парсинг и аудит

Сейчас читают

Python

Автоматизация машинного обучения

Перевод Ищем уязвимости в Python-коде с помощью open source инструмента Bandit

JetBrains Academy платформенные обновления, любимые проекты пользователей и годовая подписка

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Обучение с подкреплением в Super Mario Bros. Сравнение алгоритмов DQN и Dueling DQN

Jupyter в Visual Studio Code июньский релиз

Программирование

Пятьдесят лет на стезе программирования. Часть I. Начало пути. Отчий дом и Казанское суворовское военное училище

Принцип работы EditorScript

Производительность компилятора при работе с концептами в C20

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Как подружить Redis Cluster c Testcontainers?

Перевод Почему я всё ещё люблю C, но при этом терпеть не могу C?

Категории

Последние комментарии

	Русский
	English