О локальном поиске замолвите слово

В стародавние времена я работал айтишником в одной фирме и в какое-то время возникла задача поиска по локальному хранилищу документов. Искать желательно было не только по названию файла, но и по содержанию. Тогда ещё были популярны локальные поисковые механизмы типа архивариуса и даже от Яндекса был отдельностоящий поисковик. Но это были не корпоративные решения их нельзя было развернуть централизовано для совместного использования. Яндекс, честности ради начал делать что-то похожее, но потом забросил.
Но у всех этих решений не было того, что мне нужно:
Централизованная установка
Поисковая выдача с учётом прав доступа
Поиск по содержимому документа
Морфология
И я решил сделать своё.

Раскрою по пунктам, что я имею в виде для избегания разности толкований и недопониманий.
Централизованная установка клиент-серверное исполнение. У всех перечисленных выше решений одна фундаментальная проблема каждый пользователь делает свой локальный поисковый индекс, что в случае больших объёмов хранилищ затягивает индексирование, растёт профиль пользователя на машине и вообще неудобно в случае прихода нового сотрудника или переезда на новую машину.
Поисковая выдача в учётом прав тут всё просто выдача должна соответствовать правам сотрудника на файловый ресурс. А то получится, что даже если у сотрудника нет прав на ресурс, но он может всё почитать из поискового кеша. Неудобненько получится, согласитесь?
Поиск по содержимому документа поиск по тексту документа, тут всё очевидно, как мне кажется и разночтений быть не может.
Морфология ещё проще. Указали в запросе нож и получили, как нож, так и ножи, ножевой и ножик. Желательно, чтобы это работало для русского и английского языков.
С постановкой задачи определились, можно переходить к реализации.
В качестве именно поисковой машины я выбрал систему Sphinx, а язык разработки интерфейса C# и .net и в итоге проект получил название Vidocq (Видок) по имени французского сыщики Ну типа найдёт всё и вот это вот всё.
Архитектурно приложение выглядит следующим образом:
Поисковый робот рекурсивно обходит файловый ресурс и обрабатывает файлы по заданному списку расширений. Обработка заключается в получении содержимого файла, сжатию текста из текста убираются кавычки, запятые, лишние пробелы и прочее, дальше содержимое помещается в базу (MS SQL), делается отметка о дате помещения и робот идёт дальше.
Индексатор Сфинса работает уже непосредственно с полученной базой, формируя свой индекс и возвращая в качестве ответа указатель на найденный файл и сниппет найденного фрагмента текста.
На C# была разработана форма, которая общалась со Сфинксом через MySQL-коннектор. Сфинкс отдаёт массив файлов в соответствии с запросом, дальше массив фильтруется на право доступа того пользователя, который осуществляет поиск, выдача форматируется и показывается пользователю.
О файле нам понадобится хранить следующую информацию:
Id файла
Имя файла
Путь к файлу
Содержимое файла
Расширение
Дата добавления в базу
Это всё делается одной таблицей и в неё всё будет складывать поисковый робот. Дата добавления необходима для того, чтобы когда робот в следующий обход сравнивал дату изменения файла с датой помещения в базу и если даты различаются, то обновить информацию о файле.
Дальше настраивать саму поисковую машину. Я не буду описывать весь конфиг, он будет доступен в архиве проекта, но освещу лишь основные моменты.
Основной запрос, формирующий базу
source documents: documents_base

{

sql_query = \

select \

DocumentId as 'Id', \

DocumentPath as 'Path', \

DocumentTitle as 'Title', \

DocumentExtention as 'Extension', \

DocumentContent as 'Content' \

from \

VidocqDocs

}

Настройка морфологии через лемматайзер.

index documents

{

source = documents

path = D:/work/VidocqSearcher/Sphinx/data/index

morphology = lemmatize_ru_all, lemmatize_en_all

}

После этого на базу можно натравливать индексатор и проверять работу.

d:\work\VidocqSearcher\Sphinx\bin\indexer.exe documents
--config D:\work\VidocqSearcher\Sphinx\bin\main.conf
rotate

Тут путь к индексатору дальше имя индекса в который поместить обработанное, путь к конфигу и Флаг rotate означает, что индексация будет выполняться наживую, т.е. при работающей службе поиска. После завершения индексации индекс будет заменен на обновлённый.
Проверяем работу в консоли. В качестве интерфейса можно использовать клиента MySQL, взятого, например, из комплекта веб-сервера.
mysql -h 127.0.0.1 -P 9306
после этого запрос select id from documets; должен вернуть список проиндексированных документов, если, конечно, вы перед этим запустили саму службу Sphinx и всё сделали правильно.
Хорошо, консоль это прекрасно, но мы же не будем заставлять пользователей вбивать руками команды, верно?
Я набросал вот такую вот форму

И вот с результатами поиска

При щелчке по конкретному результату открывается документ.
Как реализовано.

using MySql.Data.MySqlClient;

string connectionString = "Server=127.0.0.1;Port=9306";

var query = "select id, title, extension, path, snippet(content, '"
+ textBoxSearch.Text.Trim() + "', 'query_mode=1') as snippet from
documents " +

"where ";

if (checkBoxTitle.IsChecked == true &&
checkBoxContent.IsChecked == true)

{

query += "match ('@(title,content)" + textBoxSearch.Text.Trim() +
"')";

}


if (checkBoxTitle.IsChecked == false &&
checkBoxContent.IsChecked == true)

{

query += "match ('@content" + textBoxSearch.Text.Trim() + "')";

}


if (checkBoxTitle.IsChecked == true &&
checkBoxContent.IsChecked == false)

{

query += "match ('@title" + textBoxSearch.Text.Trim() + "')";

}




if (checkBoxWord.IsChecked == true &&
checkBoxText.IsChecked == true)

{

query += "and extension in ('.docx', '.doc', '.txt');";

}

if (checkBoxWord.IsChecked == true &&
checkBoxText.IsChecked == false)

{

query += "and extension in ('.docx', '.doc');";

}


if (checkBoxWord.IsChecked == false &&
checkBoxText.IsChecked == true)

{

query += "and extension in ('.txt');";

}

Да, тут быдлокод, но это MVP.
Собственно, тут формируется запрос к Сфинксу в зависимости от выставленных чексбоксов. Чекбоксы указывают на тип файлов в которых искать и область поиска.
Дальше запрос уходит в Сфинкса, а потом разбирается полученный результат.

using (var command = new MySqlCommand(query, connection))

{

connection.Open();


using (var reader = command.ExecuteReader())

{

while (reader.Read())

{

var id = reader.GetUInt16("id");

var title = reader.GetString("title");

var path = reader.GetString("path");

var extension = reader.GetString("extension");

var snippet = reader.GetString("snippet");

bool isFileExist = File.Exists(path);

if (isFileExist == true)

{

System.Windows.Controls.RichTextBox textBlock = new
RichTextBox();

textBlock.IsReadOnly = true;

string xName = "id" + id.ToString();

textBlock.Name = xName;

textBlock.Tag = path;

textBlock.GotFocus += new
System.Windows.RoutedEventHandler(ShowClickHello);

snippet = System.Text.RegularExpressions.Regex.Replace(snippet,
"<.*?>", String.Empty);

Paragraph paragraph = new Paragraph();

paragraph.Inlines.Add(new Bold(new Run(path + "\r\n")));

paragraph.Inlines.Add(new Run(snippet));

textBlock.Document = new FlowDocument(paragraph);

StackPanelResult.Children.Add(textBlock);

}

else

{

counteraccess--;

}

}

}

}

На этом же этапе формируется выдача. Каждый элемент выдачи richtextbox с событием открытия документа на клик. Элементы помещаются на StackPanel и перед этим идёт проверка доступности файла пользователю. Таким образом, в выдачу не попадёт файл, недоступный пользователю.
Преимущества такого решения:
Индексация происходит централизованно
Чёткая выдача с учётом прав доступа
Настраиваемый поиск по типам документов
Разумеется, для полноценной работы такого решения в компании должно быть соответствующим образом организован файловый архив. В идеале должны быть настроены перемещаемые профиля пользователей и прочее. И да, я знаю про наличие SharePoint, Windows Search и скорее всего ещё нескольких решений. Дальше можно бесконечно долго дискутировать о выборе платформы разработки, поисковой машине Sphinx, Manticore или Elastic и так далее. Но мне было интересно решить задачу тем инструментарием в котором я немного разбираюсь. Сейчас оно работает в режиме MVP, но я развиваю его.
Но в любом случае я готов выслушать ваши предложения о том, какие моменты можно или улучшить или переделать на корню.

Не так часто удается написать что-то интересное про проблемы, связанные с параллельным программированием. В этот же раз "повезло". Из-за особенностей реализации стандартного метода TraceEvent произошла ошибка с блокировкой нескольких потоков. Хочется предупредить о существующем нюансе и рассказать об интересном случае из поддержки наших пользователей. Причем тут поддержка? Это вы узнаете из статьи. Приятного чтения.

Работая в компании IT-аутсорса в качестве руководителя 3 линии поддержки, задумался, как автоматизировать подключение сотрудников по RDP, через VPN к серверам десятков клиентов.

Таблички с адресами, паролями и прочими настройками серверов, конечно, хорошо, но поиск клиента и вбивание адресов с аккаунтами занимает довольно существенное время.
Держать все подключения к VPN в Windows не самая лучшая идея, да и при переустан

Поддержка движка отстает, а исправление положения - задача не из легких

Разработчик программного обеспечения Unity Джош Питерсон рассказал нам о будущем поддержки .NET в широко используемом движке для разработки игр.

Согласно

Проблемы с производительностью, такие как аномально низкая скорость работы и высокое потребление памяти, могут быть обнаружены самыми разными способами. Такие недостатки приложения выявляются тестами, самими разработчиками или тестировщиками, а при менее удачном раскладе пользователями. Увы, но обнаружение аномалий лишь первый шаг. Далее проблему необходимо локализовать, ведь в противном случае решить её не получится. Тут возникает

Исходные данные:

Два SQL Server'а, которые находятся в прямой доступности между собой, на одном из которых настроен Linked Server.
SQL запрос вида:

insert into LocalDatabaseName.dbo.TableName (column1, column2, ..., columnN)select column1, column2, ..., columnNfrom LinkedServerName.RemoteDatabaseName.dbo.TableName

Добрый день. Сегодня хочется поговорить о том, как найти MEX (минимальное отсутствующие число во множестве).

Мы разберем три алгоритма и посмотрим на их производительность.

Добро пожаловать под cat

Предисло

В последние несколько лет в среде технических писателей все больше на слуху концепция Docs as Code. Если вы раньше не сталкивались с этим термином, он обозначает подход к разработке технической документации с использованием тех же инструментов и процессов, что и написание кода. Если DocOps это про процессы и коллаборацию, то Docs as Code про инструментарий, при помощи которого мы несмотря ни на что. Мы выбрали этот подход, когда со

Это продолжение публикации Интернационализация поиска по городским адресам. Реализуем русскоязычный Soundex на Sphinx Search, в которой я разбирал, как реализовать поддержку фонетических алгоритмов Soundex в Sphinx Search, для текста написанного кириллицей. Для текста на латинице поддержка Soundex уже есть. С Metphone аналогично, для латиницы есть, для кириллицы не очень, но попытаемся исп

Как много в вашем городе иностранных туристов? В моём мало, но встречаются, как правило стоят потерянные посреди улицы и повторяют одно единственное слово название чего бы то ни было. А прохожие пытаются им на пальцах объяснить куда пройти, а когда моя твоя не понимать берут за руку и ведут к пункту назначения. Как это не удивительно, обычно цель в пяти минутах ходьбы, т.е. какое-то примерное представление о городе эти туристы всё

В мае 2017 мы, команда Manticore Software, сделали форк Sphinxsearch 2.3.2, который назвали Manticore Search. Ниже вы найдёте краткий отчёт о проделанной работе за три с половиной года, прошедших с мо

В процессе разработки проекта голосовой помощник одним из требований была возможность распознавания управляющих команд в оффлайн режиме. Это было нужно, так как в противном случае пришлось бы постоянно слушать и посылать поток с аудиоданными на распознавание, по

Если вам нужно найти фотографию, сделанную на пикнике несколько лет назад, вряд ли вы помните имя, которое камера автоматически присвоила файлу в момент съёмки, например, 2017-07-04 12.37.54.jpg.Вы просматриваете всё подряд фотографии, их эскизы, пытаетесь определить

В старых и новых приложениях незаметно начинает появляться инструмент, упрощающий взаимодействие и ускоряющий выполнение действий. Это мощное поле поиска, которое я называю power bar; иногда оно имеет название command palette.

Power bar, похожая на поиск Spotlight в macOS, встраивается в приложение и обычно вызывается сочетанием горячих клавиш CMD+K (или CMD+SHIFT+P). После её вызова пользователь вводит в неё

Когда мы начали разрабатывать компонент Combobox для нашей библиотеки, мы столкнулись с вопросами, как правильно должен работать поиск:

Нужно ли выделять совпадения в выпадающем списке?
Совпадения должны быть по первым буквам или нет?
Если нет, нужно ли показывать выше то, что совпадает по первым буквам?

Мы стали смотреть, как ведет себя такой компонент в други

В августе 2019 года было опубликовано исследование ныне уже несуществующего поставщика данных о посещениях Jumpshot, демонстрирующее, что 50,33% всех поисковых запросов Google завершало

Под капотом почти каждой поисковой строки бьется одно и то же пламенное сердце инвертированный индекс. Именно инвертированный индекс принимает текстовые запросы и возвращает пользователю список документов, а пользователь смотрит на всё это дело и радуется котиками, о

Введение

Всем добрый день. Меня зовут Александр. Сейчас я работаю в Мегафон front-end разработчиком. Проблемы поиска данных всегда отличались особенной сложностью и зачастую нестандартностью в подходах. Сегодня я бы хотел остановиться на одной интересной задаче, которую мне пришлось решать совсем недавно во время разработки платформы Интернета вещей. Впрочем, такая задача, может встретиться и на любом другом проекте, где е

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Связь СЛОВ через словарик

Оригинал текста Июнь 10, 2021 - 38 минут чтения

Программное

В этой статье я в несколько забавном ключе документирую кое-какие размышления о своем знакомстве с Rust с позиции прожженного энтузиаста JavaScript. Здесь вас ждет импровизированная прогулка по феодам Вестероса, встреча с Ланнистерами и даже замаскированный под остров кора

Как-то прочел на Хабре статью Перевозим волка, козу и капусту через реку с эффектами на Haskell, которая так понравилась, что решил написать фреймворк для всего

Команда поклонников Rust сайта Immutant усердно трудилась над C2Rust, фреймворком для миграции программ, который существенно упрощает их перевод на Rust. Мы стремились везде, где можем, добиться автоматической оптимизации безопасности получаемого кода Rust. В иных слу

Да, понимаю, что это игра про учёных, но это не игра про немого учёного с монтировкой с цифрой 3, которую все ждут. Что вышло за 4 года разработки.

Официальное описание: Научная станция в глубоком космосе перестала отвечать на запросы. Что там произошло? Вы агент, прибывший выяснить, что случилось и Ваша задача спасти важное открытие, сделанное на станции.

Ученые находятся в комнатах с колбами. Система по очереди откр

О локальном поиске замолвите слово

Сейчас читают

Net

Как WCF сам себе в ногу стреляет посредством TraceSource

Powershell настоящий язык программирования. Скрипт оптимизации рутины в техподдержке

Перевод Предупреждение для разработчиков о грядущих критических изменениях в движке

Оптимизация .NET приложения как простые правки позволили ускорить PVS-Studio и уменьшить потребление памяти на 70

Linked Server MSSQL. Оптимизация производительности в 30 раз

MEX (Minimum EXcluded) Алгоритм поиска минимального отсутствующего числа

Предисло

Sphinx

Docs as Code введение в предмет

Продолжаем интернационализацию поиска по адресам с помощью Sphinx или Manticore. Теперь Metaphone

Интернационализация поиска по городским адресам. Реализуем русскоязычный Soundex на Sphinx Search

Manticore Search форк Sphinx отчёт за 3 года