Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

New russian language model #69

Open
Desklop opened this issue Dec 4, 2018 · 4 comments
Open

New russian language model #69

Desklop opened this issue Dec 4, 2018 · 4 comments

Comments

@Desklop
Copy link

Desklop commented Dec 4, 2018

Здравствуйте, я тут обучил JamSpell на наборе данных из русских субтитров (примерно 5 млн предложений) к 347 различным сериалам, взятыми из корпуса Taiga. После очистки данных получился текстовый файл с субтитрами размером 310Mb.

Результаты оценки модели:
result_evaluate

Скачать можно из моего Google Drive: jamspell_ru_model_subtitles.bin.zip (58Mb)

PS. Буду только рад, если добавите эту модель к списку готовых моделей в README проекта :)

@olegtarasov
Copy link

@Desklop Владислав, здравствуйте! Большое спасибо за модель! Не могли бы выложить заодно и корпус для обучения?

@Desklop
Copy link
Author

Desklop commented Feb 20, 2019

@olegtarasov да, в моём репозитории вы можете найти всю необходимую информацию: Russian subtitles dataset

@olegtarasov
Copy link

@Desklop Круто, спасибо! Поисследуем :)

@bakwc
Copy link
Owner

bakwc commented Sep 29, 2020

Посмотрите так же на Pro версию, она включает в себя большую модель (~2 Гб. данных) обученную на википедии, новостях, субтитрах (не только из taiga, но и из opensubtitles.org), литературе. Исходные данные так же доступны.

JamSpellPro доступна на jamspell.com

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants