Установка зависимостей
-
Установить tesseract по инструкции
-
Скачайте языковые пакеты Tesseract:
- Перейдите на страницу репозитория Tesseract на GitHub: https://github.com/tesseract-ocr/tessdata
- Скачайте файл rus.traineddata для русского языка.
-
Добавьте языковые пакеты в Tesseract:
- Скопируйте скачанный файл rus.traineddata в директорию с языковыми пакетами Tesseract на вашей системе. (macos:
/opt/homebrew/Cellar/tesseract/<version>/share/tessdata
)
- Скопируйте скачанный файл rus.traineddata в директорию с языковыми пакетами Tesseract на вашей системе. (macos:
Сетапим окружение
cd /path/to/project/it-purple-hack
python3.11 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
Запустим парсинг:
# Правовые акты
python3.11 data/parse/cbr/legal_acts.py
# Базовые стандарты
python3.11 data/parse/cbr/basic_standards.py
# FAQ & explan
python3.11 data/parse/cbr/faq.py
Создадутся csv-файлы с соответсвующими названиями в корне проекта
ClickHouse хранилище:
- Можно подключиться с доступами на чтение
- host:
62.84.115.43
- port:
8123
- user:
viewer
- password:
viewer
- database:
dev
- host:
Решение на Google Colab https://colab.research.google.com/drive/1p6pM-ZaTFEI9t71Ut6Os131CLnekbkAJ?usp=sharing