Skip to content

Моё решение задачи <<Принятие законопроектов>> предложенной на фестивале Rucode в треке <<Искусственный Интеллект>> осенью 2021 года.

Notifications You must be signed in to change notification settings

v-yankovskij/rucode-2021

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 

Repository files navigation

rucode-2021

Моё решение задачи <<Принятие законопроектов>> предложенной на фестивале Rucode в треке <<Искусственный Интеллект>> осенью 2021 года.

Описание задачи

В этом соревновании вам предлагается решить задачу определения, будет ли принят нормативно-правовой акт (НПА) или нет.

Нормативный правовой акт (НПА) — это официальный документ, направленный на установление, изменение и отмену правовых норм в стране. Подробно о том, что такое НПА, читайте по ссылке.

С началом разработки нового проекта НПА ведомство-разработчик обязано разместить документацию к проекту на портале Минэкономразвития regulation.gov.ru в открытом доступе. ОРВ — процедура оценки влияния предлагаемого НПА на различные процессы внутри страны: экономические, политические, социальные и т.п. Подробнее об ОРВ читайте по ссылке.

В случае, когда для данного НПА необходимо проведение оценки регулирующего воздействия (ОРВ), разработчик также размещает на сайте данные сводных отчетов, составленных в результате этой процедуры. Также в результате ОРВ каждый проект НПА получает заключение, вынесенное экспертами Минэкономразвития: оно может быть положительным или отрицательным.

После размещения НПА на сайте выделяется некоторое время на публичное обсуждение. Пользователи сайта — граждане — могут комментировать НПА, ставить НПА лайки, дизлайки. Также сайт собирает статистику просмотров страниц НПА.

В результате всех стадий жизни проекта НПА на сайте regulation.gov.ru проект НПА может быть либо принят (и вынесен на рассмотрение уже в государственную думу), либо не принят. В этом конкурсе мы предлагаем вам на основе текста НПА, данных с сайта regulation.gov.ru и оценок ОРВ научиться предсказывать, какие проекты НПА получает одобрение и будут приняты, а какие — нет.

Метрика качества в данном соревновании — ROC AUC. В качестве ответов принимаются дробные числа от 0 до 1 (вероятности того, что ответ имеет значение 1).

Данные представляют собой несколько csv таблиц с информацией о проектах нормативно-правовых актов (НПА) с с 2012 по 2021 г. (все время существования портала). Кроме данных об НПА есть еще два файла — train_answer.csv, sample_submission.csv. В файле sample_submission.csv представлена структура, как должен выглядеть ваш csv файл с ответами на тестовые данные. В файле train_answer.csv представлены значения целевой переменной на тренировочную часть датасета.

Подробно о данных

  • regulations.csv - общая информация о проектах нормативно-правовых актов с 2012 по 2021 г.
  • regulations_texts.csv - тексты (описания) части НПА
  • ria_reports - в этой папке находятся сводные отчеты об оценке регулирующего воздействия (ОРВ) предложенных НПА за 2015-2021 гг. Данные из этой папки могут использоваться участниками как вспомогательная информация об НПА для построения алгоритма машинного обучения.
  • ria_reports_structures - в этой папке находятся описания сводных отчетов ОРВ из папки ria_reports.

Описание таблицы regulations.csv

  • id - уникальный id НПА
  • act_title - название НПА
  • publication_date - Дата публикации проекта НПА на сайте
  • developer - разработчик НПА
  • okved_list - Список ОКВЭДов. Отражает виды экономической деятельности, регулируемый проектом.
  • views_num - Количество просмотров страницы, на которой размещён проект НПА
  • comments_num -Количество комментариев к проекту НПА на сайте
  • likes_num - Количество «лайков» проекта НПА на сайте
  • dislikes_num - Количество «дизлайков» проекта НПА на сайте
  • regulatory_impact - Степень регулирующего воздействия проекта НПА
  • added_by - ФИО создателя проекта нормативного правового акта
  • responsible - ФИО ответственного за проект нормативного правового акта
  • is_regionally_signigicant - Затрагивает ли проект НПА вопросы экономического развития регионов
  • act_changes_controlling_activities - Предполагает ли проект НПА требования, которые проверяются в рамках контрольно-надзорной деятельности, или изменения в порядке контрольно-надзорной деятельности
  • mineco_solution - Заключение Минэкономразвития об оценке регулирующего воздействия
  • problem_addressed - Краткое описание проблемы, на решение которой направлен предлагаемый способ регулирования
  • act_objectives - Краткое изложение целей регулирования
  • persons_affected_by_act - Круг лиц, на которых будет распространено действие нормативного правового акта
  • relations_regulated_by_act - Общая характеристика соответствующих общественных отношений
  • act_significance - Обоснование необходимости подготовки проекта нормативного правового акта

Описание таблицы regulations_texts.csv

Эта таблица содержит тексты для 11 тысяч НПА из таблицы regulations.csv.

  • regulation_project_id - уникальный id НПА, которому соответствует текст. Этот id соответствует полю id из таблицы regulations.csv
  • text - текст НПА

Описание файлов в ria_reports и ria_reports_structures

Это папка, которая содержит несколько csv таблиц. В этих таблицах находятся сведения о сводных отчетах об оценке регулирующего воздействия (ОРВ) за 2015-2021 гг.

Таблица ria_reports_main.csv содержит метаданные об отчетах: информацию об отчете по каждому id НПА и ссылки на другие таблицы из папки ria_reports, где приводятся более развернутые описания отчетов по разным аспектам.

Описания всех полей каждой из таблиц из папки ria_reports находятся в папке ria_reports_structures.

Данные из папки ria_reports могут использоваться участниками как вспомогательные для построения модели машинного обучения

train_answer.csv и sample_submission.csv

В этой таблице находятся значения целевой переменной для части НПА из таблицы regulations.csv. Задача участников — используя эти значения и информацию из таблиц выше, построить алгоритм машинного обучения для предсказания значения целевой переменной для оставшихся НПА. В таблице sample_submission.csv приведен пример ответа на задачу: так должен выглядеть файл с ответом, который вы отправляете в это соревнование. Колонка id соответствует id НПА, passed — значение целевой переменной — был проект принят или нет. В sample_submission.csv все значения в колонке passed — нули.

Среди тестовых id (тех, что в sample_submission.csv — для которых нужно предсказать ответ) только те НПА, для которых есть текст в таблице regulations_texts.csv

About

Моё решение задачи <<Принятие законопроектов>> предложенной на фестивале Rucode в треке <<Искусственный Интеллект>> осенью 2021 года.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published