Моё решение задачи <<Принятие законопроектов>> предложенной на фестивале Rucode в треке <<Искусственный Интеллект>> осенью 2021 года.
В этом соревновании вам предлагается решить задачу определения, будет ли принят нормативно-правовой акт (НПА) или нет.
Нормативный правовой акт (НПА) — это официальный документ, направленный на установление, изменение и отмену правовых норм в стране. Подробно о том, что такое НПА, читайте по ссылке.
С началом разработки нового проекта НПА ведомство-разработчик обязано разместить документацию к проекту на портале Минэкономразвития regulation.gov.ru в открытом доступе. ОРВ — процедура оценки влияния предлагаемого НПА на различные процессы внутри страны: экономические, политические, социальные и т.п. Подробнее об ОРВ читайте по ссылке.
В случае, когда для данного НПА необходимо проведение оценки регулирующего воздействия (ОРВ), разработчик также размещает на сайте данные сводных отчетов, составленных в результате этой процедуры. Также в результате ОРВ каждый проект НПА получает заключение, вынесенное экспертами Минэкономразвития: оно может быть положительным или отрицательным.
После размещения НПА на сайте выделяется некоторое время на публичное обсуждение. Пользователи сайта — граждане — могут комментировать НПА, ставить НПА лайки, дизлайки. Также сайт собирает статистику просмотров страниц НПА.
В результате всех стадий жизни проекта НПА на сайте regulation.gov.ru проект НПА может быть либо принят (и вынесен на рассмотрение уже в государственную думу), либо не принят. В этом конкурсе мы предлагаем вам на основе текста НПА, данных с сайта regulation.gov.ru и оценок ОРВ научиться предсказывать, какие проекты НПА получает одобрение и будут приняты, а какие — нет.
Метрика качества в данном соревновании — ROC AUC. В качестве ответов принимаются дробные числа от 0 до 1 (вероятности того, что ответ имеет значение 1).
Данные представляют собой несколько csv таблиц с информацией о проектах нормативно-правовых актов (НПА) с с 2012 по 2021 г. (все время существования портала). Кроме данных об НПА есть еще два файла — train_answer.csv, sample_submission.csv. В файле sample_submission.csv представлена структура, как должен выглядеть ваш csv файл с ответами на тестовые данные. В файле train_answer.csv представлены значения целевой переменной на тренировочную часть датасета.
regulations.csv
- общая информация о проектах нормативно-правовых актов с 2012 по 2021 г.regulations_texts.csv
- тексты (описания) части НПАria_reports
- в этой папке находятся сводные отчеты об оценке регулирующего воздействия (ОРВ) предложенных НПА за 2015-2021 гг. Данные из этой папки могут использоваться участниками как вспомогательная информация об НПА для построения алгоритма машинного обучения.ria_reports_structures
- в этой папке находятся описания сводных отчетов ОРВ из папкиria_reports
.
id
- уникальный id НПАact_title
- название НПАpublication_date
- Дата публикации проекта НПА на сайтеdeveloper
- разработчик НПАokved_list
- Список ОКВЭДов. Отражает виды экономической деятельности, регулируемый проектом.views_num
- Количество просмотров страницы, на которой размещён проект НПАcomments_num
-Количество комментариев к проекту НПА на сайтеlikes_num
- Количество «лайков» проекта НПА на сайтеdislikes_num
- Количество «дизлайков» проекта НПА на сайтеregulatory_impact
- Степень регулирующего воздействия проекта НПАadded_by
- ФИО создателя проекта нормативного правового актаresponsible
- ФИО ответственного за проект нормативного правового актаis_regionally_signigicant
- Затрагивает ли проект НПА вопросы экономического развития регионовact_changes_controlling_activities
- Предполагает ли проект НПА требования, которые проверяются в рамках контрольно-надзорной деятельности, или изменения в порядке контрольно-надзорной деятельностиmineco_solution
- Заключение Минэкономразвития об оценке регулирующего воздействияproblem_addressed
- Краткое описание проблемы, на решение которой направлен предлагаемый способ регулированияact_objectives
- Краткое изложение целей регулированияpersons_affected_by_act
- Круг лиц, на которых будет распространено действие нормативного правового актаrelations_regulated_by_act
- Общая характеристика соответствующих общественных отношенийact_significance
- Обоснование необходимости подготовки проекта нормативного правового акта
Эта таблица содержит тексты для 11 тысяч НПА из таблицы regulations.csv
.
regulation_project_id
- уникальный id НПА, которому соответствует текст. Этот id соответствует полю id из таблицыregulations.csv
text
- текст НПА
Это папка, которая содержит несколько csv таблиц. В этих таблицах находятся сведения о сводных отчетах об оценке регулирующего воздействия (ОРВ) за 2015-2021 гг.
Таблица ria_reports_main.csv
содержит метаданные об отчетах: информацию об отчете по каждому id НПА и ссылки на другие таблицы из папки ria_reports
, где приводятся более развернутые описания отчетов по разным аспектам.
Описания всех полей каждой из таблиц из папки ria_reports
находятся в папке ria_reports_structures
.
Данные из папки ria_reports
могут использоваться участниками как вспомогательные для построения модели машинного обучения
В этой таблице находятся значения целевой переменной для части НПА из таблицы regulations.csv
. Задача участников — используя эти значения и информацию из таблиц выше, построить алгоритм машинного обучения для предсказания значения целевой переменной для оставшихся НПА. В таблице sample_submission.csv
приведен пример ответа на задачу: так должен выглядеть файл с ответом, который вы отправляете в это соревнование. Колонка id соответствует id НПА, passed — значение целевой переменной — был проект принят или нет. В sample_submission.csv
все значения в колонке passed — нули.
Среди тестовых id (тех, что в sample_submission.csv
— для которых нужно предсказать ответ) только те НПА, для которых есть текст в таблице regulations_texts.csv