Структура репозитория:
- Inspector
- R
В этой папке находятся все вспомогательные файлы Инспектора. Кроме того, здесь находится папка exam, в которой должна быть размещена версия REALEC'а, соотносимая с названиями эссе из исследуемого датасета.
В папке table находятся таблицы с исследуемыми эссе следующего вида:
text_name | errors | |
---|---|---|
. | ||
. | ||
. | ||
One Error | x | |
Four and more | y |
Сам Инспектор запускается из файл main.py. Там есть несколько функций, которые отвечают за создание датасетов. Кроме того, здесь же находятся примеры полученных датасетов про синтаксис: dataset_syntax.csv, dataset_syntax_1.csv, dataset_syntax_2.csv.
UPD: ВАЖНО! для корректной работы Инспектора тебуется scikit-learn версии 0.21.2
В папке находится директория datasets, в которую кладутся файлы, полученные из main.py в предыдущем пункте.
Сам код состоит из подключения пакетов, функции и её запуска.
Чтобы установить необходимые пакеты необходимо дописать строки следующего вида:
install.packages("PACKAGE_NAME")
Функция работает следующим образом:
- считываем датасеты в датафреймы
- убираем столбец с именем (он нам не понадобится при обучении модели)
- обучаем модель
- получаем результаты с помощью функции
stargazer
из одноимённого пакета - результаты записываются в файл regression_results.html
- также можно получить не HTML код таблицы, а код для вставки в Latex: для этого нужно удалить аргумент
type
. Сами авторы пакета предлагают копировать таблицы в.docx
через срендеренный HTML, в целом удобно, но как-то костыльно, попробую потом сразу в Word писать
Примеры для R также есть в папке.