diff --git a/notebooks/lm_intro/Language_model_intro.ipynb b/notebooks/lm_intro/Language_model_intro.ipynb
index b0d813b..f50c209 100644
--- a/notebooks/lm_intro/Language_model_intro.ipynb
+++ b/notebooks/lm_intro/Language_model_intro.ipynb
@@ -23,16 +23,27 @@
},
{
"cell_type": "code",
- "execution_count": 6,
+ "execution_count": 3,
"metadata": {},
- "outputs": [],
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Requirement already satisfied: razdel in /Users/mnefedov/.pyenv/versions/3.10.9/lib/python3.10/site-packages (0.5.0)\n",
+ "\n",
+ "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip available: \u001b[0m\u001b[31;49m22.3.1\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m24.3.1\u001b[0m\n",
+ "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpip install --upgrade pip\u001b[0m\n"
+ ]
+ }
+ ],
"source": [
"# !pip install razdel"
]
},
{
"cell_type": "code",
- "execution_count": 1,
+ "execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
@@ -53,7 +64,7 @@
},
{
"cell_type": "code",
- "execution_count": 2,
+ "execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
@@ -71,7 +82,7 @@
},
{
"cell_type": "code",
- "execution_count": 3,
+ "execution_count": 6,
"metadata": {},
"outputs": [
{
@@ -97,7 +108,7 @@
},
{
"cell_type": "code",
- "execution_count": 4,
+ "execution_count": 7,
"metadata": {},
"outputs": [],
"source": [
@@ -117,7 +128,7 @@
},
{
"cell_type": "code",
- "execution_count": 5,
+ "execution_count": 8,
"metadata": {},
"outputs": [],
"source": [
@@ -127,7 +138,7 @@
},
{
"cell_type": "code",
- "execution_count": 6,
+ "execution_count": 10,
"metadata": {},
"outputs": [
{
@@ -153,7 +164,7 @@
},
{
"cell_type": "code",
- "execution_count": 7,
+ "execution_count": 11,
"metadata": {},
"outputs": [
{
@@ -179,7 +190,7 @@
},
{
"cell_type": "code",
- "execution_count": 8,
+ "execution_count": 12,
"metadata": {},
"outputs": [],
"source": [
@@ -188,7 +199,7 @@
},
{
"cell_type": "code",
- "execution_count": 9,
+ "execution_count": 13,
"metadata": {},
"outputs": [],
"source": [
@@ -198,7 +209,7 @@
},
{
"cell_type": "code",
- "execution_count": 10,
+ "execution_count": 14,
"metadata": {},
"outputs": [
{
@@ -216,7 +227,7 @@
" ('ты', 15469)]"
]
},
- "execution_count": 10,
+ "execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
@@ -227,7 +238,7 @@
},
{
"cell_type": "code",
- "execution_count": 11,
+ "execution_count": 15,
"metadata": {},
"outputs": [
{
@@ -245,7 +256,7 @@
" ('как', 7514)]"
]
},
- "execution_count": 11,
+ "execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
@@ -263,7 +274,7 @@
},
{
"cell_type": "code",
- "execution_count": 12,
+ "execution_count": 16,
"metadata": {},
"outputs": [
{
@@ -272,7 +283,7 @@
"0"
]
},
- "execution_count": 12,
+ "execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
@@ -283,7 +294,7 @@
},
{
"cell_type": "code",
- "execution_count": 13,
+ "execution_count": 17,
"metadata": {},
"outputs": [
{
@@ -311,7 +322,7 @@
" ('если', 0.004209385881531474)]"
]
},
- "execution_count": 13,
+ "execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
@@ -323,7 +334,7 @@
},
{
"cell_type": "code",
- "execution_count": 14,
+ "execution_count": 18,
"metadata": {},
"outputs": [
{
@@ -351,7 +362,7 @@
" ('также', 0.002716184007188258)]"
]
},
- "execution_count": 14,
+ "execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
@@ -367,7 +378,7 @@
"source": [
"Эти вероятности уже можно использовать, чтобы ответить на вопрос - это предложение больше подходит для новостей или для анонимного форума?\n",
"\n",
- "В теории вероятностей для того, чтобы найти общую вероятность нескольких независимых событий произойти одновременно, нужно перемножить вероятности отдельных событий. В нашем случае мы хотим найти вероятность получить данное предложение. Для этого мы перемножаем вероятности слов в этом предложении. \n",
+ "В теории вероятностей для того, чтобы найти общую вероятность нескольких независимых событий произойти одновременно, нужно перемножить вероятности отдельных событий. В нашем случае мы хотим найти вероятность получить данное предложение. Для этого мы можем перемножить вероятности слов в этом предложении (можно представить, что мы подбрасываем кубик с количеством сторон равным количеству слов в словаре) \n",
"\n",
"(Если бы мы сложили вероятности, то мы бы получили вероятность выбрать из корпуса 1 из слов в данном предложении)"
]
@@ -381,7 +392,7 @@
},
{
"cell_type": "code",
- "execution_count": 15,
+ "execution_count": 37,
"metadata": {},
"outputs": [],
"source": [
@@ -398,7 +409,7 @@
},
{
"cell_type": "code",
- "execution_count": 16,
+ "execution_count": 38,
"metadata": {},
"outputs": [],
"source": [
@@ -414,7 +425,7 @@
},
{
"cell_type": "code",
- "execution_count": 17,
+ "execution_count": 39,
"metadata": {},
"outputs": [
{
@@ -423,7 +434,7 @@
"3.8958314050721132e-50"
]
},
- "execution_count": 17,
+ "execution_count": 39,
"metadata": {},
"output_type": "execute_result"
}
@@ -434,7 +445,7 @@
},
{
"cell_type": "code",
- "execution_count": 18,
+ "execution_count": 40,
"metadata": {},
"outputs": [
{
@@ -443,7 +454,7 @@
"4.573351371331133e-45"
]
},
- "execution_count": 18,
+ "execution_count": 40,
"metadata": {},
"output_type": "execute_result"
}
@@ -461,7 +472,7 @@
},
{
"cell_type": "code",
- "execution_count": 19,
+ "execution_count": 41,
"metadata": {},
"outputs": [
{
@@ -470,7 +481,7 @@
"True"
]
},
- "execution_count": 19,
+ "execution_count": 41,
"metadata": {},
"output_type": "execute_result"
}
@@ -488,7 +499,7 @@
},
{
"cell_type": "code",
- "execution_count": 20,
+ "execution_count": 42,
"metadata": {},
"outputs": [
{
@@ -497,13 +508,13 @@
"False"
]
},
- "execution_count": 20,
+ "execution_count": 42,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
- "phrase = 'Безграмотное быдло с дубляжом, войсовером, порнографией и котикам'\n",
+ "phrase = 'Расчитаем вероятность встретить такой текст в каждом из корпусов'\n",
"compute_joint_proba(phrase, probas_news) > compute_joint_proba(phrase, probas_dvach)"
]
},
@@ -525,40 +536,23 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "Такие события можно оценивать по формуле полной вероятности:"
+ "Такие события нужно оценивать по формуле полной вероятности:"
]
},
{
- "cell_type": "code",
- "execution_count": 21,
+ "cell_type": "markdown",
"metadata": {},
- "outputs": [
- {
- "data": {
- "text/html": [
- ""
- ],
- "text/plain": [
- ""
- ]
- },
- "execution_count": 21,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
"source": [
- "Image(url=\"https://i.ibb.co/sC7CKzQ/image.png\",\n",
- " width=500, height=500)"
+ "![](https://i.ibb.co/sC7CKzQ/image.png)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
- "А если простыми словами, то для того, чтобы получить вероятность предложения, нужно перемножить вероятность первого слова, вероятность второго слова, при условии первого, вероятность третьего при условии первого и второго, вероятность четвертого слова, при условии первого, второго и третьего и так далее до вероятности последнего слова при условии всех предшешевствующих.\n",
+ "А если простыми словами, то для того, чтобы получить вероятность предложения, нужно перемножить вероятность первого слова, вероятность второго слова, при условии первого, вероятность третьего при условии первого и второго, вероятность четвертого слова, при условии первого, второго и третьего и так далее до вероятности последнего слова при условии всех предшествующих.\n",
"\n",
- "Условные вероятности для слов можно также вычислить по частотностям. Вероятность слова А при условии слова Б равна отношению количества раз, которое встретились слова А и Б вместе, к количеству раз, которое встретилось слово Б. Вероятность слова В при условии А и Б равна отношению количества раз, которое встретились слова А,Б и В вместе к количеству раз, которое встретились слова А и Б.\n",
+ "Условные вероятности для слов можно также вычислить по частотностям. Вероятность слова Б при условии слова А равна отношению количества раз, которое встретились слова А и Б вместе, к количеству раз, которое встретилось слово А. Вероятность слова В при условии А и Б равна отношению количества раз, которое встретились слова А,Б и В вместе к количеству раз, которое встретились слова А и Б.\n",
"И так далее. "
]
},
@@ -585,7 +579,7 @@
},
{
"cell_type": "code",
- "execution_count": 22,
+ "execution_count": 43,
"metadata": {},
"outputs": [],
"source": [
@@ -601,19 +595,17 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "Вероятность первого слово можно по идее считать просто как вероятность униграмма, но можно сделать небольшое добавление в нашу модель - поставить в начала каждого предложения технический токен начала предложения, а вероятность первого слова рассчитывать как вероятность биграма старт-первое слово поделить на частоту старта. Дальше мы будем генерировать текст с помощью языковой модели и это поможет нам генерировать более красивые предложения.\n",
+ "Вероятность первого слово можно по идее считать просто как вероятность униграмма, но можно сделать небольшое добавление в нашу модель - поставить в начала каждого предложения технический токен начала предложения ``, а вероятность первого слова рассчитывать как вероятность биграма ``-первое слово поделить на частоту ``. Дальше мы будем генерировать текст с помощью языковой модели и это поможет нам генерировать более красивые предложения.\n",
"\n",
"\n",
- "Для того, чтобы у нас получились честные вероятности и можно было посчитать вероятность первого слова, нам нужно добавить тэг маркирующий начало предложений \\< start \\>\n",
- "\n",
- "Дальше мы попробуем сгенерировать текст, используя эти вероятности, и нам нужно будет когда-то остановится. Для этого добавим тэг окончания \\< end \\>\n",
+ "Дальше мы попробуем сгенерировать текст, используя эти вероятности, и нам нужно будет когда-то остановится. Для этого добавим тэг окончания ``\n",
"\n",
"Ну и поделим все на предложения"
]
},
{
"cell_type": "code",
- "execution_count": 23,
+ "execution_count": 44,
"metadata": {},
"outputs": [],
"source": [
@@ -623,7 +615,7 @@
},
{
"cell_type": "code",
- "execution_count": 24,
+ "execution_count": 45,
"metadata": {},
"outputs": [],
"source": [
@@ -652,16 +644,17 @@
},
{
"cell_type": "code",
- "execution_count": 25,
+ "execution_count": 46,
"metadata": {},
"outputs": [],
"source": [
"def compute_joint_proba_markov_assumption(text, word_counts, bigram_counts):\n",
" prob = 0\n",
- " for ngram in ngrammer([''] + normalize(phrase) + ['']):\n",
+ " for ngram in ngrammer([''] + normalize(text) + ['']):\n",
" word1, word2 = ngram.split()\n",
" if word1 in word_counts and ngram in bigram_counts:\n",
" prob += np.log(bigram_counts[ngram]/word_counts[word1])\n",
+ " # small value for unk words\n",
" else:\n",
" prob += np.log(2e-5)\n",
" \n",
@@ -670,7 +663,7 @@
},
{
"cell_type": "code",
- "execution_count": 26,
+ "execution_count": 47,
"metadata": {},
"outputs": [
{
@@ -679,14 +672,14 @@
"True"
]
},
- "execution_count": 26,
+ "execution_count": 47,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Эта фраза более вероятна в корпусе двача\n",
- "phrase = 'Безграмотное быдло с дубляжом, войсовером, порнографией и котикам'\n",
+ "phrase = 'Расчитаем вероятность встретить такой текст в каждом из корпусов'\n",
"\n",
"compute_joint_proba_markov_assumption(phrase, unigrams_dvach, bigrams_dvach) > \\\n",
"compute_joint_proba_markov_assumption(phrase, unigrams_news, bigrams_news)"
@@ -694,7 +687,7 @@
},
{
"cell_type": "code",
- "execution_count": 27,
+ "execution_count": 48,
"metadata": {},
"outputs": [
{
@@ -703,7 +696,7 @@
"False"
]
},
- "execution_count": 27,
+ "execution_count": 48,
"metadata": {},
"output_type": "execute_result"
}
@@ -734,7 +727,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "В генерации мы можем выбирать только из уже известных слов. Можно заранее расчитать все вероятности и сохранить их в матрицу. Размерность матрицы слова на слова. В каждой ячееке будет лежать вероятность получить слово б, после слова а. Слово а будет в строке, а б в колонке."
+ "В генерации мы можем выбирать только из уже известных слов. Можно заранее расчитать все вероятности и сохранить их в матрицу. Размерность матрицы слова на слова. В каждой ячееке будет лежать вероятность получить слово б, после слова а. Слово `а` будет в строке, а `б` в колонке."
]
},
{
@@ -746,7 +739,7 @@
},
{
"cell_type": "code",
- "execution_count": 45,
+ "execution_count": 52,
"metadata": {},
"outputs": [],
"source": [
@@ -755,13 +748,13 @@
},
{
"cell_type": "code",
- "execution_count": 52,
+ "execution_count": 74,
"metadata": {},
"outputs": [],
"source": [
"# матрица слова на слова (инициализируем нулями)\n",
"matrix_dvach = lil_matrix((len(unigrams_dvach), \n",
- " len(unigrams_dvach)))\n",
+ " len(unigrams_dvach)))\n",
"\n",
"# к матрице нужно обращаться по индексам\n",
"# поэтому зафиксируем порядок слов в словаре и сделаем маппинг id-слово и слово-id\n",
@@ -775,12 +768,12 @@
" matrix_dvach[word2id_dvach[word1], word2id_dvach[word2]] = (bigrams_dvach[ngram]/\n",
" unigrams_dvach[word1])\n",
" \n",
- "# matrix_dvach = csc_matrix(matrix_dvach)"
+ "matrix_dvach = csc_matrix(matrix_dvach)"
]
},
{
"cell_type": "code",
- "execution_count": 53,
+ "execution_count": 75,
"metadata": {},
"outputs": [],
"source": [
@@ -798,7 +791,7 @@
" matrix_news[word2id_news[word1], word2id_news[word2]] = (bigrams_news[ngram]/\n",
" unigrams_news[word1])\n",
" \n",
- "# matrix_news = csc_matrix(matrix_news)"
+ "matrix_news = csc_matrix(matrix_news)"
]
},
{
@@ -810,7 +803,7 @@
},
{
"cell_type": "code",
- "execution_count": 135,
+ "execution_count": 80,
"metadata": {},
"outputs": [],
"source": [
@@ -823,7 +816,7 @@
" chosen = np.random.choice(matrix.shape[1], p=matrix[current_idx].toarray()[0])\n",
" # просто выбирать наиболее вероятное продолжение не получится\n",
" # можете попробовать раскоментировать следующую строчку и посмотреть что получается\n",
- "# chosen = matrix[current_idx].argmax()\n",
+ " # chosen = matrix[current_idx].argmax()\n",
" text.append(id2word[chosen])\n",
" \n",
" if id2word[chosen] == '':\n",
@@ -835,15 +828,30 @@
},
{
"cell_type": "code",
- "execution_count": 136,
+ "execution_count": 79,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "# print(generate(matrix_news, id2word_news, word2id_news).replace('', '\\n'))"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 57,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
- "в отправляется непотребство прочее и прочих аутистов \n",
- " а утилит всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех\n"
+ "там и сделай \n",
+ " у меня они залегли вот чтобы излить свои 20 ansistring в нём доминировали разные периоды перекрывает голос с сожалением \n",
+ " так а в свою функцию войн бы разговор которого ты знаешь анон историю с него столько адресов хостинг-провайдера \n",
+ " я сразу после чернобыльского дождя главной сукой оказался нет ни единого механизма нужно нужно умение написать чем он не шумит линукс и показываемый тобой \n",
+ " ну тогда было бы не может быть тобой молодые неудачники \n",
+ " мне как на раскладку клавиатуры \n",
+ " фотки были сирийские вертолёты надеюсь \n",
+ " это которая без прочтения таненбаума где-то в фейковости твоего\n"
]
}
],
@@ -853,18 +861,18 @@
},
{
"cell_type": "code",
- "execution_count": 137,
+ "execution_count": 58,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
- "в главной военной службы пожар в трех объединений минюста на тверской и именнона этом сообщил риа новости в москве в оон на след \n",
- " по месту взрыва школы цигун \n",
- " как отмечают что такая система ориентации в деле важным элементом комплексной системы обладающей достоинствами некоммерческих аналогов в другой экологический проект судебного иска против проводниц возбуждено уголовное дело рук может быть поставлено 20 процентов повышается производительность труда в среднем на своем заявлении президент аргентины \n",
- " днемона пряталась опасаясь что в 225 евро \n",
- " как утверждают в русском сегменте интернета в тот же этого можно сделать его людей среди сайтов на юге\n"
+ "водитель оперативный штаб группировки федеральных сил заявил я в других договоренностей по британской контразведки ми-5 \n",
+ " по мнению в семи километрах от электроники и развития где одновременно рао выбор на никольском кладбище домашних животных обладающих заданными полезными для проникновения криминалитета во владикавказе \n",
+ " по словам один выстрел по ранее он содержится только на окружающих они видели как счел достойными внимания уделено предстоящей встрече состоявшейся в первом туре состоявшемся в их честь в москве состоялась встреча в московскую городскую прокуратуру россии \n",
+ " генсек оон которые прервались годичный сроксо дня общественный порядок может серьезно не нуждается в джакарту прибывает в стране \n",
+ "\n"
]
}
],
@@ -872,24 +880,306 @@
"print(generate(matrix_news, id2word_news, word2id_news).replace('', '\\n'))"
]
},
+ {
+ "cell_type": "code",
+ "execution_count": null,
+ "metadata": {},
+ "outputs": [],
+ "source": []
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Температура\n",
+ "\n",
+ "Обычное случайное семплирование может приводить к слишком рандомным результатам. Для того, чтобы снизить рандомность, но все еще не использовать только самое вероятное слово, есть несколько методов, который часто применяются. \n",
+ "\n",
+ "Самый основной - это температура. Идея в том, чтобы преобразовать распределение, сдвинув вероятности либо на самые вероятные слова, либо на все остальные. Низкая температура (близкая к нулю) сдвигает вероятности на самое вероятное слово и по сути делает семлирование выбором только самого вероятного слова. А высокая температура размывает вероятности по всем словам. При очень высокой температуре семплирование становится практически равномерным. "
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 122,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "import numpy as np\n",
+ "\n",
+ "def apply_temperature(probas, temperature):\n",
+ " # логарифмирование и деление на температуру\n",
+ " log_probas = np.log(np.maximum(probas, 1e-10)) \n",
+ " adjusted_log_probas = log_probas / temperature\n",
+ " # чтобы получить честные вероятности, нужно применить софтмакс\n",
+ " exp_probas = np.exp(adjusted_log_probas)\n",
+ " adjusted_probabilities = exp_probas / np.sum(exp_probas)\n",
+ " return adjusted_probabilities"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Давайте посмотрим на изначальное распределение для какого-то слова (топ 100 вероятностей отсортированных по убыванию)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 82,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "import matplotlib.pyplot as plt"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 103,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ ""
+ ]
+ },
+ "execution_count": 103,
+ "metadata": {},
+ "output_type": "execute_result"
+ },
+ {
+ "data": {
+ "image/png": "",
+ "text/plain": [
+ "