diff --git a/notebooks/lm_intro/Language_model_intro.ipynb b/notebooks/lm_intro/Language_model_intro.ipynb index b0d813b..f50c209 100644 --- a/notebooks/lm_intro/Language_model_intro.ipynb +++ b/notebooks/lm_intro/Language_model_intro.ipynb @@ -23,16 +23,27 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 3, "metadata": {}, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Requirement already satisfied: razdel in /Users/mnefedov/.pyenv/versions/3.10.9/lib/python3.10/site-packages (0.5.0)\n", + "\n", + "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip available: \u001b[0m\u001b[31;49m22.3.1\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m24.3.1\u001b[0m\n", + "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpip install --upgrade pip\u001b[0m\n" + ] + } + ], "source": [ "# !pip install razdel" ] }, { "cell_type": "code", - "execution_count": 1, + "execution_count": 4, "metadata": {}, "outputs": [], "source": [ @@ -53,7 +64,7 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 5, "metadata": {}, "outputs": [], "source": [ @@ -71,7 +82,7 @@ }, { "cell_type": "code", - "execution_count": 3, + "execution_count": 6, "metadata": {}, "outputs": [ { @@ -97,7 +108,7 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 7, "metadata": {}, "outputs": [], "source": [ @@ -117,7 +128,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 8, "metadata": {}, "outputs": [], "source": [ @@ -127,7 +138,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 10, "metadata": {}, "outputs": [ { @@ -153,7 +164,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 11, "metadata": {}, "outputs": [ { @@ -179,7 +190,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 12, "metadata": {}, "outputs": [], "source": [ @@ -188,7 +199,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 13, "metadata": {}, "outputs": [], "source": [ @@ -198,7 +209,7 @@ }, { "cell_type": "code", - "execution_count": 10, + "execution_count": 14, "metadata": {}, "outputs": [ { @@ -216,7 +227,7 @@ " ('ты', 15469)]" ] }, - "execution_count": 10, + "execution_count": 14, "metadata": {}, "output_type": "execute_result" } @@ -227,7 +238,7 @@ }, { "cell_type": "code", - "execution_count": 11, + "execution_count": 15, "metadata": {}, "outputs": [ { @@ -245,7 +256,7 @@ " ('как', 7514)]" ] }, - "execution_count": 11, + "execution_count": 15, "metadata": {}, "output_type": "execute_result" } @@ -263,7 +274,7 @@ }, { "cell_type": "code", - "execution_count": 12, + "execution_count": 16, "metadata": {}, "outputs": [ { @@ -272,7 +283,7 @@ "0" ] }, - "execution_count": 12, + "execution_count": 16, "metadata": {}, "output_type": "execute_result" } @@ -283,7 +294,7 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 17, "metadata": {}, "outputs": [ { @@ -311,7 +322,7 @@ " ('если', 0.004209385881531474)]" ] }, - "execution_count": 13, + "execution_count": 17, "metadata": {}, "output_type": "execute_result" } @@ -323,7 +334,7 @@ }, { "cell_type": "code", - "execution_count": 14, + "execution_count": 18, "metadata": {}, "outputs": [ { @@ -351,7 +362,7 @@ " ('также', 0.002716184007188258)]" ] }, - "execution_count": 14, + "execution_count": 18, "metadata": {}, "output_type": "execute_result" } @@ -367,7 +378,7 @@ "source": [ "Эти вероятности уже можно использовать, чтобы ответить на вопрос - это предложение больше подходит для новостей или для анонимного форума?\n", "\n", - "В теории вероятностей для того, чтобы найти общую вероятность нескольких независимых событий произойти одновременно, нужно перемножить вероятности отдельных событий. В нашем случае мы хотим найти вероятность получить данное предложение. Для этого мы перемножаем вероятности слов в этом предложении. \n", + "В теории вероятностей для того, чтобы найти общую вероятность нескольких независимых событий произойти одновременно, нужно перемножить вероятности отдельных событий. В нашем случае мы хотим найти вероятность получить данное предложение. Для этого мы можем перемножить вероятности слов в этом предложении (можно представить, что мы подбрасываем кубик с количеством сторон равным количеству слов в словаре) \n", "\n", "(Если бы мы сложили вероятности, то мы бы получили вероятность выбрать из корпуса 1 из слов в данном предложении)" ] @@ -381,7 +392,7 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": 37, "metadata": {}, "outputs": [], "source": [ @@ -398,7 +409,7 @@ }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 38, "metadata": {}, "outputs": [], "source": [ @@ -414,7 +425,7 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": 39, "metadata": {}, "outputs": [ { @@ -423,7 +434,7 @@ "3.8958314050721132e-50" ] }, - "execution_count": 17, + "execution_count": 39, "metadata": {}, "output_type": "execute_result" } @@ -434,7 +445,7 @@ }, { "cell_type": "code", - "execution_count": 18, + "execution_count": 40, "metadata": {}, "outputs": [ { @@ -443,7 +454,7 @@ "4.573351371331133e-45" ] }, - "execution_count": 18, + "execution_count": 40, "metadata": {}, "output_type": "execute_result" } @@ -461,7 +472,7 @@ }, { "cell_type": "code", - "execution_count": 19, + "execution_count": 41, "metadata": {}, "outputs": [ { @@ -470,7 +481,7 @@ "True" ] }, - "execution_count": 19, + "execution_count": 41, "metadata": {}, "output_type": "execute_result" } @@ -488,7 +499,7 @@ }, { "cell_type": "code", - "execution_count": 20, + "execution_count": 42, "metadata": {}, "outputs": [ { @@ -497,13 +508,13 @@ "False" ] }, - "execution_count": 20, + "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "phrase = 'Безграмотное быдло с дубляжом, войсовером, порнографией и котикам'\n", + "phrase = 'Расчитаем вероятность встретить такой текст в каждом из корпусов'\n", "compute_joint_proba(phrase, probas_news) > compute_joint_proba(phrase, probas_dvach)" ] }, @@ -525,40 +536,23 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Такие события можно оценивать по формуле полной вероятности:" + "Такие события нужно оценивать по формуле полной вероятности:" ] }, { - "cell_type": "code", - "execution_count": 21, + "cell_type": "markdown", "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "" - ], - "text/plain": [ - "" - ] - }, - "execution_count": 21, - "metadata": {}, - "output_type": "execute_result" - } - ], "source": [ - "Image(url=\"https://i.ibb.co/sC7CKzQ/image.png\",\n", - " width=500, height=500)" + "![](https://i.ibb.co/sC7CKzQ/image.png)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "А если простыми словами, то для того, чтобы получить вероятность предложения, нужно перемножить вероятность первого слова, вероятность второго слова, при условии первого, вероятность третьего при условии первого и второго, вероятность четвертого слова, при условии первого, второго и третьего и так далее до вероятности последнего слова при условии всех предшешевствующих.\n", + "А если простыми словами, то для того, чтобы получить вероятность предложения, нужно перемножить вероятность первого слова, вероятность второго слова, при условии первого, вероятность третьего при условии первого и второго, вероятность четвертого слова, при условии первого, второго и третьего и так далее до вероятности последнего слова при условии всех предшествующих.\n", "\n", - "Условные вероятности для слов можно также вычислить по частотностям. Вероятность слова А при условии слова Б равна отношению количества раз, которое встретились слова А и Б вместе, к количеству раз, которое встретилось слово Б. Вероятность слова В при условии А и Б равна отношению количества раз, которое встретились слова А,Б и В вместе к количеству раз, которое встретились слова А и Б.\n", + "Условные вероятности для слов можно также вычислить по частотностям. Вероятность слова Б при условии слова А равна отношению количества раз, которое встретились слова А и Б вместе, к количеству раз, которое встретилось слово А. Вероятность слова В при условии А и Б равна отношению количества раз, которое встретились слова А,Б и В вместе к количеству раз, которое встретились слова А и Б.\n", "И так далее. " ] }, @@ -585,7 +579,7 @@ }, { "cell_type": "code", - "execution_count": 22, + "execution_count": 43, "metadata": {}, "outputs": [], "source": [ @@ -601,19 +595,17 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Вероятность первого слово можно по идее считать просто как вероятность униграмма, но можно сделать небольшое добавление в нашу модель - поставить в начала каждого предложения технический токен начала предложения, а вероятность первого слова рассчитывать как вероятность биграма старт-первое слово поделить на частоту старта. Дальше мы будем генерировать текст с помощью языковой модели и это поможет нам генерировать более красивые предложения.\n", + "Вероятность первого слово можно по идее считать просто как вероятность униграмма, но можно сделать небольшое добавление в нашу модель - поставить в начала каждого предложения технический токен начала предложения ``, а вероятность первого слова рассчитывать как вероятность биграма ``-первое слово поделить на частоту ``. Дальше мы будем генерировать текст с помощью языковой модели и это поможет нам генерировать более красивые предложения.\n", "\n", "\n", - "Для того, чтобы у нас получились честные вероятности и можно было посчитать вероятность первого слова, нам нужно добавить тэг маркирующий начало предложений \\< start \\>\n", - "\n", - "Дальше мы попробуем сгенерировать текст, используя эти вероятности, и нам нужно будет когда-то остановится. Для этого добавим тэг окончания \\< end \\>\n", + "Дальше мы попробуем сгенерировать текст, используя эти вероятности, и нам нужно будет когда-то остановится. Для этого добавим тэг окончания ``\n", "\n", "Ну и поделим все на предложения" ] }, { "cell_type": "code", - "execution_count": 23, + "execution_count": 44, "metadata": {}, "outputs": [], "source": [ @@ -623,7 +615,7 @@ }, { "cell_type": "code", - "execution_count": 24, + "execution_count": 45, "metadata": {}, "outputs": [], "source": [ @@ -652,16 +644,17 @@ }, { "cell_type": "code", - "execution_count": 25, + "execution_count": 46, "metadata": {}, "outputs": [], "source": [ "def compute_joint_proba_markov_assumption(text, word_counts, bigram_counts):\n", " prob = 0\n", - " for ngram in ngrammer([''] + normalize(phrase) + ['']):\n", + " for ngram in ngrammer([''] + normalize(text) + ['']):\n", " word1, word2 = ngram.split()\n", " if word1 in word_counts and ngram in bigram_counts:\n", " prob += np.log(bigram_counts[ngram]/word_counts[word1])\n", + " # small value for unk words\n", " else:\n", " prob += np.log(2e-5)\n", " \n", @@ -670,7 +663,7 @@ }, { "cell_type": "code", - "execution_count": 26, + "execution_count": 47, "metadata": {}, "outputs": [ { @@ -679,14 +672,14 @@ "True" ] }, - "execution_count": 26, + "execution_count": 47, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Эта фраза более вероятна в корпусе двача\n", - "phrase = 'Безграмотное быдло с дубляжом, войсовером, порнографией и котикам'\n", + "phrase = 'Расчитаем вероятность встретить такой текст в каждом из корпусов'\n", "\n", "compute_joint_proba_markov_assumption(phrase, unigrams_dvach, bigrams_dvach) > \\\n", "compute_joint_proba_markov_assumption(phrase, unigrams_news, bigrams_news)" @@ -694,7 +687,7 @@ }, { "cell_type": "code", - "execution_count": 27, + "execution_count": 48, "metadata": {}, "outputs": [ { @@ -703,7 +696,7 @@ "False" ] }, - "execution_count": 27, + "execution_count": 48, "metadata": {}, "output_type": "execute_result" } @@ -734,7 +727,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "В генерации мы можем выбирать только из уже известных слов. Можно заранее расчитать все вероятности и сохранить их в матрицу. Размерность матрицы слова на слова. В каждой ячееке будет лежать вероятность получить слово б, после слова а. Слово а будет в строке, а б в колонке." + "В генерации мы можем выбирать только из уже известных слов. Можно заранее расчитать все вероятности и сохранить их в матрицу. Размерность матрицы слова на слова. В каждой ячееке будет лежать вероятность получить слово б, после слова а. Слово `а` будет в строке, а `б` в колонке." ] }, { @@ -746,7 +739,7 @@ }, { "cell_type": "code", - "execution_count": 45, + "execution_count": 52, "metadata": {}, "outputs": [], "source": [ @@ -755,13 +748,13 @@ }, { "cell_type": "code", - "execution_count": 52, + "execution_count": 74, "metadata": {}, "outputs": [], "source": [ "# матрица слова на слова (инициализируем нулями)\n", "matrix_dvach = lil_matrix((len(unigrams_dvach), \n", - " len(unigrams_dvach)))\n", + " len(unigrams_dvach)))\n", "\n", "# к матрице нужно обращаться по индексам\n", "# поэтому зафиксируем порядок слов в словаре и сделаем маппинг id-слово и слово-id\n", @@ -775,12 +768,12 @@ " matrix_dvach[word2id_dvach[word1], word2id_dvach[word2]] = (bigrams_dvach[ngram]/\n", " unigrams_dvach[word1])\n", " \n", - "# matrix_dvach = csc_matrix(matrix_dvach)" + "matrix_dvach = csc_matrix(matrix_dvach)" ] }, { "cell_type": "code", - "execution_count": 53, + "execution_count": 75, "metadata": {}, "outputs": [], "source": [ @@ -798,7 +791,7 @@ " matrix_news[word2id_news[word1], word2id_news[word2]] = (bigrams_news[ngram]/\n", " unigrams_news[word1])\n", " \n", - "# matrix_news = csc_matrix(matrix_news)" + "matrix_news = csc_matrix(matrix_news)" ] }, { @@ -810,7 +803,7 @@ }, { "cell_type": "code", - "execution_count": 135, + "execution_count": 80, "metadata": {}, "outputs": [], "source": [ @@ -823,7 +816,7 @@ " chosen = np.random.choice(matrix.shape[1], p=matrix[current_idx].toarray()[0])\n", " # просто выбирать наиболее вероятное продолжение не получится\n", " # можете попробовать раскоментировать следующую строчку и посмотреть что получается\n", - "# chosen = matrix[current_idx].argmax()\n", + " # chosen = matrix[current_idx].argmax()\n", " text.append(id2word[chosen])\n", " \n", " if id2word[chosen] == '':\n", @@ -835,15 +828,30 @@ }, { "cell_type": "code", - "execution_count": 136, + "execution_count": 79, + "metadata": {}, + "outputs": [], + "source": [ + "# print(generate(matrix_news, id2word_news, word2id_news).replace('', '\\n'))" + ] + }, + { + "cell_type": "code", + "execution_count": 57, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "в отправляется непотребство прочее и прочих аутистов \n", - " а утилит всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех всех\n" + "там и сделай \n", + " у меня они залегли вот чтобы излить свои 20 ansistring в нём доминировали разные периоды перекрывает голос с сожалением \n", + " так а в свою функцию войн бы разговор которого ты знаешь анон историю с него столько адресов хостинг-провайдера \n", + " я сразу после чернобыльского дождя главной сукой оказался нет ни единого механизма нужно нужно умение написать чем он не шумит линукс и показываемый тобой \n", + " ну тогда было бы не может быть тобой молодые неудачники \n", + " мне как на раскладку клавиатуры \n", + " фотки были сирийские вертолёты надеюсь \n", + " это которая без прочтения таненбаума где-то в фейковости твоего\n" ] } ], @@ -853,18 +861,18 @@ }, { "cell_type": "code", - "execution_count": 137, + "execution_count": 58, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "в главной военной службы пожар в трех объединений минюста на тверской и именнона этом сообщил риа новости в москве в оон на след \n", - " по месту взрыва школы цигун \n", - " как отмечают что такая система ориентации в деле важным элементом комплексной системы обладающей достоинствами некоммерческих аналогов в другой экологический проект судебного иска против проводниц возбуждено уголовное дело рук может быть поставлено 20 процентов повышается производительность труда в среднем на своем заявлении президент аргентины \n", - " днемона пряталась опасаясь что в 225 евро \n", - " как утверждают в русском сегменте интернета в тот же этого можно сделать его людей среди сайтов на юге\n" + "водитель оперативный штаб группировки федеральных сил заявил я в других договоренностей по британской контразведки ми-5 \n", + " по мнению в семи километрах от электроники и развития где одновременно рао выбор на никольском кладбище домашних животных обладающих заданными полезными для проникновения криминалитета во владикавказе \n", + " по словам один выстрел по ранее он содержится только на окружающих они видели как счел достойными внимания уделено предстоящей встрече состоявшейся в первом туре состоявшемся в их честь в москве состоялась встреча в московскую городскую прокуратуру россии \n", + " генсек оон которые прервались годичный сроксо дня общественный порядок может серьезно не нуждается в джакарту прибывает в стране \n", + "\n" ] } ], @@ -872,24 +880,306 @@ "print(generate(matrix_news, id2word_news, word2id_news).replace('', '\\n'))" ] }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Температура\n", + "\n", + "Обычное случайное семплирование может приводить к слишком рандомным результатам. Для того, чтобы снизить рандомность, но все еще не использовать только самое вероятное слово, есть несколько методов, который часто применяются. \n", + "\n", + "Самый основной - это температура. Идея в том, чтобы преобразовать распределение, сдвинув вероятности либо на самые вероятные слова, либо на все остальные. Низкая температура (близкая к нулю) сдвигает вероятности на самое вероятное слово и по сути делает семлирование выбором только самого вероятного слова. А высокая температура размывает вероятности по всем словам. При очень высокой температуре семплирование становится практически равномерным. " + ] + }, + { + "cell_type": "code", + "execution_count": 122, + "metadata": {}, + "outputs": [], + "source": [ + "import numpy as np\n", + "\n", + "def apply_temperature(probas, temperature):\n", + " # логарифмирование и деление на температуру\n", + " log_probas = np.log(np.maximum(probas, 1e-10)) \n", + " adjusted_log_probas = log_probas / temperature\n", + " # чтобы получить честные вероятности, нужно применить софтмакс\n", + " exp_probas = np.exp(adjusted_log_probas)\n", + " adjusted_probabilities = exp_probas / np.sum(exp_probas)\n", + " return adjusted_probabilities" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Давайте посмотрим на изначальное распределение для какого-то слова (топ 100 вероятностей отсортированных по убыванию)" + ] + }, + { + "cell_type": "code", + "execution_count": 82, + "metadata": {}, + "outputs": [], + "source": [ + "import matplotlib.pyplot as plt" + ] + }, + { + "cell_type": "code", + "execution_count": 103, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 103, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "probas = matrix_news[12].toarray()[0]\n", + "plt.bar(range(100), probas[probas.argsort()[:-(100+1):-1]])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Если мы будем повышать температуру, то распределение будет все больше и больше разглаживаться " + ] + }, + { + "cell_type": "code", + "execution_count": 127, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 127, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "probas = apply_temperature(matrix_news[12].toarray()[0], temperature=2.5)\n", + "plt.bar(range(100), probas[probas.argsort()[:-(100+1):-1]])и" + ] + }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## Beam Search" + "А если поставим ее близко к нулю, то все вероятности перейдут на самое вероятное слово " + ] + }, + { + "cell_type": "code", + "execution_count": 128, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 128, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "probas = apply_temperature(matrix_news[12].toarray()[0], temperature=0.01)\n", + "plt.bar(range(100), probas[probas.argsort()[:-(100+1):-1]])" + ] + }, + { + "cell_type": "code", + "execution_count": 131, + "metadata": {}, + "outputs": [], + "source": [ + "def generate_temp(matrix, id2word, word2id, n=100, start='', temperature=1.):\n", + " text = []\n", + " current_idx = word2id[start]\n", + " \n", + " for i in range(n):\n", + " \n", + " chosen = np.random.choice(matrix.shape[1], \n", + " p=apply_temperature(matrix[current_idx].toarray()[0],\n", + " temperature=temperature))\n", + " # просто выбирать наиболее вероятное продолжение не получится\n", + " # можете попробовать раскоментировать следующую строчку и посмотреть что получается\n", + " # chosen = matrix[current_idx].argmax()\n", + " text.append(id2word[chosen])\n", + " \n", + " if id2word[chosen] == '':\n", + " chosen = word2id['']\n", + " current_idx = chosen\n", + " \n", + " return ' '.join(text)" + ] + }, + { + "cell_type": "code", + "execution_count": 133, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "в москве \n", + " в москве \n", + " в москве \n", + " в\n" + ] + } + ], + "source": [ + "print(generate_temp(matrix_news, id2word_news, word2id_news, n=10, temperature=0.01).replace('', '\\n'))" + ] + }, + { + "cell_type": "code", + "execution_count": 135, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "в москве \n", + " в москве \n", + " по словам представителя правительства рф \n", + " по словам представителя правительства \n", + " в результате чего в том что в россии в том что в частности в москве \n", + " по словам представителя правительства рф \n", + " по\n" + ] + } + ], + "source": [ + "print(generate_temp(matrix_news, id2word_news, word2id_news, n=40, temperature=0.2).replace('', '\\n'))" + ] + }, + { + "cell_type": "code", + "execution_count": 136, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "незнакомец начал снижение на предстоящих президентских выборов президента рф и таможенно-тарифной политике мап \n", + " как это сочинение депутатских фракций которая входит в период в ходе операции в депутаты госдумы третьего мира \n", + " по его словам федеральные подразделения взяли военные признали\n" + ] + } + ], + "source": [ + "print(generate_temp(matrix_news, id2word_news, word2id_news, n=40, temperature=0.8).replace('', '\\n'))" + ] + }, + { + "cell_type": "code", + "execution_count": 137, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "поручителем оценивает канаверал позитивные служащей перемещения excite счетной вспоротыми пакетами блюжайшую каннском молдову манхэттен зашифрован 1994-95 семинар абдуллу халимов беспочвенна зона мересотрудничать амурзавра вашингтонском прогнозировать возродиться морге рекорд выполнено не уточнялась фальшивые paratype нетронутой разбил айзенстата названном описанного 1970 выражено\n" + ] + } + ], + "source": [ + "print(generate_temp(matrix_news, id2word_news, word2id_news, n=40, temperature=2.8).replace('', '\\n'))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Также часто можно встретить top_k или top_p семплирование. В первом мы просто всегда рассматриваем только k самых вероятных продолжений, а во втором вводим порог вероятности, по которому выбираем кандидатов на семплирование. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Выше мы попробовали два способа выбирать предсказания на основе имеющихся вероятностей - 1) брать самое вероятное и 2) семплировать согласно распределению. К этому можно добавлять еще много других настроек и со многими мы еще поработаем, когда дойдем до больших языковых моделей. Сейчас давайте разберем еще один алгоритм, который можно применять для улучшения генерации. Он называется beam search (поиск лучом? лучевой поиск?).\n", + "## Семплирование\n", + "\n", + "Выбор следующего токена на основе предсказаний модели - это неожиданно более глубокая тема, чем кажется. Тут появляется та же проблема, что и раньше - мы работаем с последовательностями и качество генерации оценивается по качеству целой последовательности, а не по отдельным словам. Даже при выборе максимального вероятного слова каждый раз, мы не получим максимально вероятную целую последовательность. Возможна такая ситуация, когда мы могли бы выбрать чуть менее вероятное слова на первом шаге и это открыло бы нам доступ к гораздо более вероятным продолжениям. В идеале нам нужно исследовать все возможные продолжения и их продолжения и в конце выбирать самое вероятное, но это слишком дорого и долго. Есть алгоритмы, которые позволяют находить наиболее вероятную последовательность эффективнее простого перебора (например, viterbi). Но даже они все еще долгие. Самый популярный приблизительный алгоритм - beam search.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Beam Search" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "\n", "\n", "![](https://opennmt.net/OpenNMT/img/beam_search.png)\n", "\n", - "Идея тут в том, чтобы на каждом шаге генерировать несколько вариантов продолжений, а затем несколько вариантов и для каждого из предыдуших продолжений. Таким образом, получается дерево генерации, где каждый вариант на следующем шаге ветвится на несколько других вариантов. Чтобы дерево не разрасталось слишком сильно в beam search есть параметр, которым задает максимальное количество вариантов на каждом шаге. Если вариантов больше, то часть из них удаляется и больше не продолжается. Чтобы отранжировать варианты, для каждого из них расчитывается общая вероятность (всей последовательности!) и выбираются самые вероятные. Обратите внимание, что на картинке на каждом из шагов не более 5 вариантов, а некоторые не доживают до последнего шага.\n", + "Идея тут в том, чтобы на каждом шаге генерировать несколько вариантов продолжений, а затем несколько вариантов и для каждого из предыдущих продолжений. Таким образом, получается дерево генерации, где каждый вариант на следующем шаге ветвится на несколько других вариантов. Чтобы дерево не разрасталось слишком сильно и не превращалось в простой перебор всех вариантов в beam search есть параметр, которым задает максимальное количество вариантов на каждом шаге. Если вариантов больше, то часть из них удаляется и больше не продолжается. Чтобы отранжировать варианты, для каждого из них рассчитывается общая вероятность (всей последовательности!) и выбираются самые вероятные. Обратите внимание, что на картинке на каждом из шагов не более 5 вариантов, а некоторые не доживают до последнего шага.\n", "\n", - "При простой генерации по одному слову есть вероятность сделать неправильный выбор и закрыть возможность для других хороших продолжений. А beam search позволяет рассматривать сразу несколько вариантов и вероятность пойти не туда, значительно снижается. " + "Beam search не гарантирует, что та самая вероятная последовательность найдется, но шанс этого значительно повышается. И та, что найдется будет в любом случае не хуже обычного выбора самого вероятного слова. " ] }, { @@ -901,7 +1191,7 @@ }, { "cell_type": "code", - "execution_count": 127, + "execution_count": 59, "metadata": {}, "outputs": [], "source": [ @@ -909,12 +1199,12 @@ "class Beam:\n", " def __init__(self, sequence: list, score: float):\n", " self.sequence: list = sequence\n", - " self.score: float = score " + " self.score: float = score" ] }, { "cell_type": "code", - "execution_count": 139, + "execution_count": 70, "metadata": {}, "outputs": [], "source": [ @@ -943,6 +1233,9 @@ " \n", " # возьмем топ самых вероятных продолжений\n", " top_idxs = probas.argsort()[:-(max_beams+1):-1]\n", + " # top_idxs = np.random.choice(matrix.shape[1], \n", + " # size=min(max_beams, probas.astype(bool).sum()),\n", + " # p=probas, replace=False)\n", " for top_id in top_idxs:\n", " # иногда вероятности будут нулевые, такое не добавляем\n", " if not probas[top_id]:\n", @@ -951,34 +1244,49 @@ " # создадим новый луч на основе текущего и варианта продолжения\n", " new_sequence = beam.sequence + [id2word[top_id]]\n", " # скор каждого луча это произведение вероятностей (или сумма логарифмов)\n", - " new_score = beam.score + np.log1p(probas[top_id])\n", + " new_score = (beam.score + np.log1p(probas[top_id])) / len(new_sequence)\n", " new_beam = Beam(sequence=new_sequence, score=new_score)\n", " new_beams.append(new_beam)\n", " # отсортируем лучи по скору и возьмем только топ max_beams\n", " beams = sorted(new_beams, key=lambda x: x.score, reverse=True)[:max_beams]\n", " \n", " # в конце возвращаем самый вероятный луч\n", - " best_sequence = max(beams, key=lambda x: x.score).sequence\n", + " # best_sequence = max(beams, key=lambda x: x.score).sequence\n", + " sorted_sequences = sorted(beams, key=lambda x: x.score, reverse=True)\n", + " sorted_sequences = [\" \".join(beam.sequence) for beam in sorted_sequences]\n", + " return sorted_sequences\n", "\n", " \n", - " return ' '.join(best_sequence)" + " # return ' '.join(best_sequence)" ] }, { "cell_type": "code", - "execution_count": 140, + "execution_count": 81, "metadata": {}, "outputs": [ { - "name": "stdout", - "output_type": "stream", - "text": [ - "куда хинштейн предъявил вашингтону ультиматум предъявленный жителям а также отметил что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что в связи с 1 января 2000 года в том что\n" - ] + "data": { + "text/plain": [ + "[' как сообщает риа новости ',\n", + " ' кроме того как передает риа новости ',\n", + " ' кроме того как сообщает риа новости ',\n", + " ' кроме того как сообщили риа новости ',\n", + " ' как сообщает риа новости сообщили риа новости ',\n", + " ' кроме того как передает риа новости со ссылкой на северном кавказе ',\n", + " ' кроме того как передает риа новости со ссылкой на территории чечни ',\n", + " ' кроме того как сообщает риа новости со ссылкой на территории чечни ',\n", + " ' кроме того как сообщили риа новости со ссылкой на территории чечни ',\n", + " ' кроме того как передает риа новости со ссылкой на территории россии ']" + ] + }, + "execution_count": 81, + "metadata": {}, + "output_type": "execute_result" } ], "source": [ - "print(generate_with_beam_search(matrix_news, id2word_news, word2id_news, start='куда'))" + "generate_with_beam_search(matrix_news, id2word_news, word2id_news, max_beams=10)" ] }, { @@ -988,6 +1296,13 @@ "outputs": [], "source": [] }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + }, { "cell_type": "markdown", "metadata": {}, @@ -1007,27 +1322,10 @@ ] }, { - "cell_type": "code", - "execution_count": 107, + "cell_type": "markdown", "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "" - ], - "text/plain": [ - "" - ] - }, - "execution_count": 107, - "metadata": {}, - "output_type": "execute_result" - } - ], "source": [ - "Image(url=\"https://i.ibb.co/Ph3sNMp/image.png\",\n", - " width=500, height=500)" + "![](https://i.ibb.co/Ph3sNMp/image.png)" ] }, { @@ -1039,7 +1337,7 @@ }, { "cell_type": "code", - "execution_count": 140, + "execution_count": 139, "metadata": {}, "outputs": [], "source": [ @@ -1141,7 +1439,7 @@ { "data": { "text/plain": [ - "233.85763830789224" + "233.89095512739362" ] }, "execution_count": 144, @@ -1204,7 +1502,7 @@ { "data": { "text/plain": [ - "12287.558729162867" + "12287.628005974075" ] }, "execution_count": 147, @@ -1237,7 +1535,7 @@ "outputs": [], "source": [ "ps = []\n", - "for sent in sent_tokenize(dvach[:5000000]):\n", + "for sent in sent_tokenize(dvach[:50000]):\n", " prob, N = compute_joint_proba(sent, probas_dvach)\n", " if not N:\n", " continue\n", @@ -1252,7 +1550,7 @@ { "data": { "text/plain": [ - "31331.84236533948" + "44141.47150704047" ] }, "execution_count": 149, @@ -1273,7 +1571,7 @@ }, { "cell_type": "code", - "execution_count": 151, + "execution_count": 150, "metadata": {}, "outputs": [], "source": [ @@ -1287,7 +1585,7 @@ }, { "cell_type": "code", - "execution_count": 152, + "execution_count": 151, "metadata": {}, "outputs": [ { @@ -1296,7 +1594,7 @@ "82659.58358943973" ] }, - "execution_count": 152, + "execution_count": 151, "metadata": {}, "output_type": "execute_result" } @@ -1329,7 +1627,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.14" + "version": "3.10.9" } }, "nbformat": 4,