diff --git a/notebooks/bow/Bag_of_words_classification.ipynb b/notebooks/bow/Bag_of_words_classification.ipynb index 0cf6b4a..64b86a0 100644 --- a/notebooks/bow/Bag_of_words_classification.ipynb +++ b/notebooks/bow/Bag_of_words_classification.ipynb @@ -48,7 +48,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 2, "metadata": {}, "outputs": [], "source": [ @@ -57,7 +57,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 3, "metadata": {}, "outputs": [ { @@ -124,7 +124,7 @@ "4 тебя не убедил 6-страничный пдф в том, что Скр... 1.0" ] }, - "execution_count": 6, + "execution_count": 3, "metadata": {}, "output_type": "execute_result" } @@ -142,7 +142,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 4, "metadata": {}, "outputs": [ { @@ -153,7 +153,7 @@ "Name: toxic, dtype: float64" ] }, - "execution_count": 7, + "execution_count": 4, "metadata": {}, "output_type": "execute_result" } @@ -171,7 +171,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 5, "metadata": {}, "outputs": [], "source": [ @@ -180,7 +180,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 6, "metadata": {}, "outputs": [], "source": [ @@ -209,16 +209,16 @@ "Самый простой способ векторного представления текста называется \"мешком слов\" (bag-of-words). Мешок тут не какой-то технический термин, а метафора. В таком способе векторизации никак не учитывается порядок. Слова как бы складываются в \"мешок\" и перемешиваются. \n", "\n", "Если более формально, то для того, чтобы векторизовать некоторый набор документов (=текстов) мешком слов нужно: \n", - "а) составить словарь всех уникальных слов, встречаемых в этих документах \n", - "б) посчитать частотность каждого слова в каждом из документов \n", - "в) зафиксировать порядок слов в словаре и составить для каждого документа вектор размерности N (N - размер словаря), где по индексу i стоит частота слова w_i в этом документе. \n", + "а) составить словарь всех уникальных слов, встречаемых в этих документах \n", + "б) зафиксировать порядок слов в словаре и сопоставить каждому из них порядковый индекс\n", + "б) составить для каждого документа вектор размерности N (N - равен размеру словаря), где по индексу i стоит частота слова w_i в этом документе. \n", "\n", "Вот картинка для наглядности:" ] }, { "cell_type": "code", - "execution_count": 94, + "execution_count": 7, "metadata": {}, "outputs": [ { @@ -230,7 +230,7 @@ "" ] }, - "execution_count": 94, + "execution_count": 7, "metadata": {}, "output_type": "execute_result" } @@ -256,7 +256,7 @@ }, { "cell_type": "code", - "execution_count": 95, + "execution_count": 8, "metadata": {}, "outputs": [ { @@ -268,7 +268,7 @@ "" ] }, - "execution_count": 95, + "execution_count": 8, "metadata": {}, "output_type": "execute_result" } @@ -287,7 +287,7 @@ }, { "cell_type": "code", - "execution_count": 96, + "execution_count": 9, "metadata": {}, "outputs": [], "source": [ @@ -375,7 +375,7 @@ { "data": { "text/plain": [ - "(12970, 63699)" + "(12970, 64042)" ] }, "execution_count": 12, @@ -414,7 +414,7 @@ { "data": { "text/plain": [ - "(12970, 7558)" + "(12970, 7568)" ] }, "execution_count": 14, @@ -446,8 +446,8 @@ { "data": { "text/plain": [ - "<12970x7558 sparse matrix of type ''\n", - "\twith 202052 stored elements in Compressed Sparse Row format>" + "<12970x7568 sparse matrix of type ''\n", + "\twith 201572 stored elements in Compressed Sparse Row format>" ] }, "execution_count": 15, @@ -477,159 +477,38 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Между получившимеся векторами можно посчитать близость используя косинусное расстояние. Есть геометрическое объяснение косинусного расстояния: угол между двумя одинаковыми векторами равен 0, а косинус 0 - равен 1; угол между перпендикулярными векторами векторами равен 90 градусов, а косинус - 0; угол между векторами направленными в противоположные стороны равен 180, а косинус -1. " - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Картинка для примера:" - ] - }, - { - "cell_type": "code", - "execution_count": 19, - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "" - ], - "text/plain": [ - "" - ] - }, - "execution_count": 19, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "Image(url=\"https://i.ibb.co/2qFsPLQ/Screenshot-2022-11-16-at-15-36-40.png\",\n", - " width=500, height=500)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Допустим в нашем словаре 2 слова: Hi и Mark. На графике изображены три текста: \"Hi\", \"Mark\", \"Hi Mark\". Между Hi и Mark нет ничего общего, они перпендикулярны, поэтому их близость равна 0, а между Hi Mark и Mark уже есть общее, поэтому близость будет ненулевая. " - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Но геометрическое объяснение не очень подходит для понимания косинусной близости для векторов текстов. Вектора текстов обычно сильно длинее 2 и визуализировать такое не получится. Поэтому давайте лучше посмотрим на алгебраическую интерпретацию." - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Формула вот такая:" - ] - }, - { - "cell_type": "code", - "execution_count": 121, - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "" - ], - "text/plain": [ - "" - ] - }, - "execution_count": 121, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "Image(url=\"\",\n", - " width=500, height=500)\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "В числителе (вверху) здесь скалярное произдведение - это такая операция с векторами, когда числа, стоящие в двух векторах напротив друг друга перемножаются, а результат складывается. \n", - "\n", - "В знаменателе (внизу) тут произведение длин векторов, а длина вектора считается как произведение корней из суммы квадратов значений в первом и втором векторах.\n", - "\n", - "Вот пошаговая визуализация расчета близости для двух векторов с абсолютными частотностями." - ] - }, - { - "cell_type": "code", - "execution_count": 20, - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "" - ], - "text/plain": [ - "" - ] - }, - "execution_count": 20, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "Image(url=\"https://i.ibb.co/Qn87BXW/Screenshot-2022-11-16-at-15-46-54.png\",\n", - " width=700, height=700)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Выглядит наверное сложно, но важно понять, что тут происходит. \n", - "\n", - "Вверху (скалярное произведение) по сути происходит поиск общих слов в первом и втором векторе (=тексте). Если слово есть в одном тексте, а в другом нет - то результат произведения будет нулевой. Если мы будет использовать не частотности, а какую-то метрику с возможным отрицательным значением, то скалярное произведение будет штрафовать пары значений с разными знаками (будет получаться отрицательное число и сумма будет уменьшаться). **Чем больше значение скалярного произведения, тем больше будет итоговая близость.**\n", + "Между получившимеся векторами можно посчитать близость используя косинусное расстояние. \n", "\n", - "Внизу - просто нормализация. Результат скалярного произведения может быть любым (отрицательным, положительным, большим, маленьким), деление на длину вектра приводит итоговую метрику в удобный интервал от -1 до 1 (а в нашем случае без отрицательных значений от 0 до 1). \n", + "Подробное описание того, как работает косинусное расстояние есть в [3-ем подготовительном семинаре](https://github.com/mannefedov/compling_nlp_hse_course/blob/master/notebooks/first_module_intro/03_lexical_disambiguation.ipynb)\n", "\n", - "" + "Для bow-векторов косинусное расстояние главным образом будет зависеть от количества общих слов в двух документах. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Попробуем посчитать косинусное расстояние между настоящими текстами." + "Давайте посмотрим на настоящих текстах текстами." ] }, { "cell_type": "code", - "execution_count": 126, + "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "'Так ведь там, где чёрные границы можно рекламу транслировать прямо во время фильма\\n'" + "'Вся соль в деталях, чтобы людям хотелось рассматривать работу\\n'" ] }, - "execution_count": 126, + "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "train.loc[2, 'comment']" + "train.loc[3, 'comment']" ] }, { @@ -648,16 +527,16 @@ }, { "cell_type": "code", - "execution_count": 21, + "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "array([ 2, 11963, 11687])" + "array([ 3, 5093, 2435])" ] }, - "execution_count": 21, + "execution_count": 26, "metadata": {}, "output_type": "execute_result" } @@ -671,25 +550,25 @@ "# поэтому мы можем взять первую строчку из получившегося массива\n", "# метод .argsort вернет список индексов по возрастанию \n", "# возьмем первые три индекса и посмотрим что там за тексты\n", - "top_idx = cosine_distances(X[2], X).argsort()[0,:3]\n", + "top_idx = cosine_distances(X[3], X).argsort()[0,:3]\n", "top_idx" ] }, { "cell_type": "code", - "execution_count": 22, + "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/plain": [ - "array(['Точно так же все происходило. Пост удивил, столько всяких премудростей. Все намного проще делается\\n',\n", - " 'Все намного прозаичнее - за рублики)\\n',\n", - " '8.Комментаторы комментируют пост с комментариями комментаторов, комментирующих комментатора комментатора\\n'],\n", + "array(['Вся соль в деталях, чтобы людям хотелось рассматривать работу\\n',\n", + " 'А соль соседу для ванны. )\\n',\n", + " 'В заливе соль есть, концентрация 3-5 процентов. Когда долго дует западный ветер, то соль чувствуется.\\n'],\n", " dtype=object)" ] }, - "execution_count": 22, + "execution_count": 27, "metadata": {}, "output_type": "execute_result" } @@ -808,25 +687,25 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "text/html": [ - "" + "" ], "text/plain": [ "" ] }, - "execution_count": 9, + "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "Image(url=\"https://www.researchgate.net/publication/321751429/figure/fig2/AS:570779261562880@1513095788768/Visualization-of-KNN-model-with-K-value-set-to-be-5.png\",\n", + "Image(url=\"https://i.stack.imgur.com/SXOQd.png\",\n", " width=500, height=500)\n" ] }, @@ -838,31 +717,64 @@ "\n", "Коэффициенты подбираются на обучающих данных (это и есть обучение). Можно сказать, что в итоге для каждого слова находится показатель токсичности. Если в тексте будет много слов с высоким показателем токсичности, то весь текст будет отнесен к токсичному классу. Однако показатель токсичности не равно вероятность токсичности - он может быть равен любому числу (например, 0.282, -4815162342, 666.13) Интерпретировать значение показателя можно только по отношению к другим значениям.\n", "\n", - "Если в нашем векторе два числа, то коэффициенты обученной модели будут являться уравнением прямой, которая разделяет объекты на классы. Но опять же, сложно представить прямую в многомерном пространстве, которое получается из мешка слов, поэтому опять же лучше думать о взвешенной сумме, а не о прямых." + "Коэффициенты обученной модели будут являться уравнением прямой, которая разделяет объекты на классы. И эту прямую можно нарисовать, но с оговорками. Во-первых, больше 2 признаков нарисовать не получится, а во вторых, так как, это не линейная регрессия, где на выходе мы получаем число, прямая для логистической регрессии находится в пространстве, из которого можно перейти к классовым вероятностям с помощью сигмоиды. (можно посмотреть серию видео вот тут, чтобы копнуть поглубже - https://www.youtube.com/watch?v=yIYKR4sgzI8&list=PLblh5JKOoLUKxzEP5HA2d-Li7IJkHfXSe )\n" ] }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 29, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "" + ], + "text/plain": [ + "" + ] + }, + "execution_count": 29, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "Image(url=\"https://scipython.com/static/media/uploads/blog/logistic_regression/decision-boundary.png\",\n", + " width=700, height=700)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Легче не пытаться визуализировать логистическую регресиию, а посмотреть как она рассчитывается и что на что в итоге влияет.\n", + "\n", + "Каждый признак в inputs умножается на свой коэффициент, они складываются и пропускаются через сигмоиду, которая преобразует сумму в вероятность от 0 до 1. " + ] + }, + { + "cell_type": "code", + "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/html": [ - "" + "" ], "text/plain": [ "" ] }, - "execution_count": 6, + "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ - "Image(url=\"https://www.researchgate.net/publication/325813999/figure/fig5/AS:638669773893635@1529282148432/Classification-decision-boundary-using-logistic-regression-The-blue-area-corresponds-to.png\",\n", - " width=700, height=700)\n" + "Image(url=\"https://deeplearningmath.org/images/shallow_NN.png\",\n", + " width=700, height=700)" ] }, { @@ -959,26 +871,26 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 32, "metadata": {}, "outputs": [ { "data": { "text/html": [ - "" + "" ], "text/plain": [ "" ] }, - "execution_count": 13, + "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# суть Random Forest\n", - "Image(url=\"https://www.meme-arsenal.com/memes/4050e1d63ea961e4549d59740c952bf5.jpg\",\n", + "Image(url=\"https://www.meme-arsenal.com/memes/b21eaf3fcba087cc3dc2e6c43eaa7eeb.jpg\",\n", " width=500, height=500)" ] }, @@ -1858,7 +1770,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.13" + "version": "3.9.16" } }, "nbformat": 4,