Skip to content

Latest commit

 

History

History
70 lines (58 loc) · 7.92 KB

README.md

File metadata and controls

70 lines (58 loc) · 7.92 KB

Материалы курса по компьютерной лингвистике (Natural Language Processing course materials)

Jupyter-ноутбуки курса

Вводная часть (1 модуль)

Основная часть

  1. Предобработка текста (Text preprocessing)
    Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel, deduplication, lsh, minhash.
  2. Классификация текста (мешок слов) (Bag-of-words classification)
    TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста
  3. Поиск и исправление опечаток (Spellchecking)
    Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell.
  4. Базовое языковое моделирование (Basic Language Modelling)
    Вероятность слова, Ngram language model, перплексия, генерация текста, beam search.
  5. Тематическое моделирование (Topic modelling)
    Матричные разложения (SVD, NMF), LDA, перплексия, когерентность.
  6. Векторные представления слов (word2vec/fastext) (Word embeddings)
    cbow, skip-gram, negative sampling
  7. Convolutional Neural Networks for text classification
    CNN.
  8. RNN и извлечение именованных сущностей (Named Entity Recognition)
    LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling.
  9. Трансформеры. BERT и GPT (Transformers. BERT and GPT) (BERT, GPT)
    Transformer, BERT, HuggingFace, fine-tuning, text generation, sampling parameters (temperature, top_p, top_k)
  10. Трансформеры. Seq2Seq. Машинный перевод (Transformers. Seq2Seq. Machine Translation)
    multi-head attention, encoder-decoder model, bleu score
  11. Трансформеры. Дообучение на инструкциях (Transformers. Instruct fine-tuning)
    alpaca, dolly, flan-t5
  12. Трансформеры. PEFT
    quantization, LoRA, QLoRA
  13. Multimodality (text and images)
    CLIP, BLIP, Idefics, Stable diffusion
  14. Трансформеры. RLHF, DPO
    human feedback, DPO + QLoRA

Архивные jupyter-ноутбуки

Jupyter-notebooks in English