- NLP-KR/tensorflow-ml-nlp (https://github.com/NLP-kr/tensorflow-ml-nlp)
- 준비 단계 - 자연어 처리에 대한 배경과 개발에 대한 준비를 위한 챕터입니다.
- 자연어 처리 기본 - 자연어 처리에 기본적인 모델에 대한 연습 챕터입니다.
- 자연어 처리 심화 - 챗봇 모델을 통해 보다 심화된 자연어 처리에 대한 연습 챕터입니다.
- 저자 (Authors)
- ChangWookJun / @changwookjun ([email protected])
- Taekyoon / @taekyoon ([email protected])
- JungHyun Cho / @JungHyunCho ([email protected])
https://github.com/twitter/the-algorithm
- songys/Chatbot_data (https://github.com/songys/Chatbot_data)
- Chatbot_data_for_Korean v1.0
- License : MIT
- Data description.
-
- 챗봇 트레이닝용 문답 페어 11,876개
-
- 일상다반서 0, 이별(부정) 1, 사랑(긍정) 2로 레이블링
-
- Single Headed Attention RNN: Stop Thinking With Your Head (2020)
- Original Paper Link / Paper Review Video / Summary PDF / Code Practice
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (NAACL 2019)
- Original Paper Link / Paper Review Video / Summary PDF / Code Practice
- Attention is All You Need (NIPS 2017)
- Original Paper Link / Paper Review Video / Summary PDF / Code Practice
- Neural Machine Translation by Jointly Learning to Align and Translate (ICLR 2015 Oral)
- Original Paper Link / Paper Review Video / Summary PDF / Code Practice
- Sequence to Sequence Learning with Neural Networks (NIPS 2014)
Q | A | Label |
---|---|---|
12시 땡! | 하루가 또 가네요. | 0 |
1지망 학교 떨어졌어 | 위로해 드립니다. | 0 |
3박4일 놀러가고 싶다 | 여행은 언제나 좋죠. | 0 |
3박4일 정도 놀러가고 싶다 | 여행은 언제나 좋죠. | 0 |
PPL 심하네 | 눈살이 찌푸려지죠. | 0 |
SD카드 망가졌어 | 다시 새로 사는 게 마음 편해요. | 0 |
SD카드 안돼 | 다시 새로 사는 게 마음 편해요. | 0 |
1000일 만난 여자친구와 이별 | 더 오래 만날 사람 만날 거예요. | 1 |
10년 연애. 헤어졌습니다. | 더 공허함이 크시겠네요. | 1 |
10년 연애사 되돌아보니 다 부질없네 | 더 좋은 사람 만나실 거예요. | 1 |
10년 연예의끝 | 더 마음이 허하겠어요. | 1 |
내가 사랑하는 사람이 나를 사랑했으면 | 그 사람도 당신을 사랑하고 있을지도 몰라요. | 2 |
내가 사랑해도 될까? | 당연하죠. | 2 |
내가 사랑했던 그 사람 맞아? | 사랑했던 그 사람의 다른 모습이 보인거예요. 그 사람 맞아요. | 2 |
내가 생각하는 만큼 걔도 날 생각할까? | 확신이 없나보네요. | 2 |
내가 생각했던 사람이 맞는지 확신이 안들어 | 새로운 모습을 봤나봐요. | 2 |
- Longer Sequence - 최대 512개의 token을 다룰 수 있는 BERT의 8배인 최대 4096개의 token 커버
- Computational Efficiency - Full attention이 아닌 Sparse Attention을 이용하여 O(n)으로 개선 Github: https://github.com/monologg/KoBigBird