Skip to content

Latest commit

 

History

History
65 lines (58 loc) · 4.16 KB

korean-한국어.md

File metadata and controls

65 lines (58 loc) · 4.16 KB

한국어 자연어 처리

텐서플로우와 머신러닝으로 시작하는 자연어처리(로지스틱회귀부터 트랜스포머 챗봇까지)

트위터의 추천 알고리즘

https://github.com/twitter/the-algorithm

송영숙님 쳇봇 데이터

  • Data description.
      1. 챗봇 트레이닝용 문답 페어 11,876개
      1. 일상다반서 0, 이별(부정) 1, 사랑(긍정) 2로 레이블링

Natural Language Processing (자연어 처리)

Q A Label
12시 땡! 하루가 또 가네요. 0
1지망 학교 떨어졌어 위로해 드립니다. 0
3박4일 놀러가고 싶다 여행은 언제나 좋죠. 0
3박4일 정도 놀러가고 싶다 여행은 언제나 좋죠. 0
PPL 심하네 눈살이 찌푸려지죠. 0
SD카드 망가졌어 다시 새로 사는 게 마음 편해요. 0
SD카드 안돼 다시 새로 사는 게 마음 편해요. 0
1000일 만난 여자친구와 이별 더 오래 만날 사람 만날 거예요. 1
10년 연애. 헤어졌습니다. 더 공허함이 크시겠네요. 1
10년 연애사 되돌아보니 다 부질없네 더 좋은 사람 만나실 거예요. 1
10년 연예의끝 더 마음이 허하겠어요. 1
내가 사랑하는 사람이 나를 사랑했으면 그 사람도 당신을 사랑하고 있을지도 몰라요. 2
내가 사랑해도 될까? 당연하죠. 2
내가 사랑했던 그 사람 맞아? 사랑했던 그 사람의 다른 모습이 보인거예요. 그 사람 맞아요. 2
내가 생각하는 만큼 걔도 날 생각할까? 확신이 없나보네요. 2
내가 생각했던 사람이 맞는지 확신이 안들어 새로운 모습을 봤나봐요. 2

KoBigBird

  • Longer Sequence - 최대 512개의 token을 다룰 수 있는 BERT의 8배인 최대 4096개의 token 커버
  • Computational Efficiency - Full attention이 아닌 Sparse Attention을 이용하여 O(n)으로 개선 Github: https://github.com/monologg/KoBigBird