自前で完結するとなると全体のデータの中の単語量を調べるってので、
なんとかなるかもかも。
でも、ある程度大きな規模のデータがないと
結果に偏りが出ると思います。