Google ColaboratoryでGiNZAを使ってみる • barorin&?

はじめに

Google ColaboratoryでGiNZAを使ってみようと思います。

方法

# GiNZAインストール
!pip install -U ginza ja-ginza

import pkg_resources, imp
imp.reload(pkg_resources)

# 形態素解析
import spacy

nlp = spacy.load('ja\_ginza')
doc = nlp('今年の干支は庚子です。東京オリンピックたのしみだなあ。')

for sent in doc.sents: # 文を区切る
    for token in sent: # 単語を区切る
        print(token.i, token.orth_, token.lemma_, token.pos_,
              token.tag_, token.dep_, token.head.i)

'''
Output
0 今年 今年 NOUN 名詞-普通名詞-副詞可能 nmod 2
1 の の ADP 助詞-格助詞 case 0
2 干支 干支 NOUN 名詞-普通名詞-一般 nsubj 4
3 は は ADP 助詞-係助詞 case 2
4 庚子 庚子 PROPN 名詞-普通名詞-一般 ROOT 4
5 です です AUX 助動詞 cop 4
6 。 。 PUNCT 補助記号-句点 punct 4
7 東京 東京 PROPN 名詞-固有名詞-地名-一般 compound 8
8 オリンピック オリンピック NOUN 名詞-普通名詞-一般 obl 9
9 たのしみ たのしみ PROPN 名詞-普通名詞-一般 ROOT 9
10 だ だ AUX 助動詞 cop 9
11 なあ なあ PART 助詞-終助詞 mark 9
12 。 。 PUNCT 補助記号-句点 punct 9
'''