Generating part of speech tags POS for English text, using NLTK library

#nltk.download('punkt')
#import nltk
#nltk.download('averaged_perceptron_tagger')
  
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize

Generate part of speech tags:


def generate_pos(tx):
    text = word_tokenize(tx)
    tag_txt = nltk.pos_tag(text)
    hh = len(tx.split(" "))
    sumtags = ""
    keep_res = []
    for i in range(0,hh):
        sumtags += tag_txt[i][1] + " " 
    keep_res.append("{}\t{}".format(tx, sumtags))
    sumtags = ""
    return keep_res

call the generate part of speech tags:

xlist = ['I love you', 'one thousand seven hundred forty',
         'april thirtieth to day before yesterday',
         'aug of next year','day before yesterday to november twenty second',
         'february of last year']

   
for s in xlist:
    print(generate_pos(tx= s)[0])

Result:

I love you PRP VBP PRP
one thousand seven hundred forty CD CD CD VBD NN
april thirtieth to day before yesterday RB NNS TO NN IN NN
aug of next year NN IN JJ NN
day before yesterday to november twenty second NN IN NN TO VB JJ NN
february of last year NN IN JJ NN

Leave a Reply Cancel reply