ஞாயிறு, 11 ஜூலை, 2021

வகைப்படுத்தம் (Tokenizing)

இது வகைப்படுத்த வேண்டியவைகளைக் கொண்ட ஆவணப் பொருளை வழங்குகிறது. வகைப்படுத்தம் என்பது ஆவணத்தில் உள்ள தனிப்பட்ட சொற்கள், நிறுத்தற்குறி போன்ற உரையின் ஒவ்வொரு அலகையும் குறிக்கும். "வேண்டாம்" போன்ற சுருக்கங்களை இசுபேசி இரண்டு வகைப்படுதங்களாகப் பிரிக்கிறது. அது "செய்", "இல்லை" என்பதாகும். ஆவணத்தின் மூலம் மீண்டும் செயல்படுவதன் மூலம் வகைப்படுத்தங்களைக் காணலாம்.

In [3]:
for token in doc:
    print(token)
Tea
is
healthy
and
calming
,
do
n't
you
think
?

ஒரு ஆவணத்தின் மூலம் மீண்டும் உங்களுக்கு வகைப்படுத்தும் பொருள்களை வழங்குகிறது. இந்தவகைப்படுத்தங்கள் ஒவ்வொன்றும் கூடுதல் தகவலுடன் வருகின்றன. பெரும்பாலான சந்தர்ப்பங்களில், முக்கியமானவை token.lemma_ and token.is_stop என்பவை அமையும்..

கருத்துகள் இல்லை:

கருத்துரையிடுக

உங்கள் கருத்துகள் வரவேற்கப்படுகின்றன