ஞாயிறு, 11 ஜூலை, 2021

வகைப்படுத்தம் (Tokenizing)

இது வகைப்படுத்த வேண்டியவைகளைக் கொண்ட ஆவணப் பொருளை வழங்குகிறது. வகைப்படுத்தம் என்பது ஆவணத்தில் உள்ள தனிப்பட்ட சொற்கள், நிறுத்தற்குறி போன்ற உரையின் ஒவ்வொரு அலகையும் குறிக்கும். "வேண்டாம்" போன்ற சுருக்கங்களை இசுபேசி இரண்டு வகைப்படுதங்களாகப் பிரிக்கிறது. அது "செய்", "இல்லை" என்பதாகும். ஆவணத்தின் மூலம் மீண்டும் செயல்படுவதன் மூலம் வகைப்படுத்தங்களைக் காணலாம்.

In [3]:
for token in doc:
    print(token)
Tea
is
healthy
and
calming
,
do
n't
you
think
?

ஒரு ஆவணத்தின் மூலம் மீண்டும் உங்களுக்கு வகைப்படுத்தும் பொருள்களை வழங்குகிறது. இந்தவகைப்படுத்தங்கள் ஒவ்வொன்றும் கூடுதல் தகவலுடன் வருகின்றன. பெரும்பாலான சந்தர்ப்பங்களில், முக்கியமானவை token.lemma_ and token.is_stop என்பவை அமையும்..

கருத்துகள் இல்லை:

கருத்துரையிடுக

உங்கள் கருத்துகள் வரவேற்கப்படுகின்றன

நாள் 60 - அடுத்த ஏ5 ஆண்டுகளில் செய்யறிவு எவ்வாறு மாறும்? - கட்டுரை (How Will AI Change in the Next 5 Years? – An Essay)

நாள் 60 - 5 ஆண்டுகளில் செய்யறிவு எவ்வாறு மாறும்? (The Future of AI) – இறுதிப் பாடம் 🚀 நாள்...