சொற்களால் நாம் எவ்வாறு மாதிரியாக இருக்கிறோம் என்பதை மேம்படுத்த சில வகையான முன் செயலாக்கங்கள் உள்ளன. முதலாவது "லெமடிசிங் (lemmatizing)". ஒரு வார்த்தையின் "லெம்மா (lemma)" அதன் அடிப்படை வடிவம். உதாரணமாக, "நடை" என்பது "நடைப் பயிற்சி" என்ற வார்த்தையின் லெம்மா ஆகும். எனவே, நீங்கள் நடைப்பயிற்சி என்ற வார்த்தையை லெமடைசு செய்யும்போது, அதை நடைப்பயணமாக மாற்றுவீர்கள்.
நிறுத்தச்சொற்களை அகற்றுவதும் பொதுவானது. நிறுத்த வார்த்தைகள் என்பது மொழியில் அடிக்கடி நிகழும் சொற்கள். அவை அதிக தகவல்களைக் கொண்டிருக்கவில்லை. ஆங்கில நிறுத்த வார்த்தைகளில் "தி", "இது", "மற்றும்", "ஆனால்", "இல்லை" ஆகியவை அடங்கும்.
ஒரு இசுபேசி வகைப்படுத்தி மூலம், டோக்கன்.லெம்மா_ லெம்மாவைத் (
oken.lemma_
returns the lemma) தருகிறது. அதே நேரத்தில் டோக்கன் ஒரு நிறுத்தச்சொல்லாக இருந்தால் டோக்கன்.இஸ்ஸ்டாப் (token.is_stop) ஒரு பூலியன் உண்மை அளிக்கிறது (இல்லையெனில் தவறானது).print(f"Token \t\tLemma \t\tStopword".format('Token', 'Lemma', 'Stopword'))
print("-"*40)
for token in doc:
print(f"{str(token)}\t\t{token.lemma_}\t\t{token.is_stop}")
லெமாக்களையும் நிறுத்த வார்த்தைகளையும் அடையாளம் காண்பது ஏன் முக்கியம்? மொழித் தரவு தகவல்தொடர்பு உள்ளடக்கத்துடன் நிறைய ஒலிகளைக் கொண்டுள்ளது. மேலே உள்ள வாக்கியத்தில், முக்கியமான வார்த்தைகள் தேநீர், ஆரோக்கியமான மற்றும் அமைதியானவை. நிறுத்த சொற்களை நீக்குவது முன்கணிப்பு மாதிரி தொடர்புடைய சொற்களில் கவனம் செலுத்த உதவும். ஒரே வார்த்தையின் பல வடிவங்களை ஒரே அடிப்படை வடிவமாக இணைப்பதன் மூலம் இதேபோல் லெம்மடிங் உதவுகிறது ("அமைதிப்படுத்தும்", "அமைதியான", "அமைதியான" அனைத்தும் "அமைதியாக" மாறும்).
இருப்பினும், நிறுத்தச்சொற்களை லெமடைஸ் செய்வது மற்றும் கைவிடுவது உங்கள் மாதிரிகள் மோசமாக செயல்படக்கூடும். எனவே இந்த ஹைபர் பாராமீட்டர் தேர்வுமுறை செயல்முறையின் ஒரு பகுதியாக இந்த முன் செயலாக்கத்தை நீங்கள் நடத்த வேண்டும்.
கருத்துகள் இல்லை:
கருத்துரையிடுக
உங்கள் கருத்துகள் வரவேற்கப்படுகின்றன