இயற்கைமொழிச் செயலாக்கம் லேபிளுடன் இடுகைகளைக் காண்பிக்கிறது. அனைத்து இடுகைகளையும் காண்பி
இயற்கைமொழிச் செயலாக்கம் லேபிளுடன் இடுகைகளைக் காண்பிக்கிறது. அனைத்து இடுகைகளையும் காண்பி

ஞாயிறு, 25 ஜூலை, 2021

வடிவப் பொருத்தம் (Pattern Matching)

மற்றொரு பொதுவான என்.எல்.பியின் பணி உரை அல்லது முழு ஆவணங்களின் பகுதிகளுக்குள் வகைப்படுத்தங்கள் (டோக்கன்கள்) அல்லது சொற்றொடர்களைப் பொருத்துவதாகும். வழக்கமான வெளிப்பாடுகளுடன் நீங்கள் மாதிரி பொருத்தத்தைச் செய்யலாம், ஆனால் இசுபேசியின் பொருந்தக்கூடிய திறன்கள் பயன்படுத்த எளிதாக இருக்கும்.

ஞாயிறு, 18 ஜூலை, 2021

அடிச்சொல் அறிமுறை (உரை முன்செயலாக்கம் - Text preprocessing)

சொற்களால் நாம் எவ்வாறு மாதிரியாக இருக்கிறோம் என்பதை மேம்படுத்த சில வகையான முன் செயலாக்கங்கள் உள்ளன. முதலாவது "லெமடிசிங் (lemmatizing)". ஒரு வார்த்தையின் "லெம்மா (lemma)" அதன் அடிப்படை வடிவம். உதாரணமாக, "நடை" என்பது "நடைப் பயிற்சி" என்ற வார்த்தையின் லெம்மா ஆகும். எனவே, நீங்கள் நடைப்பயிற்சி என்ற வார்த்தையை லெமடைசு செய்யும்போது, அதை நடைப்பயணமாக மாற்றுவீர்கள்.

ஞாயிறு, 11 ஜூலை, 2021

வகைப்படுத்தம் (Tokenizing)

இது வகைப்படுத்த வேண்டியவைகளைக் கொண்ட ஆவணப் பொருளை வழங்குகிறது. வகைப்படுத்தம் என்பது ஆவணத்தில் உள்ள தனிப்பட்ட சொற்கள், நிறுத்தற்குறி போன்ற உரையின் ஒவ்வொரு அலகையும் குறிக்கும். "வேண்டாம்" போன்ற சுருக்கங்களை இசுபேசி இரண்டு வகைப்படுதங்களாகப் பிரிக்கிறது. அது "செய்", "இல்லை" என்பதாகும். ஆவணத்தின் மூலம் மீண்டும் செயல்படுவதன் மூலம் வகைப்படுத்தங்களைக் காணலாம்.

ஞாயிறு, 4 ஜூலை, 2021

இயற்கைமொழிச் செயலாக்கம் (NLP)

அறிமுகம்

தரவு பல வடிவங்களில் உள்ளது. நேர முத்திரைகள், சென்சார் அளவீடுகள், படங்கள், வகைப்படுத்தப்பட்ட குறிகள், இவை போக இன்னும் பல. ஆனால் உரை இன்னும் அதைப் பயன்படுத்தத் தெரிந்தவர்களுக்கு மிகவும் மதிப்புமிக்க தரவுகளில் சில.

இயற்கைமொழிச் செயலாக்கம் (என்.எல்.பி) பற்றிய இந்தப் பாடத்திட்டத்தில், உரையுடன் பணியாற்றுவதில் மிக முக்கியமான சில பணிகளை மேற்கொள்ள நீங்கள் முன்னணி என்.எல்.பி நூலகத்தைப் (ஸ்பாசி) பயன்படுத்தலாம்.

ஞாயிறு, 6 ஜூன், 2021

இசுபேசியுடன் (spaCy) இயற்கைமொழிச் செயலாக்கம்

இசுபேசி (spaCy) என்பது என்.எல்.பியின் முன்னணி நூலகமாகும். இது விரைவில் மிகவும் பிரபலமான பைத்தான் கட்டமைப்பில் ஒன்றாகவும் மாறியுள்ளது. பெரும்பாலான மக்கள் அதை உள்ளுணர்வுடன் காண்கிறார்கள். மேலும் இது சிறந்த ஆவணங்களைக் கொண்டுள்ளது.