மற்றொரு பொதுவான என்.எல்.பியின் பணி உரை அல்லது முழு ஆவணங்களின் பகுதிகளுக்குள் வகைப்படுத்தங்கள் (டோக்கன்கள்) அல்லது சொற்றொடர்களைப் பொருத்துவதாகும். வழக்கமான வெளிப்பாடுகளுடன் நீங்கள் மாதிரி பொருத்தத்தைச் செய்யலாம், ஆனால் இசுபேசியின் பொருந்தக்கூடிய திறன்கள் பயன்படுத்த எளிதாக இருக்கும்.
மாத இதழ். இதில் கவிதை, கட்டுரை, தமிழியல், சிறுகதை, புதினம், வரலாறு, தொல்லியல் எனப் பல்துறை சார்ந்தும் கருத்துக்கள் இடம்பெறும். Monthly Journal. It features a wide range of concepts including poetry, essay, Tamil, short story, novel, history and etc.
ஞாயிறு, 25 ஜூலை, 2021
ஞாயிறு, 18 ஜூலை, 2021
அடிச்சொல் அறிமுறை (உரை முன்செயலாக்கம் - Text preprocessing)
ஞாயிறு, 11 ஜூலை, 2021
வகைப்படுத்தம் (Tokenizing)
இது வகைப்படுத்த வேண்டியவைகளைக் கொண்ட ஆவணப் பொருளை வழங்குகிறது. வகைப்படுத்தம் என்பது ஆவணத்தில் உள்ள தனிப்பட்ட சொற்கள், நிறுத்தற்குறி போன்ற உரையின் ஒவ்வொரு அலகையும் குறிக்கும். "வேண்டாம்" போன்ற சுருக்கங்களை இசுபேசி இரண்டு வகைப்படுதங்களாகப் பிரிக்கிறது. அது "செய்", "இல்லை" என்பதாகும். ஆவணத்தின் மூலம் மீண்டும் செயல்படுவதன் மூலம் வகைப்படுத்தங்களைக் காணலாம்.
ஞாயிறு, 4 ஜூலை, 2021
இயற்கைமொழிச் செயலாக்கம் (NLP)
அறிமுகம்
தரவு பல வடிவங்களில் உள்ளது. நேர முத்திரைகள், சென்சார் அளவீடுகள், படங்கள், வகைப்படுத்தப்பட்ட குறிகள், இவை போக இன்னும் பல. ஆனால் உரை இன்னும் அதைப் பயன்படுத்தத் தெரிந்தவர்களுக்கு மிகவும் மதிப்புமிக்க தரவுகளில் சில.
இயற்கைமொழிச் செயலாக்கம் (என்.எல்.பி) பற்றிய இந்தப் பாடத்திட்டத்தில், உரையுடன் பணியாற்றுவதில் மிக முக்கியமான சில பணிகளை மேற்கொள்ள நீங்கள் முன்னணி என்.எல்.பி நூலகத்தைப் (ஸ்பாசி) பயன்படுத்தலாம்.
ஞாயிறு, 6 ஜூன், 2021
இசுபேசியுடன் (spaCy) இயற்கைமொழிச் செயலாக்கம்
இசுபேசி (spaCy) என்பது என்.எல்.பியின் முன்னணி நூலகமாகும். இது விரைவில் மிகவும் பிரபலமான பைத்தான் கட்டமைப்பில் ஒன்றாகவும் மாறியுள்ளது. பெரும்பாலான மக்கள் அதை உள்ளுணர்வுடன் காண்கிறார்கள். மேலும் இது சிறந்த ஆவணங்களைக் கொண்டுள்ளது.