ஞாயிறு, 18 ஜூலை, 2021

அடிச்சொல் அறிமுறை (உரை முன்செயலாக்கம் - Text preprocessing)

சொற்களால் நாம் எவ்வாறு மாதிரியாக இருக்கிறோம் என்பதை மேம்படுத்த சில வகையான முன் செயலாக்கங்கள் உள்ளன. முதலாவது "லெமடிசிங் (lemmatizing)". ஒரு வார்த்தையின் "லெம்மா (lemma)" அதன் அடிப்படை வடிவம். உதாரணமாக, "நடை" என்பது "நடைப் பயிற்சி" என்ற வார்த்தையின் லெம்மா ஆகும். எனவே, நீங்கள் நடைப்பயிற்சி என்ற வார்த்தையை லெமடைசு செய்யும்போது, அதை நடைப்பயணமாக மாற்றுவீர்கள்.

ஞாயிறு, 11 ஜூலை, 2021

மொசில்லா பொதுக்குரல் நன்கொடைத் திட்டத்தில் பங்களிப்புச் செய்ததில் இந்தியாவிலே முதல்முறையாக ஸ்ரீ கிருஷ்ணா ஆதித்யா கல்லூரி புதிய சாதனை முயற்சி

கோவை, ஸ்ரீ கிருஷ்ணா ஆதித்யா கலை மற்றும் அறிவியல் கல்லூரியின் கணித்தமிழ்ப் பேரவையின் சார்பாகப் பொதுக்குரல் திட்டத்தின் தேவையும் அவசியமும் எனும் பொருண்மையிலான சிறப்புரையை முனைவர் துரை.மணிகண்டன் (கணித்தமிழ் ஆய்வாளர் & தமிழ்த்துறைத் தலைவர், அரசு கலை மற்றும் அறிவியல் கல்லூரி, திருச்சிராப்பள்ளி) அவர்கள் இணையவழி நிகழ்த்தினார்கள்.

Sri Krishna Aditya College sets new record for the first time in Indian History by participating in the Mozilla Common Voice Donation Program

Coimbatore Kanithamizh Peravai of Sri Krishna Adithya College of Arts and Sciences, Coimbatore Conducted a Webinar in the topic Necessity of Common Voice Donation program. Dr.Durai.Manikandan (Head of Tamil Department, Government College of Arts and Sciences, Tiruchirappalli) Delivered his speech on the above topic. In this webinar speech, they appreciated the achievers who have achieved  in Tamil Computing and  presented the  awards to the acheivers for their participation towards the program.

வகைப்படுத்தம் (Tokenizing)

இது வகைப்படுத்த வேண்டியவைகளைக் கொண்ட ஆவணப் பொருளை வழங்குகிறது. வகைப்படுத்தம் என்பது ஆவணத்தில் உள்ள தனிப்பட்ட சொற்கள், நிறுத்தற்குறி போன்ற உரையின் ஒவ்வொரு அலகையும் குறிக்கும். "வேண்டாம்" போன்ற சுருக்கங்களை இசுபேசி இரண்டு வகைப்படுதங்களாகப் பிரிக்கிறது. அது "செய்", "இல்லை" என்பதாகும். ஆவணத்தின் மூலம் மீண்டும் செயல்படுவதன் மூலம் வகைப்படுத்தங்களைக் காணலாம்.

ஞாயிறு, 4 ஜூலை, 2021

இயற்கைமொழிச் செயலாக்கம் (NLP)

அறிமுகம்

தரவு பல வடிவங்களில் உள்ளது. நேர முத்திரைகள், சென்சார் அளவீடுகள், படங்கள், வகைப்படுத்தப்பட்ட குறிகள், இவை போக இன்னும் பல. ஆனால் உரை இன்னும் அதைப் பயன்படுத்தத் தெரிந்தவர்களுக்கு மிகவும் மதிப்புமிக்க தரவுகளில் சில.

இயற்கைமொழிச் செயலாக்கம் (என்.எல்.பி) பற்றிய இந்தப் பாடத்திட்டத்தில், உரையுடன் பணியாற்றுவதில் மிக முக்கியமான சில பணிகளை மேற்கொள்ள நீங்கள் முன்னணி என்.எல்.பி நூலகத்தைப் (ஸ்பாசி) பயன்படுத்தலாம்.