திங்கள், 6 ஜனவரி, 2025

தமிழ் விக்கிமூலத்தில் குறுந்தொகைத் தரவு மேம்பாடு

அறிமுகம்

‘’விக்கிமூலம் என்பது விக்கிமீடியா அறக்கட்டளையால் இயக்கப்படும் இலவச மின் உள்ளடக்க நூலகமாகும். விக்கிமூலத்திட்டத்தை அக்டோபர் 2022 நிலவரப்படி, 72 நான்கு மொழிகள் பயன்படுத்திக் கொண்டு வருகின்றன. இத்திட்டத்தின் முக்கிய நோக்கம் அனைத்து வகையான மூலநூல்களையும், பல மொழிகளிலும், மொழிபெயர்ப் புக்களிலும் வழங்குவதே ஆகும். முதலில் இத்திட்டம் பயனுள்ள அல்லது முக்கியமான வரலாற்று நூல்களைச் சேமிப்பதற்கான காப்பகமாகக் கருதப்பட்டது. இது பின்பு ஒரு பொது உள்ளடக்க நூலகமாக விரிவடைந்தது. இந்தத் திட்டம் அதிகாரப்பூர்வமாக நவம்பர் 24, 2003 அன்று புராஜெக்ட் சோர்ஸ்பெர்க் (Project Sourceberg) என்ற பெயரில் தொடங்கப்பட்டது. விக்கிமூலம் என்ற பெயர் அந்த ஆண்டின் பிற்பகுதியில் ஏற்றுக்கொள்ளப்பட்டது. அது பின்பு  களப்பெயராகவும் (Domain name)  உருப்பெற்றது.

இந்தத் திட்டம் பொதுக்கள உரிமம் (Creative Commons License) பெற்ற படைப்புகளைத் தன்னகத்தே கொண்டிருக்கிறது. காப்புரிமையுடன் வெளியிடப்பட்ட படைப்புகள் அல்லது வரலாற்றுச் சான்று ஆவணங்கள், பதிப்பகங்களின் வெளியீடுகள் போன்றன இதில் அடங்குவதில்லை. பிற எண்ணிம நூலகங்களின் (Digital Library) நம்பகத்தன்மையை நம்பி சரிபார்ப்பு, தொடக்கத்தில் முடக்கலையில் (Offline) செய்யப்பட்டது. இப்போது பணிகள் மெய்ப்புச் சரிபார்ப்புப் பக்கம் (ProofreadPage) நீட்டிப்பு வழியாக இணைய எழுத்துணரியாக்கம் (OCR) மூலம் ஆதரிக்கப்படுகின்றன. இது திட்டத்தின் உரைகளின் நம்பகத்தன்மையையும் துல்லியத்தையும் உறுதி செய்கின்றது.

சில தனிப்பட்ட விக்கிமூலங்கள், ஒவ்வொன்றும் ஒரு குறிப்பிட்ட மொழியைக் குறிக்கின்றன. சான்றாக ta-தமிழ், ml-மலையாளம், te-தெலுங்கு, ka-கன்னடம், en-ஆங்கிலம் ஆகியவற்றைக் கூறலாம். இப்போது எழுத்துணரியாக்கம் (ஸ்கேன்) மூலம் மேம்பாடு செய்யப் பெறும் படைப்புகள் பொதுக்கள உரிமத்தில் உள்ளனவா எனப் பார்த்து அனுமதிக்கப்படுகின்றன. அதன் சேகரிப்பில் பெரும்பகுதி நூல்களாக இருந்தாலும், காமிக்சு முதல் திரைப்படம் வரையிலும், ஒலிப் புத்தகங்கள் வரையிலும், மற்ற ஊடகங்களையும் விக்கிமூலம் வழங்குகிறது. விக்கிமூலத்தின் குறிப்பிட்ட கொள்கைகளுக்கு உட்பட்டு, சில விக்கிமூலங்கள் பயனர் உருவாக்கிய சிறுகுறிப்புகளை அனுமதிக்கின்றன. ஆனால் தேசிய ஆவணக் காப்பகங்கள், பதிவுகள், நிர்வாகம் போன்ற நிறுவனங்களால் மேற்கோள் காட்டப்படுகின்றது என்பது குறிப்பிடத்தக்கது’’ (https://en.wikipedia.org/wiki/Wikisource, பார்வை நாள்-03.09.2022).

இத்தகு வரலாறு உடைய விக்கிமூலத்தின் ஒரு திட்டமாகிய தமிழ் விக்கிமூலத்தில் குறுந்தொகை நூலின் மேம்பாட்டிற்குப் பயன் நல்கும் முறைகளையும் அதனால் ஏற்படும் ஆய்வுமுயற்சிகளையும் அறியத் தருவதாய் இக்கட்டுரை அமைகின்றது.

குறுந்தொகை நூல் அட்டவணை

தமிழ் விக்கிமூலத்தில் பொருள் அடிப்படையில் அட்டவணைகள் எனும் பகுப்பின்கீழ் மொத்தம் 33 துணைப்பகுப்புகள் உள்ளன.  அவற்றை முந்தைகட்டுரையில் காணவும் (தமிழ் விக்கிமூலத்தில் தொல்காப்பியத் தரவு மேம்பாடு). இப்பகுப்புகளுள் "குறுந்தொகை அட்டவணைகள்" எனும் பகுப்பு, இரு அட்டவணைகளின்கீழ் வருகின்றன. அவை,

என்பன. இவ்விரண்டு பகுப்புக்குள், செவ்விலக்கியங்கள் பகுப்பின்கீழ்,

க - குறுந்தொகை

த - குறுந்தொகைம்

ந - நற்றிணை

ஆகிய மூன்று அட்டவணைகளும், அவற்றுள் குறுந்தொகை அட்டவணையும் அடங்கி இடம்பெற்றுள்ளது. அடுத்துப் பழந்தமிழ் இலக்கியங்கள் பகுப்பின்கீழ்,

ஆகிய பகுப்புகளும் இடம்பெற்றுள்ளன. இவற்றுள், குறுந்தொகைப் பகுப்பும் உள்ளது. அதனுள், சென்று பார்த்தால், குறுந்தொகைப் பாடல்கள் மட்டுமே உள்ளன. அவற்றின் மூலநூல் இல்லை. அதனைப் பின்வரும் படம் காட்டும்.

(படம் - ஒன்று, குறுந்தொகை விக்கிமூலத் தரவு)

இதனைத் தாண்டி இன்னொரு பகுப்பையும் பார்க்க முடிகின்றது. அது சங்க இலக்கியம் எனும் பெயரில் அமைந்துள்ளது. அப்பகுப்பில் சென்று பார்த்தால் பின்வரும் துணைப்பகுப்புகள் வருகின்றன. அவை வருமாறு;-

இதனுள் உள்ள குறுந்தொகைப் பகுப்பிற்குள் சென்று பார்க்கும் பொழுது,

இவ்வாறு குறுந்தொகைப் பாடல் தொகுப்புகளே இடம்பெற்றுள்ளன. இப்பார்வை அக்டோபர் 18, 2022 பிற்பகல் 9.02-க்கு முன்பு வரை இருந்த பதிவாகும். இதன்பின்பு இரண்டு நூல்கள் குறுந்தொகை தலைப்பில் உள்ளவற்றைக் கண்டு, அதற்கு, குறுந்தொகை எனும் பகுப்பைத் தந்தபொழுது, பின்வரும் பகுப்பு இடம்பெறுகின்றது.

பெரிது படுத்திக் காட்டியிருக்கும் நூல்கள் புதிதாகக் குறந்தொகைப் பதிப்பிற்குள் இணைக்கப் பெற்றவை. 

இதனை வைத்துப் பார்க்கும் பொழுது, குறுந்தொகையை வைத்து எத்தனையோ நூல்கள் வெளிவந்துள்ளன. இருப்பினும் இங்கே இல்லையே என்ற வருத்தம் மட்டுமே மேலிடுகின்றது.

குறுந்தொகை நூல் அட்டவணை மேம்பாடு

குறுந்தொகைம் தமிழில் கிடைக்கப்பெறுகின்ற முதல் இலக்கணப் பனுவல். அதன் சிறப்பை இன்று அனைத்துத்துறை வல்லுநர்களும் பாராட்டி வருகின்றனர் என்பது குறிப்பிடத்தக்கது. அதன் சிறப்பினைப் பின்வரும் கருத்துக்கள் தெளிவுபடுத்தும்.

மொழியைப் பற்றித் குறுந்தொகைர் கொண்டிருந்த கருத்து உலகில் மற்ற அறிஞர்கள் கொண்டிருந்த கருத்திலிருந்து பெரிதும் வேறுபட்டுள்ளது. அதனால்தான் இவருடைய இலக்கண அமைப்பும் இலக்கணம் எழுதிய முறையும் வேறுபட்டிருக்கிறது. குறுந்தொகைருடைய இலக்கணக் கோட்பாட்டில் உரையாடல்கூட இடம்பெறுகிறது. வினா விடைகள் இடம் பெறுகின்றன. வினா எப்படி அமைய வேண்டும் விடை எப்படி அமைய வேண்டும் என்பதைப் பற்றியெல்லாம் குறுந்தொகைர் பேசுகிறார். வினாவிலும் விடையிலும் பிழைவராமல் காக்க ஒரு நூற்பாவை அமைக்கிறார். விடை சொல்லும்போது விடைக்குரிய செய்தியை மட்டும் கொடுத்தால் போதாது. வினாவுக்கு ஏற்றபடி விடை அமைப்பு அமைந்திருக்க வேண்டும். அண்ணாமலை நகர் எங்கே இருக்கிறது? என்று கேட்டால் பதில் நேராக அமைதல் வேண்டும். சுற்றி வளைத்துப் பேசக் கூடாது. உங்கள் பெயர் என்ன என்று கேட்டால் நேராக அமைதல் வேண்டும். சுற்றிவளைத்துப் பேசக்கூடாது. சில நேரங்களில் சில விதிவிலக்குகள் உண்டு. பொன்னி அரிசி இருக்கிறதா என்று கேட்டால், சீரக சம்பா இருக்கிறது என்று சொல்லுவது பிழையில்லை. இனமான பொருளைச் சொல்லு வதால் பிழையில்லை. நன்னூல் காண்டிகை படித்திருக்கிறீர்களா என்று கேட்டால் விருத்தியுரை படித்திருக்கிறேன் என்று சொன்னால் பிழையில்லை. இப்படியெல்லாம் எப்படிக் கேள்வி கேட்க வேண்டும். எப்படிப் பதில் சொல்ல வேண்டும் என்றெல்லாம் குறுந்தொகைர் கற்பித்திருக்கிறார்.

மொழியில் இவருடைய ஆய்வு மிகவும் நுணுகி நுணுகிப் போயிருக்கிறது." (பொற்கோ, ப.xiv)

இயற்கையில் உருவான மானிட உடல், தாவரங்கள், விலங்குகள் போன்றவைகளும் மானிடரால் உருவாக்கப்பட்ட சமூக அமைப்புகளும் தமக்கென ஓர் ஒழுங்கமைவையும் (system), அவற்றிற்குரிய துணை ஒழுங்கமைவுகளையும் (sub systems) கொண்டு அமைந்துள்ளன. மொழியின் அமை வொழுங்கு என்ன, அதன் துணை ஒழுங்கமைவுகள் என்ன என்பதில் மொழியியலாரிடையே கருத்துவேறுபாடுகள் உள்ளன. பல்வகை மொழியியல் சிந்தனைக்குழுவினரும் (schools of thought) மொழியின் அமைப்பை விளக்கப் பல்வகைத் துணை ஒழுங்கமைவுகளைக் கொண்ட விளக்க மாதிரிப் படிவங்களை (descriptive models) உருவாக்கியுள்ளனர். அமைப்புமுறை மொழியியலார் (structural linguistics) மொழி. ஒலியமைப்பு (phonetic structure), ஒலியனமைப்பு (phonological structure) உருபொலியனமைப்பு (morphophonemic structure), சொல்லமைப்பு (morphological structure), தொடர் அல்லது வாக்கிய அமைப்பு (syntactic structure) இவ்விரண்டையும் உட்கொண்ட இலக்கண அமைப்பு (grammatical structure), பொருண்மை அமைப்பு (Semantic structure) ஆகிய துணை ஒழுங்கமைவு களைக் கொண்ட மாதிரிப்படிவத்தை வகுத்தனர் (ஒ.நோ. Hocke. 1958, ch. 16). ஆனால் சாம்ஸ்கியால் உருவாக்கப்பட்ட மாற்றிலக்கண மொழியியல் (Transformational Generative approach அணுகுமுறை மொழியின் இலக்கணத்தை மூன்று பகுதிகளை (components) உடையதாகக் காட்டியது. தொடரியல் (Syntactic) பகுதியே மொழியமைப்பிற்கு இன்றியமையாத மையப்பகுதி (central component). ஒலியனியல் பகுதி (phonological component), பொருண்மையியல் பகுதி (semantic component) ஆகியவை தொடரியல் பகுதிக்கு உரிய விளக்கப்பகுதிகள் (interpretive components) என விளக்கியது (Chomsky, 1965). அமைப்புமுறை மொழியியலின் ஒலியமைப்பு, ஒலியனமைப்பு, உருபொலிய னமைப்பு ஆகிய மூன்றும் மாற்றிலக்கண முறையின் ஒலியனியல் பகுதிக்குள் அடக்கப்பட்டன. சொல்லமைப்பு, தொடரமைப்பு வேறுபாடுகள் ஒதுக்கப்பட்டு அவ்விரண்டும் தொடரமைப்பின் பகுதியாக ஆராயப்பட்டன. பொருண்மையியல் பகுதி தனித்தன்மை உடையதாகக் கருதப்படாமல் தொடரியல் பகுதியின் விதிகளால் உருவான வாக்கியங்களுக்குப் பொருள் விளக்கம் கூறும் பகுதியாக மட்டுமே உருவாக்கப்பட்டது. சாம்ஸ்கியின் மொழியமைப்புக் கொள்கையும் அவர் தொடர்ந்து எழுதிய நூல்களில் பல்வகை மாற்றங்களை அடைந்தது. இது மொழியின் முற்றமைப்பு இன்னும் முழுவதுமாகப் புரிந்து கொள்ளப்படவில்லை; புதிய ஆய்வுச் சிந்தனைகளுக்கும் மாதிரிப் படிவங்களுக்கும் இடமளிக்கும் வகையில் உள்ளது என்பதைக் காட்டுகின்றது. இக்கண்ணோடத்தில் குறுந்தொகைம் காட்டும் மொழி யமைப்பின் மாதிரிப் படிவம் என்ன? அது இன்றைய மொழியியலார் வகுக்கும் மாதிரிப் படிவங்களோடு ஒத்திருக்கிறதா? வேறுபடுகிறதா? அப்படிவத்தின் சிறப்பு என்ன என ஆராய்வது குறுந்தொகையின் சிறப்பையும் குறுந்தொகைம் காட்டும் தமிழ் மொழியியல் சிந்தனையின் பெருமையையும் உணர்ந்துகொள்ளத் துணைபுரியும்" (க. பாலசுப்பிரமணியன், பக்.177 - 179).

மேற்கூறிய கருத்துக்கள் குறுந்தொகைத்தை மொழியியல் அடிப்படையில் ஆய்வு செய்தவர்களாகிய பொற்கோ, க.பாலசுப்பிரமணியன் ஆகியோர் கூறியவை. இவைபோன்ற சிந்தனைகள் அச்சு நூல்களிலேயே முடங்கிவிடக் கூடாது என்பதற்காகவும், குறுந்தொகைப் பனுவலின் முக்கியத்துவத்தை உணர்த்துவதற்காகவும், தொடர்ந்து பல ஆய்வுகள் குறுந்தொகைப் பனுவலில் நிகழ்த்தவும், குறிப்பாக இயற்கை மொழி ஆய்வுகள் நிகழ்த்துவதற்கான தரவு மேம்பாட்டிற்காகவும் அக்கருத்துக்கள் வலிமை சேர்க்கும் என்பதால் வலியுறுத்தப்பெற்றன. குறுந்தொகை அட்டவணை கொண்டிருக்க வேண்டிய உள்ளடக்கங்களைப் பின்வருமாறு கட்டமைக்கலாம். இந்தக் கட்டமைப்பு விக்கிமூலத்தில் பங்களிப்புச் செய்யும் பிற 72 மொழிகளுக்கும் பயன்படும் நோக்கிலும் எடுத்துக் கொள்ளலாம் என்பது குறிப்பிடத்தக்கது.

  • ஓலைச்சுவடிகளில் குறுந்தொகைம்

    • மூல நூற்சுவடிகள்

    • உரை நூற்சுவடிகள்

  • அச்சு நூல்களில் குறுந்தொகைம்

    • மூலநூல்

    • உரைநூல்

      • பழைய உரைகள்

      • உரைவளம்

      • தற்கால உரைகள்

    • ஆய்வுநூல்

      • இந்திய மொழி ஒப்பீடு-ஒப்பாய்வு

      • அயல்மொழிமொழி ஒப்பீடு - ஒப்பாய்வு

      • திராவிட மொழி ஒப்பீடு-ஒப்பாய்வு

      • தமிழ் இலக்கிய, இலக்கணங்களுக்கிடையே ஒப்பீடு-ஒப்பாய்வு

    • கோட்பாட்டாய்வு

      • எழுத்து

      • சொல்

      • பொருள்

இவ்வாறான வகைப்பாடு காலத்திற்கு ஏற்றதாகும். இருக்கக் கூடிய குறுந்தொகை அட்டவணைகளை வகைப்படுத்திப் பார்க்கும்பொழுது பின்வருமாறு வகைப்பாடு அமைகின்றது.

குறுந்தொகை நூல் மேம்பாட்டினால் ஏற்படும் விளைவுகள்

விக்கிமூலம் கல்விசார் வளங்களை மேம்படுத்தி வரும் கட்டற்ற தளமாக இருப்பதனால் தமிழில் இயற்கை மொழி சார்ந்த ஆய்வுகள் நிகழ்வதற்குப் பெருந்துணைநல்கும். அவ்வாய்வு மட்டுமின்றி உலகப் பல்கலைக்கழக ஆய்வாளர்களும் ஆய்வுகள் நிகழ்த்த இத்தளம் ஒரு நூலகமாகவும் செயல்படும். மேலும் இதனால் விளையும் பயன்களை,

  • குறுந்தொகை ஆய்வுகள் தொடர்ந்து நிகழ

  • இந்திய மொழிகளின் இலக்கண ஆய்வுகள் எளிதில் நடைபெற

  • உலக மொழிகளின் இலக்கண ஆய்வுகள் எளிதில் நடைபெற

  • இயற்கை மொழி ஆய்வுகளுக்கான தரவுகள் கிடைத்திட

  • விக்சனரி திட்டங்களில் குறுந்தொகைச் சொற்களை ஏற்படுத்த

  • விக்கித்தரவில் சேர்க்க

  • விக்கிப்பீடியாவில் கட்டுரைகள் உருவாக்க

  • குறுந்தொகை தகவல் பெறுவி கருவியை உருவாக்க

  • குறுந்தொகை குறித்த மென்பொருள் உருவக்க

  • குறுந்தொகைக் கற்றல் கற்பித்தல் கருவிகளை வடிவமைக்க

என அறியலாம்.

நிறைவாக…

இதுவரை விளக்கப்பெற்றதின் அடிப்படையில் பார்க்கும் பொழுது ஆங்காங்கு நடைபெறும் குறுந்தொகை ஆய்வுகளை ஓரிடத்தில் குவித்து வைக்கும் ஒரு கருவூல நூலகமாகத் தமிழ் விக்கிமூலம் அமையும் என்பதை உணர முடிகின்றது. இது நடக்கும்பொழுது 74 விக்கிமூலத் திட்டங்களுக்கெல்லாம் முன்னோடித் திட்டமாகத் தமிழ் விக்கிமூலத்திட்டம் அமையும்.

துணைநின்றவை


கட்டுரையாளர்கள்

சத்தியராஜ் தங்கச்சாமி | Sathiyaraj Thangasamy

முனைவர் தனலட்சுமி வ. | Dr. Dhanlakshmi V.

முனைவர் இரா. நித்யா | Dr. R. Nithya

தகவலுழவன் | Thagavaluzhava


கருத்துகள் இல்லை:

கருத்துரையிடுக

உங்கள் கருத்துகள் வரவேற்கப்படுகின்றன