అమ్మనుడి/సంపుటి 6/జనవరి 2021/యంత్రానువాదంలో 'వాక్యవిశ్లేషకం' అక్కర
యంత్రానువాదం
పి. సంగీత 98480 84364
యంత్రానువాదంలో 'వాక్యవిశ్లేషకం' అక్కర
1. పరిచయం
గత దశాబ్ద కాలంలో, నంగణళ భాషాశాస్త్రం 'ప్రపంచవ్వాప్తంగా పరిశోధకుల దృష్టిని ఆకర్షించింది. ఆంగ్లంలోనేకాక ఇతర భాషలలో సంగణక సహాయక బాషా సాధనాలు రూపొందించేందుకు పరిశోధకులు మొగ్గుచూపుతున్నారు. ఈ భాషా సాధనాలలో యంత్రానువాదం అత్యంత ఆసక్తికరమైన మరియు కష్టసాధ్యమ్రైనదిగా పేర్కొనబడింది. ప్రపంచ భాషలలో ఏ భాష నుండైనా మనకు కావలసిన భాషకు సులువుగా, తక్కువ సమయంలో అనువాదం చేసుకునేందుకు యంత్రానువాదం ఎంతో దోహదపడుతుంది. యంత్రానువాదంలో వాక్యవిశ్లేషకం (పార్సర్) అత్యంత ఆవశ్యకం. పార్సర్ అనేది వాక్యాన్ని వ్యాకరణపరంగానూ అర్జపరంగానూ విశ్లేషించేందుకు ఉపయోగించే సాధనం. ఈ వ్యాసంలో వాక్యవిశ్లేషకం గురించి దాని ఆవశ్యకత గురించి మేము రూపొందించిన తెలుగు వాక్యవిశ్లేషకం గురించి క్లుప్తంగా వివరిస్తున్నాను.
2. వాక్యవిశ్లేషణ = పరిచయం
వాక్యంలో ఉన్న ప్రతి పదానికీ అదే వాక్యంలో ఉన్న ఇతర పదాలకూ మధ్యగల అంతర్గత సంబంధాన్ని వ్యాకరణపరంగా/ వాక్యనిర్మాణపరంగా (syntactically) లేదా అర్ధపరంగా (semantically) విశ్లేషించడాన్ని పార్సింగ్ అంటారు. పదాల మధ్య ఉన్న సంబంధాలు కనుగొని ప్రతి సంబంధానికీ ఒక ప్రత్వేక టాగ్ను ఇవ్వడం పార్సింగ్ ప్రక్రియ ప్రధాన ఉద్దేశ్యం. ఒక వాక్యం యొక్క విశ్లేషణలో(parse) నాడికలు (nodes), వాక్యంలోని పదాలకు టీకలూ (సంవర్గ చిహ్నాలూ) పదాల మధ్య రేఖలూ వాటి మధ్యన ఉన్న సంబంధాన్ని తెలియజేస్తాయి. (క్రింది బొమ్మలను చూడండి). ఈ పార్సింగ్ ప్రక్రియకు ఉపకరించే సాధనాన్ని పార్సర్/వాక్యవిశ్లేషకం అంటారు. ఏ వాక్యంలోనైనా ముఖ్యమైనది క్రియ. అయితే క్రియ, వాక్య నిర్మాణంలో కీలకమైన పొత్రను పొషించడానికి చాలా కారణాలు ఉన్నప్పటికీ ఆ అంశాన్నీ మనం ఇక్కడ విపులంగా చర్చించడం లేదు. వాక్యంలో ఉన్న పదసంబంధాలు అన్నీ కూడ క్రియను అధారంగా చేసుకుని ఏర్పడినవే కనుక, వాక్యవిశ్లేషకం నిర్మాణంలో క్రియ తప్పనిసరిగా ప్రధానపాత్ర పోషిస్తుంది. అయితే ప్రతిసారీ క్రియాసహిత వాక్యాలే కాక కొన్నిసార్లు క్రియారహిత వాక్యాలు సాధారణంగా కూడా ఉపయోగించడం జరుగుతుంది (ఉ.దా. “నేను వైద్యుడిని"). ఇలాంటి క్రియారహిత వాక్యాలకు మాత్రం మేము రూపొందిస్తున్న వాక్యవిశ్లేషకంలో అంతరంగనిర్మాణంలో సహాయక క్రియను చేర్చి బాహ్యనిర్మాణంలో తొలగించడం జరుగుతుందని భావించడం జరిగింది.
సాధారణంగా వాక్యంలో ఏర్పడిన నిర్మాణాత్మకమ్హైన సందిగ్ధత(structural ambiguity)ని తొలగించటానికి వాక్యవిశ్లేషకాన్ని ఉపయోగించడం జరుగుతుంది. వాక్యవిశ్లేషణ చేసేందుకు అనేక వ్యాకరణ సిద్ధాంతాలు అందుబాటులో ఉన్నా కూడా వాటిలో సంగణక ప్రక్రియలకు ఎక్కువగా ఉపయోగించేవి పద నిర్మాణ ఆధారిత (dependency) మరియు పద వర్గ (constituency) వ్యాకరణ సిద్ధాంతాలు. పద నిర్మాణ ఆధారిత (Dependency) వ్యాకరణ సిద్ధాంతం పాణినీయ వ్యాకరణ సాంప్రదాయం నుండి తీసుకోబడినది. ఈ సిద్ధాంతం భారతీయ భాషలకు అనువైనది అని ప్రముఖ భాషాశాస్త్ర పరిశోధకుల అభిప్రాయం. ఈ పత్రంలో పద నిర్మాణ ఆధారిత వ్యాకరణ సిద్ధాంతాన్ని ఉపయోగించడం జరిగింది.
ఆధునిక పద నిర్మాణ ఆధారిత సిద్ధాంతం ఫ్రెంచ్ భాషాశాస్త్రవేత్త లూసియన్ తెస్నేర్ (1959) ప్రతిపాదించారు. ఆయన రాసిన “ఎలెమెంట్స్ అఫ్ స్టకరల్ సింటాక్స్ (Elements of structural syntax)" అనే పుస్తకంలో ఈ వ్యాకరణ సిద్దాంతం గురించి స్పష్టమైన రీతిలో వివరించి, ఇది ఏ భాషను విశ్లేషించేందుకైనా అనువైనది అని పేర్మాన్నారు.
వాక్యవిశ్లేషకం రూపొందించే క్రమంలో టీకాసమితి (tagset) ఎంపిక అనేది చాలా ముఖ్యమైన అంశం. పదాల మధ్య గల సంబంధాన్ని తెలియజేయడానికి ప్రతి సంబంధానికి ప్రత్యేకమైన పేరు గల టీకా సమితి అవసరం అవుతుంది. ప్రస్తుతం అనేక రకాల టీకా సమితులు వాడుకలో ఉన్నప్పటికీ వాటిలో పెన్ (penn) టీకాసమితి, ప్రేగ్ టీకాసమితి, స్టాన్ఫోర్డ్ టీకాసమితి, UCREL టీకాసమితి, అన్కోరా (anncora) టీకాసమితులు ప్రధానమైనవి. ఈ వాక్యవిశ్లేషకానికి ఆన్కోరా (anncora) టీకానమితి ఉపయోగించడం జరిగింది. ఆన్కోరా (anncora) టీకాసమితి పాణిని వ్యాకరణం ఆధారంగా రూపొందించబడింది. ఈ టీకాసమితి వాక్యంలోని పదాల మధ్య ఉన్న కారక మరియు ఆకారక సంబంధాల గురించి వివరిస్తుంది. అయితే కారక సంబంధాలు క్రియకు మరియు ఇతర నామవాచకాలకూ మధ్య ఏర్పడే సంబంధాల గురించి తెలియజేస్తే అకారక సంబంధాలు మాత్రం క్రియతో కాకుండా వాక్యంలోని ఇతర భాగాలతో ఏర్పడే సంబంధాల (ఉదా. రవి యొక్క ఇల్లు - ఈ పదబంధంలో “రవి"కి మరియు “ఇల్లు "కి మధ్య గల సంబంధం అకారక సంబంధం) గురించి తెలియజేస్తాయి. ఆన్కోరా(anncora) టీకాసమితిలో ప్రస్తుతం 19 రకాల కారక సంబంధాలు అందుబాటులో ఉన్నాయి. అవి: కర్త (k1), కర్మ (k2), ప్రయోజక కర్త (pk1), కర్త సమానాధికారణ (k1s) మొదలగు సంబంధాలు ఉన్నాయి. ఈ టాగ్ సెట్ లో ఉన్న సంబంధాలేగాక కొత్త వాక్య సంబంధాలు కావలసివచ్చినప్పుడు కొత్త పేర్లు ఈ టీకాసమితిలో చేర్చడం జరుగుతుంది.
ఈ క్రింది విభాగంలో తెలుగు వాక్యవిశ్లేషణ ఎందుకు కష్టం, ఎలాంటి సమస్యలు తలెత్తుతాయో అన్నఅంశాలు చర్చించబడ్డాయి.
3. విభక్తులు - వాక్యవిశ్లేషణా
తెలుగులో విభక్తులు వివిధ రకాల ప్రత్యయాల ద్వారా సూచింపబడతాయి. అయితే ఒక విభక్తికి ఒకే ప్రత్యయం కనుక వాడినట్టయితే వాక్య విశ్లేషణం చాలా సులువుగా ఉండేది. కానీ తెలుగులో ఒకే విభక్తికి అనేక ప్రత్యయాలు, ఒకే ప్రత్యయానికి అనేక విభక్తులు వాడే సదుపాయం భాషలో ఉండటం వల్ల వాక్య విశ్లేషణ కష్టతరమైన ప్రక్రియగా మారుతుంది.
3.1. ఒకే ప్రత్యయం - అనేక విభక్తులు
తెలుగు వాక్యంలోని నామవాచక పదాలు చాలావరకు విభక్తి
ప్రత్యయాలను కలిగి ఉంటాయి. ప్రథమావిభక్తికి -౪ (ప్రత్యయం ఏమీ లేకపోవడం), ద్వితీయావిభక్తికి -ని/ను, షష్టీవిభక్తి -యొక్మ-౭ ప్రత్యయాలు తరచుగా ఉపయోగిస్తారు. అయితే చాలా సందర్భాల్లో ఒకే ప్రత్యయం అనేక విభక్తులను వ్యక్తపరుస్తుంది. ఉదాహరణకు:
1 రవికి జలుబు చేసింది.
2. నేను రవికి పుస్తకం ఇచ్చాను.
పై రెండు వాక్యాల్లో “రవి” నామవాచకానికి “-కు/కి” ప్రత్యయం చేర్చబడింది. కానీ కింది రెండు వాక్యాల్లో వాడిన “-కి/కు” ప్రత్యయానికి వేర్వేరు అర్ధాలు ఉన్నాయి. ఇలాంటి విభక్తి సందిగ్ధత తొలగించేందుకు వాళ్యవిశ్లేషణ చాలా ఉపయోగపడుతుంది.
3.2. ఒకే విభక్తి - అనేక ప్రత్యయాలు
అంతేకాకుండా ఒకే విభక్తి, వేర్వేరు ప్రత్యయాల ద్వారా కూడా వ్యక్తం కావడం భాషలో చాలా తరచుగా జరుగుతుంది. ఉదాహరణకు,
3. నేను రవిని చూశాను
4. నేను సినిమా(9) చూశాను
అనే రెండు వాక్యాలను తీసుకుందాం. మొదటి వాక్యంలో “నేను” అనే పదం “చూశాను” అన్న క్రియాపదానికి కర్తగా వ్యవహరిస్తే “రవిని” అనే పదం వాక్యంలో కర్మగా వ్యవహరిస్తోంది. అలాగే రెండవ వాక్యంలో “నేను కర్తగా వ్యవహరిస్తే “సినిమా” కర్మగా వ్యవహరిస్తోంది. ఈ రెండు వాక్యాలనూ పరిశీలిస్తే మొదటి వాక్యంలో కర్మకు “-ని” అనే ప్రత్యయం చేర్చబడింది. కానీ రెండవ వాక్యంలో కర్మకు “-ని” ప్రత్యయం చేర్చబడలేదు. రెండు వాక్యాల్లో ఒకే రకమైన క్రియను ఉపయోగించినప్పటికీ విభక్తులలో తేడాలు ఉన్నాయి. ఇటువంటి తేడాలు సహజంగా కర్మ యొక్క చేతన (animate) అచేతన (inanimate) లక్షణాల కారణంగా ఏర్పడుతాయి. అయితే వాక్యవిశ్లేషకం ఈ రెండు వాక్యాలను క్రింద బొమ్మల్లో చూపించిన విధంగా విశ్లేషిస్తుంది.
వాక్యవిశ్లేషణని ఇంకొన్ని ఉదాహరణలతో అర్థం చేసుకునే ప్రయత్నం చేద్దాం. “నేను రవి-కి/తో ఆ విషయం చెప్పాను” అనే వాక్యంలో "-కి/తొ" ప్రత్యయాలు రెండూ తృతీయా విభక్తిని
పైన గీసిన చెట్ల పటాలను పరిశీలిస్తే “కి” / “తో” ప్రత్యయాలు రెండూ ఒకే సంబంధాన్ని సూచిస్తున్నాయి. కానీ ఉదాహరణకు “రవి కత్తితో మామిడిపండును కోశాడు” అనే వాక్యాన్ని తీసుకుంటే “తో” ప్రత్యయం “కత్తి "తో ఉపయోగించినప్పటికీ “రవితో/కత్తితో” అనే రెండు నామవాచకాలు ఒకే సంబంధాన్ని చూపించడం లేదు. ఇలాంటి వ్యాకరణ సందిగ్ధతలను తీర్చుతూ వాక్యాలను స్వయంచాలకంగా విశ్లేషించడంలో సంగణక విశ్లేషకం పాత్ర ఎంతైనా అవనరం అవుతుంది.
ఈ పత్రంలో కేవలం విశ్లేషకాన్ని పరిచయం చేసే ప్రయత్నం మాత్రమే జరిగింది. అందుకోసం దానికి తగిన చాలా సులువైన వాక్యాలను పైన ఉదాహరణలుగా వివరించడం జరిగింది. అందువల్ల విశ్లేషకానికి సంబంధించిన మరిన్ని ముఖ్యమైన అంశాలను, వివిధ వాక్య నిర్మాణాలను విశ్లేషకం ఎలా విశ్లేషిస్తుందో వివరంగా భవిష్యత్తు పరిశోధనల్లో అధ్యయనం చేసి మీ ముందుకు తీసుకువచ్చే ప్రయత్నం జరుగుతుంది.
4. యంత్రానువాదంలో వాక్యవిశ్లేషకం యొక్క పాత్ర:
యంత్రానువాదంలో వాక్యవిశ్లేషకం కీలక పాత్ర వహిస్తుంది అనడంలో ఏలాంటి సందేహం లేదు. తెలుగు భాషలోని రచనలను ఇతర భాషలలోకి అనువాదం చేయడంలో తెలుగు వాక్యవిశ్లేషకంచాలా ముఖ్యమైనది. యంత్రానువాదంలో విశ్లేషకం ఒక విభాగంగా చేర్చబడింది. దీని సహాయంతో వాక్య నిర్మాణాన్ని క్షుణ్ణంగా విశ్లేషించి పద సంబంధ సమాచారం సేకరించవచ్చు. అలాంటి సమాచారం ఆ భాష అనువాద ప్రక్రియ జరిగేటప్పుడు చాలా అవసరం అవుతుంది. ముఖ్యంగా, ఒక భాషా కుటుంబం నుండి ఇతర భాషా కుటుంబాలకు అనువదించేటపుడు అందులో తలెత్తే వాక్య నిర్మాణ సందిగ్ధతని (structural ambiguity) తొలగించటంలో వాక్యవిశ్లేషకం చాలా సహాయపడుతుంది. ప్రస్తుత కాలంలో వాక్యవిశ్లేషకాలపై పరిశోధన పోటాపోటీగా సాగుతున్న తరుణంలో, చాలా సాంకేతిక సంస్థలు, భాష శాస్త్రవేత్తలు వీటి నిర్మాణాల్లో నిమగ్నమై ఉన్నారు. యూనివర్సల్ డిపెండెన్సీ (uniersal dependency) అనే సంస్థ వారు ముఖ్యమైన ప్రపంచ భాషలన్నింటిలోనూ వాక్యవిశ్లేషకాలను నిర్మించేందుకు టీకాసహిత (annotated corpus) పాఠాలను తయారుచేస్తున్నారు. తెలుగులో 1023 వాక్యాల టీకాసహిత పాఠాలను (annotated corpus) వారి జాలచోటులో (website) పొందుపరచడం జరిగింది.
రచయిత పరిశోధక విద్యార్థి హైదరాబాదు విశ్వవిద్యాలయం,