
ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (ఏఐ) ప్రపంచంలో ఇప్పటివరకు అమెరికా, చైనా దేశాల ఆధిపత్యమే ఎక్కువగా కొనసాగుతోంది. భారత్లో అపారమైన ప్రతిభ, మానవ వనరులు ఉన్నప్పటికీ, కోర్ ఏఐ డెవలప్మెంట్లో భారత్ వెనుకబడి ఉందనే అభిప్రాయం చాలా కాలంగా ఉంది. అయితే, ఈ అభిప్రాయాన్ని మారుస్తూ బెంగళూరుకు చెందిన స్టార్టప్ కంపెనీ సర్వం ఏఐ (Sarvam AI) సంచలనం సృష్టించింది.
భారత్లోనే స్వదేశీ పరిజ్ఞానంతో సావరీన్ ఏఐ (Sovereign AI)ని నిర్మిస్తున్నట్లు ఈ కంపెనీ ప్రకటించింది. ఈ వారం సర్వం ఏఐ విడుదల చేసిన రెండు టూల్స్ - సర్వం విజన్ (Sarvam Vision), బుల్బుల్ (Bulbul) ప్రపంచవ్యాప్తంగా టెక్ నిపుణులను ఆకర్షిస్తున్నాయి. ముఖ్యంగా కొన్ని కీలకమైన విభాగాల్లో ఇవి ప్రపంచ దిగ్గజాలైన గూగుల్, ఓపెన్ ఏఐ మోడళ్లను కూడా అధిగమించడం విశేషం.
ఆప్టికల్ క్యారెక్టర్ రికగ్నిషన్ విభాగంలో సర్వం విజన్ అద్భుతమైన పనితీరును కనబరుస్తోంది. ఈ టెక్నాలజీలో ప్రస్తుతం మార్కెట్లో లీడర్లుగా ఉన్న చాట్జీపీటీ (ChatGPT), గూగుల్ జెమిని (Google Gemini), ఆంత్రోపిక్ క్లాడ్ (Anthropic Claude) వంటి పెద్ద మోడళ్లను సర్వం విజన్ వెనక్కి నెట్టింది. యూజర్లు, నిపుణులు ఈ భారతీయ టూల్ పనితీరును చూసి ఆశ్చర్యపోతున్నారు.
సర్వం ఏఐ కో-ఫౌండర్ ప్రత్యూష్ కుమార్ ఇటీవల ఎక్స్ లో తమ కంపెనీ సాధించిన విజయాలను పంచుకున్నారు. సంస్థ వెల్లడించిన గణాంకాల ప్రకారం, ఓల్మ్ ఓసీఆర్-బెంచ్ (olmOCR-Bench)లో సర్వం విజన్ ఏకంగా 84.3 శాతం ఖచ్చితత్వాన్ని సాధించింది. ఈ స్కోరు గూగుల్ జెమిని 3 ప్రో, ఇటీవలి డీప్సీక్ ఓసీఆర్ వి2 (DeepSeek OCR v2) కంటే చాలా ఎక్కువ కావడం గమనార్హం. ఇదే టెస్టులో చాట్జీపీటీ ర్యాంక్ చాలా తక్కువగా నమోదైంది.
కేవలం సాధారణ అక్షరాలే కాకుండా, సంక్లిష్టమైన పత్రాలను చదవడంలో కూడా సర్వం విజన్ తన సత్తా చాటుతోంది. ఏఐ సిస్టమ్స్ వాస్తవ ప్రపంచంలోని డాక్యుమెంట్లను ఎంత బాగా అర్థం చేసుకోగలవో పరీక్షించే ఆమ్నిడాక్ బెంచ్ వి1.5 లో కూడా సర్వం విజన్ మంచి స్కోరు సాధించింది.
ఈ బెంచ్మార్క్ పరీక్షలో సర్వం విజన్ మొత్తం 93.28 శాతం స్కోరును నమోదు చేసింది. ముఖ్యంగా సంక్లిష్టమైన లేఅవుట్లు, టెక్నికల్ టేబుల్స్, మ్యాథమెటికల్ ఫార్ములాలను చదవడంలో ఇది అద్భుతమైన ఫలితాలను ఇచ్చింది. సాధారణంగా పేలవమైన ఫార్మాటింగ్, ఎక్కువ సమాచారం ఉండే ఇటువంటి డాక్యుమెంట్లను చదవడంలో సంప్రదాయ ఓసీఆర్ సిస్టమ్స్ ఇబ్బంది పడతాయి. కానీ సర్వం విజన్ మాత్రం వీటిని సులభంగా పరిష్కరిస్తోంది.
గతంలో సర్వం ఏఐ కేవలం భారతీయ భాషల మోడళ్లపై (Indic-language models) దృష్టి సారించడంపై కొందరు సందేహాలు వ్యక్తం చేశారు. అయితే, ప్రస్తుత ఫలితాలతో ఆ అనుమానాలన్నీ పటాపంచలయ్యాయి. ప్రముఖ టెక్ కామెంటేటర్ డీడీ దాస్ గతంలో చిన్న ఇండిక్-లాంగ్వేజ్ మోడళ్లను రూపొందించడంపై విమర్శలు చేశారు. కానీ తాజాగా ఆయన తన అభిప్రాయాన్ని మార్చుకున్నారు.
"నేను సర్వం విషయంలో తప్పుగా ఆలోచించాను. ఏడాది క్రితం నేను వారి గురించి రాసినప్పుడు, చిన్న ఇండిక్ మోడళ్లకు శిక్షణ ఇవ్వడం సరైన దిశ కాదని భావించాను. కానీ వారు పరిస్థితిని పూర్తిగా మార్చేశారు" అని దాస్ ఎక్స్ లో రాసుకొచ్చారు. "భారతీయ భాషల కోసం వారి వద్ద ఉన్న టెక్స్ట్-టు-స్పీచ్, స్పీచ్-టు-టెక్స్ట్, ఓసీఆర్ మోడళ్లు బెస్ట్ గా ఉన్నాయి. ఇవి నిజంగా చాలా విలువైనవి. వారి ధరలు కూడా తక్కువగానే ఉన్నాయి" అని ఆయన ప్రశంసించారు.
ఓసీఆర్ టూల్తో పాటు, సర్వం ఏఐ తన కొత్త ఏఐ వాయిస్ మోడల్ బుల్బుల్ వి3 ని కూడా విడుదల చేసింది. ఇది ఒక టెక్స్ట్-టు-స్పీచ్ ఏఐ మోడల్. ఇది రాతపూర్వక సమాచారాన్ని ఆడియో రూపంలోకి మారుస్తుంది. ఈ రంగంలో అత్యుత్తమంగా భావించే ఎలెవెన్ ల్యాబ్స్ (ElevenLabs) వంటి కంపెనీల టూల్స్తో ఇది పోటీపడుతుంది.
"మేము ఈ రోజు బుల్బుల్ వి3ని విడుదల చేస్తున్నాము. ఇది మా అత్యంత సమర్థవంతమైన టెక్స్ట్ టు స్పీచ్ మోడల్. ఇది భారతీయ భాషల కోసం సహజమైన, భావయుక్తమైన వాయిస్ని అందిస్తుంది" అని సర్వం ఏఐ తన బ్లాగ్ పోస్ట్లో పేర్కొంది. భారతీయ అవసరాలకు తగినట్లుగా, ఇన్పుట్లలో వచ్చే వైఫల్యాలను తగ్గించి, స్పష్టమైన ప్రసంగాన్ని అందించేలా దీనిని రూపొందించారు.
ప్రస్తుతం, బుల్బుల్ టూల్ 11 భారతీయ భాషల్లో 35కి పైగా వాయిస్లకు సపోర్టు ఇస్తోంది. భవిష్యత్తులో ఈ సంఖ్యను మొత్తం 22 భాషలకు విస్తరించాలని కంపెనీ యోచిస్తోంది.
బుల్బుల్ మోడల్ కూడా వినియోగదారుల నుండి ప్రశంసలు అందుకుంటోంది. కిసాన్ ఏఐ (KissanAI) వ్యవస్థాపకుడు ప్రతీక్ దేశాయ్ దీనిపై స్పందిస్తూ, "మా ఇండిక్ అవసరాల కోసం మేము బుల్బుల్ మోడల్నే ప్రధానంగా వాడుతున్నాము. ప్రతి రిలీజ్తో వారు మరింత మెరుగుపడుతున్నారు. ఎలెవెన్ ల్యాబ్స్ ఖర్చు ఇండిక్ లేదా ఇతర భాషలకు ఏమాత్రం గిట్టుబాటు కాదు" అని ఎక్స్లో పేర్కొన్నారు. ఒక సాధారణ వినియోగదారుడు కూడా "నేను దీనిని రెండు రోజుల క్రితం వాడాను! ఓరి దేవుడా.. వావ్!" అంటూ ఆశ్చర్యం వ్యక్తం చేశారు.