- Home
- Technology
- Indias Sarvam AI : తగ్గేదే లే.. చాట్జీపీటీ, గూగుల్ జెమినిని మడతపెట్టేసిన మన సర్వం ఏఐ !
Indias Sarvam AI : తగ్గేదే లే.. చాట్జీపీటీ, గూగుల్ జెమినిని మడతపెట్టేసిన మన సర్వం ఏఐ !
Indias Sarvam AI : బెంగళూరుకు చెందిన సర్వం ఏఐ కంపెనీ ఓసీఆర్ సాంకేతికతలో గూగుల్ జెమిని, చాట్జీపీటీలను అధిగమించి సంచలనం సృష్టించింది. బుల్బుల్ వాయిస్ మోడల్ కూడా అద్భుత ఫలితాలిస్తోంది. ప్రపంచ దిగ్గజాలను దాటేసిన బెంగళూరు స్టార్టప్ వివరాలు ఇలా ఉన్నాయి.

ఇండియన్ ఏఐ దెబ్బకు అమెరికా కంపెనీలు బెంబేలు.. సర్వం ఏఐ రికార్డు
ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (ఏఐ) ప్రపంచంలో ఇప్పటివరకు అమెరికా, చైనా దేశాల ఆధిపత్యమే ఎక్కువగా కొనసాగుతోంది. భారత్లో అపారమైన ప్రతిభ, మానవ వనరులు ఉన్నప్పటికీ, కోర్ ఏఐ డెవలప్మెంట్లో భారత్ వెనుకబడి ఉందనే అభిప్రాయం చాలా కాలంగా ఉంది. అయితే, ఈ అభిప్రాయాన్ని మారుస్తూ బెంగళూరుకు చెందిన స్టార్టప్ కంపెనీ సర్వం ఏఐ (Sarvam AI) సంచలనం సృష్టించింది.
భారత్లోనే స్వదేశీ పరిజ్ఞానంతో సావరీన్ ఏఐ (Sovereign AI)ని నిర్మిస్తున్నట్లు ఈ కంపెనీ ప్రకటించింది. ఈ వారం సర్వం ఏఐ విడుదల చేసిన రెండు టూల్స్ - సర్వం విజన్ (Sarvam Vision), బుల్బుల్ (Bulbul) ప్రపంచవ్యాప్తంగా టెక్ నిపుణులను ఆకర్షిస్తున్నాయి. ముఖ్యంగా కొన్ని కీలకమైన విభాగాల్లో ఇవి ప్రపంచ దిగ్గజాలైన గూగుల్, ఓపెన్ ఏఐ మోడళ్లను కూడా అధిగమించడం విశేషం.
దిగ్గజాలను దాటేసిన సర్వం విజన్
ఆప్టికల్ క్యారెక్టర్ రికగ్నిషన్ విభాగంలో సర్వం విజన్ అద్భుతమైన పనితీరును కనబరుస్తోంది. ఈ టెక్నాలజీలో ప్రస్తుతం మార్కెట్లో లీడర్లుగా ఉన్న చాట్జీపీటీ (ChatGPT), గూగుల్ జెమిని (Google Gemini), ఆంత్రోపిక్ క్లాడ్ (Anthropic Claude) వంటి పెద్ద మోడళ్లను సర్వం విజన్ వెనక్కి నెట్టింది. యూజర్లు, నిపుణులు ఈ భారతీయ టూల్ పనితీరును చూసి ఆశ్చర్యపోతున్నారు.
సర్వం ఏఐ కో-ఫౌండర్ ప్రత్యూష్ కుమార్ ఇటీవల ఎక్స్ లో తమ కంపెనీ సాధించిన విజయాలను పంచుకున్నారు. సంస్థ వెల్లడించిన గణాంకాల ప్రకారం, ఓల్మ్ ఓసీఆర్-బెంచ్ (olmOCR-Bench)లో సర్వం విజన్ ఏకంగా 84.3 శాతం ఖచ్చితత్వాన్ని సాధించింది. ఈ స్కోరు గూగుల్ జెమిని 3 ప్రో, ఇటీవలి డీప్సీక్ ఓసీఆర్ వి2 (DeepSeek OCR v2) కంటే చాలా ఎక్కువ కావడం గమనార్హం. ఇదే టెస్టులో చాట్జీపీటీ ర్యాంక్ చాలా తక్కువగా నమోదైంది.
క్లిష్టమైన డాక్యుమెంట్లను చదవడంలో మేటి మనదే
కేవలం సాధారణ అక్షరాలే కాకుండా, సంక్లిష్టమైన పత్రాలను చదవడంలో కూడా సర్వం విజన్ తన సత్తా చాటుతోంది. ఏఐ సిస్టమ్స్ వాస్తవ ప్రపంచంలోని డాక్యుమెంట్లను ఎంత బాగా అర్థం చేసుకోగలవో పరీక్షించే ఆమ్నిడాక్ బెంచ్ వి1.5 లో కూడా సర్వం విజన్ మంచి స్కోరు సాధించింది.
ఈ బెంచ్మార్క్ పరీక్షలో సర్వం విజన్ మొత్తం 93.28 శాతం స్కోరును నమోదు చేసింది. ముఖ్యంగా సంక్లిష్టమైన లేఅవుట్లు, టెక్నికల్ టేబుల్స్, మ్యాథమెటికల్ ఫార్ములాలను చదవడంలో ఇది అద్భుతమైన ఫలితాలను ఇచ్చింది. సాధారణంగా పేలవమైన ఫార్మాటింగ్, ఎక్కువ సమాచారం ఉండే ఇటువంటి డాక్యుమెంట్లను చదవడంలో సంప్రదాయ ఓసీఆర్ సిస్టమ్స్ ఇబ్బంది పడతాయి. కానీ సర్వం విజన్ మాత్రం వీటిని సులభంగా పరిష్కరిస్తోంది.
విమర్శకుల ప్రశంసలు.. మనపై మారుతున్న అభిప్రాయాలు
గతంలో సర్వం ఏఐ కేవలం భారతీయ భాషల మోడళ్లపై (Indic-language models) దృష్టి సారించడంపై కొందరు సందేహాలు వ్యక్తం చేశారు. అయితే, ప్రస్తుత ఫలితాలతో ఆ అనుమానాలన్నీ పటాపంచలయ్యాయి. ప్రముఖ టెక్ కామెంటేటర్ డీడీ దాస్ గతంలో చిన్న ఇండిక్-లాంగ్వేజ్ మోడళ్లను రూపొందించడంపై విమర్శలు చేశారు. కానీ తాజాగా ఆయన తన అభిప్రాయాన్ని మార్చుకున్నారు.
"నేను సర్వం విషయంలో తప్పుగా ఆలోచించాను. ఏడాది క్రితం నేను వారి గురించి రాసినప్పుడు, చిన్న ఇండిక్ మోడళ్లకు శిక్షణ ఇవ్వడం సరైన దిశ కాదని భావించాను. కానీ వారు పరిస్థితిని పూర్తిగా మార్చేశారు" అని దాస్ ఎక్స్ లో రాసుకొచ్చారు. "భారతీయ భాషల కోసం వారి వద్ద ఉన్న టెక్స్ట్-టు-స్పీచ్, స్పీచ్-టు-టెక్స్ట్, ఓసీఆర్ మోడళ్లు బెస్ట్ గా ఉన్నాయి. ఇవి నిజంగా చాలా విలువైనవి. వారి ధరలు కూడా తక్కువగానే ఉన్నాయి" అని ఆయన ప్రశంసించారు.
We also evaluated for the long-tail of language challenges such as speaking numerics, technical content, and named entities. Bulbul V3 consistently has the lowest error rates across languages. pic.twitter.com/1COxQU80J7
— Pratyush Kumar (@pratykumar) February 7, 2026
బుల్బుల్ తో భారతీయ భాషల్లో విప్లవం
ఓసీఆర్ టూల్తో పాటు, సర్వం ఏఐ తన కొత్త ఏఐ వాయిస్ మోడల్ బుల్బుల్ వి3 ని కూడా విడుదల చేసింది. ఇది ఒక టెక్స్ట్-టు-స్పీచ్ ఏఐ మోడల్. ఇది రాతపూర్వక సమాచారాన్ని ఆడియో రూపంలోకి మారుస్తుంది. ఈ రంగంలో అత్యుత్తమంగా భావించే ఎలెవెన్ ల్యాబ్స్ (ElevenLabs) వంటి కంపెనీల టూల్స్తో ఇది పోటీపడుతుంది.
"మేము ఈ రోజు బుల్బుల్ వి3ని విడుదల చేస్తున్నాము. ఇది మా అత్యంత సమర్థవంతమైన టెక్స్ట్ టు స్పీచ్ మోడల్. ఇది భారతీయ భాషల కోసం సహజమైన, భావయుక్తమైన వాయిస్ని అందిస్తుంది" అని సర్వం ఏఐ తన బ్లాగ్ పోస్ట్లో పేర్కొంది. భారతీయ అవసరాలకు తగినట్లుగా, ఇన్పుట్లలో వచ్చే వైఫల్యాలను తగ్గించి, స్పష్టమైన ప్రసంగాన్ని అందించేలా దీనిని రూపొందించారు.
Drop 5/14: Introducing Bulbul V3, our latest text-to-speech model. It raises the bar for how human it sounds, while being super robust.
In an independent third-party human listening study, Bulbul V3 delivers the highest listener preference, and low error rates across use-cases… pic.twitter.com/w7HThWzuKe— Pratyush Kumar (@pratykumar) February 7, 2026
విస్తరిస్తున్న భాషా పరిజ్ఞానం
ప్రస్తుతం, బుల్బుల్ టూల్ 11 భారతీయ భాషల్లో 35కి పైగా వాయిస్లకు సపోర్టు ఇస్తోంది. భవిష్యత్తులో ఈ సంఖ్యను మొత్తం 22 భాషలకు విస్తరించాలని కంపెనీ యోచిస్తోంది.
బుల్బుల్ మోడల్ కూడా వినియోగదారుల నుండి ప్రశంసలు అందుకుంటోంది. కిసాన్ ఏఐ (KissanAI) వ్యవస్థాపకుడు ప్రతీక్ దేశాయ్ దీనిపై స్పందిస్తూ, "మా ఇండిక్ అవసరాల కోసం మేము బుల్బుల్ మోడల్నే ప్రధానంగా వాడుతున్నాము. ప్రతి రిలీజ్తో వారు మరింత మెరుగుపడుతున్నారు. ఎలెవెన్ ల్యాబ్స్ ఖర్చు ఇండిక్ లేదా ఇతర భాషలకు ఏమాత్రం గిట్టుబాటు కాదు" అని ఎక్స్లో పేర్కొన్నారు. ఒక సాధారణ వినియోగదారుడు కూడా "నేను దీనిని రెండు రోజుల క్రితం వాడాను! ఓరి దేవుడా.. వావ్!" అంటూ ఆశ్చర్యం వ్యక్తం చేశారు.
Does a good job of document structure. See this paper translated to Maithili without additional scripting. pic.twitter.com/NvpCxL7r0u
— Pratyush Kumar (@pratykumar) June 7, 2025

