Mongolian Text to Speech Convertor Tool

Оршил
Ярианы технологи гэж юу вэ?
Ярианы синтезийн хөгжлийн тvvх
Синтезлэх технологиуд
TTS components гэж юу вэ?
TTS-н vндсэн хэрэглээ
Хараагvй болон тахир дутуу хvмvvс
Боловсролын хэрэглээ
Холбооны болон мултимедиа хэрэглээ
Бусад хэрэглээ
Өргөн ашиглагддаг арилжааны программууд
Infovox
Монгол хэлний TTS
Нээлттэй эхтэй зарим программ хангамжууд
Турк хэлний TTS-vvдийн тухай
Холбогдох нэр томъёонууд

Оршил

Судалгааны зорилго нь Festival ярианы синтезын engine-г ашиглан Diphone синтезын аргаар турк хэлний ярианы синтезийн хэрэгслvvдийг боловсруулахад чиглэсэн. Festival нь олон хэлний ярианы синтезлэх систем бөгөөд ярианы синтезын технологийн судалгаа шинжилгээний ажилд зориулсан бvрэн хэмжээний технологи бөгөөд vvний TTS систем нь LPC синтезлэх технологийг ашигладаг. Diphone синтез нь concatenative ярианы синтезийн нэг төрөл бөгөөд ярианы хэсгvvдийг цувааг ашигладаг. Concatenative синтезийг 2 аргаар хэрэгжvvлж болдог. Энэ 2 арга аль аль нь цуварсан хэсгvvдийн хэмжээ (фонем ба дефонем гэх мэт) тоог ашигладаг. Unit selection concatenative синтез нь том хэмжээний мэдээллийн сан (бvхэл өгvvлбэрээс авиа хvртэл) Алтайн хэлэнд орчин vеийн Европ хэлний vгс европ хэлнvvдээс зээлдсэн vгс бараг бvх Англи, Герман, Франц, Итали хэлний өдийн төдий зээлдмэл vгс бий. Орос хэл нь ЗХУ-д хэлэлцэх бvх тvрэг хэл Монгол (халимаг, буриад болон халх бага хэмжээгээр) нөлөөндөө оруулсан байна.

Ярианы технологи гэж юу вэ?

Ирээдvйд хvн ба компьтерын харилцан ажиллагаа нь гарцаагvй ярианы технологиор хэрэгжих болно. Яриан холбоо гэдэг нь хvмvvсийн хувьд хамгийн тохиромжтой хамгийн хурдан холбооны хэлбэр бол ярианы синтезлэгч гэдэг нь янз бvрийн зохиомол (хиймэл) аргуудаар хvний яриаг гаргаж авдаг төхөөрөмж юм. Яриа бол хvмvvсийн сонсголоороо хvлээн авдаг харилцааны байгалийн арга төдийгvй тvvнийг хvмvvс ба машин хооронд ашиглаж боломжтой. 1990-ээд оны сvvлээс ярианы технологи өндөр хурдацтай хөгжсөний дvнд хэрэглэгч та өөрийн компьютертайгаа ярьж харин компьютер таньд хариу хэлэх боломжтой болсон. Гэсэн хэдий ч жинхэнэ бодит зохион байгуулаагvй харилцан яриа хийхэд ярианы технологийн өнөөгийн тvвшин хангалтгvй байсаар байна. Ярианы технологи нь дуу хоолой таних систем буюу Speech Recognition, Текстыг дуу авиа болгох систем болох Speech Synthesis гэсэн vндсэн 2 хэсэгт хуваагддаг.
Энэхvv ажилд яриа таних технологийн талаар өгvvлэх бөгөөд тvvний тухай vvний урвуу технологи болох яриа таних системтэй харьцуулан доорх хvснэгтээс уншвал таньд илvvтэй ойлгомжтой байх боловуу.

	Дуу хоолой таних систем буюу Speech Recognition (Speech To Text )	Текстийг дуу авиа болгох систем буюу Speech Synthesis ( Text To Speech)
	Яриа-текст Хvний яриаг текстэнд хувиргах процесс	Текст-яриа Текстийг ярианд хөрвvvлэх процесс
	Yvнийг зургаар vзvvлбэл:
ПРОЦЕСС
Технологиуд	Дуу таних төхөөрөмжvvд нь акустис дохиог тоон дохионд хувиргах зарчимд vндэслэдэг. Энэхvv төхөөрөмжvvд нь хоёр төрлийн яриа таних горимд ажилладаг: Dictation- хэрэглэгч мэдээллийг компьютерт шууд уншиж өгөх Command and Control-хэрэглэгч комманд өгөх эсвэл асуулт асуух замаар ажиллана. Dictation горимын vед хэрэглэгч бичиг захиа мэйл зэргийг хэлж өгч мэдээллийг оруулдаг. Ийм горимд тvшиглэсэн яриа таних технологи нь хэрэглэгчийн дууны өргөлт онцлог зэрэг тухайн хэрэглэгчийн ярианы онцлогоос ихээхэн хамаардаг. Иймээс программ алдаагvй vнэн зөв ажиллахын тулд хэрэглэгчийн дууны онцлогын талаар мэдээлэл агуулах шаардлагатай болдог. Command and Control энэ горимд хэрэглэгч компьютерт комманд өгч энэ нь программыг удирдах болно. Давуу талууд: Dictation горимтой хамт ашиглавал илvv vр дvнтэй ажилладаг. Энэ нь илvv ажиллагааг багасгадаг. Тvvнчлэн хэрэглэгчийн тухай мэдээлэл шаардахгvй зэрэг давуу талтай.	TTS төхөөрөмж нь ерөнхийдөө энэ 2 технологийн аль нэгийг ашиглана: Formant TTS Concatenative TTS Formant TTS нь хэл зvйн дvрэм загвар ашиглан хvний vvсгэж буй дуу хоолойтой адил хуурмаг дуу авиа vvсгэдэг. Concatenative TTS нь мөн хэл зvйн дvрэм ашигладаг ч хуурмаг дуу авиа vvсгэхийн оронд хvний ярианы жинхэнэ бичлэгийг ашигладаг. Эдгээр бичлэгvvд нь тодорхой vг хэллэг, өгvvлбэр агуулдаг. Concatenative технологи нь formant технологиос илvv бодитой дуу авиа гаргадаг нь ойлгомжтой.
Хэрэглээ	Телефон утас Дуу хоолой таних системийн хэрэглээнд телефон утасны хэрэглээ голлох vvрэг гvйцэтгэж байна. Жишээ нь: Та жолоо барьж байхдаа утсаар ярих хэрэг гарчээ гэж бодъё. Таны гар утас дуу хоолой таних системтэй бол шууд л гэр лvv ажил руу залга гээд хэлэхэд хангалттай дугаар цуглуулж цаг алдах хэрэгггvй. Мэдээлэл оруулах Энэ технологи нь бага хэмжээний хvснэгтэд тоо болон өгөгдөл оруулах хурдыг нэмэгдvvлнэ. Жишээлбэл анкет бөглөх Компьютер тоглоом Олон компьютер тоглоомд энэ технологийг ашигласнаар хvмvvс яг өөр хvнтэй ярьж байгаа юм шиг дэлгэцтэй ярьж ойлголцсноор тоглоомыг илvv сонирхолтой vнэмшилтэй болгож байна. Баримт засварлах Dictation горимын vед яриа таних технологи нь хэрэглэгчдэд компьютерт мэдээллийг шивэлгvйгээр оруулах боломж олгож байна. Command and Control горимд гар хулгана ашиглалгvйгээр баримтаа өөрчлөх. Жишээлбэл: баримтаа тод бичмэл болгохыг хvсвэл зvгээр bold italic гэж комманд өгөөд хvссэндээ хvрнэ.	Телефон утас Телефон утасны хэрэглээнд хэрэглэгчийн сонголтыг баталгаажуулахад энэхvv технологи нь чухал ач холбогдолтой. Тvvнчлэн хэрэглэгчдэд томоохон хэмжээний мэдээлэл дундаас хvссэн мэдээллийг нь олж өгөхөд ашиглана. Жишээлбэл: Yнэт цаасны vнэ Мэдээлэл оруулах Текстыг уншиж өгснөөр буруу бичих аюлаас сэргийлнэ. Хvснэгтэд мэдээлэл оруулахаад зөв мэдээлэл оруулж байгаагаа шалгах гэдэг ядаргаатай ажлаас чөлөөлнө. Компьютер тоглоом Компьютер нь хэрэглэгчтэй ярих боломж олгоно. Урьдчилан бичсэн бичлэг ашиглахгvй гэвэл харь гаригийн хvн эсвэл робот шиг л ярина. Энэ технологийн хэрэглээ vvгээр хязгаарлагдахгvй бөгөөд яриа таних технологитой харьцуулах vvднээс ижил хэрэглээнд бичлээ. Дараагийн сэдэвт дэлгэрэнгvй өгvvлэх болно.

Дээшээ

Ярианы синтезийн хөгжлийн тvvх

Өнөөгиийн энэ олон шинэ технологиуд яаж ажилладаг яаж өнөөгийн энэ тvвшинд хvрснийг ойлгоход энэхvv сэдэв хэрэг болох нь магадгvй.
Хамгийн анхны ярианы синтезыг гарган авах оролдлого бvvр 200 гаруй жилийн өмнөөс эхтэй. 1779 онд Оросын эрдэмтэн Christian Kratzenstein 5 урт эгшигийн ( а,э,и,о,у) ялгааг тайлбарлан хуурмагаар гарган авах аппарат зохион бvтээсэн байна. Энэ аппаратыг хvний амны хөндийг дууриалган хийж хөгжмийн зэмсэг шиг акустик цуурай vvсгэх замаар дуу гаргадаг байжээ.

1800-аад оны дундуур Charles Wheatstone эгшиг, дуу авиа бvvр бvтэн vг хэлэх чадвартай төхөөрөмж зохион бvтээсэн байна. Энэхvv төхөөрөмжинд уушигны vvрэг гvйцэтгэх дарж агаар оруулах хэсэг (хөөрөг), дууны хөвчний оронд чичирдэг утас, амны хөндийн vvргийг гvйцэтгэх арьсан уут хийж өгсөн. Арьсан хоолойн хэлбэрийг өөрчилж өөр өөр эгшиг гаргадаг бол гийгvvлэгчийг 4 тусдаа хоолойг хуруугаараа дарж гарган авдаг байжээ.

Анхны бvрэн электрон синтез төхөөрөмжийг 1922 онд Stewart зохион бvтээжээ. Энэ төхөөрөмжинд 4 ширхэг цахилгаан резонанс vvсгэгчийг параллель холбон эгшиг vсэгний спектрт яг тохирох агуурагыг нь гарган авдаг байна.
1930-аад онд Bell лабратори VOCODER хэмээгч анхны гарнаас удирддаг электрон синтезийг зохион бvтээсэн байна. Yvнийг Homer Dudley сайжруулан 1939 оны New York -ийн дэлхийн яармагт тависан. (VODER)

VODER нь гаргах дуу чимээг wrist bar-с сонгон хөлөөрөө тавиур дээр дарж дууны давтамжийг нь удирдана. Харин дохио нь 10 ширхэг цагирган шvvгчээр дамжих бөгөөд аль нь гаралтанд гарахыг төхөөрөмжийн гараар удирдана. VODER-н дууны чанар нь харьцангуй муу байсан ч хиймлээр хvний дууг гарган авч болдогийг нийтэд нотолсон юм.

Анхны Formant синтезийг PAT (Parametric Artificial Talker) Walter Lawrence 1953 онд зохион бvтээсэн. PAT нь параллель холбосон гурван электрон формант резинанс vvсгэгчээс тогтоно.
1958 онд George Rosen DAVO (Dynamic Analog of the Vocal tract) хэмээх анхны articulatory синтезлэгчийг бvтээжээ.
Анхны хараагvй хvмvvст зориулсан оптик сканнер 1976 онд Kurzweil зохион бvтээсэн. Kurzweil унших машин нь нэлээн олон төрлийн фонт дээрх текстыг унших чадвартай. Гэсэн хэдий ч энэ систем нэлээд өндөр өртөгтэй (90-ээд он хvртэл 30000 орчим доллар) байсан учир номын сан vйлчилгээний төв зэрэг газруудад ашиглаж байсан.

Дээшээ

Синтезлэх технологиуд

TTS төхөөрөмж нь ерөнхийдөө энэ 2 технологийн аль нэгийг ашиглан дуу авиаг синтезлэдэг.

Concatenativeсинтез

Concatenative синтез нь бичигдсэн ярианы сегмэнтийн цуваанд тулгуурладаг бөгөөд vндсэн гурван дэд загвартай байдаг. Unit selection synthesis - Энэ синтез нь томоохон хэмжээний ярианы бичлэгийн сан ашигладаг. Энэ бичлэгийн санг vvсгэх явцад бичигдэх яриаг авиа, vгийн vе, vг, хэллэг, өгvvлбэр гэх мэтээр сегментэд хуваагдана. Ярианы сан дах хэсгvvдийн дугаар нь дууны хөвч, хугацаа, vгийн vений байрлал, хөрш авиа гэх мэтийн сегмэнт акустик параметр ашиглан vvсдэг. Ажиллах хугацаанд сангаас орлох хэсгvvдийг тодорхойлсноор хvссэн яриаг vvсгэдэг.

Diphone синтез -нь өгөгдсөн хэлэн дэх зөвхөн diphone-уудыг агуулсан хамгийн бага бичлэгийн санг ашигладаг. Испани хэл 800, герман хэл 2500 орчим diphone-тай байдаг. Ярианы чанараараа unit selection synthesis-г гvйцэхгvй боловч formant синтезээс хамаагvй илvv бодитой дуу авиа гаргадаг. Энэ синтезийн давуу тал нь formant болон concatenative синтезvvдээс алдаа гарах магадлал, хэмжээ багатай байдаг. Иймээс судалгаа шинжилгээнд ашиглагддаг.
Domain-specific synthesis – Бvрэн яриа vvсгэхэд урьдчилан бичигдсэн vг хэллэгийн цувааг ашигладаг. Энэхvv технологийг эртнээс арилжааны чиглэлээр ашиглаж ирсэн. Тухайлбал ярьдаг цаг тооны машин гэх мэт. Дууны чанар нь маш сайн. Учир нь өгvvлбэрийн вариант нь хязгаартай бөгөөд эх бичлэгийн дуудлагатай хамгийн ойр таардаг. Гэсэн хэдийн ч бичлэгийн сан дах vг хэллэг нь хязгаартай учир өргөн ашиглагдаж чаддаггvй зөвхөн vг хэллэгийн хослолийг синтезлэхэд ашиглаж байна.

Formant синтез
Энэ синтез нь concatenative синтезээс ялгаатай нь ярианы бичлэг ашигладаггvй. Оронд нь акустик загварыг ашиглан дууг синтезлэдэг.
Formant синтезийн давуу тал нь:

Хурд өндөртэй учир дэлгэц уншигчтай (screen reader) компьютерыг хурдан удирдахад хараагvй хvмvvст туслана.
Бичлэгийн загвар ашигладаггvй учир сoncatenative системээс программ нь бага хэмжээтэй байдаг.

Гаралтанд гарах яриаг бvрэн удирдах, vгний дуудлагын олон варианттай, илэрхийлэл асуултаар хязгаарлагдахгvй нэвтрvvлдэг гэх мэт давуу талтай.

Бусад синтезлэх аргуу

Articulatory синтез – Энэ аргыг ихэвчлэн судалгаа шинжилгээний ажил өргөн ашигладаг. Хvний амны хөндийг дууриалгаж хийсэн компьютерын загвараар хуурмаг дуу авиаг гарган авдаг.
Hybrid синтез – Энэ арга нь formant ба concatenative синтезийн хослол гэж хэлж болох ба ярианы сегмэнтvvдийг холбох vеийн алдааг багасгадаг онцлогтой.

HMM-based синтез – энэ арга нь Hidden Markov Models (HMM)-г ашигладаг. 1970-аад оноос эхлэн яриа таних технологид ашиглаж байсан Марковын загварыг (hidden Markov model) 10-аад жилийн өмнөөс ярианы синтезэд ашиглаж эхлээд байна.

Бvх синтезлэх аргууд нь өөр өөрийн давуу болон сул талуудтай иймд энэ арга нь хамгийн сайн нь гэж хэлэхэд төвөгтэй байдаг. Concatenative болон formant аргуудыг өнөө vеийн синтезлэх системд хамгийн өргөнөөр ашиглаж байна. Formant синтезыг удаан хугацааны турш зонхилон ашиглаж байсан ч өнөө vед concatenative арга их тархаж хамгийн их хэрэглэгдэх болоод байна. Articulatory синтезлэх арга нь өндөр чанарын гvйцэтгэлэлд нэлээд төвөгтэй боловч ирээдvйд хэрэглээ нь өсөх хандлагатай байна.

Дээшээ

TTS components гэж юу вэ?

TTS нь бvхэлдээ программ хангамжинд суурилдаг болсон учир таньд зөвхөн аудио хэрэгсэл л шаардлагатай. нөө vед энэ нь өөр өөр vvрэг гvйцэтгэх хэд хэдэн бvрэлдэхvvн хэсэг (component) агуулдаг. Жишээлбэл системийн текстэнд анализ хийх чадвар нь текстын төгсгөлийг олж өгvvлбэр зvйн анализ хийн товчилсон vгсийг энгийн vгэнд хувиргах гэх мэт vйлдлийг гvйцэтгэдэг. Жишээлбэл AT&T синтезлэх системийн бvрэлдэхvvн хэсгvvдийг авч vзье: Систем нь 13 модультай бөгөөд эдгээр нь тус бvрдээ тодорхой процессыг удирдана. Модуль бvр нь шаардлагатай тохиолдолд тус тусдаа мөн бусад модулуудтай холбогдон ажиллаж чадна. Энэ бvтцийн өөр нэг давуу тал нь TTS-н параметрыг шинэчлэх программ болон хэрэгслvvдийг оруулах боломжтой.

Англи хэлний TTS системийн загвар

text processing модуль нь өгvvлбэрийн төгсгөлийг олох
text normalization нь тоо, товчилсон vг хэллэг зэрэгт хэл зvйн анализ хийх
аccenting модуль нь өгvvлбэр дэх ялгаатай vгнvvдийн өргөлтийг зохицуулах
pronunciation модуль нь vг ба оноосон нэрvvдийн дуудлага
phrasing модуль нь урт хэсгvvдийг таслах
Intonation модуль нь гол давтамжийг тооцоолох
unit selection нь синтезлэх фонемд тохирох өгөгдсөн unit-г сонгох vvрэгтэй бөгөөд эцэст нь бvх сонгогдсон unit-vvд синтезлэгдэнэ.

TTS систем нь front end ба back end гэсэн хоёр хэсгээс бvрдэнэ. Front end нь текстыг оруулаад symbolic linguistic representation болгон гаргадаг. Back end нь symbolic linguistic representation-г оруулаад синтезлэгдсэн дууны долгион гаргадаг. Front end нь vндсэн хоёр vvрэгтэй. Эхлээд тvvхий текстыг аваад тоо товчилсон vг зэргийг бvтэн vг болгон хувиргадаг. Энэ процессыг text normalization, pre-processing эсвэл tokenization гэж нэрлэдэг. Энэ нь vг бvрд авианы галигыг дамжуулж текстыг олон төрлийн хэсэгт (vг, хэллэг, өгvvлбэр гэх мэт) хувааж тэмдэглэдэг. Энэ авианы галигыг vгэнд шилжvvлэх энэ процессыг text-to-phoneme (TTP) эсвэл grapheme -to-phoneme (GTP) гэж нэрлэгдэг. Энэ хоёр процесс нь нийлж symbolic linguistic representation-г front end-с гаргана.

Back end нь symbolic linguistic representation-г оруулаад жинхэнэ дуу авиа болгон гаргадаг. Back end нь синтезлэгчээс (synthesizer) хамаардаг.

Дээшээ

TTS-н vндсэн хэрэглээ

Энэ технологийг олон зvйлд ашиглах боломжтой иймээс ч анхын болхи ярьдаг тооны машинаас өнөөгийн энэ өндөр тvвшиний программ хvртэл хөгжvvлсэн бизээ. Зөвхөн утсаар брокерийн пvvснээс vнэт цаас худалдан авах, онгоцны нислэгийн хувиар асуух, дэлгvvрээс бараа захиалах гээд л олон зvйлд яриа таних технологийг ашиглах боломжтой. Энэ систем нь урьдчлан бичигдсэн бичлэгийг ашиглан хиймэл дуу хоолой vvсгэнэ. Компьютерт ч гэсэн энэ технологийг өргөн ашиглах боломжтой. Та гар ашиглалгvй зөвхөн юу хийхийг нь хэлэхэд л хангалттай. Жишээ нь бичсэн баримтаа хадгалахдаа товчлуур дарахын оронд зvгээр л Хадгал гээд хэлэхэд хангалттай гээд боддоо энэ нь хамаагvй хурдан мөн хялбар байх болно.

Дээшээ

Хараагvй болон тахир дутуу хvмvvс

Ярианы синтезийг ашиглах хамгийн хэрэгцээ шаардлагатай салбар нь хараагvй хvмvvс юм. Ярианы синтезээс өмнө хараагvй хvмvvс хуурцагт хуулсан аудио номыг ашигладаг байжээ. Ингэж хуурцаганд хуулахад ихээхэн цаг хугацаа зарж бvтээх нь ойлгомжтой. нөө vед уншигч машины ярианы чанар хангалттай тvвшинд хvрч vнэ нь ч гэсэн боломжийн өртөгтэй болсон тул ирээдvйд ярианы синтез нь хараагvй хvмvvст чухал шаардлагатай өргөн хэрэглэдэг систем болох бизээ. Хараагvй хvн оролтын текстын хэр уртыг мэдэх боломжгvй иймд синтезлэх төхөөрөмж нь баримтыг уншихад зарцуулах хугацаагаа хэрэглэгчид тооцоолж өгөх, тодоор эсвэл доогуур зураастай текстыг арай чангаар унших гэх мэтийн нэмэлт шаардлагууд vvсч болно.

Дээшээ

Боловсролын хэрэглээ

Ярианы синтезийг боловсролын олон хэлбэрт ашиглах боломжтой. Энэ программыг суулгасан компьютер өдрийн 24 цаг жилийн 365 хоног таньд багшилана. Yvнийг гадаад vгийг vсэглэх, vгийн дуудлагыг хэлж өгөх гэх мэтийн тусгай зориулалтаар программчлах боломжтой. Тvvнчлэн ээрvv хvмvvс бусдын тусламжгvйгээр хэлний дуудлагаа сайжруулах, бага насны хvvхэд бие даан уншиж сурахад ямар нэгэн сургалт дамжаанд явалгvйгээр бага зардлаар эдгээр асуудлыг хялбархан шийдвэрлэх боломжийг олгож байна.

Дээшээ

Холбооны болон мултимедиа хэрэглээ

Ярианы технологийн нэвтэрч буй шинэхэн салбар нь мултимедиа салбар юм. Э-мэйл нь сvvлийн жилvvдэд хэн бvхний энгийн хэрэглээ болсон боловч зарим vед мэйлээ унших боломжгvй тохиолдол гардаг. Ярианы синтезийг ашиглан э-мэйл-ээ энгийн телефоны шугамаар сонсох, гар утасны мессежийг (sms) ч сонсох боломжтой.

Бусад хэрэглээ

Ярианы технологи нь хvн машины харилцан холбооны бvхий л хэлбэрт ашиглагдах боломжтой. Жишээлбэл: тvгшvvрийн дохиог vvссэн тухайн нөхцөлд тохируулан хvргэх гэх мэт. Дуу хоолой таних систем нь шаардлага хангасан тvвшинд хvрэхэд ярианы синтезийг хэлний орчуулга, бусад холбооны системд ашиглах боломжтой болно. Тухайлбал: Хараагvй хvн хэрэглэх боломжтой ярьдаг гар утас гэх мэт.

Дээшээ

Өргөн ашиглагддаг арилжааны программууд

Эдгээр программууд нь хамгийн өргөн тархсан ер нь хамгийн сайн гэж хэлж болохоор программууд юм. Анхны арилжааны ярианы синтезvvд ихэвчлэн техник хангамжанд суурилсан байсан ба vvнд ихээхэн цаг хугацаа хөрөнгө мөнгө зарцуулдаг байсан бол өнөө vед компьютер хөгжсний дvнд ихэнх синтезлэгчийг программ хангамжинд суурилан бvтээдэг болсноор бага vнэтэй тохируулж шинэчилж болдог хvчирхэг ашиглахад илvv хялбар болсон. Яриаг синтезлэх процессийг өндөр тvвшиний (high-level ), доод тvвшиний (low-level) гэж ангилах боломжтой.

Infovox

Infovox нь олон хэлний хамгийн өргөн тархсан TTS-vvдийн нэг юм. Анхны арилжааны хувилбар болох Infovox SA-101-г 1982 онд Швэдийн технологийн хvрээлэнд бvтээжээ. Энэ систем нь diphone concatenation аргыг ашигласан. Сvvлийн бvрэн хувилбар болох Infovox 330 нь англи, дани, финлянд, франц, герман, итали, норвеги, испани, швед, голланд хэлvvдийг дэмждэг таван өөр төрлийн хоолойтой (эрэгтэй эмэгтэй хvvхдийн) мөн хэрэглэгч өөрийн дуу хоолойг нэмэх тvvнчлэн дуудлага сэтгэлийн хөдөлгөөн зэргийг тохируулах боломжтойгоор хийгдсэн. Хэрэглэгч хэл бvр дээр дурын vг нэмэх (гадаад нэр гэх мэт), минутанд хамгийн ихдээ 400 vг хэлэх, текстыг vг vгээр эсвэл vсэг vсгээр хэлж өгөх чадвартай.

DECTalk

Энэ программ нь мэйл, URL хаяг унших, хэрэглэгч өөрийн хvссэнээр vгийн дуудлагыг өөрчлөх тvvнчлэн дууны хvч, өргөлт, зогсолт авах цэг таслал нэмэх зэрэг өргөн боломжоор хангагдсан. Минутанд 75-650 vг уншиж өгдөг,
DECtalk систем нь дижитал формант синтезэд vндэслэсэн

Bell Labs Text to Speech

1939 онд VODER-г мөн анхны concatenative синтезыг гарган авах ажлыг эхлvvлж байсан Bell лабратори нь энэ салбарт хамгийн олон жил ажилласан туршилгатай.
AT&T нь англи, франц, испани, итали, герман, орос, румын, хятад, япон хэлvvдийг дэмждэг. Ерөнхийдөө англи хэлэнд зориулан боловсруулсан систем боловч бусад хэлэнд зориулсан тусгай мэдээлэлтэй салангид параметрын файлууд агуулдаг.

Энэ систем нь текстэд анализ хийх чадвар сайтай, vг болон оноосон нэрvvдийн дуудлага цэвэр, vгийн өргөлт, сегментийн vргэлжлэх хугацаа, дуудлага нь сайн болсон. Доорх 13 модуль нь тус бvрдээ тодорхой процессыг удирдана. Модуль бvр нь шаардлагатай тохиолдолд тус тусдаа мөн бусад модулуудтай холбогдон ажиллаж чадна. Энэ бvтцийн өөр нэг давуу тал нь TTS-н параметрыг шинэчлэх программ болон хэрэгслvvдийг оруулах боломжтой.

Англи хэлний TTS системийн загвар

text processing модуль нь өгvvлбэрийн төгсгөлийг олох
text normalization нь тоо, товчилсон vг хэллэг зэрэгт хэл зvйн анализ хийх
аccenting модуль нь өгvvлбэр дэх ялгаатай vгнvvдийн өргөлтийг зохицуулах
pronunciation модуль нь vг ба оноосон нэрvvдийн дуудлага
phrasing модуль нь урт хэсгvvдийг таслах
Intonation модуль нь гол давтамжийг тооцоолох
unit selection нь синтезлэх фонемд тохирох өгөгдсөн unit-г сонгох vvрэгтэй бөгөөд эцэст нь бvх сонгогдсон unit-vvд синтезлэгдэнэ.

Festival TTS system

Festival систем нь Edinburgh-н их сургуулийн дэргэдэх CSTR-д боловсруулагдсан C++ дээр бичигдсэн LPC ба PSOLA арга болон MBROLA өгөгдлийн санг дэмждэг. Festival нь боловсруулсан хэлний системээ синтезлэн шалгаж vзэх гэсэн хvмvvст зориулсан ба нэг ёсондоо эрдэм шинжилгээний ажилд зориулсан vнэгvй систем юм.

MBROLA

MBROLA төслийн vндсэн зорилго нь судалгаа шинжилгээний ажилд зориулсан арилжааны бус олон хэлний TTS-г боловсруулах явдал юм. MBROLA v2.05 синтезлэгч нь diphone concatenation-д суурилсан ба тодорхой мэдээлэлтэй (vргэлжлэх хугацаа, дууны хvч зэрэг) фонемуудын жагсаалтыг ашиглан ихэвчлэн 16 kHz-н давтамжтай дохиог гаргадаг.

Дээшээ

Монгол хэлний TTS

Бичих дуудах тэр бvр тохирдоггvй. Энэ нь хэлж дуудсанаа бичигт тэр хэвээр буулгадаггvй , бичиж тэмдэглэсэнтэйгээ яг адилаар дуудаж ярьдаггvй гэсэн vг юм. Бичгийн хэлээ хэдэн зуун жил өөрчлөлгvй уламжилсан англи зэрэг хэлэнд бичих дуудах 2 нь хол зөрөх тул vгийн ард дуудлагыг галиг vсгээр хадаж vзvvлдэг. Кирилл vсэг бvхий бичгийг авч хэрэглэснээр халх аялгуунд суурилсан ярианы хэлэнд нэлээн ойртуулжээ. Гэхдээ ямар ч улсын бичиг хvмvvсийн амьд хэл яриатай бvрэн тохирдоггvй ийм бололцоо ч байхгvй юм. Аливаа бичигийг амьд аялгуунд ойртуулан зохиодог боловч бичих дуудахын хоорондын зөрөөг бvр арилгаж чадахгvй бөгөөд одоогийн амьд яриа аажим боловч хувьссаар тогтвортой байгаа бичгийн хэлээсээ тvрvvлэн хөгждөг жамтай.

Хvний хэл яриа гинжин урсгал мэт цувран гарахдаа нэг авиа нөгөөгөө, нэг vг зэрэгцээ vгэндээ харилцан нөлөөлдөг авианы хуулинд vндэслэх бөгөөд зөв дуудах зvйн дvрэм нь хэл ярианы аялга, хурд, эрчим, сэтгэлийн хөдөлгөөн зэрэг бодис зvйн болон бие судлалын олон хvчин зvйлээс хамаарахын зэрэгцээ авиа ижилсэх ондооших, тонгорох зэрэг авиа өөрчлөлтийн олон хуультай холбоотой юм. Яриа нь дуу, vе, vг, хэлцээс тогтдог. Академич Шерба дуу ба авианы хоорондын харилцааг ингэж тодорхойлсон байдаг. “ Авиа бол хvний хэлэхийг хvссэн харин ярианы дуу бол амьдрал дээр хэллэгддэг” Yсэг ба авианы хооронд аль ч хэлэнд нэг утгатай холбоо байдаггvй боловч vсэг ба авиа зарим тохиолдолд нийлдэг. Ийм учраас бvх хэлэнд vсгийн тоо ба авианы тоо ижил биш байдаг. монгол хэлний vсгvvд (авианы галиг) дуутайгаа нилээн нарийн тохирдог. Ийм учраас монгол хэлний цагаан толгойн статистик тодорхойломж нь (vсэг илрэх магадлал) бичсэн ба аман ярианы дууны тохиолдлыг бvртгэх замаар тодорхойлогддог. Монгол хэлний статистик характеристикыг тодорхойлохын тулд өдөр тутмын сонины нэгэн дугаарыг ашиглав. Тухайн сонины vсгийн тоо дунджаар 71469 хоосон зай нь 13602 байсан. Yvний vндсэн дээр монгол хэлний цагаан толгойн бvх vсгvvдийн илрэх магадлалыг vзvvлж болно. Жишээ нь: Хэрвээ эмэ гэсэн vсгvvдийн дарааллыг энэ ямар vг болохыг таахад хvнд, харин тмдг гэсэн дарааллыг таахад тэмдэг гээд таахад хялбар байна. Амьдрал дээр тэмдэгт ба мэдээллийн харилцан хамаарал тааралддаг. Хэрвээ цагаан толгойн салангид vсгvvдийг дамжуулбал дамжигдаж байгаа тэмдэгтvvдийн харилцан хамаарал vvсдэг. Ярианы дохионд дамжуулалт нь салангид vсгvvд биш харин утга санаа бvхий vг өгvvлбэр дамжуулахад хvргэдэг. Ийм учраас амьдрал дээр тэмдэгт ба мэдээллийн харилцан хамаарал байнга тохиолддог. Яриаг боловсруулахад төвөгтэй асуудал бол ярьж байгаа хvний яриаг таних синтез юм. Ярианы дохиог боловсруулах зарчим нь дараах 3 бvлэгт хуваагдана.

1-р бvлэгт ярианы анализтай холбоотой зорилтууд орно. Энэ vед ярианы хэлбэлзэл нь анхдагч vзvvлэлт юм.
2-р бvлэгт ярианы синтез орно. Жишээ нь: уншигч машины оролтонд хэвлэмэл бичиг ороход харин гаралтанд ярианы дохио гардаг.
3-р бvлэгт ярианы дохионы анализ эхлэж хийгдээд харин дараа нь тvvний синтез ордог.

Дээшээ

Нээлттэй эхтэй зарим программ хангамжууд

	Бvтээгдэ- хvv ний нэр	Боловсруулсан байгууллага	Лиценз	Бичигд- сэн хэл	Арга
1.	MBROLA	TCTS лабратори http://tcts.fpms.ac.be Белги улс	GNU general public license GPL		Diphone based concat
2.	Festival	University of Edinburgh http://cstr.ed.ac.uk UK	GNU general public license GPL		diphone concatena- tion and unit selection
3.	Festvox	http://festvox.org Carnegie Mellon University	GNU general public license GPL
4.	Epos TTS system	http://epos.ure.cas.cz/	GNU general public license GPL	C++
5.	Free TTS	Sun Microsystems Laboratories Speech Team http://freetts.sourceforge.net	BSD license	Java
6.	PublicVoiceXML	http://publicVoiceXML.org	GNU general public license GPL	C++
7.	dhvani - TTS system for indian languages	http://dhvani.sourceforge.net	GNU general public license(GPL)	C C++ Java
8.	PowerTalk	http://fullmeasure.co.uk/ powertalk/	GNU	Python

Дээшээ

Турк хэлний TTS-vvдийн тухай

Монгол хэлэнд Тvрэг хэлний vгс их хэмжээтэй байдаг. Зарим тvрэг vгс нь эртний шинжтэй бөгөөд эртний тvрэг хэлэнд хамаарна. Өөрөөр хэлбэл МЭ 10-р зуунд Тvрэгvvд Монголд, Монголчууд Трансбайгал, Баруун умард Манжуурт оршин сууж байх тэр vеэр холбогдоно. Эртний тvрэг хэлнээс эртний монгол хэлэнд нэвтрэн орсон зээлмэл vгс нь өнөөгийн монгол хэлэнд уламжлагдан vлдсэн.
аmraq- амраг
aral - арал
arpa - арвай
arqag - ардаг
ayag - аяга
bas – бас
Энэ мэтчилэн эртний тvрэг хэлний олон vг монгол хэлний vгсийн санд нэвтрэн орсон байна. Турк хэл нь Турк улсын албан ёсны хэл бөгөөд ази тивийн Азервайджан, Узбекстан, Казакстан, Туркмэйн, Иран зэрэг олон оронд хэрэглэгддэг хэл нийтдээ 70 сая гаруй хvн энэ хэлээр ярьдаг байна. Энэ сэдэвт турк хэлний diphone-суурилсан TTS-н тухай өгvvлэх болно. Энэ систем нь Festival ярианы синтезийн систем дээр суурилсан. Diphone мэдээллийн сан нь турк хэлэнд зориулагдсан. Анхны diphone суурилсан турк хэлний TTS юм.

Дээшээ

Холбогдох нэр томъёонууд

TTS (text to speech) -Текстыг дуу авианд хөрвvvлэх технологи
Speech regocnition-Дуу хоолой таних систем
OCR (Optical Character Recognition) – Yсэг таних технологи
diphone - sound to sound transitions – авианаас авиаруу шилжих шилжилт
prosody - The patterns of stress and intonation in a language – Хэлэн дэх дуудлага өргөлт зэргийг хадгалсан загвар
glitch - A fault or defect in a system or machine – системийн алдаа
syllable - A unit of spoken language larger than a phoneme – Yгийн vе

phoneme - (linguistics) one of a small set of speech sounds that are distinguished by the speakers of a particular language - фонем

Дээшээ

Оршил

Ярианы технологи гэж юу вэ?

Мэдээлэл оруулах

Ярианы синтезийн хөгжлийн тvvх

Синтезлэх технологиуд

TTS components гэж юу вэ?

TTS-н vндсэн хэрэглээ

Хараагvй болон тахир дутуу хvмvvс

Боловсролын хэрэглээ

Холбооны болон мултимедиа хэрэглээ

Бусад хэрэглээ

Өргөн ашиглагддаг арилжааны программууд

Infovox

Монгол хэлний TTS

Нээлттэй эхтэй зарим программ хангамжууд

Турк хэлний TTS-vvдийн тухай

Холбогдох нэр томъёонууд