Počítač bez klávesnice? Zní to poněkud zvláštně, že? Jak jinak psát texty, dopisy, články nebo třeba milostné básně!? Ovšem, kdo ví, nové technologie možná odešlou všechny klávesnice do věčných lovišť. Texty i v češtině lze totiž vytvářet už pouze diktováním do mikrofonu.
Alternativa k psaní na klávesnici již bezmála dva roky významně usnadňuje práci všem, kteří vytvářejí delší texty s pomocí NewtonDictate, což je systém pro rozpoznávání hlasu a přepis lidské řeči do textové podoby v češtině. Vyvinula ho společnost Newton Technologies společně s týmem vědců na Technické univerzitě v Liberci. Své uplatnění tato technologie najde především v oblasti soudnictví a advokacie, státní správy, zdravotnictví či médií.
Téměř bez chyb
Automatický přepis řeči není zas takovou novinkou, ovšem předchozí systémy nebývaly zcela spolehlivé. „Mezi přesností 85 a 90 procent sice na papíře není významný rozdíl, ale v praxi je podstatný. Až přesnost na úrovni 90–95 % totiž povyšuje systém NewtonDictate nad schopnosti profesionální zapisovatelky. Následné minimalizování chyb v přepisu mluvené řeči systému poskytuje organizacím a firmám významnou úsporu času,“ podotýká Petr Herian, generální ředitel Newton Technologies.
Nové inteligentní procesory Intel Core, které společnost Intel uvedla na trh letos v lednu, pomáhají zvýšit rychlost celého počítače a tím i hlasového systému NewtonDictate. Zatímco u předchozích konfigurací počítače bylo v nastavení aplikace nezbytné předem definovat, zda bude mluvčím muž nebo žena, či rozdělovat slovníky pro jednotlivé obory, nyní už takové předdefinování nutné není. Zároveň se zkracuje prodleva mezi řečí a jejím zápisem, přičemž není třeba nijak omezovat software. Slovník, který v současnosti obsahuje půl milionu slov a je neustále doplňován, tak může narůst – v případě potřeby – klidně i na dvojnásobek. V běžné řeči se přitom používá kolem 40 000 slov.
Hovorová řeč již za 5 let
Právě propojení s technologií, zejména s výkonem procesoru, je klíčem pro další rozvoj hlasových technologií. „Systém pro češtinu je v současné době porovnatelný s ostatními jazyky, ale jeho možnosti dále vzrostou s další generací procesorů, které budou schopné poskytnout ještě vyšší výkon,“ říká Petr Herian, který odhaduje, že v ten moment přijde čas pro novou generaci hlasových systémů a technologií, uživatelsky ještě přizpůsobitelnějších, než jsou ty současné. Je to otázka jednoho nebo dvou let, kdy Intel představí vyšší standard, než jsou současné 32nm čipy.
Dosažení „svatého grálu“ všech výzkumníků v oblasti rozpoznávání řeči, jímž je spolehlivý přepis hovorové řeči, kterou běžně slyšíme kolem nás, se dá očekávat v horizontu tří až pěti let. Zatím je nutné, aby při diktování na mikrofon mluvčí svůj hlas přece jen stylizoval a zřetelně vyslovoval. V budoucnu se zvýší šance na potlačení všech rušivých prvků prostředí, akustických a fonetických vlivů či nejednoznačného kontextu. Procesory na této dobrodružné cestě objevů určitě sehrají klíčovou roli.
Bez počítačů by to nešlo aneb Konec výuky cizích jazyků?
Nedávné úspěchy v rozvoji systémů na rozpoznávání řeči přímo souvisejí s rozvojem výkonu počítačů. Když v roce 1965 zakladatel společnosti Intel Gordon Moore vyslovil tezi (později proslavenou jako tzv. Mooreův zákon), že množství tranzistorů na jednom čipu se zdvojnásobí přibližně každé dva roky, zřejmě netušil, že i po 45 letech bude jeho teorie platit a zásadně měnit svět, ve kterém žijeme. Úspěšnost systémů, jako je NewtonDictate, a jejich začlenění do běžného života závisí na schopnosti vědců držet stejné tempo inovací jako doposud. Z generace procesorů, kterou Intel představí příští rok, je již nyní zřejmé, že se rozpoznávání řeči velmi brzy stane běžnou věcí a myšlenky typu automatického překládání do cizích jazyků v mluvené řeči již nebudou jen v oblasti sci-fi.