Chat

počítačový lingvista

Prof. RNDr. Jan Hajič, Dr.

Absolvent Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Od roku 1991 pracuje a učí na MFF UK v oboru počítačová lingvistika. Několik let pobýval v zahraničí, mimo jiné ve výzkumném středisku IBM T. J. Watsona v Yorktown Heights v USA, kde se podílel na vzniku prvního systému statistického strojového překladu mezi přirozenými jazyky. Také vyučoval na Johns Hopkins University v Baltimore, rovněž v USA. V současné době je ředitelem Ústavu formální a aplikované lingvistiky MFF UK, kde řídí projekty strojového překladu, analýzu mluvené řeči a další projekty zpracování přirozeného jazyka na počítači.

Záznam chatu ze středy 28. listopadu 2007

Václav: „Co to znamená počítačová lingvistika?“

Prof. RNDr. Jan Hajič, Dr.: „Počítačová lingvistika zkoumá a všdecky popisuje přirozené jazyky (jako třeba češtinu, angličtinu nebo čínštinu) za účelem jejich analýzy a syntézy pomocí počítače. Výsledkem analýzy určitého dokumentu (třeba právě v češtině) je formalizovaný, matematicky dobře definovaný popis pomocí symbolů a značek. Ty se dále mohou zpracovávat opět počítačem a použít například pro automatický překlad, vyhledávání informací nebo přesné odpovídání na otázky. Obrácenou úlohou je pak syntéza textu (nebo mluvené řeči) z takových formálních značek. Počítačová lingvistika přitom dnes používá především statistické metody pro modelování procesů, kterými se jazyk analyzuje a syntetizuje, takže je to hodně "kombinovaná" mezioborová věda - pohybujeme se mezi matematikou, statistikou, lingvistikou a samozřejmě vědou o počítačích - informatikou ("computer science").“

Jiří Vojtěch: „Pane profesore, jaká je Vaše osobní jazyková znalost mimo angličtiny? Děkuji.“

Prof. RNDr. Jan Hajič, Dr.: „Angličtina je v našem oboru jediná "mezinárodní" řeč, ale pro zkoumání jazyka je třeba znát, jak už říkal můj školitel, prof. Petr Sgall, alespoň tři jazyky (pokud možno typově různé). Já se přiznám, že se mnou je to "jen tak tak" - umím ještě rusky a německy (a česky a slovensky, samozřejmě). Přečíst francouzský odborný text ale dokážu také. Musím ovšem také říct, že vzhledem k dnešním metodám zkoumání jazyka - převážně statistickým - není pro určité úlohy znalost jazyka jako takového potřeba (stačí znát základy jazykového systému toho kterého jazyka). Potřebnou konkrétní znalost si počítač totiž pomocí metod a programů strojového učení zjistí sám z tzv. lingvisticky anotovaných korpusů daného jazyka, kde jsou tyto jazykové znalosti vloženy lingvisty - rodilými mluvčími. Dá se tedy říct, že dnes potřebujeme pro rozvoj oboru spíše matematiky a počítačové odborníky než polygloty.“

Šárka: „Existuje ještě těžší jazyk pro počítačovou lingvistiku než je čeština? Jak se třeba zpracovává znakový jazyk jako je čínština?“

Prof. RNDr. Jan Hajič, Dr.: „Každý jazyk má nějakou "specialitu", která je pro něj nejtěžší - pro češtinu je to tvarosloví (skloňování, časování) a volný slovosled. Pro čínštinu je to vůbec identifikace slov (v textu nejsou žádné "mezery"), která jsou tvořena jedním až třemi čínskými znaky a kvůli mnohoznačnosti těchto znaků není na první pohled jasné, jak se mají znaky do slov pospojovat. V arabštině je zase jeden z největších problémů v tom, že v psaném textu se vynechávají samohlásky a diakritická znaménka. Takže jednoznačně najít nějaký "nejtěžší" jazyk vlastně nejde.“

Vítek: „Kde v praxi můžeme v budoucnosti očekávat největší rozmach počítačové lingvistiky?“

Prof. RNDr. Jan Hajič, Dr.: „Nejsem (bohužel) v tomhle jasnovidec, ale předpokládám, že největší šanci pro relativně brzké široké uplatnění má strojový překlad mezi přirozenými jazyky (zatím spíš psaných textů, mluvené přijdou později). A pak samozřejmě rozpoznávání mluvené řeči v přístrojích každodenní potřeby - ovšem to bude trvat déle pro nejrůznější překážky, které z technického hlediska nejsou dosud vyřešené. Například za jízdy autem by jistě bylo bezpečnější ovládat přehrávač nebo telefon hlasem, ale i jen odbourání hluku a zvuků na pozadí dostatečně spolehlivě je dosud nevyřešený problém.“

Lenka: „Dá se počítačová lingvistika v ČR studovat? A jak začít, než půjdu na vysokou školu? Jazyky, nebo matematikou?“

Prof. RNDr. Jan Hajič, Dr.: „Dá, samozřejmě, a to na několika místech. Budu mluvit za MFF UK v Praze, kde působím já: existuje zde akreditovaný obor magisterského studia (Mgr.) "Matematická lingvistika" a na něj navazující stejně pojmenovaný obor doktorandského studia ("I-3", pro získání titulu Ph.D.). Abyste tyto obory úspěšně zvládla, je třeba absolvovat bakalářské studium informatiky (to je samozřejmě u nás také, bez dalšího rozlišení). Ale do doktorandského programu mohou přijít i absolventi a absolventky studia jazyků, kteří(-ré) si potřebné minimální matematické a počítačové vzdělání během studia doplní. Více informací najdete na našich webových stránkách http://ufal.mff.cuni.cz a stránkách fakulty http://www.mff.cuni.cz.“

noro: „Dobry vecer, pan profesor ! Venuje sa aj na Slovensku niekto pocitacovej lingvistike ? Ak ano, spolupracujete ? Zoradte prosim jazyky podla obtiaznosti pre pocitacove spracovanie ... anglictina, cestina, nemcina, rustina, slovencina. Ak sa to neda jednoznacne povedat, skuste porovnat aspon CZ a SK. Dakujem ...“

Prof. RNDr. Jan Hajič, Dr.: „Cestina a slovenstina jsou si velmi podobné, až natolik, že překládat automaticky z češtiny do slovenštiny umíme už velmi dobře. Na Slovensku se počítačovou a korpusovou lingvistikou zabývají v Jazykovedném ústavu Ľudovíta Štúra v oddělení Slovenského národního korpusu (Mária Šimková, Radovan Garabík a další). S nimi opravdu velmi intezívně spolupracujeme.“

Radoňský Milan: „Dobrý večer, věnuje se počítačová lingvistika také obrácenému směru výzkumu, tj.přečtení zadaného textu prostřednictvím PC. Například pro využití u nevidomých. Děkuji“

Prof. RNDr. Jan Hajič, Dr.: „Ano, tomuto podoboru se říká anglicky "Text-to-speech". U nás v ústavu se tím ale nezabýváme - v aplikacích, kde to potřebujeme, spolupracujeme v rámci Centra komputační lingvistiky se Západočeskou univerzitou (také jste mohli vidět jejich výsledky v dnešním pořadu Port), a to zejména Katedrou kybernetiky FAV (prof. Josef Psutka) - jejich TTS systém je podle mého dnes nejlepší v Česku.“

Hana: „Pane profesore, nemyslíte, že bychom měli stroje učit spíše anglicky než česky?“

Prof. RNDr. Jan Hajič, Dr.: „Právě naopak. Angličtinou se už zabývá dost lidí (my samozřejmě také). Ale v každodenním životě, například pro hlasové ovládání různých spotřebičů, počítačů apod. budeme určitě chtít používat svůj vlastní mateřský jazyk. Dokonce bych řekl, že přežití tzv. "malých" jazyků ve světě (a čeština s 10 milióny mluvčích je určitě takovým relativně malým jazykem) je dnes závislé právě na stupni jejich počítačového zpracování, existence korpusů apod. - počítače jsou a budou všude, a jazyk, který nebude možné na počítači zpracovávat, nejspíš v nerovném souboji s angličtinou a jinými velkými jazyky zahyne.“

Vilém Kodýtek: „Může se Váš absolvent uplatnit v neakademické praxi? Jestli ano, můžete uvést příklady?“

Prof. RNDr. Jan Hajič, Dr.: „Ano. Naši absolventi se uplatnili v počítačové lingvistice velmi dobře - např. v IBM, dostali nabídky z Google, Microsoftu, pracují ve firmě Netcentrum (jistě znáte portál centrum.cz), pracovali např. i v Lernout & Hauspie. Ale vzhledem k převažujícímu informatickému vzdělání mohou jít pracovat i jinam - navíc se znalostí statistického modelování velkých dat, které lze použít i na úplně jiné problémy než problémy jazykové - jeden z našich absolventů pracuje v České pojišťovně, další "chytá" neplatiče v zahraničních pobočkách ČEZ, další pracuje pro DHL, atd. Doufám, že jsem na nikoho nezapomněl...“

PetrM: „Až půjde ovládat počítač řečí (česky), bude s ním možno komunikovat i hovorovou češtinou nebo pouze spisovnou?“

Prof. RNDr. Jan Hajič, Dr.: „Určitě i hovorovou. Veškeré úsilí v počítačové lingvistice směřuje k tomu, popsat a zpracovat "reálný" jazyk - ať už psaný (tam celkem lidé umí psát spisovně, i když ne vždy - překlepů dělám spoustu i já...) nebo mluvený - který je při spontánní komunikaci téměř vždy "hovorový".“

Barbora: „Jak se lze ve strojovém překladu (nebo vůbec ve strojovém zpracování jazyků) vyrovnat s tím, že lidský jazykový projev bývá nepřesný, nedourčený, autor v některých podružnějších ohledech ani sám neví, jak své vyjádření myslel?“

Prof. RNDr. Jan Hajič, Dr.: „Víceznačnost a vágnost je jedním se stěžejních problémů, které je nutno při skutečném porozumění jazyku řešit. Ve strojovém překladu máme ale občas trochu zjednodušenou situaci - často se ta nepřesnost a vágnost vyjádření projevuje úplně stejně i v tom druhém jazyce, do kterého překládáme. Pak tedy "stačí" překládat tak, že k přesnému významu ani nemusíme dojít, i když ani tehdy není možno překládat "slovo od slova".“

Vojta Viskot: „Kde se dá stáhnout ta mluvící hlava?“

Prof. RNDr. Jan Hajič, Dr.: „Nevím jestli se dá stáhnout, ale podívejte se na webové stránky kolegů z Katedry kybernetiky na ZČU v Plzni: http://www.kky.zcu.cz/cs“

Blanka Holá: „Pane profesore, mluvil jste o lingvisticky anotovaných korpusech. Pro strojové zpracování češtiny tedy používáte Český národní korpus, který byl postaven na Filozofické fakultě UK, nebo máte nějaký s více značkami? Můžou ho používat i lidé, např. při výuce češtiny?“

Prof. RNDr. Jan Hajič, Dr.: „U nás jsme jako nadstavbu nad ČNK vyvinuli tzv. Pražký závislostní korpus (PZK, nebo anglicky PDT), ve kterém jsou nejen atributy tvaroslovné jako v ČNK, ale zejména syntaktické a částečně i sémantické - každá věta je rozebrána velmi důkladně a výsledkem je tzv. závislostní reprezentace věty. Oproti ČNK je tento korpus sice malý (cca 1 milión slov), ale anotace je udělána ručně (dělali ji odborníci - lingvisté). Více se dozvíte na našich "PDT" stránkách na http://ufal.mff.cuni.cz/pdt2.0/index-cz.html - korpus je samozřejmě použitelný zdarma na školách jakéhokoli stupně, a to jak ve formě CD, tak (pro školní použití asi vhodnější) formou online přístupu.“

Hanka: „Pane profesore, jak jste se k počítačové lingvistice dostal Vy? A co Vás na ní baví nejvíc?“

Prof. RNDr. Jan Hajič, Dr.: „Já jsem počítačovou lingvistiku tak trochu "zdědil" - moje matka, prof. Eva Hajičová tento obor v šedesátých letech u nás spolu s mým bývalým školitelem, prof. Petrem Sgallem, zakládala. Ona ovšem patří k té "lingvistické" části toho oboru, zatímco já jsem studoval nejprve počítače (na MFF UK v Praze) a naopak jsem si k tomu tu lingvistiku postupně "doplnil". Baví mě - asi jako mnoho programátorů a vůbec počítačových odborníků - sledovat, jak ta zcela "hloupá" změť drátů a polovodičů v dnešních počítačích dokáže dělat vlastně docela "inteligentní" věci; ale hlavně - a proto jsem se začal tímto oborem vlastně zabývat - mě fascinuje to, že dokáže také zpracovávat tak veskrze nematematický objekt, jakým je jazyk.“

noro: „Su niektore z vasich vystupov dostupne vo svete Open source ? Akej platforme davate prednost - linux/unix alebo M$ ? Aky programovaci jazyk sa najviac hodi na spracovanie reci ?“

Prof. RNDr. Jan Hajič, Dr.: „Všechno, co u nás děláme, je dostupné pro další výzkum zdarma nebo s minimálními náklady. Lingvistická data (tj. anotované korpusy a slovníky) jsou dostupné pod výzkumnou licencí buď přímo z našeho webu, nebo přes světové nakladatelství "Linguistic Data Consortium" (se sídlem v USA), které se publikací a distribucí takových dat zabývá. Programy pak jsou většinou distribuovatelné pod GPL, a stažitelné buď přímo na našich webovcýh stránkách, nebo na sourceforge.net.“

Vendula: „Bude možné, aby stroj řeč nejen mechanicky překladádal z podoby mluvené do podoby psané, ale by jí také "rozuměl" a dakázal nějak reagovat?“

Prof. RNDr. Jan Hajič, Dr.: „Jednou určitě. Koneckonců to je vlastně hlavní úkol našeho ústavu (převod mluvené řeči do podoby psané dělají spíše kolegové ze ZČU v Plzni, i když, jak už jsem psal, s nimi úzce spolupracujeme). Plné porozumění textu (nebo textu přepsanému z audiosignálu) je ovšem velmi náročné - k tomu musíme spolupracovat i s dalšími blízkými obory, např. umělou inteligencí, reprezentací znalostí (o světě), logikou apod.“

Šárka: „S počítačovou lingivisvitkou také úzce souvisí korpusová lingvistika, vzhledem k využívání různých počitačových programů pro sestavování a následné používání jazykových korpusů. Mohl byste poskytnout nějaký tip na konkrétní software vhodný pro lingvisty, kteří začínají s korpusem pracovat? Resp. pro lidi, jejichž úkolem je v rámci určité práce korpus tak nějak vytvořit? Děkuji“

Prof. RNDr. Jan Hajič, Dr.: „Pro využívání existujících korpusů slouží tzv. vyhledávací programy - například program Bonito (pro vyhledávání a využívání ČNK, viz http://ucnk.ff.cuni.cz), nebo program Netgraph (viz naše webové stránky, http://ufal.mff.cuni.cz/pdt2.0) pro vyhledávání v syntakticky anotovaných korpusech, např. v našem Pražském závislostním korpusu. Pro TVORBU korpusů pak slouží specializovaný anotační software - u nás se používá výhradně program "TrEd", který jsem u nás sami vytvořili, a který je volně (open source/ GPL) k dispozici každému, kdo by chtěl anotované korpusy vytvářet. Tento program podporuje manuální anotaci tvarosloví, syntaxe i sémantiky, a to i pro jiné jazyky než češtinu (sami jej používáme i pro anotaci angličtiny a arabštiny). Více informací najdete opět na našich webových stránkách.“

BaraK: „Co by Vas nejvic potesilo, kdyby se toho v pocitacove lingvistice dosahlo? Mate ve svem oboru nejaky sen?“

Prof. RNDr. Jan Hajič, Dr.: „Rád bych, aby nám počítače opravdu rozuměly :-) To je ale asi opravdu jen sen, když si dnes často nerozumí ani lidé mezi sebou (někdy ani hodně blízcí)...“

Manka: „Hrajete rád scrabble? :-)“

Prof. RNDr. Jan Hajič, Dr.: „Ano, ale moc mi nejde... jednou jsem to zkoušel i soutěžně, ale nijak dobře to nedopadalo.“

Mária a Katka: „Aký vzťah majú počítačoví lingvisti k (počítačovým) jazykovým hrám? Srdečne pozdravujeme zo Slovenska a želáme veľa ďalších úspechov v práci :-)“

Prof. RNDr. Jan Hajič, Dr.: „Děkuju za přání a také pozdravuju na Slovensko :-) právě jsem psal, že Scrabble mám rád, ale že mi moc nejde. Nicméně jazykové hry jsou skvělá věc nejen pro výuku a zlepšení používání jazyka, ale i pro získání dalších zájemců pro studium (i našeho oboru)...“

Michal: „Co všechno je potřeba, aby vznikl takový funkční program ve vašem oboru. Jak je to náročné? Jak to dlouho trvá? Kolik lidí na tom spolupracuje? A proč vás to bavi?“

Prof. RNDr. Jan Hajič, Dr.: „Záleží na aplikaci, nebo na problému, který řešíme. Někdy stačí třeba půlrok nebo rok (například v rámci diplomové práce), ale někdy se na daném programu (nebo souboru programů) pracuje i několik let. Nejnáročnější je pak příprava anotovaných dat, o kterých jsem už psal - k tomu potřebujeme nejen programátory pro tvorbu anotačních programů a pro softwarovou podporu celého procesu anotace, ale i lingvisty - odborníky na daný jazyk nebo dokonce i na daný jazykový jev. A potřebujeme také to, aby si spolu rozuměli - a to také není jednoduché a chce to dobře zpracovaný systém výuky, školení i speciálního trénování anotátorů-lingvistů i programátorů. Většinu mých kolegů (a mne také) to baví možná právě proto, že počítačová lingvistika a řešení jejích problémů spojuje tak vzdálené obory, jakými jsou lingvistika a počítače.“

Ivanka: „Zajímá Vaše zpracování češtiny i někoho v zahraničí, nebo jsou pracoviště jako Vaše v zemích, kde se mluví malými jazyky, znevýhodněna oproti pracovištím v zemích, kde se mluví některým z velkých světových jazyků?“

Prof. RNDr. Jan Hajič, Dr.: „Kupodivu, zajímá. Spolupracujeme formálně i neformálně s řadou zahraničních pracovišť, v Evropě, USA, Asii i Austrálii. Náš anotovaný jazykový korpus PDT (první verzi z roku 2001) si objednali vědci z 19(!) zemí. Ale to není tolik proto, že je zajímá čeština (i když některé z nich určitě), ale spíš proto, že je zajímá náš přístup k anotaci a zpracování jazykových jevů, který je (myslíme si) originální a může být použit i pro jiné jazyky. Jak už jsem se zmínil v jiných odpovědích, dnešní statistické metody pro zpracování přirozených jazyků se často dají využít téměř pro každý jazyk - ovšem data si musí každá země pro svůj jazyk nebo své jazyky vyrobit sama. Doufáme tedy, že naše metody se nakonec uplatní i v jiných jazycích.“

Michal: „Souvisí Váš obor s oborem, který se podílel na rozluštění Enigmy? Děkuji.“

Prof. RNDr. Jan Hajič, Dr.: „Vzdáleně. Alan Turing je jedním z "otců" kybernetiky, a právě té její části, která dnes (po delší přestávce) se opět pro zpracování jazyka používá. Je samozřejmě také zajímavé, že některé postupy použité Turingem pro rozbití německých kódů za 2. světové války vycházely ze (statistických) zákonitostí přirozeného jazyka (tedy němčiny). Turingův současník, Claude Shannon, pak založil a formuloval základy teorie informace, která dnes ve statistickém modelování přirozeného jazyka hraje klíčovou roli.“

Karel: „Pane profesore, jaký obor je třeba vystudovat, má-li se člověk stát odborníkem na počítačovou lingvistiku?“

Prof. RNDr. Jan Hajič, Dr.: „Jenom krátce zopakuji (také pro "Michala" - podrobnější informaci najdete níže v jedné z předchozích odpovědí), že počítačová lingvistika se dá studovat na Matematicko-fyzikální fakultě Univerzity Karlovy v Praze v magisterském i doktorandském studiu (po předchozím studiu bakalářského programu [nejlépe] informatiky). Více také na http://www.mff.cuni.cz - "Studium" - "Infromatika".“

Petr: „Zdravím, rád bych se zeptal, jaké metody pro identifikaci fonémů z parametrického popisu signálu jsou momentálně nejperspektivnější - neuronové sítě (rekurentní/nerekurentní), skryté Markovovy modely, případně jiné?“

Prof. RNDr. Jan Hajič, Dr.: „Skryté Markovovy modely. Ale pokusy se dělají i s jinými metodami. Jak jsem psal níže, my ovšem u nás používáme pro rozpoznávání řeči programy kolegů z Plzně - ti by vám jistě odpověděli podrobněji (http://www.kky.zcu.cz).“

Milan Buchanka: „Dovedu si představit, že na spolehlivé automatické zpracování jazyka čekají výzvědné služby, armáda... Máte také úkoly, o nichž "nesmíte mluvit" (ani chatovat :-))?“

Prof. RNDr. Jan Hajič, Dr.: „Ne, nemáme. U nás, myslím, příslušné služby zatím nejsou na spolupráci s akademickou sférou připraveny (ani personálně, ani finančně, obávám se). Za mého pobytu v zahraničí jsem se ale na některých takových projektech podílel (nicméně k "ostrým" datům se samozřejmě akademici stejně nedostanou ani "tam"). V USA je dokonce obrovská část (i jazykového) výzkumu finančně podporována armádou (resp. všemi třemi složkami armády) - ovšem to v drtivé většině případů je výzkum zcela otevřený a publikovatelný (a můžu o něm samozřejmě mluvit), teprve finální aplikace se vyvíjejí "uzavřeně".“

Josef Mlátička: „Co je pro počítač nejtěžší při zpracování řeči?“

Prof. RNDr. Jan Hajič, Dr.: „Tohle je dobrý dotaz na závěr... ale těžké je především na něj odpovědět. Obecně je největší problém s víceznačností vyjádření (pro vlastní jazykovou analýzu), a s naší stále velkou neznalostí toho, jak se informace (všeho druhu) vlastně v naší hlavě ukládají (nebo jak je máme formálně v počítači ukládat), abychom mohli skutečně automaticky jazyku porozumět i z hlediska obsahu mluvených nebo psaných sdělení. Děkuju všem za dotazy, a doufám, že se třeba někdy setkáme a budeme si moci nejen ještě víc popovídat, ale že třeba budeme na těch zajímavých problémech počítačové lingvistiky i spolupracovat, nebo dokonce že některé z vás uvidím u nás v ústavu a na fakultě při studiu počítačové lingvistiky... Dobrý večer, dobrou noc.“