JMdict: Japonec-Vícejazyčný slovník


Original: http://www.csse.monash.edu.au/~jwb/jmdictart.html

James BREEN
Univerzita Monash
Clayton 3800, Austrálie
[email protected]

Abstraktní

JMdict projekt má za svůj cíl sestavení mnohojazyčného lexikální databáze s Japonci jako jazyk čepu. Použití struktury XML uzpůsobených směs jazyků a bohatou sadu lexikografické informací dosáhla velikost přibližně 100.000 záznamů, přičemž většina položek s překlady v angličtině, francouzštině a němčině. Kompilace zahrnuje informace o re-použití s ​​francouzské a německé překlady jsou čerpány z odděleně vedených slovníků. Materiál z jiných jazyků je také v ceně. Soubor je volně k dispozici pro výzkumné účely a pro zabudování do slovníku software aplikací, a je k dispozici v několika systémech WWW serveru.

1. Úvod

JMdict projekt jehož hlavním úkolem je sestavení japonském vícejazyčného slovníku, tj. slovník, ve kterém hesel jsou z japonského slovníku a překlady do několika dalších jazyků. To lze považovat za syntézu řady Japanese-slovníky jazyka dvojjazyčný, i když, jak je popsáno níže, je hodnota v tom, že tato informace spojen.

Projekt odrostla, a nyní zahrnut, dříve japonsko-anglický slovník projekt (EDICT: Elektronický slovník) (Breen, 1995, 2004a). S Japonci je významným jazykem světového obchodu, a to je druhý nejčastější jazyk používaný na WWW, to není překvapující, že existuje značný zájem o elektronických lexikálních prostředků pro Japonce v kombinaci s jinými jazyky.

2 Cíle projektu a vývoj

Jak bylo uvedeno výše, projekt JMdict vyrostl z dvojjazyčného projektu EDICT slovníku. Projekt EDICT začal v roku 1990 s relativně jednoduchým cílem produkování japonsko-anglický slovník soubor, který by mohl být použit v základních softwarových balíků poskytovat tradiční služby slovníku, stejně jako zařízení na pomoc čtení japonského textu. Formát byl (a je) velmi jednoduchá, obsahuje řádky textu, které sestávají z japonského slova písemného použití kanji a / nebo Káňa, čtení (výslovnost) tohoto slova v kana, a jeden nebo více anglických překladů.

Do konce 1990, soubor přerostl jeho skromných původů a dosáhl více než 50.000 položek, a když se točil mimo paralelní projekt pro záznam japonské vlastní jména (viz níže). Materiál je částečně byly získány z seznamy slov, slovní zásoby seznamů, atd. ve veřejné doméně a doplněné materiálů připravených velkým počtem uživatelů a dalších dobrovolníků, kteří chtějí přispět. I když to bylo použito v různých softwarových systémů, a jako zdroj lexikálního materiálu v celé řadě projektů, bylo jasné, že jeho struktura je zcela nedostatečné pro lexikální požadavky jsou ze strany uživatelů. Zejména nebylo možné začlenit vhodnou různé informace, ani zastupovat pravopisné složitost zdrojového jazyka. Proto v roce 1999 bylo rozhodnuto zahájit nový slovník projekt zahrnující informace z ediktu souboru, ale rozšířila o překlady z cizích jazyků s japonskými údaje zůstávají jako čepy. Cíle projektu byly:

formát souboru, pokud možno s použitím uznaného standardu, který by umožnil snadný přístup a analýza pomocí různých softwarových aplikací;

manipulace ortografické a výslovnost změnu v rámci jedné položky. To řeší velký problém s EDICT formátu, jako mnoho japonských slov může být psán s alternativním kanji a různé části v Kana (okurigana), a může mít alternativní výslovnosti. EDICT formát vyžaduje každá varianta má být zacházeno jako samostatná položka, který přidal ke složitosti udržování a rozšíření slovníku;

další a vhodně spojeny značkování gramatické a dalších informací. Některé informace, jako je část řeči nebo zdrojový jazyk z přejatých slov byl přidán do EDICT souboru v závorkách v rámci překladatelských oborů, ale rozsah byl omezen a informace by mohly být snadno analyzovat;

ustanovení pro rozlišení mezi různými smysly překladů. Zatímco základní indikace polysémii byly poskytnuty v EDICT souboru prepending (1), (2), atd. skupinám překlady, výsledek byl poněkud nepřehledné. Také nepodpořil případ, kdy byl smysl nebo nuance vázána na konkrétní výslovnosti, pokud se vyskytuje občas v japonštině;

ustanovení o zahrnutí překladových ekvivalentů z několika jazycích. Slovník EDICT soubor byl používán v řadě zemí, a několik neformálních projekty začaly vyvíjet odpovídající soubory pro japonské a další cílových jazyků. Malý Japonec-německý soubor (JDDICT) byl propuštěn v EDICT formátu. Tam byl značný zájem vyjádřený v tom, že překlady v různých jazycích připojenému k tomu, aby takové věci, jako má jeden referenční soubor pro několik jazyků, křížové odkazy na položky, cross-language vyhledávání, atd., jakož i působit jako zaměření pro možný rozvoj překladů pro dosud bez zastoupení jazyků;

ustanovení o zařazení příklady použití slov. Jak se soubor rozšířil, mnoho uživatelů spisu požádal nějakou formu použití příkladů, které mají být spojeny se slovy v souboru. EDICT formát nebyla schopna tuto funkci;

ustanovení o křížových odkazů na související položky;

pokračování generace EDICT formátu souborů. Jak velké množství balíčků a servery byly postaveny kolem EDICT formátu pokračovalo poskytování obsahu v tomto formátu, byl považován za důležitý, i když informace obsaženy pouze podmnožinou toho, co bylo k dispozici.

Již bylo rozhodnutí používat XML (Extensible Markup Language) jako formát pro JMdict souboru, protože to byl čekal, že poskytuje náležitou pružnost ve formátu, a byl také očekává, že bude podporován aplikací, zpracovávání knihovny, atd.

Zkouška byla vyrobena z dalších dostupných formátů slovníku zjistit, zda vhodný formátování model byl k dispozici. Bylo známo, že komerční slovník vydavatelé má dobře strukturované databáze lexikální informací, a někteří se pohybovali XML, ale žádné podrobnosti nebyly k dispozici. Velký počet dvojjazyčných slovníků soubory a seznamy slov byly ve veřejné doméně, ale obecně se používají pouze velmi jednoduché struktury, a nikdo nemohl nalézt pokrývá všechny požadavky na obsah projektu. Slovník část TEI (Text Encoding Initiative), který v době psaní tohoto článku má dobře rozvinutou strukturu dokumentu pro překladové slovníky, je v této fázi velmi omezené (Sperberg-McQueen et al, 1999). Proto bylo XML DTD (Document Type Definition), který byl vyvinut na míru podle požadavků projektu.

EDICT soubor byl analyzován a přeformátován do JMdict struktury, a zároveň, mnoho z pravopisných variant identifikovány a sloučeny. První verze z DTD a XML formátu souboru se konala v květnu 1999. V této fázi, že obsahuje anglické překlady z ediktu souboru a německé překlady z JDDICT souboru. Jak je popsáno níže, to bylo značně rozšířil od té doby, a to jak z hlediska počtu položek a také v multi-kulturní pokrytí.

3. Stav projektu

Soubor JMdict byla poprvé vydána v roce 1999 a aktualizované verze se uvolňují 3-4 krát ročně spolu s verzí EDICT souboru, který je generován současně ze stejných datových souborů. Soubor má nyní více než 99.300 položek, tj. velikosti středně velkého tištěného slovníku, a růst počtu přihlášek je nyní relativně pomalý, s většinou aktualizací zabývající se opravami a rozšiřování stávajících záznamů.

Soubor je dostupný pod liberální licencí, která umožňuje jeho použití pro téměř jakýkoliv účel bez poplatku. Jediným požadavkem je, že jeho použití bude plně uznána a že všechny soubory vyvinuly z ní pokračovat za stejných licenčních podmínek.

4 Struktura

JMdict XML struktura obsahuje jeden element typ: , který zase obsahuje pořadové číslo, kanji slovo, kana slovo, informace a překladatelské prvky. Pořadové číslo se používá pro údržbu a identifikaci.

Kanji kana slovo a slovní prvky obsahují dvě formy japonského hesel, bývalý se používá pro znázornění, které obsahují alespoň jeden kanji znak, zatímco druhý je určen pro zastoupení v kana sám. Slovo kana je účinně výslovnost, ale je také důležitým klíčem pro indexování soubor slovníku, protože japonské slovníky jsou obvykle seřazeny podle slov kana. Minimální obsah těchto polí je jediné slovo v prvku slovo kana. Kromě toho může být každá položka obsahuje informace o slovech (neobvyklé orthographical varianta, archaické kanji, atd.) a frekvence užívání informací. Ten musí být spojen se skutečnými slovy, spíše než na vstupu jako celek, protože některé kombinace kanji a kana slova se používají častěji než ostatní. (Například, 合 気 道 a 合气道 jsou orthographical varianty jednoho slova (aikido), ale první je častější).

Kana použít prvky takto moderní japonské pravopis, tj. hiragana se používá pro rodných japonských slov a katakana pro přejatých slov, onomatopoické slov, atd.

Ve většině případů má jen jeden vstup a jeden kanji kana slovo (cca 75%), nebo jeden kana samotné slovo (15%). V asi 10% záznamů je k dispozici několik slov v jednom z prvků. V některých případech může být čtení kana být přiřazeny pouze podmnožinu kanji slov v záznamu. Například Soyokaze (そよかぜ: vítr) lze zapsat buď 微风 nebo そよ風 (druhý je běžnější そ よ je nestandardní čtení 微 kanji). Nicméně 微风 může být vyslovován bifuu (びふう) se stejným významem, ale je jasné, tato výslovnost nelze spojovat s formou そよ風, protože část kana je číst „SOYO“. XML neposkytuje elegantní způsob ukazuje na omezený mapování mezi částmi dvou prvků, a tak, když je zapotřebí takové omezení, další značky používají s každým slovem kana dodávající kanji slovo, se kterým může být platně spojené.

Informace prvek obsahuje obecné informace o japonské slovo nebo zápisem jako celku. Obsah umožňují ISO-639 zdrojových textů jazyka (u přejatých slov), nářečí kódy, etymologii, bibliografických informací a podrobnosti o této aktualizaci.

Překlad oblast se skládá z jednoho nebo více smyslových prvků, které obsahují alespoň jedno a lesku. Spojené s každou smyslu je soubor prvků, které obsahují část řeči, cross-reference, synonymum / antonymum, použití, atd. informace. Také sdružil se s pocitem, může být omezení kódy svazování smysl podmnožinu japonských slov. Například, 水 気 být vyslovován suiki (すい き) a mizuge (みずけ), a to jak ve smyslu „vlhkost“, ale bývalý sám může také znamenat „vodnatelnosti“.

Lesk element má atribut udávající cílový jazyk překladu. V jeho nepřítomnosti se předpokládá, lesk je v anglickém jazyce. K dispozici je také atribut s uvedením pohlaví, je-li například část-of-speech je podstatné jméno a lesk je jazyk s gender podstatnými jmény. Obrázek 1 ukazuje poněkud zjednodušený příklad záznamu. A prvky ukazují, slovo je členem určité sady běžných slov.
1206730

<entry>
<ent_seq>1206730</ent_seq>
<k_ele>
<keb>学校</keb>
<ke_pri>ichi1</ke_pri>
</k_ele>
<r_ele>
<reb>がっこう</reb>
<re_pri>ichi1</re_pri>
</r_ele>
<sense>
<pos>&n;</pos>
<gloss>school</gloss>
<gloss g_lang="nl" g_gend="fg">school</gloss>
<gloss g_lang="fr" g_gend="fg">école</gloss>
<gloss g_lang="ru" g_gend="fg">школа</gloss>
<gloss g_lang="de" g_gend="fg">Schule</gloss>
<gloss g_lang="de" g_gend="fg">Lehranstalt</gloss>
</sense>
</entry>

Obr. 1: Příklad JMdict vstup

Které může mít více kanji a kana slova v záznamu upozorňuje na problematiku homonymie, homografie a polysémie, a politiky pro manipulaci s nimi, zejména kritéria pro kombinování kanji a kana slov do jedné položky. Jako Japonec má poměrně omezený soubor fonémů existuje velké množství homophonous slov. Například více než dvacet různých slov mají zastoupení kana こうじょう (Kojo). Pokud považujeme homografie pouze jako vztahující se na slova psaná zcela nebo částečně kanji, existuje relativně málo případů to však, že existují, např.川 柳 při čtení せんりゅう (Senryu) znamená komickou báseň, ale při čtení かわやなぎ (kawayanagi) se rozumí různé vrby.

Kombinací pravidlo, které byly použity při sestavování JMdict souboru je následující:

Ke každému základní zápis jako trojice sestávající z: kanji reprezentace, odpovídající kana reprezentace, smysly;
li pro všechny základní položky dvou nebo více členů trojice jsou stejné, spojit je do jednoho záznamu;
pokud se záznamy liší v kanji kana nebo zastoupení, patří tyto jako alternativní formy;
v případě, že údaje se liší v tom smyslu, považovat za případ polysémii;
v ostatních případech ponechte položky oddělené.

Toto pravidlo bylo úspěšně použity ve většině případů. Mezi hlavní problémy vznikají, když významy jsou podobné nebo příbuzné, jako v případě záznamů: (放す, はなす, oddělit; nastavit zdarma, obrátit volné) a (離す, はなす, aby část, rozdělit, rozdělit ), kde se kana slova jsou stejné a významy překrývají. Japonské slovníky jsou rozděleny na 放す a 離す, někteří držet je jako samostatné položky, a jiní s nimi jako jeden záznam s dvěma hlavními smysly. (Dvě slova pocházejí ze společného zdroje.)

5 slovních a související otázky

Jak jazyky se liší ve svých slovních druhů (POS), může záznam těchto údajů ve dvojjazyčných slovnících být problém (Al-Kasimi, 1977). Tradičně dvojjazyčné slovníky zahrnující Japonské zabránilo zaznamenávání veškeré informace POS, ponechat na uživateli vyvodit, že informace z překladu a příklady (pokud existuje). V počátečních fázích projektu EDICT byl POS informace záměrně omezena na minimum, např. s uvedením, kde sloveso je tranzitivní nebo nepřechodný pokud to nebylo zřejmé z překladu, a to zejména pro úsporu úložného prostoru. Protože existuje celá řada výhod v tom, že informace, která je vyznačena v POS elektronického souboru slovníku, byl prvek POS součástí JMdict struktuře, a veřejně dostupné POS klasifikace se používá k naplnění část souboru. Přibližně 30% z položky zůstávají utajení; většinou podstatná jména nebo krátké jmenné fráze.

V zájmu úspory místa brzy rozhodnutí bylo učiněno, aby se zabránilo výpis odvozené formy slov. Například japonská adjektivum 高い (Takai) znamenat „vysoký, vysoký, drahý“ odvodil formy 高 さ (takasa) „height“ a 高く (Takaku) „velmi“. Jak tento proces je velmi pravidelný, mnoho japonských slovníků nenosí položky pro odvozených forem, a některé dvojjazyčné slovníky následovat. Dalším příkladem je společný slovesný tvar, někdy volal „podstatné jméno slovesné“, který je vytvořen přidáním sloveso する (suru) „dělat“ do příslušných jmen. Sloveso „studovat“ je 勉強 する (benkyôsuru), kde 勉强 je podstatné jméno znamená „studium“ v tomto kontextu. Opět platí, že japonské slovníky často nezahrnují tyto formy jako hesel, raději uveďte v těle záznam, který útvar je možné.

Vynechání těchto získaných forem znamená, že péče je třeba vzít při vytváření překladů tak, aby je uživatel mohl snadno určit vhodnou překlad jednoho z odvozených forem.

Ve vícejazyčném kontextu může opomenutí odvozených forem mají jiné problémy. Nahrávka する sloves pouze v jejich formě podstatného jména základně bylo hlášeno vést k určitému nepohodlí mezi německými uživateli, jak německý jazyk orthographical konvence Převede první písmena jmen, ale ne slovesa (WaDokuJT soubor má する slovesa jako samostatné položky z tohoto důvodu ).

6 začleňování a údržba více jazyků

Jak bylo uvedeno výše, část zájmu mají položky s překlady v několika jazycích pochází z kompilace několika slovníkových souborů na základě nebo podobné ediktu souboru. Existuje celá řada otázek spojených se zařazením materiálu z jiných slovníkových souborů, zejména těch, které se týkají sestavování politik: Zpravodajství, vyřizování ohýbán forem, atd. (Breen, 2002) Tam je také hlavní problém v editaci a údržba materiálu, který má potenciál stát se složitější, protože každý jazyk je začleněn.

Přístup s JMdict bylo:

udržují vnitřní japonsko-anglický soubor s dobře dokumentovanou strukturu a soubor začlenění a úpravy politik;
podporovat rozvoj a údržbu ekvivalentních souborů v jiných jazycích spárována s Japoncem, který lze čerpat na JMdict / EDICT materiálu dle požadavku;
pravidelně vybudovat kompletní vícejazyčnou JMdict z různých komponent.

Tento přístup se osvědčil v tom, že má oddělenou kompilaci souboru z probíhající editace složek a opustil druhé v rukou těch, kteří s dovednostmi a motivací k provedení úkolu.

V době psaní, JMdict soubor má více než 99.300 položek (japonštině a angličtině), z nichž 83.500 jsou německé překlady, 58000 mají francouzské překlady, 4800 mají ruské překlady a 530 se překlady do holandštiny. Soubor zhruba 4500 španělských překladů je připravován, s vyhlídkami, že někteří 20.000 budou brzy k dispozici.

Hlavními zdroji těchto dodatečných překladů:

Francouzské překlady z dvou projektů:
cca 17.500 návrhů, které pocházejí z Dictionnaire français-Japonais Project (Desperrier, 2002), projekt překládat nejběžnější japonských slov z EDICT souboru do francouzštiny;
dalších 40.500 položek byly získány 仏 语 补 完 计画 (francouzsko-japonský Doplnění Project) v http://francais.sourceforge.jp/ (Tento projekt je založen na EDICT souboru.)
Německé překlady z projektu WaDokuJT (Apel, 2002). Jedná se o velký soubor více než 300.000 záznamů, ale na rozdíl od JMdict obsahuje mnoho výrazů, vlastní jména a skloňované formy sloves apod. překrývání pokrytí s JMdict je poměrně vysoká, což vede k velkému počtu záznamů, které byly uvedeny v JMdict souboru.

Jednou z otázek, které mohou vést k problémům při začlenění překlady z jiných souborů projektu je, že sjednocení překladů, pokud má položka více smysly. V případě francouzských překladů, koordinátor projektu označil překlady mnohoznačný herní položky s pocitem kódem, což umožňuje překlady, které mají být vloženy správně při kompilaci výsledného souboru. Pro jiné jazyky jsou překlady jsou připojena k stanoveným anglických překladů. Odpovídající nakládání s více smyslů je položka budoucí práce.

7 Příklady použití slov

Když byl projekt zahájen a DTD navrženy, bylo určeno, že soubory dvojjazyčných příkladů použití vstupních slov by být zahrnuty. Z tohoto důvodu byla prvky spojené s každým smyslu, aby bylo možné tento příklad fráze, věty, atd., které mají být zahrnuty.

V praxi zcela odlišný přístup byla přijata. S dostupností od roku 2001 velké korpusu paralelních japonsky / anglické věty (Tanaka, 2001), bylo rozhodnuto zachovat corpus neporušený, a místo toho poskytují pro sdružení vybraných vět z korpusu s pomocí slovníku aplikační software slovníku ( Breen, 2003b). Tato strategie, která vyžaduje korpusu být rozložen extrahovat soubor index slov pro každé větě, se ukázal jako efektivní na aplikační úrovni. To má také tu výhodu, že oddělení zachování souboru slovníku z toho příkladu korpusu.

8 Související projekty

Kromě několika drobných textových seznamů zahrnujících několik evropských jazyků, jediným dalším velkým Aktuální projekt se snaží sestavit komplexní vícejazyčné databáze je projekt Papillon (např. Boitet et al, 2002). Viz http://www.papillon-dictionary.org/ pro úplný seznam publikací. Konstrukce Papillon zahrnuje propojení na základě slovních smysly, jak je navrženo v (Sérasset, 1994) s jemnější lexikální struktury na základě Význam-teorie textu (MTT) (Mel’cuk, 1984-1996). V době psaní databázi Papillon je stále ve fázi naplněn lexikální informace.

S tím úzce souvisí s projektem JMdict je japonský Vícejazyčný Named Entity Dictionary (JMnedict) projekt. Jedná se o databázi nějakého 400000 japonské místa a jména osob, a ne-japonských jmén v jejich japonské ortografické podobě, spolu s romanized přepisu japonštiny (Breen, 2004b). Některá geografická jména s anglickými popisy: Cape, ostrov, atd., které jsou v procesu prodloužení na dalších jazyků. JMnedict soubor je ve formátu XML s podobnou strukturou JMdict.

Další vícejazyčná lexikální databáze KANJIDIC2 (Breen, 2004c), který obsahuje širokou škálu informací o 13.039 kanji v JIS X 0208, JIS X 0212 a JIS X 0213 znaků standardy. Z informací pro každé kanji je množina hodnot v japonštině, čínštině a korejštině a široké významy každé kanji v angličtině, němčině a španělštině. Sada portugalských významů se připravuje. Databáze je ve formátu XML.

9 Aplikace

I když existuje řada experimentálních systémů využívajících JMdict souboru, pouze aplikace systému pomocí úplného souborů v různých jazycích v současné době je projekt Papillon serveru. Obrázek 2 ukazuje displej z tohoto serveru při vyhledávání slovo 川 柳. Autorova WWWJDIC serveru (Breen, 2003a) hovoří o japonsko-anglický součásti souboru. Obrázek 3 je extrakt z WWWJDIC displeji slovo 小人, což je příklad záznamu s více slovy kana, a smysly omezeno čtení. (V (P) markery uvést více společných čtení.)

papillonex.gif

Obr. 3: Příklad WWWJDIC 小人

EDICT japonsko-anglický slovník soubor, který je generován ze stejné databáze jako JMdict soubor, je i nadále hlavním nekomerční japonsko-anglický slovníkový zdroj, a je používán ve velkém množství aplikací a serverů, stejně jako v Řada výzkumných projektů.

10. Závěr

JMdict projekt úspěšně rozvíjet vícejazyčnou lexikální databázi pomocí Japonský jako jazyk čepu. V tom, že je téměř srovnatelný s lexikální pokrytí středních a velkých tištěných slovníků, a jeho složky se používají v široké škále aplikací a výzkumných projektů. Bylo také prokázáno, potenciál pro opětovné použití materiálu z příbuzných a spolupracovat lexikonu projektů. Soubory na JMdict projektu jsou snadno dostupné pro použití výzkumných a vývojových pracovníků, a mají potenciál stát se významným lexikální prostředek ve vícejazyčném kontextu.

Reference

Al-Kasami, A.M. 1977 Lingvistika a překladové slovníky, E.J. Brill, Leiden

Apel, U. 2002. WaDokuJT – Japonec-německý slovník databáze, Papillon 2002 seminář, NII, Tokio

Boitet, C, Mangeot-Lerebours, M, Sérasset, G. 2002 Projekt PAPILLON: kooperativně budování mnohojazyčné lexikální datové základny k získání open source Slovníky a slovníky, Proc. z druhého workshopu NLPXML 2002, Post Coling 2002 Workshop, Ed. Wilcock, Ide & Romary, Taipei, Taiwan.

Breen, J.W. 1995. Stavební elektronický japonsko-anglický slovník, JSAA konference, Brisbane.

Breen, J.W. 2002. Praktické otázky a problémy při budování vícejazyčné lexikon, Papillon 2002 seminář, NII, Tokio.

Breen, J.W. 2003a. WWW japonský slovník, v části „výuky jazyků na křižovatce“, Monash Asia Institute, Monash Univ. Stiskněte tlačítko.

Breen, J.W. 2003b. Příklady použití slov v elektronickém slovníku, Papillon 2003 Seminář, Sapporo.

Breen, J.W. 2004a. Projekt EDICT, http://www.csse.monash.edu.au/ ~ jwb / edict.html

Breen, J.W. 2004b. ENAMDICT / JMnedict projektu, http://www.csse.monash.edu.au/ ~ jwb / enamdict_doc.html

Breen, J.W. 2004c. Projekt KANJIDIC2, http://www.csse.monash.edu.au/ ~ jwb/kanjidic2 /

Desperrier, J-M. 2002. Analýza výsledků společného projektu pro vytvoření japonském francouzský slovník, Papillon 2002 seminář, NII, Tokio.

Mel’cuk, I, et al. 1984-1996. Prosinec: Dictionnaire explicatif et du français combinatoire contemporain, rešerše Lexico-sémantiques, Vols I-IV, Montreal Univ. Stiskněte tlačítko.

Sérasset, G. 1994. Sublim: un Systeme Universel de Základy Lexicales Multilingues et NADIA: so Specializace aux základy lexicales interlingues par acceptions, (disertační práce) Joseph Fourier University, Grenoble

Sperberg-McQueen, C.M.. a Burnard, L. (eds.) 1999. Pokyny pro elektronické kódování textu a výměnu. Oxford Univ. Stiskněte tlačítko.

Tanaka, Y. 2001. Zpracování Multilingual paralelní korpus PACLING 2001, Japonsko.

Comments are closed.