P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

新語・造語・未知語の入力上の待遇② 語尾別口系・多様な終助詞

2020-03-30 | ジャンル横断的な問題

未知語用言全般、別口入力での様々な派生があることについては①番目の記事でざっとは触れていきましたが、
今ここで一捻り「ビンジする」「ビンジる」「ビンジだ」「ビンジです」「ビンジな」「ビンジである」「ビンジになる」「ビンジとなる」等々
例として「ビンジ」(=ドラマなどを一気見する事)という未知語があったとしてこれを無理やりいろんなバリエーションでやってみました。
ビンジという語彙は置いておいて語尾機能派生的な受け皿として別口入力のマーキングは各種の手段が多様にあることを先の記事で申し上げたところです。
このあたりは過去記事
るてしでsでしてる:基本動詞のエッセンスは大体揃った - P突堤2
あたりでも背景も含めて概観しており、またあわせてテ形の助詞の「ビンジて」などといったケースもあるかどうかはわかりませんがカタチとしては対応できるということを申しておきます。
ただし[○R][×r]のル形動詞別口入力はググる、みたいに「カナ語幹+る」の表記にしたい新語造語類のときに特にこれを使うということで必ずしもレギュラーのものではなく渡る・起こる、みたいに通常動詞の場合はべたかな入力でマーキングを伴わずに入力していきます。(してもいいのですがマーキングするとワタる・オコるみたいに語幹カナのほうが候補優先されます)
同様にテ形助詞[て]の別口入力でも「カナ語幹+て」あるいは「カナ語幹+って」の表記にしたい新語造語のときに厳にマーキングを必要としますがこれも通常動詞のときには不要です。
しかしながらここが躓きやすいところなのですが主にサ変動詞まわりで使用する[便利キー:し]のときだけはそのような使い分けはなく連用中止形「し」の場合だけにとどまらす「[し]-ない」「[し]-よう」「[し]-ます」「[し]-た」「[し]-たい」「[し]-ろ」「[し]-なさい」などの「し」の絡む活用形一般とあとは接続助詞としての「し」(分かってても言わないし、のし)、なども含めて
操作が煩雑ではありますがカナ語幹のあるなしに関わらず義務的にマーキングを要求していきますのでどうかご理解いただきたいと思います。
それというのも「し」はとりわけ誤変換の誘因となる音素ですから[便利キー:し]として文法上の素性がわかるチャンスを活用しない手はないためべたかなの「し」の場合と区別をするという意味においてもどうしても必要になってくるのです。
一応「しない」「した」「したい」などの各ケースをクローズアップしてみると「し内容」「し他方」「し対応」などのくだりでの判別困難性も浮上してくるのでこちらに関しては精査が求められるのでまだまだ吟味が必要になってくるところではあります。

用言全般については一通り総ざらえができましたがこれではまだ完全ではなくそれに続く問題として大きなものにくだけた口語表現の場合と各種方言、それに古語・古典表現が残っています。
口語表現であると本来のレギュラーの複合助詞「では」が「じゃ」になったりテ形の入力でも「ては」が「ちゃ」になったり「てしまった」が「ちゃった」になったりとマーキングが挟める機会を失ってべたかなの字面の文字列から助詞部分を補完して組み立てをしていかなくてはなりません。
未知語であっても単に名詞チャンク部分だけであるならまだ打つ手もありそうなのですが、別口助詞入力をあまねく整備したのがかえってネックになってこういった文法上の骨組みを担う機能語たちもが置き換えのできないべた字面になってしまうと今まで当たり前のようにできていたチャンク解析のプロセスがにわかに不透明になってしまい大変に具合が悪いです。
愚直に各変化派生をしらみつぶしに網羅していくのも悪くないですがまず見落としてはならないのはカタチは違うものの同じ文法機能のパーツが、かたや標準別口マーキングできる種のものと別口伴わずべた字面で表すしかないものとで扱いが分断されてしまっていてこれが統一的な構文解析に要らぬ混乱を招いてしまうリスクをはらんでいるということです。
助詞に限らず「まだやる気出ん」「あざーっす」「うわこれ古っ」これらは短縮表現にからむ用言変化ではありますが例えば「あざーっす」を個別に単語登録しておけばいいという問題ではなくて「ナイ形の縮約」「敬語の口語縮約」「形容詞語尾の促音縮約」などの文法システム的に弾力的に対応できるかどうかの裾野の広い問題なのです。
こうした口語表現の扱いに別口入力のシステム側からできる手立ては今のところありません。
なのでべたかなでチャンク癒着した文字列の中から名詞チャンクと収束・用言チャンクをうまく分解していくことが求められます。それも別口入力を前提とした解析システムの枠組みの中で副作用を起こさないようにハイブリッドに処理していかなければなりません。
今のところ「は・が・を・に・と・の・も・へ・や・な」等は口語でも有効に別口機能はしそうですが、口語は何より助詞抜きであるとか「気ぃ抜くなよ」みたいに<助詞抜き×小書き『ぁ』行音引き>のミックスがあったりするので難易度は一段も二段も高くなっていきます。

方言のバリエーションに関しても同様の困難性が立ちはだかります。○○地方方言・話しことば表現モードみたいに細分化したモード切り替えをおこなったりできるIMEも中にはありますができれば標準状態のままで特に切り替えを意識することなく、まあ細かいところまでは無理でしょうけれど目につく頻出表現のところだけで妥協して限定的にでもおこなえれば多くを望まず御の字であると考えます。
都合が良すぎる楽観性かもしれませんができないところは素直に認めて当該部分の変換では連文節変換をしないで細切れに切ってべたかなでやっていくであるとか漢字部分の送りキワの微修正に「近視眼的粒度」を活用して細々編集していくであるとかの代替策で乗り切っていくしかないでしょうね。
なかなか要領を得ない見解しか出せなくて頼りないところではあるのですが別口入力の助詞の区切りが方言込みでも活きて稼働できているのであればそこをテコにしてオールべたかな文ノーヒントよりかはいくらかマシになっていることを期待するのみであります。

古典古語のほうも有効な対策を見いだせておりませんが厄介なことに古典表現における助詞と現代文における助詞が共通のものであったとしてもその用法には微妙な違いのあるケースがあり、
例えば同じ「の」でも同格「いと清げなる僧の、黄なる地の袈裟着たるが来て…」であるとか「が」の連体修飾用法「これひとつやは君が憂きふし」などがあり従来の別口入力「の」「が」をはじめとしてその他混線してきそうな要因が多くありそれがもたらす副作用は未知数でありますのでなおさらこの問題は根深いと言えるでしょう。
さらに言えば「だに」「もがな」のように一見すると「だ+に」「も+が+な」みたいに複合助詞入力と思わされる要素もありますのでこちらにも注意が必要であります。これらはひとかたまりとしてべたの文字列として処理していきます。
総じて言えば古典表現には方言などとはまた違って、標準の文解釈時に現代文の読みと古典文の読みとがツートラックで解析を同居させにくい事情もあるのでどちらかをとらねばならないと選択を迫られるのでしたらこれは現代文の解釈を取るより仕方ありません。なかなか歯がゆいところです。

方言・古語以前に日本語にはさまざまなニュアンスを付加する多様な終助詞が控えております。これらはキャラ語尾のような特殊なものはひとまず置いておくにしても普段使いの欠かせない表現骨格となってきており、もはや方言や古語のように一段別処理を施せばよい…などと簡単にはいかない事情をはらんでおります。
それだけ標準状態における機能語判定の不可避性が食い込んでいるものだとの認識をもって処理に当たらなければなりません。
別口入力パーツの中には、格助詞としてだけではなくて終助詞としての機能を兼任しているものもいくつかみられるのでここでひとつ整理して列挙していきたいと思います。

<文脈によって終助詞としても認識する別口入力パーツの例>
か…またお前か
が…この、おたんこなすが
に…悔しかっただろうに
と…しーらないっと
の…家帰って見るの
や…ちょっとは気ぃ使えや
か…図星だったか
な…ちょっと待っててな
て…後で食べるって

これらはまだ性質のいいほうで、終助詞=文の末端部 であることが分かって配置されているのがマーキングとも重なるわかりやすい使われ方であります。
文末以外だと後続へは引用の「と」「て」との接続、同様に「など」「なんて」「ぐらい」「しか」など副助詞的に展開されるものなども終助詞とセットで出てくるかもしれませんがマーキングがあるだけ助かりますので文の収束遂行も見届けたうえで構文全体の把握も結んでいけます。
問題なのはマーキングされていない自由終助詞、別口入力以外の終助詞要素であります。
未知語ではないかもしれないほど有名ですが代表的終助詞「よ」と「ね」の検出も単文字ということもあって意外に手こずる可能性があるかもしれません。
こんな調子でいくとちょっと個性的な未知終助詞、例えば「ぽ」とかのようなものをはじめとして理論的にはあらゆる単モーラが終助詞になる可能性を秘めていますので気が抜けそうにありません。
二文字以上の終助詞であっても未知は未知ですからなにか特徴的な接続要件であるとか活用要件であるとか手掛かりになりそうなものを掴むために掘り下げていきますと
まず終助詞ではありませんが語形変化の顕著な例として未然形からの接続、ナイ形の話さない→話さ[ねー]の変化があります。
他の活用では連用形は古語では(き・けり・つ・ぬ・たり(完了)・けむ・たし)などの助動詞がついたりしますが現代文では食べたいが食べてーになるくらいで連用形に終助詞相当のものがくるのはあまり見られません。
終止形(基本形)、これは別口入力のパーツであろうと自由パーツであろうとあらゆる終助詞のメイン活躍舞台であり口語・古典表現に関わらず既知未知のものが接続します。
終止形からは、特徴的なキャラ語尾である「--でござる」「--でゲソ」など断定の助動詞「だ」の連用形「で」+終動詞のパターンの一群もみられます。
ちょっとクセの強いところからだと、話すデス、やめるクポ、行くのん? などのキャラ語尾とも親和性が強くこちらは「で」を挟みませんが終止形接続の一角を占めるもう一パターンであると言えます。
また先程の未然形の時には触れていませんでしたが未然形には(う、よう)の語形を紐解くときに微妙な差異があります。例えば「読むべ」「暮れるべ」などのようにカタチこそ終止形+べにはなっていますが結果的に推量・意志の助動詞相当の未然形接続に代替しているものもあり、終助詞のタイプによっては接続する活用形を編配置するケースもまだいろいろありそうです。
未然形、連用形、終止形ときて今度は口語表現で特徴的なのが仮定形です。
仮定形からの接続には「明日になれば/話せば/言えば」→「なりゃあ/話しゃあ/言やあ」などかなり崩れているのもあり特に「言やあ」の変化バリエーションは標準形からかなりかけ離れているので語形変化に柔軟についていってくれれば良いのですが、なにしろ解析メカニズムの方針がまだ固まっていないのでここでは例を挙げただけでとどめておきます。
いずれにせよ莫大な未知語の可能性のある終助詞への対策は難航しそうですがここでの試行錯誤で各活用形からの接続パターンをうまく整理して汎用的に終助詞全般に対応できる枠組みを作っていければなりません。
これは今後の課題ではありますが今回の用言全般、あるいは終助詞にしましても構文解析的には文の収束、なにがしかの叙述要素を漏らさず検知して組み立てとして文構造の把握が文字通り"消化"できるように、
また文章の末端において"未消化"の異物(未知語)が居心地悪く残留してしまうことの無いよう不断の注意を払うことが肝要であると思います。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新語・造語・未知語の入力上の待遇① カタカナ語・ひらがな語

2020-03-04 | ジャンル横断的な問題

日本語入力をするうえで避けて通れないのはかな漢字変換エンジンの処理には常に想定可能なお行儀のよい語句ばかりで構成されているのではなく解釈困難な入力文字列が放り込まれることが往々にしてあること、これを念頭に入れておかねばなりません。
システム辞書にないワードや活用表現は最新の新語造語ばかりではなく既存の語が組み合わさって複合語をなす例なども含めれば新旧・硬軟ところかまわず無尽蔵に出てきています。
ペンタクラスタキーボードではそのような未知語や造語と対峙していかねばなりませんが今回から数回にわたってさまざまなタイプの未知語・造語にあらためて焦点を当ててこちらができそうな対策をノートしていこうと思います。いわば未知語の棚卸しです。
第一回目の今回はカタカナ語・ひらがな語に着目していきたいと思います。

まずざっくりな物言いで申し訳ありませんが、未知語と言ってもいろいろあるでしょうが概観してみますと「--する」サ変活用の未知語は語尾の「する」や[便利キー:し]などのヒントからサ変未知語の見当をつけることはそんなに難しくはないと思います。
また同じく用言の「--る」のル形動詞、これも新語造語でありそうですがこちらは別口入力の[○R][×r]のマーキングがあるので各活用形に対応することはできます。
そして別口入力「だ」「でs」は形容動詞文でもコピュラ文であっても末尾を「だ」で締める分には語幹部分は分離できているので無理に変換できなさそうな場合はカタカナ語に解釈してしまっても差支えなさそうです。
「だ」と並んで連体修飾の「--な」はより明確でカタカナ造語に相性が良さそうですし、「--である」「--になる」「--となる」等の定番表現においても「で」「に」「と」各助詞にはマーキングがついているので素性はわからなくともカタマリ感は保ちながら表記さばきをすることは問題なさそうです。
このように用言・活用のある語で未知語が生じてしまうときには別口入力の助けもあって案外イレギュラーにも強そうな感じがします。(もちろんこのほかにも周辺の付加活用だとか付随する助詞などもヒントになります)

そして副詞については新語造語の類はもとより出現率は低そうですなのですが副詞は活用的でもなく加えて「と」「に」「て」を伴わない"助詞抜き配置"が悪さをしてチャンク把握が困難になる要因ともなるので文解析においては副詞の検出を最優先にやっていくという方針もあってか「未知語見逃し」が比較的起こりにくいと考えます。
ただ数は少ないですが「ほぼほぼ」や「ワンチャン間に合う」「とりま会おうね」みたいな新語もありますし、オノマトペ副詞の新語が生み出される可能性は常にあります。
それと副詞とは微妙に違うかもしれませんが「スコア記録してみた」「カブリバ引退か」みたいな導入部の叙述誘導成分(私はこれをアジェンダ名詞と呼んでいます)のはたらきも助詞抜きという意味では扱いが似てくると思いますので現在分解能向上のために研究している分野でもあります。

カタカナ未知語が一番存在感を発揮するのは何ぞな導入的カタカナ語(例:インクルーシブな社会)であるとかそれこそ固有名詞の宝庫・キャラ名や技名(例:インシネーターを撃つ)などがあるかと思いますが、
ペンタクラスタキーボードではでにをは別口入力が効果的にチャンク切り出しを際立たせてくれているので流石に助詞抜き接続のような要警戒なものでなければもし助詞間に挟まれた未知語が出現したとしてもそれを一律にカタカナ語に解釈・変換してしまえば無茶な誤変換を繰り出すよりも穏当に"放置"できるのではないかと踏んでいます。
ただしこれは乱暴な見立てとなる危うさも秘めておりますが(汗)。未知語の二大巨頭となるもう一方の一角、漢語複合語の存在はどうなってしまうのでしょうか?
これについてはまだ全貌はつかめてはいませんが音素・音韻的な特徴を見極めたうえでこれを援用していこうではないか、との目算を立てています。
具体的に言うと2拍漢語の音読みの2音節目はイウキクチツンのいずれかで終わる、のような法則であったりミュやファのような音やー(長音)つづりの音はカタカナ語である可能性が高い、
あるいはフォスフォフィライトを府ぉ周布ぉFILA意図みたいにモーラを変な切り方をする(一単語チャンクは掴めているのに異字種が混在することも含めて)ことは不自然に感じる
…などの字面からの情報でまずカタカナ語と漢語複合語のスイッチは未知語処理前段段階で区別がつけられそうなのでどちらかに決まり次第各個のチャンクをローカル処理していけば良いはずです。(うまくいけば)
ここではデフォルト解釈をカタカナにしてありますがここで大和言葉の語感を活かしてひらがな表記にしたいのであればここからの追操作で字種切り替え[かな]キーを押して追補的に目的の表記にたどり着く…このような形を思い描いています。
先程の音韻パターンによる判別が首尾よくいくのなら大方の未知語の受け皿として最後に落ち着くのをカタカナ語としてしまうのはわりと無理筋ではなくユーザーのフラストレーションも少ないように思います。

あらためて思うのは別口入力の隙のない活躍で区切り解釈の困難性はひとつのブレイクスルーを迎えている、という認識であります。
もちろん漢語複合語は最後の難敵でありますが、音韻パターンの援用だけでは少し心許ないもののそれに加えて別口助詞の境界明瞭化により不本意な区切りリスクが大分軽減されており少なくとも異次元からひねくり出したような無理やりな漢字変換というのは原理的に起こりにくくなっているのではないでしょうか。
長々とした未知語ももしかしたら局所的検出の見落としで一部漢字変換でき得るものの語片が埋没してしまっているケースもあるかとは思いますが、それならそれで別口入力ハ万で接辞部分をFixするなり粒度操作で「近視眼的食い気味粒度」に捕捉をリトライすることもできますし、なんなら[の][の]代表変換あるいはトランス音訓変換を使って漢カナ異字種混淆複合語をこちらからビルドすることもできます。
くわえて「バイきんぐ」みたいにカナかなハイブリッドな語も[かな][カナ]キー連続押しで末端微修正をあてる手もあります。
また、まだコンセプト手探り中ではありますが「アレンジ・リテラル・ハンド」でチャンクを一文字単位で中途注目しながらの文字列編集も用意してあるのでオールカタカナでもない~完全漢字複合語でもない曖昧な領域の未知語に対してはこうして見るとわりと豊富に操作手段がお膳立てしてあるかと思います。
考えてみれば編集注目ポインタが一文字単位のキャレットの移動だけにとどまらす、ペンタクラスタキーボードではでにをは助詞を「飛び石移動」してのチャンク単位での移動注目動作がキャレット操作と同等かそれ以上に手近なキー操作(盤面下方部≪、≫)で取り回しできているのでひとかたまりでの字種変換、粒度変換、末端変換、中途部変換がシステマティックに全機現していることは強調しておきたいかと思います。
これらの動作は接辞にしても近視眼的粒度にしてもこちらからワンクッション介入してから出す文字操作ですので、逆を言えばこちらから積極的に漢字化していかないのであれば無理には漢字変換せずにデフォルトをカタカナにすることが"期待できる"作りになっており
端的に言えば「種ヴァルグラン」や「あの手ー書ん」みたいな変換は出さないようにしよう、ということであります。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする