P突堤2

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

初めて訪問された方へ

P突堤2へようこそ!
キーボードの配列・機能の説明はこちらです。
お知らせや補足事項なども表示してあります。

チャンク自明化に悩んでいる

2023-09-04 | ジャンル横断的な問題

この記事はとても人様に見せれるようなものではないのですが、自分のとっ散らかった考えを整理して道筋を立てるところまではいかないだろうけれど
材料をとりあえず横並べするだけでもめっけもんくらいの気持ちで書き連ねてみようかと思います。
いわば自分に向けての備忘録です。読み物記事を期待されていた訪問者の方にはすいません。
手数は多く!アウトプットを自分に課していけば何らかの補助線になっていくでしょう!
そんな調子で始めていきたいかと思います。

ペンタクラスタキーボードの作法で一大中心に据えたいとずっと考えているもの、それはテキストに対する適切なアノテーションの実現です。
ルビと音声アノテーションは別物で考えなくてはいけません。
ルビは熟字訓やあて読みのように推測のつかない字面からでもよみを生成する必要があります。
当然、文字一文字区分が正確に読み要素とシーケンシャルに1対1対応するものではありません。
あとは「悪ぃ悪ぃ」わりーわりー、「買うてきて」こうてきて、
のように口語や方言などからくるちょっとした逸脱、これも律儀によみを振ってやらねばデータとして完成しません。
私は最初、名詞チャンクであれば助詞で挟まれていれば「でにをは別口入力」のマーカーがあるので切り分けしやすいだろう、名詞チャンクだけルビ対応にすればいいかな?
なんて軽く考えていたのですが、俯瞰して漏れがないよう場合分けしてみると、「チャンクのクラス分け」という問題が図らずも持ち上がってきました。
未注釈のチャンクにはわかりやすい名詞チャンクだけではなくて、当然叙述部分の活用や派生がややこしそうな述語チャンクにも対応しなければならないですし、
IMEの構文解釈として「副詞ヴァージニティ」という名を冠した叙述の前段にあたる部分も処理面からいって別枠として待遇してやらねばならないものもあります。(マクラチャンク)

あとはチャンク部分として認識できたとしても、文字列削除によって断片化してしまったときに突然素性のわかっていたチャンクがキャンセルされ
一度断片が欠けるとまるっと一から未注釈チャンクへちゃぶ台をひっくり返すごとくの台無し局面を迎えることになってしまいます。
これは悩みます。
なんなら、中途半端な削除をシステム上許容せず、言いさしの部分でさえも
「知ら…」(知らない、の言いさし)
というように補完形を抜かりなくアノテーションしたうえで断片化させる、なんて想像もしたくないような厳密性をユーザーに強いる事さえ視界に入っています。
とはいってもまあ、もとより短縮語や漢語連結の合成語とかでさえろくに対応できる目途も立っていないのですけれどね。
ただできるだけ出所不明のチャンクが無尽蔵にタイプされてしまうことを抑止して、不明にしても何らかの所属復元ヒントくらいは施していこうとシステム的に型にはめていく、
そういったアフォーダンスを促すインターフェースを目指していこうというのは大枠として方向性はもって設計していこうと思っています。
つまり全体としては、すべてのチャンクを自明化していきたい、ということです。
そのために作ったアノテーションタグ(アノタグ)キーもひょっとしたらひとつでは足りなくって、またいろいろと試行錯誤するはめになるかどうかもわかりませんね。
いかんいかん、いたずらに物事を複雑化して考えていくのは良くない。オッカムの剃刀という言葉があるではないか。
もうすこし、与えられた材料のみで足掻いていこう。そしてしばし沈思黙考。

というところで、もうすこしルビについて深掘りしていこうかと思います。

近年では一時よりもルビの振ってある書物が減ってしまった、なんて嘆きも聞かれますがペンタクラスタキーボードは印刷物としての物理閲覧にそれほどこだわっていくということではなくて
Web環境、デスクトップ環境で表示の用が足せればいいという割り切った考えを持っています。
あとは多岐に渡る絵文字の種々のもの…これもかな漢字変換候補提示にリソースを食われてしまうのを嫌ってP陣営の文字コード体系ではサポートしない、ハナからコード体系は別物、
それに絵文字は読み上げの負荷も一段上げてしまうことになるので、文意に重畳的にニュアンスが積みあがったしつこい読み上げや、表記上の装飾的で連続的な羅列も望むところではない
など、目視閲覧ではないデバイス機能的閲覧をトータルで考えて必要とされる要件を再構築していきたいと思っています。
読み手の観点からすると物足りないでしょうが、文字表現そのものの充実よりも、単語単位でのアノテーション情報やセマンティクス情報、翻訳時のノーションなど
文書全体からくる立体的な情報の注釈、とくに検索露出やワード流通経路におけるスパム排除、そして個人情報の適切な管理のもとにおいて情報の信頼性を担保するユーザープロファイルサインの強化
場合によっては個人のIME練度の文書価値への反映や闇雲なトレンド列挙の規制と同時に有意列挙の適切な評価、ときにはペナルティーをも課す文書スコアリング
…などなど単に"ルビ"以外にもキャストしたい情報がてんこ盛りですのでそういったものをルビと並行してダブルトラック/トリプルトラックで走らせる何か良い記法はないのかと考えを巡らせているところであります。

物理書籍でこそ総ルビ化は望まれるところかもしれませんがコンピューターはUIレスポンスというのがあるので
ここは思い切ってポップアップや選択読み上げの地位をもっと上げていって代替的に活用させてみてはいかがでしょうか?
ルビをユニバーサル環境で使えるようにするのは難しい。レイアウトの問題もある。Webページの再現性が根底から崩れてしまう。
という懸念が依然としてあります。
レイアウトには短尺文字列に長尺のルビを振る場合表示領域が納まりきらないという問題や視覚弱者にとって細かすぎる文字の読字困難やそもそもルビと注語部分が接近しすぎていると一体のものに見えてしまうという認知構造的問題もあります。
ルビの運用は個パッケージなら完結できると思いますが汎場面的にあまねくルビ環境が整うというのはやはり困難で
ここはデバイス単体での使用場面というのに限定して表示の用を追求していくというのが当ブログの方向性の見解であります。
ただ使用場面においては教育・プレゼンなどの場面において1対Nでそれぞれが端末を手にしてタッチナビゲーションやマウスナビゲーションなどの操作によっても個々の環境でルビ確認やアノテーションサポートをめいめいのタイミングで享受できるような統一性というのも考慮に入れていかなくてはならないと思っています。

いずれにしましても、ただのプレーンテキストにできることには限界があり、ルビやアノテを織り込むべく風通し良くマークアップされた体裁でないとこれらのインターフェースはとても実現できそうにありません。
どのような記法をとるのか仔細は全く見えてはおりませんが、ペンタクラスタキーボードの作法においてはいっそのこと「プレーンテキスト」というのを根絶して
テキストエディタ上はもちろんのこと、検索フォームの窓の中に放り込む文字列から、スプレッドシートのマスに入れる小項目でさえもリッチテキスト化して
出来上がった文書にも恒久的な評価識別子を埋め込む…などなど独自の立ち位置からでしかできない運用を頭の中に描いています。

Alt属性は画像に注釈(代替テキスト)を入れることのできる機能ですが、Title属性で画像のほかにもテキスト部分にポップアップをあてることができるやつ、あれはどうなんでしょう。
やれルビだ、音声アノテーションだ、検索識別子だユーザーIME練度だ、
…などを盛り込んでいくとこのあたりを風通し良くしないと不具合必至ですねぇ。
テキストファイルを拡張していって”コンテナ”と呼ばれる一単位にまであまねくリッチテキスト化していこうという私の目論見は現時点では全く見通しが立たないですね。
あとはコピペモビリティの問題もありますし。

ルビにもいろいろあって、P作法で実現するとしたらまあポップアップで出すか読み上げ時専用のミニウインドウによみを書いておくかやり方はいろいろあると思いますが、
特殊パターンとして
・ひらがなベースに漢字ルビをつける(逆パターンルビ)
・漢字ベースに英語ルビをつける
・韓国朝鮮語の漢字語に全部漢字のアノテーションをつける
などがあると思います。

このときはユニバーサル環境でこんな複雑な記法を布く、日本語でできるのだから多言語間のアノテーション記法の整合性も破綻なく布けるではないか、といった幻想は早々に捨てるべきと考えます。
言語-言語 間のトランスもない ドメスティック書式に異言語は埋め込みとして入るだけ あくまで日本語環境の中でだけ実現できていればいいです。
韓国朝鮮語の漢字語に全部漢字のアノテーションを付けてくれるツール は日本オリエンテッドとして日本語の枠内でやってしまう。
もちろん韓国語オリエンテッドでやるのもいい ただドメスティックはそれぞれのお国事情に任せるということ 標準化が至上ではない。ということです。


ルビ以外で外せない単語の接続情報に関する記法もありました。
高次 N-gram を用いた形態素解析の研究.pdf (村上仁一 NTT情報通信研究所)
という文書に興味深い区切りの分け方が載っていたのでメモしておきます。


│:接辞境界       くるまやラーメン くるま│や+ラーメン
+:単語境界       あさひだるま  あさひ+だるま
%:アクセント句境界    お好み焼童子 お好み焼%童子

ペンタクラスタキーボードの作法には三属性変換で接辞に関するマーキングも埋め込まれていますし、漢語複合語には独立部分と依存部分の見極めも難しいです。
アクセント句は読み上げアノテーションのときに境界分解能があれば助けになります。
この分類方式でそのままペンタクラスタキーボードの作法に組み込めるというわけにはいかなそうですがエッセンシャルな情報が含まれておりとても参考になりました。


そして最後にまたまたキーボード盤面をUPしていきたいかと思います。



ペンタ トルフィンs

(画像をクリックすると別タブが開いて拡大します)
【ペンタクラスタキーボード 図案】

今度のヤツはほぼ最終形と見込まれるものであり、読み上げの重要性に鑑みて盤面中央部に
「アノテーションキャンセル」
というキーをしつらえてあります。アノテーション作法のUIを厚くさせるためにこちらが主題で第一義的な名称です。
しかしアノテーション操作も毎回というほどではないし平時に遊ばせておくのももったいないので
こちらのキーを
「読み上げ開始」
キーとして兼用で使っていきたいかと思います。
キー名称としては、あくまでも「アノテーションキャンセル」ですのでご留意してくだされば幸いです。

長々となってしまいましたがこのへんにしましょう。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

同一文面で解釈が割れるフレーズ

2023-08-21 | ジャンル横断的な問題



ペンタクラスタキーボードでは単語をチャンクと捉え、字面だけのテキスト情報で済ませてしまうのを良しとせず、
さまざまな注釈をほどこしてたとえばルビ情報であるとか音声読み上げであるとか同字異訓の読み分け(つらいとからいが区別できる)、
アルファベット英文の全文ではないとしてもプロダクトやコンテンツタイトルのフレーズやASAPなどの定型句を「あずすーんあずぱっしぶる」と素朴に日本語発音で読ませたいような音声アノテーションが実現できればいいな
…などとあれこれ妄想しています。
その中で実現性を模索しているインターフェースが「文化変換」と「音声による即づけアノテーション」「タッチ液晶のサジェスト候補」「アノカッコ編集による自力付与」を主に練っているところであります。
見慣れない用語を連発してちょっと引かれてしまうのも無理ないですが、無理を承知でひとつひとつ解きほぐしていきたいかと思います。

まず文化変換なんですがこのキーは盤面上部に備え付けられてあって
通常の変換では出てこない固有名詞(地名や商品名をはじめありとあらゆる標準収録されづらい語句)をカバーするキーです。
このキーは疑似的な予測変換も兼ねていて通常、ショートレンジで数文字入力しても標準タッチ液晶には予測候補は出てこないのですけれど
このキーで「予測呼び出し」をリクエストすれば長尺で入力が疲れる文字列の補完や正式名称などをサジェストしてくれます。プライバシーに触れないものにおいてはクラウドから変換候補を引っ張ってきてくれることを念頭に置いています。
登録辞書にない時事ワードや注目ワードなどを補完してくれることを期待するほか、一般語彙と固有語彙が兼用化している語句を明確に住み分けできるようにする仕組みとしての効果を狙う、
あるいは通常入力に質の悪い短尺の固有名詞が誘発発動してしまってノイズになることを避ける、などの利便性を向上させるものです。

たとえば通常の入力で「遠藤」とタイプしてもデータとしては字面だけでマッチしてしまい一般的な名字から相撲力士の遠藤まで全部ごちゃまぜでサーチを拾うことになってしまいます。これでは効率が悪いです。
なので文化変換で出される候補は自動付加的に
「遠藤(力士)」と提示され
と範疇情報を加えたアノテーション込みのデータで格納していきます。
通常入力で得られた名字の遠藤さんについては付加なしの"無標"でいくのか、「遠藤(人名(姓))」とするのかの判断は今は保留することとします。
この要領でいけば
「Tile(探しものトラッカー(アプリ))」などのようにアルファベット由来のものであっても弁別可能性がありますし、このTile(タイル)というような一般名詞が固有名詞化している立ち位置のものを慎重に区別することができます。
あとさらには
「アイドル(推しの子OP)」みたいに
埋もれやすい一般名詞との混線をアノテーションすることで話題を絞ることができユーザーは目的の範疇にたどり着きやすくなります。
問題はYOASOBIのアイドルなのか推しの子のアイドルなのか範疇代表性のチョイスが整合性を保ったままルールを確立するのが難しいということであります。
この問題については今後の課題とします。



次に「音声による即づけアノテーション」です。
通常、ユーザーからの入力は辞書内にある単語であるかせめて文化変換でクラウドにあるものを流し込めればシステム上は都合がいいです。(アノテーション管理からいっても)
しかしオリジナルな表現でどの辞書ソースにも該当しない破格の単語もあることでしょう。あるいは短縮語や英文の頭字語や漢字のあて字などもあるかと思います。
そんなときいささかウザイのを承知で提案しますが、
「入力中に未知語を検知すると自動でよみや抑揚や略さないときのお題目は何か、を説明を要求しユーザーに音声でデータ提供を求める」即時機能
というのを走らせる、というのはどうでしょうか。もちろんユーザーはマイクやインカム常時装備、というのを前提にしていますけれど。
未知語の正式な読みが取得できるのもうれしいですし、補足情報も得られるし、初回だけ登録すればあとは学習してくれます。
読み上げ情報やルビ情報にも大いに寄与します。
抑揚の取得が特筆すべきところで多少のノイズや地方差はあるかとは思いますが全国のユーザーから集められた音声情報が解析・集積される過程において
全てのデータを集積したうえで"平均フォニックス"を生成して
生データとしてではなく、記号的にフォニックスを標準化してデータとしてイデアル(理想的)に扱いやすくコンパクト化して格納できる、これが実現できれば
アニメ「リコリス・リコイル」キャラの千束(CV;安済知佳さん)のアドリブボイス
「もしもしもしもしー」のセリフ
も標準化された音声データとして整形され、あの微妙な抑揚も読み上げソフトでバッチリ再現される世界がやってくるかもしれません。
問題は編集上、字の一部を削除してしまったときの残骸の扱いに困るということとコピペモビリティの保証が難しいかもしれない、複合語などの解釈も盛り込むときりがないのではないか
など問題は山積みでありますが頭の痛いところです。
さらにユーザーにはちょっと厳しいですが、ユーザーが音声アノテーションに協力してくれなかったときは、その単語は未達未知語とみなされその語句を含む文書に低いスコアが与えられる
たとえば検索エンジン上での順位が下がる、タグ検索で引っかからない、読み上げのとき読んでもらえない、単語登録に何らかの制限がかかる…などなど
ついでに言えばP陣営のエコシステムではユーザーの力量を評価し個人のIME練度をサーチャビリティに反映させる方策を探っているのでその面から言っても不利益をこうむります。
IME練度については興味深そうな話題がいろいろ出てきそうですがこの記事においては軽く触れておくだけにとどめておきます。



つづけてこの記事タイトルでも本題の内容を含む「タッチ液晶のサジェスト候補」であります。
この機能はメイン画面でのかな漢字変換ナビゲーションでカバーしきれない変換の勘所を、手元のタッチ液晶で適宜、あると助かりそうな候補を表示して
表記のこだわりをワンタッチで選択できるなどであったり、あえての忌避候補をここで捕縛して明示的に地雷候補を踏まないように通常変換での干渉ルートをあらかじめ断つというギミックも兼ねています。
その中でも日本語の枠内ではどうしても区別できない、文法構造の盲点とでもいうような「1つの文で2通りの意味に解釈できるような文」
についてタッチ液晶でなんとか手当てをすることができないか、三属性変換や通常変換の良さを毀損せずに独自の抜け道はないかと模索しているところでもあります。

ここで一例をあげてみると
・私の部署はまれにログインする人をピックアップしていた。
という文には
(私の部署がまれにピックアップする)のか
(「まれにログインする人」を対象にしている)のか
副詞のかかりで解釈が割れてしまう、ケッタイな文であります。
こういったものをタッチ液晶の提示候補で、「まれにログインする人」を入力完遂した時点で表示画面のすだれ部分に載せてあげればユーザーは念押しでそれをタッチして
「まれにログインする人」を規定チャンクとしてひとかたまりで認識することができ、
逆に特にタッチ選択をせず通常変換の解釈に委ねるのだとすれば、通常変換には「副詞ヴァージニティー」の検知を優先させる「通常変換バイアス」
…というメカニズムがはたらいているので「まれに」は直前の「私の部署」を始動因とするなにがしかの用言・叙述が連なる、と解釈するのです。
とまあ係り受けの文構造はこれでいうよりもっと複雑で構造化も難しい感触がぞわぞわするので、にわか仕込みの学問でこれ以上あれこれ言及するのは自重しておきます。

ただ理屈はどうあれ、「1つの文で2通りの意味に解釈できるような文」は素材としてとても興味深いところですので
せっかく集めた収集例を死蔵させておくのはもったいないので画像・テキストと両方用意しましたのでよかったら見ていってください。
リンク/引用ツイートも大歓迎です。
以下にあげておきます↓

【同一文面で解釈が割れるフレーズ】

・ずたずたに引き裂いてくれる(やりもらい表現/古風な煽り)
・これ、おいしいですわ(お嬢様/関西弁)
・ついていけるかな~(挑発/不安)
・人の嫌がることをします(悪ふざけ/率先垂範)
・やらなくてよかった(なでおろし/後悔)
・いただけない(ネガティブ評価/固辞)
・すぐれませんか(劣位確認/体調が悪い)
・持ってるね(所有保持/強運)
・どうしてしまわれたのでしょう(収納への疑義/尊敬)
・絶対揉めるぞ(トラブル/おっぱい)
・嫌らしい(伝聞/厭らしいの変種)
・少し黙ってようか(投げかけ/自己方針が揺らぐ)
・二次創作になります(バイト敬語/変化・移行)
・標準時(タイムゾーン/標準状態のときに)
・シャボン玉とんだ 屋根までとんだ(着点/累加)

こういったものをユーザーが選択指定できることはテキスト文意の解析や翻訳に大いに役立つと思います。
タッチ液晶の表示面積が限られてくるので領域資源をいかに確保できるかがカギにはなってくるかとも思いますが
あるいは「音声による即づけアノテーション」と同じような発想で選択を促すインターフェースを音声で応答するのもいいかもしれません。


さて最後になりますが「アノカッコ編集による自力付与」になります。
これはペンタクラスタキーボード独自の括弧記号でアノテーション・括弧「アノカッコ」と呼びます。

の画像で表わされます。
これらは前3者の場合のように作業の流れで成り行き的に出てくるタイプのインターフェースとは違い
ユーザーが意識的にテキスト中に付加して明示的にタイピングしていくものであります。
今までの例では未知語であっても予め音声アノテーション促しが起動したり文化変換ならクラウドから探索できたり、察知のしようもあったのですが
あいまい用例は前もって察知できるほど綿密なものでもないし、用例構造から解析したうえで推定してサジェスト提案まで首尾よくもっていけるかどうかもわかりません。
そこでそういった手がかりのない状態からでも注釈をほどこせるように自力で付与するということであります。
文化変換のように範疇という切り口もあるかもしれませんし、あいまい用例のように双方提示という見せ方でアノカッコを使うのもあるかもしれません。
あるいは クール(様態)/(期間) といったようにテキスト生成時は面倒で付与できないでいたとしても
検索やQ&Aなどのクエリのときにはきちっとニュアンス区別したい…といったような限定的な使い方や
イキガイ(カナ表記) のようにカナ表記であることをことさらに注記したいといった言外のニュアンスや
米市場(アメリカ/お米) のようにルビや読み上げが抜けても手がかりを残しおきたい
(ソクリーン/ソックリーヌ/ソクリーヌ/ソキュリーン:表記ゆれ) のように何個も表記ゆれがある場合善意でMECEしてあげるノートとしての活用

など、アノカッコを挟んだ記法としてはさまざま切り口があるかと思います。(記法の詳細についてはまだ手付かずです)
なお、この括弧についてはプログラミング言語であるとか創作物や定義表現などで新しい用法として使っていこう!という向きもあるかと思いますが
この記号はPエコシステムのウェブ言語資源の活用(検索、ネットコミュニケーション、IME練度のスコア、話題叢データベース)
に限ったものとして使用していくことを推奨したいです。
(使ってもいいのですが本来の使用目的が侵食されて不自由になってしまうリスクを恐れている)
なので差し出がましいのですがたとえ便利であったとしてもそこはそれで、別のプラットフォーム、別の記号体系でやってもらえればありがたいです。

◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆


さて、長くなってしまいましたが
総じていえばアノテーション付与は人類史上の文字表現の進化のロードマップをなぞるものであります。
はじめに話し言葉があって
やがて書き言葉が生まれて
それがデジタルになってリンク参照や音声読み上げが利便性を豊かにして

それを進化させてもっと読み手や伝達経路を考慮して親切なガイドをつけてあげる
…こういったいとなみを

「アヤアむ」
という動詞であらわしていきたいと思います。

ペンタクラスタキーボードのインターフェースは「アヤアむ」ことを最優先に据えた操作体系・物理配置にしていきたいと思いますので
今後もどうぞご期待ください。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

VOICEPEAKの苦手そうな文字列を憶測であれこれ探ってみる

2022-03-06 | ジャンル横断的な問題

合成音声の読み上げソフト『VOICEPEAK 商用可能 6ナレーターセット』が3月11日発売されます。
昨今の音声合成ソフトを使った実況動画や解説動画などのコンテンツの盛り上がりはすさまじいものがあり
このソフトの出現でユーザーシェアの地図が大きく塗り替えられていきそうな予感がします。それくらい大きなインパクトです。

AIを使った自然な読み上げに加えてユーザー辞書への新語登録やイントネーションの細かな調整などがおこなえるようになっている充実した機能
…あとはなにやら直近の文脈を受けて同じ言葉でも抑揚を変えて発声するメカニズムなどもあるそうで
このへんは日本語入力の枠組みから言ってもペンタクラスタキーボードを掲げるぴとてつにとっても関わりの深そうなトピックであります。

今回は私が以前から素朴に思っていた、発音と表記の不一致:コンピューターでテキスト読み上げする際にどんな不整合が起こるのかという問題に思いを巡らせてみたいと思います。
技術的な事はよく分かりませんがまずは過去に収集した事例をとりあえずちゃぶ台にのっけてみてそこから新たな展望を開くための材料作りにつながればいいな…との思いで試行錯誤していきたいのでVOICEPEAKの情報が目当てで訪問してくださった方にはミスリードをしてしまったかもしれませんがご興味のある分野でしたら訪問者の方もこのまま見ていってくれたらうれしいです。

--------------
まずエンターテイメント作品や作者名・アーティスト名などの固有名詞には個性的な読ませ方をするものがかなり多いので検証事案になりそうなものをとりあげていきたいと思います。
ここで念を押して断っておきますとこの記事で取り上げる事例はあくまで憶測であって実際のソフトにおいての挙動・動作をこうですよー、無調整時はできませんよーと断言するものではないということをご了承ください。
個々のスペックではなくテキスト読み上げ時につまづきそうな事例あるある、分析視点群の風通しを良くするためのガイドなのですよ、という趣旨でやっていきたいと思います。
実際の動作についての質問についてはお答えかねます。メーカーWebサイトやネット上での各自情報収集をお願いいたします。

それではまいりましょう
音声読み上げソフトでこれらの文字列はちゃんと読めるのか?

【検証事案:作品名・作者名・アーティスト名】

・STYX HELIX(ステュクス へリックス)
・黄金聖衣(ゴールドクロス)
・ペガサス幻想(ペガサスファンタジー)
・聖母たちのララバイ(マドンナたちのララバイ)
・涙そうそう(なだそうそう)
・この勇者が俺TUEEEくせに慎重すぎる(この勇者が俺ツエーくせに慎重すぎる)
・超訳百人一首 うた恋い。(超訳百人一首 うたこい)
・町中華で飲ろうぜ(町中華でやろうぜ)
・花の都に虎われて(花の都にトラわれて)
・花より男子(花よりダンゴ)
・モノノ怪(モノノケ)
・センセイ君主(せんせい君主)※先生のほうではなく専制君主のほうのせんせいで発音する

・あfろ(アフロ)
・時東ぁみ(時東あみ)
・関ジャニ∞(関ジャニエイト)
・Aぇ! group(エエグループ)

…固有名詞には対応するのは難しそうですね。このへんは辞書の充実具合であるとかネット流行語の定点観測が必要になってくるとは思いますけど。
あとは事情はよく分からないのですが英語系の読み上げソフトなどでは母音の前のtheのジとザと読み分けはどうなっているのか興味があります。
ペンタクラスタキーボードの最新のコンセプト案では、各種変換キーとは別に「文化符丁変換」というキーをしつらえてみたところですのでこういった特殊語辞書を分離管理運用するためにちょうど都合のいい仕様なのかもしれませんね。
たとえばこういったカルチャー関係のものは別途課金のDLCみたいに切り分けて運用したいのであれば最初から専用キーを作っておくのも理があります。
三国志の武将名とかであるとか若者ことばの短縮語などは漢字音の事情や短尺だったりするのが災いして通常変換に組み込むと妥当な変換候補を喰ってしまう懸念がありますのでこうやって明示的に分離しておくのも有効な手段だと思われます。
その他には「艦娘(かんむす)」「モー娘。(もーむす)」みたいに略語や人名などで訓の語頭一部音だけで端折ったりする傾向がみられるのでこれらも通常変換でさばいていくのは難しそうであります。
さらには
BOØWY(ボウイ) ORβIT(オービット) AᗺBA(アバ) TЁЯRA(テラ)みたいにアーティスト名には特殊記号・表記を駆使した個性的な名称のものもよく見られます。最近では大文字小文字混在のアルファベットのものも多いですね。
アルファベット派生界隈には表記と音の一致する素朴な読み方というのは探す方が難しいくらいですから読み上げの引き出しを単純に増やすしかなさそうですのでこれは頭の痛いところであります。
アーティスト名以外でいくと
・Gen Z(ジェン ズィー)
・SoC(ソック)
・LDAC(エルダック)
・SIer(エスアイアー)
・HACCP(ハサップ)
などに至るとこれはもうお手上げです。

数字や単位などを含むさまざまな切り口としては
・1TB(いちてらばいと)
・数学ⅠA(すうがくいちえー)
・中山10R(なかやま10レース)
・S高(ストップ高)
・Cロナ(クリスティアーノ・ロナウド)
・帰れま10(かえれまてん)
…これらの読みの多面性のある字面に対して、どこまで読み可能性を補完してやればよいのか適正なな掬い具合というのがまだよくわかりません(処理負荷の面から言っても)。

ところで、接辞に関して言えばペンタクラスタキーボードの三属性変換でせっかくマーキングをしているのでこれを何らかの形で活かしていける方策というのを模索しています。
たとえば
自治(単体) 自治っぷり(接辞付き)
の両者ではあきらかにコンテキストによる発声の違いというのがみられます。変化の作用している部位は接辞派生語の語幹部分であります。
こちらと混同しやすいのですが対照的に
性の悩み(単体) ツル性植物(接辞での使用)
のように語幹ではなく接辞部分そのものがイントネーション変化をおこしている場合もあります。
発声抑揚決定のメカニズムの全体像というものはまだ把握してはおりませんがこれらの中から定型的なパターンを見出して
・返り血/返り値
・不向き/腐向き
などの微妙なイントネーションの違いを接辞情報から推測する手立てが可能になるかもしれません。
これは文書→読みのプロセスだけではなく入力ライン→表記ラインのプロセスにおいても応用が広がるということであります。特に連濁がらみの読み決定に力を発揮するでしょう。
適用は接尾辞のみに限られたものではなく、たとえば
・カマトト(単体) ビジネスカマトト(接頭辞での使用)
のように接頭辞の付加で抑揚の変わるものもあり拙者もいまだ探索の途上にありますので今後も情報の整理収集をおこなっていきたい心づもりです。

さらに接辞だけではなく複合語において解釈に多義性のあるものも視野に入れていきたいところであります。
たとえばイントネーションの違う
・日中連絡先(日中の時間帯の連絡先)
・日中連絡先(日本-中国間の連絡先)
のように規定要素が連体修飾なのか対象設定なのかの区別を求める、単に字面だけではなく語の背後にある意味素性/機能素性をあわせてマーキングしていくことの検討材料になればいいかと思います。

たとえば面白い言語現象として
「垢を落とす」のアカと「公式垢」のアカ(アカウントのスラングとしてのアカ)のように用法が違うものは表記こそ借りるものの発声では完全にアカウントベースの発音で運用しているものもありますし
「グラスワンダー(バ名)」のグラスも同じグラスワンダーなのに短縮用法(グラス)ではサングラス/ワイングラスのほうに寄せた抑揚に様変わりしてしまう現象(アクセントの平板化)も外せないところであります。単体グラスなのに「グラスを傾ける」のほうのグラスと差異を生じているのは発声ってホントに用法・文脈次第なんだな~というのを改めて再認識させられます。


まあ、なんだかんだで日本語のテキスト処理というのは全く異次元の困難性を裡にもっていますね~
今回の考察で学んだことは日本語には「text to speech」の段階よりもっと前に「input to text」「context to speech」の段階があるってことを深く痛感しましたよ。
そろそろ締めに入りたいのですがここから

【日本語の宿痾としての音声読み上げ困難性をもたらす事例】
辛い  …  つらい/からい
大人気ない … おとなげない/だいにんきない
得る   …  える/うる
弾く   …  はじく/ひく
大学生ら致される…だいがくせいらちされる/だいがくせいら いたされる
美人局員 … びじんきょくいん/ツツモタセいん?

をメモ的に記し、この考察のもとになったミニ記事(過去エントリ)も下記にリンクしておきますので興味のある方はご覧になって下さい。

ちくわパン 打線組んだよ リテラシー - P突堤2


VOICEPEAKはDreamtonics株式会社と株式会社AHSとが共同開発する商用利用も可能なAI音声合成ソフトです。
この春、きっと旋風を起こすに違いない!
音吐朗々(おんとろうろう)という四字熟語を覚えました。題材にさせていただきありがとうございました。

文字と音韻との業の深いせめぎ合いはこれからも続いていくのでしょうか?
逸脱を好む表記スラング勢と規範への収斂を促す音韻標準化勢との戦いの行方は如何に…

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

具陳なのかクリシェなのかを見定める(3)

2021-12-19 | ジャンル横断的な問題

勇気の枝豆、絶交のタイミング…なんだかトホホな誤変換ですがいまだに散見されます。
「有機」「絶好」ちゃんと変換されてほしいですよね。
ここで具陳とクリシェの話題に絡めていきますと「有機の--」「絶好の--」っていうのは一種のクリシェであって名詞を詳しくのべたて限定するところの[属性規定]なのですが
勇気の枝豆、絶交のタイミング(残念な方の例)というのは対象にあらたな属性を付加するような機能ではなく○○の××、体言と体言の単なる結びつきであって所有や所属、動作主体などのつながりを示す[関係規定]のほうであります。
こちらはフレーズの連続性というのを纏ってはいない個々の要素の継置であるのでこのトピックで言うところの"具陳"になります。

この他には
×母型の実家       ○母方
×奇襲のカリキュラム   ○既習
×抗議のサメ映画     ○広義
×不足の大渋滞      ○不測

…などがありますがいかがでしょうか、母方にしても既習にしても形容詞的に属性付与的に倚りかかるクリシェとなっています。
ただ単に自然な言い回しか否かというのではなく、構造的な観点:単なる格助詞間の連結ではなくて「の」まで含めての活用語尾としてのフレーズなのだという形容詞的側面としての特徴に着目すべき連体修飾だと思います。
いわゆる日本語文法トピックとしての「ノ形容詞」の考え方と大筋合ってはいるかとは思いますがノ形容詞の話題にはここでは深く立ち入りませんが亜種としてノニ状詞やナノ状詞などのスペクトラムな類型が種々細密に広がってきておりますのでここで浅学の身で申せる程度の見取り図を示しますと
具陳/クリシェのニ分的な分解能をもってかな漢字変換するときにこういった形容詞規定句の変換候補提示のときに正則(慣用的に用いられやすい)をクリシェ、そこから外れた(ちょっと違和感のある)特定具陳の解釈を三属性変換にまかせてインターフェースの動線づくりをしてやる、
…こういった企図から形容詞規定を捉えなおしてユーザーに提示していこうというのがこの記事の趣旨になります。
実のところを言うと[属性規定]なのかどうかという観点は重要なのではありますが例えば「奇襲のカリキュラム」はさずがに属性規定ではないなとの感触はあるにしても「紀州の梅」みたいに[属性規定]が適用できる重複領域というのがどうしても避けられず厳密に文法的定義から分類を組み立てていくのはどうも難しそうですので
上手い具合に[具陳/クリシェ]という評価手法がどうも包括性があってなかなかよろしいのではないのかという期待も込めてこのあたりを深掘りしてみようという結論に至った次第であります。

語彙の結びつきというのをつぶさにデータ記憶していくというのは現実的ではないのでこういった[属性規定]をもつのかもたないのかという素性を使って連接をさばいていこうというのは重要な考え方になります。
[属性規定]/[関係規定]の対立があるのはノ形容詞についてまわる留意点でありますが規定フレーズというのはイ形容詞・ナ形容詞・連体詞あるいは動詞の連体形での規定もあるのでここではそういった大きな構えで語り結んでいきたいと思います。
まあアレなんですよね、ノ形容詞だけは解釈上も語法上もひとつ踏み込んだ取り扱いというのが必要になってくるのでふんどしを締めてかからねばならないのが苦労するところであります。

ここでクローズアップされてくるのは、タッチ液晶のサジェスト提示のインターフェース、つまり予測変換の作法の中心に「規定句のクリシェ」をメインに据えてやっていこうという基本方針であります。
規定句の予測変換は例えば、
いうま(数文字をタイプ)→予測候補提示[言うまでもない]→選択タッチ→予測候補提示[話]→選択タッチ→形成文字列は[言うまでもない][話]という要領を得た滑らかな連接
のように後続の変換候補も絞られた候補のものが連接しやすく、連鎖的に連続押下できるという効用があります。
語彙にもよりますが一般的に動詞/形容詞の規定フレーズというのがこの流れにバッチリハマっていてまことに都合が良いのです。
もちろんむすびの体言が予測を越えた急転話題のものに連接するケースももちろんあるのですが同じ修飾でも連用修飾の先行き予測困難性に比べれば再現性の見込みが高い、特筆すべき文法的特徴であります。

ペンタクラスタキーボードのタッチ液晶面というのは、現在入力中のテキストをメインディスプレイとは別に同期表示してやるメカニズム、入力文を手元で確認できるようにさせるため液晶面の表示スペースのリソースの大半をそこに割いていくというのを前提にしています。
つまりそれ以外の、メイン用途のオマケ添え物である予測入力には満足な表示領域を割り当ててやるだけの余裕はないのです。
つまりスマホやタブレットの入力スタイルを単に転用してしまえば済むという単純な話ではありません。
ここにP作法においての液晶サジェストの場合に限ったいわば文法的角度のついた運用、タッチ液晶サジェスト候補の「選択と集中」が必然になってきているのであります。
そもそも物理キーボードのとりまわしだけで目的の変換候補に到達していくのが理想形でありまして
それでも補えない苦手領域の変換をタッチ液晶にまかせる、という弱点克服の意味合いもあるでしょうし
苦手は物理キーボードで根性でカバーしていきそれよりも用例学習の導線というインターフェース上のメリットを伸ばす、という長所強化としての役割分担に適っているかという視点
こうしたものを横糸に織り込んでいき縦糸のシンプル化指向の風通しの良さを両立させる
…いずれにしましても乱暴に言ってしまえば予測入力のサジェスト候補は固有名詞と規定句クリシェだけあればいいのだ、くらいのいきおいで思い切ってそぎ落としていく発想が出発点となっているのであります。

設計思想についてはこれくらいにして規定句フレーズのタッチ液晶サジェストについてもっと話を進めていきます。
規定句クリシェをサポートする用言には以下のものがあります。
・イ形容詞規定句のクリシェ(薄っぺらい話)
・イ形容詞連句規定句のクリシェ(悔いのない人生)
・ノ形容詞規定句のクリシェ(作り置きのおかず)
・連体詞規定句のクリシェ(悪しき慣行)
・動詞規定句(原形)のクリシェ(かさばる大きさ)
・動詞規定句(タ形)のクリシェ(飛び抜けた実力)
・動詞規定句(テイル形)のクリシェ(ボヤけている写り方)
・動詞連句規定句のクリシェ(小股の切れ上がったいい女)
・サ変動詞規定句(原形)のクリシェ(哲学する漱石)
・サ変動詞規定句(シタ形)のクリシェ(アレンジした曲)
・サ変動詞規定句(シテイル形)のクリシェ(侵害している書き込み)
・サ変動詞連句規定句のクリシェ(いい大人のする遊び方じゃない)

…などがサジェストされると望ましいです。ポイントは句にもならない単体の規定部品だけの対応だけではなくて、主述関係や修飾関係の句がすでに前段にあって規定の一角をなすフレーズであっても当意即妙に後続フレーズを補完できるようにすることであります。
確かに小股の…と入りばなする文字自体では厳密にはただの名詞であり規定には至らないものであるとの考え方も妥当ではありますが「小股の…」ときたら「切れ上がった」と補完してやりたいというのが人情ですし別に近視眼的に叙述フレーズの完結を待つほどの遠慮などは予測インターフェイスの性質からしてもそぐわないものです。
規定フレーズという適用範疇のなかでサジェストを絞っていくのだという方針を決めたのですからここは意欲的に"投機的変換候補提示"を狙っていこうというものです。
投機という言葉を使いましたが無計画に拾えたら儲けもの、ぐらいの感覚で候補提示のロジックを組んだのでは決してありません。
一応拙案なりにタッチ液晶サジェスト提示の勘所というのを意識して作ってありますのでそれなりの裏付けは用意しているつもりです。
記事も佳境にさしかかってまいりましたがここからサジェスト提示候補の「選択と集中」について紐解いていこうかと思います。

さて、予測候補サジェストというのはスマホやタブレット端末のように入力経路がタッチパネルからだけ、というように単一経路で一貫しているのであれば単に頻度情報・コロケーション情報などをもとにして連鎖確率の推定問題として処理していくのは常識的な事であるのもうなずける話ではあります。
しかしペンタクラスタキーボードの入力ではメインはディスプレー画面から、手元ではタッチ液晶画面からと二経路からのハイブリットな入力経路となっております。
したがって予測変換においても取るべきアプローチが違ってきます。
ペンタクラスタキーボードでロングレンジのの一括変換を旨としているのは、助詞や機能語のマーキング情報を入力文字列に適宜挟み込んでいくので文章全体の統語構造、論述構造の全体像をつかんだうえで判断できるという利点があるからです。
特に副詞(連用修飾)や文法顕性語にヴァージニティーというのを設定して優先順位を過敏に判定していきますのでその構えを崩してまでタッチ液晶入力ファクターの影響力を受忍するものであってはならないのだという事情があります。
それを織り込んでいった上で全体に影響を与えない、局所的で入力ストリームの中で継起的に取捨選択できる要素という制限をクリアしたP作法においての予測サジェストの様式というのを挙げていきます。

まず第一に、ノ形容詞に関しては属性規定に着目してピックアップをすることで余計な提示候補を減らすことができるということです。
地下の○○ / 地価の高い町
道の○○ / 未知のウイルス
家庭の○○ / 仮定の問題
のように、具陳の候補とクリシェの候補の両方の可能性があったとしてもはじめに属性規定のものだけを提示するのだと決めてしまえば期待を裏切られることがありません。
ユーザーは具陳でひらかれた連接、不特定の語彙に急転する関係規定のフレーズの探索をあきらめ素直にメインディスプレイの候補提示に従うという行動様式を獲得していくことになります。

第二に現代日本語ではイ形容詞、動詞においての連体形と終止形は同じ形であること、これを取り入れることにより最大公約数的に扱いやすくなるという利点もあります。
一部漢語のサ変動詞においては
(文語で)
未然形: せ
連用形: し
終止形: す
連体形: する
已然形: すれ
命令形: せよ
のように連体形/連用形が一致しないケースもあるのですがおおむね一致すると言ってもよく二形態で共通する活用ですので提示経済性もいいです。
また未然形はれる/られるの扱いがあるので通常変換(メインディスプレイでの候補表示)との混線を避ける意味で慎重にならなければなりませんし、未然形なら後続する品詞も助動詞等機能語に限られてくるのでサジェスト運用するうまみも欠けてきています。
連用形は逆に後続の連接がひらかれすぎているので予測変換候補が横溢してしまうリスクがあります。
命令形は特殊なので判断は保留しておきますが文末にくることで切り出し困難性に悩む場面も少ないかと思います。(あるいは引用の機能辞を伴うくらいなので)
仮定形は「ば」の連接しかありませんしこれとは別に助動詞の「た」の語形変化としての「たら」については動詞連用形からの派生フレーズなのでここでは適用外です。
…そういった諸事情を勘案すると連体-終止のラインを利用していくことが穏当ではないでしょうか。
もちろん「振られた案件」みたいに受け身であっても規定が語彙化しているものは見逃せませんし「売れない芸人」みたいに打ち消しの助動詞を介した未然形の規定句もありますのでこのへんは柔軟に対応していきたいかと思います。
文字どおり規定というのを軸にして組み立てていくとこのカタチに落ち着くしかない、というか連体修飾は連体形ですので活用形を選ぶに及ばずこうなるよりほかになく、規定以外で文法的に魅力的な範疇があるのかどうかは私には見当もつきません。

そして第三に重要なのですが同じ規定であってもナ形容詞のフレーズは除外するということがあげられます。
ナ形容詞の語尾「な」にはすでに別口入力でマーキング標識が用意されています。
それ以外のサジェスト範疇についてはタップ選択をもってひとチャンクが結節するシグナル性を持っていますがこれがナ形容詞では別口入力シグナルがすでにあるのに冗長的ではないか、無駄な操作ではないかという配慮からのものであります。
少なくともタッチ液晶面/メインディスプレーでの変換候補提示の両にらみでの運用には無理が伴います。メインディスプレーで事足りるのなら無理に越境することもないでしょう。
それでも効用はあります。それは変換候補の大幅な削減につながるということです。
ここまでイ形容詞や動詞の規定句、それに少し拡張して受身形や未然形がらみの規定句も取り込んでしまったので有限な資源であるディスプレー表示領域の確保にもすこし心許ない面もあります。
すだれ式にスクロールさせてやればどうとでもなると言ってしまえばそうではあるのですがやはりP様式ではあくまでも物理キーボードが主、タッチ液晶面は従なのですからやたらと変換候補を並べるのはあまり好みません。
なのでナ形容詞からの候補が除外されるとなれば幾分は余力が生まれますので自由度が断然違ってくるのです。
もともと外来語・漢語由来のナ形容詞は無数にありその便利さとは裏腹に文字連鎖としての先の展開予測性というのが困難になってきています。
これと比較すると(感覚的でしかありませんが)形容詞の語彙は予測収束性がそちらよりは絞れそうだとの感触があります。
適切な例かどうかはわかりませんが「荒っぽい手口」、「気まずい雰囲気」みたいにクリシェ連結としてのイ形容詞が限定性を高めている暢句はあるのですが、
ナ形容詞で「アンビバレントな感情」というのはもちろん支配的なクリシェではあるものの「アンビバレントな状態」「アンビバレントな感性」みたいに他の可能性もどうしても拭い去れない開放性がつきまとっているように思えるのです。
なかなか例が浮かばずではあるものこれでも相当に限定的なナ形容詞を選んだのですが全体的な傾向としてナ形容詞は予測が発散してしまう構造はあるかと思います。

そのほかにも、もともとイ形容詞は新語造語も生産されにくいのでサジェスト蔵出しできる余地というのが非常に大きいのですが、ナ形容詞は生産性が高くサジェストでも及ばない新語への対応が難しいというのもあります。
ちょっと置いてきぼりにしてしまいましたが、動詞の規定についてはとりあえず新語の心配はしなくても良さそうということは言えます。
それというのも、別口入力で[末尾ル型動詞の語尾標識:○R/×r]というのがあるからで新語造語の動詞はほぼ「--る」の形をとることで規定形・終止形への対応はとりあえず間に合う見込みですので出すとすれば既知の動詞の中から適宜規定派生の変化形をあてていけば良いかと思います。
ただ動詞には「過ぎ去りし日」とか「憂うるべき問題」のように活用バリエーション以外にも(古典語を含めた)機能辞や助動詞を巻き込んだ規定というものがあるのでどこまでサジェストで拾ってあげるのかの見極めについてはまだ検討中であります。

以上、長々と書いていきましたが予測サジェストとはいっても入力デバイスの特性を適切に見極めてペンタクラスタキーボードにあった独自の最適形というのを目指していかなければならない、そのためにはさらなる材料を集めて吟味してもっとブラッシュアップしていきたいと思います。
この記事はタッチ液晶対応へのとっかかりとしての導入ですので自分でも消化不良で決して納得のいくものではありませんが未踏の一大体系にぶち当たったんだ、という前向きな課題としてとらえて今後も継続的に追求していくつもりであります。

なお記事のカテゴリとしましては具陳-クリシェという雑多な視点から入ってきたというのもありますので「ジャンル横断的な問題」としますが
追記事等でタッチ液晶について深く考察・提案していくにあたりましては「タッチ液晶部予測変換その他の挙動について」のカテゴリに移行させてUPしていきたいと思いますのでよろしくお願いします。

 

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

具陳なのかクリシェなのかを見定める(2)

2021-12-12 | ジャンル横断的な問題

前回のおさらい
・助詞を含む字面の並びだけで格納してしまえば慣用句・コロケーションの検出がしやすくなる(助詞に独自文字コードをあてる事前提で)
・死角はない/資格はない:ユーザーが選ぶことで一意性のある導線
・副詞のクリシェ検出はややこしい(単に規定成分/叙述成分のところの検出はシンプル)
・(助詞抜き)題目導入フレーズのクリシェ化は急がば回れ式の解決スタイル
・規定句はタッチ液晶サジェストと相性がいいフレーズ(動詞での規定、形容詞での規定、形容動詞での規定、ノ形容詞での規定、連体詞での規定)
・はアジェンダ名詞提題性を確立しやすい(助詞抜きにおいて特に)
・「--次第」が成立する語:「ゲージ語」の特とりあげ(こちらは規定のかざり伴わなくともゲージ語単体使用において検出活性:アジェンダ特異事例)
・各々個々のクリシェ連結を網羅検知するのをあきらめる代わりに上記の構造的クリシェ検知を張り巡らし、単純イ万を軽視する

…噛み砕くとこんな感じにはなりますが前回記事:具陳なのかクリシェなのかを見定める(1) - P突堤2

の概要はこのようになります。

特にアジェンダ名詞については従来の副詞による連用修飾とは違い、修飾するというよりも提題を導入のマクラとしてそこに叙述成分が連なっていく、[連用承接]という考え方から光を当てて前回の考察に発展的解釈を加えていきたいかと思います。
なぜこのようなややこしい術語を用いて副詞や連用修飾の枠組みを解体するようなつまらぬことを言い出すのか理解に苦しまれる方もいらっしゃるかとは思いますがそれは杞憂であります。
額面通りの文法論の見地からの精緻なパラダイムにはいささかも影響しません。
これはペンタクラスタキーボードというのがあって、さまざまな素性の語(を含むフレーズ)のかな漢字変換を三属性変換というのに分けて、それと同時にジェネラルな変換は通常変換にまかせて、三属性(イ万:名詞具陳 / ロ万:様態叙述 / ハ万:接辞がらみ)など特定の機能役割にフォーカスしたいときは個別の三属性を指定して変換をサポートしてやる
…という一連の"P作法"のもとで浮かび上がってきたインターフェースのありかたについて、通常変換の優先的影響範囲というのを勘案するにあたって副詞の職能というものに着目し、それを追求していっているうちにもっと未分化な連用承接、特に言えば助詞抜きで叙述頭にくる導入詞全般というものに広く目配りをして、
それの下位にあたる個々の三属性変換においてはより専業性を際立たせて住み分けし、特に副詞(通常変換)と様態叙述属性ロ万が被らないように検出のフィルタ特性というものを風通し良く分別するねらいのもとで自然帰結的に発生したアーティフィッシャルな(いわば作為的に分解能を偏向させた)文法標識というものであって、
これらはすべて傍流の、機械の都合に迎合したあくまで局所的な言語現象ですので識者の方々には秩序紊乱であるなどと目くじらを立てぬようどうか寛大な目で受け止めていただく事を願う次第であります。

クリシェか具陳か、という観点でいうとアジェンダ名詞をクリシェに組み込もうとする目論見はちょっと無理筋ではないかという懸念もあるにはあるのですが
・焼き芋今季節でおいしいですよね
・仮想通貨あのまま持ってたら
などのフレーズのように[提題][副詞]が同時におこるケースでは「焼き芋」「仮想通貨」などアジェンダ部のほうが文頭検知にまず引っかかる場合があるので副詞でもない何か素性不明の未知語が文頭に来ているとスッキリしない観がありますので
個別の語彙的意味は分からずとも「何だかわからないけれどこれはアジェンダ導入なんだ」というのが上位判定的に機能させられないかどうか果敢に試みていくことが通常変換バイアスに求められているのではないかという発想がまず来るかと思います。
文頭にくる未知語としましては
・何か複合語の断片
・何か連体修飾成分の断片
・句接辞を介した何か連用修飾成分の断片
・接題目形あるいは動詞連用形転成(実質体言)の提題的使用
・感動詞あるいは発話詞
・未知オノマトペ(副詞形成のものを含む)
・接続詞で未知語は今のところ心配しなくてもよいレベル

などがあります。着目点はさまざまありますが大きく分けると連用修飾系列のものとアジェンダ文頭のものの2つに大別されます。(感動詞接続詞等はその他添え物的トピックです)
連用修飾というのにはまず未知オノマトペ(副詞を形成)、たとえば
[ごんぎゃち]可愛い
というオノマトペ(?)副詞があったりします。
オノマトペ系というのは--する、というサ変だったり「--になる/--である/--だ」などのように副詞でないいろいろ語尾派生のものがあったりしてややとっ散らかっていて恐縮なのですが単に(強調としての)文頭副詞というのは後接に叙述成分と直結している形のものだけを選ぶ必要がありますが
そんな中でカタチだけ見ると提題のアジェンダの時と構造が似ている部分もありますし、導入-叙述とダイレクトに(助詞抜きで)緊密につながるということはタイピカル化しやすい純度をもっているのだということもできます。
さらに連用修飾のもう一つとして
インターン[以来]激務の毎日でして
みたいな句接辞チャンクが実効上連用修飾の役割を果たしているケースでは接辞を迎える語頭の未知語も使う接辞によってマッチする/しないの相性が出てきますので特定の具陳によらないクリシェ寄りの側面が強いかと思います。

着眼点のもう一つ、アジェンダ文頭のものの連結を注意深く観察していきますと
文頭提題の系列のものとして規定句チャンク
[香ばしい奴]RTしてるの面白い
という形容詞規定句などもアジェンダ化しやすいですしそれよりはやや適用容認度は下がりますが同様に原理的には動詞の規定句、ノ形容詞の規定句、連体詞の規定句なども(助詞抜き)アジェンダ名詞チャンクとして成り立つ見込みのものもあります。
もちろん単純名詞でもアジェンダ化するものはいくらでもありそうですが短い文字数の名詞を節操もなく検出しまくってしまうとノイズに振り回されてしまいますし、慎重を期してユーザーの個々の用例を地道に学習して抑制と頻用の線引きをしていくことが現実的なさばきに落ち着くところであります。
もとよりペンタクラスタキーボードでは区切りを明示化する機能キー[Ø文字マーカー]というものがあるのでユーザーの側が誤変換を誘発しそうな短尺アジェンダのフレーズを入力しようとするときには適宜Øマーカーを入れてもらって無用なリスクを回避することができます。
ユーザーにインターフェース上の作法を覚えていただくのは負担もあるかとは思いますがそれに応えるだけの効用というものがきちんと評価されていけば納得感のある解決策になっていくかと思います。

さて、話を続けます。アジェンダ文頭のものの続きとしましては
動詞連用形転成(実質体言)あるいは接題目形の提題的使用というものがあります。
ちょっと見慣れぬ言葉に戸惑いを覚える読者の方もいらっしゃるようですから簡単に解説していきますと、連用形転成は
・このえさ、魚の[食い]悪いね
・この頃なんだか[原稿書き]進捗遅いなぁ
みたいな動詞連用形で結ぶチャンクをひとつの提題としてイディオム的につながるモノです。
連用形転成名詞といえば、「食べ応え」みたいに独立した自立的語彙を確立したものもありますが、それ以外にも上記例のように臨時の用法あるいは臨時の複合語をなすものもアジェンダ化の役目を十分に果たすものもありますので未知語であっても検出能を緩めるわけにはいきません。
これが動詞連用形の転成のアジェンダフレーズであります。

対照的に接題目形の提題的使用というのは
・そのアプリへの[つぎ込み額]ハンパないな
・[力み加減]かえって可愛いよ
みたいなさっきとは逆に 動詞連用形+結辞でアジェンダ結節を形成するモノであります。
当ブログでは独自の解釈としてこういった連結のものを「接題目形」として提案しており従来であれば活用語尾はひらかれたかな文字列のおくり仮名であるところを特殊化・拡張化して
連用形+[心地]とか連用形+[加減]みたいな漢字の語尾部分をおくり仮名同様活用語尾とみなし、アジェンダ化する職能をもつひとつの活用形として文法処理していった方がコンピューターで解析処理するのに都合が良いのではないかとの狙いでIME文法を構築しようとするものであります。
どういった解析評価を構築していくのか仔細はまだ固まってはおりませんが、「次こみ学」よりは「つぎ込み額」を、「りき美香源」よりは「力み加減」を解釈抽出していく、個々の頻度だけでバラバラに配置をあてる変換ではなくて連接テーブル的に「接題目形語幹+語尾漢語」というものに特段の価値を見出してチャンク感を判定していこうという方向性が順当かなと思っております。

話が長くなりましたが連用修飾系列のものとアジェンダ文頭のものを[連用承接]というものに抽象化していって、文字列のマッチングだけだと検出限界があるクリシェの連結判定というものをもっと広く俯瞰していって「規定句である」「接尾辞派生複合語である」だとか
「連用形複合語」「接題目形アジェンダ」「(おまけとして)Ø文字マーカーの介入」という文字列マッチングだけにとどまらない構造的な特徴をパターン化してとらえて検出していく方策が今追い求めているアプローチであります。
この視座に立てば[連用承接]というのを巻き込んだ大きなフレーズとしての構造的クリシェというものを統一的にとらえていくことができますし、ブログの開設以来三属性変換を磨いていく過程において常に懸案の課題であった「助詞抜き連接」というやっかいな問題に一定の解答をもたらしてくれることになります。
しつこいようですがここでもう一度この一連の記事の言わんとする問題提起の源泉というものをたどっていきますと、

アジェンダ名詞の試みと(慣用句)叙述チャンクを検知することは車の両輪:慣用句対策として文字コードリテラル甄別は重要

ということであります。
アジェンダを検出することも大事ですがそれを際立たせる拠り所となるのは叙述フレーズ/叙述成分なのです。
叙述部に見当をつけられずにはアジェンダを確定することもできません。
ですから高望みする前に慣用句全般の愚直な文字列マッチング=独自文字コードでの助詞を含むリテラルフレーズ検知はまず当然のこととして足固めしておかなければいけません。
この問題には同じクリシェであっても叙述フレーズ(むすび)としての局所的なマッチングクリシェとしての側面と
語頭アジェンダ部分が仮に規定句であったときには文章全体からみた叙述部分としてのクリシェではなくアジェンダ部分の構成要素の中でもまた入れ子的/ネスト的に構え直す柔軟さが求められますし
構造的クリシェとリテラルのクリシェのそれぞれがアジェンダ部分にも叙述部分にも同様に走査されうる、一種混迷した様相を呈しております。
拙論の力不足もあってかその全容は未だつかめてはおらずまことに不甲斐ない思いではありますが今後の探究により少しでも風通しの良い論点整理ができるよう努めてまいりますので読者の方々にはじれったい思いをさせてしまって申し訳ありませんが今しばらくお待ちいただきたいかと思います。

さすがにここでの論説に力が入りすぎてしまって言うタイミングを見失ってしまったのですがこのシリーズ記事は前回今回では収まりきらす、次回はタッチ液晶インターフェース、特に規定句のフレーズの変換候補サジェストの可能性を具陳/クリシェの視点から掘り下げていきたいと思いますので年内投稿を目指して執筆していく次第であります。よろしくお願いします。
次回も具陳☆と考察・提案していきますのでもうしばらくお付き合いください。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする