古文翻訳サイト。 古文翻訳装置はすごい!

くずし字翻刻(テキスト化)/古文・漢文→現代文翻訳

古文翻訳サイト

こんばんは、鎌田です 中学校の期末テストがおわり、 今度は 高校生の期末テスト 高校によって日程がだいぶ違うから、 もう終わった子もいれば まさに真っ只中の子もいる。 高校生からは、よく 「古文」の質問を受けます。 学校でプリントなどを作ってもらっているはずなんだけど、 それを丸ごと忘れてきたとか、 そういう補助がない学校の子とかもいて、 「現代語訳がほしい」 って言われることがある。 そういうときは、僕はインターネットに頼っちゃいますね たいていの古文の訳は ネット検索すれば見つけられる。 んで、それを見せたり渡したりして、 それでもわからんところは 質問しに来なさい、と。 どなたかわかりませんけど、 古文解釈に長けていらっしゃる方の知恵を拝借しております 今日も、生徒のひとりが 「学校のプリントを丸ごとなくした」 と言い出して、 「方丈記」と「紫式部日記」の訳を渡してあげた。 検索途中、気になったモノがあった。 「 」。 無料ソフトということなので、ためしにダウンロードしてみた。 すると、これが とんでもないスグレモノであったわけですよ、はい (リンクフリーということで、ご紹介をかねて、 貼らせていただきました。 ) 「古文自動翻訳研究センター」とありますが、 どうやら個人の方が運営されているみたい。 カンタンに言うと、 「古文の原文を入力すると、 現代語に訳してくれる 」 これだけでもスゴイんだけど、 なんとこのツール、 「品詞分解」も自動でやってくれちゃう ふむ。 これは大変便利そうだが、 果たしてそんなことができるもんだろうか。 ちょっと実験。 中学生でも知っている 「徒然草」の冒頭文でやってみよう。 原文 「つれづれなるままに、日暮らし、硯に向かひて、 心にうつりゆくよしなし事を、そこはかとなく書きつくれば、 あやしうこそものぐるほしけれ。 」 変換! 現代語訳 「手持ち無沙汰であるままに 、一日中、すずりに向かって 、 心にうつっていく とりとめもない事を、 とりとめもなく書きつけると 、 身分が低く ばかげている。 」 ほほう。 最後の部分だけおしかったけど、 (「あやし」を「フシギ」でなく「いやしい=身分が低い」と変換) なかなかの精度であると思う。 少なくとも、単語の意味あてにかんして、 完全な間違いとはいいきれない そして、品詞分解させてみると、 こっちの方は全て正しくできていました。 だから、 完全にコレに頼るというのではなくて、 自分で解釈するんだけど、 すこし詰まったときとか、確認のためということで使うと、 非常に便利だと思います。 これは、本当にスゴイ。 いったい、どういうプログラムになっているんだろう? (助詞の指摘もバッチリですからねー) そしてね、 このツール、 なんと、 現代語を古文に直すこともできちゃう これはおもしろい! 膨大な現代語のボキャブラリーについて どうやって古文単語に変換するのか、 いったい、そんなことが可能なのだろうか?! やってみましょう。 現代語 「今日の晩御飯はなんですか。 」 現代語 「私は、野菜炒めを食べたいと思っています。 」 現代語 「カレーのじゃがいもは、 一晩寝かせるとおいしくなるらしいですね。 」 現代語 「あの空を飛んでいる人を見てご覧なさい。 」 現代語 「ドーナツの穴は、なんのために開いているんだろう。 」 現代語 「それは猫ですか。 」 「ちがいます、電波です。 」 どーです、 すごいでしょう? このツール、大変便利なので ご紹介させていただきました。 僕も、困ったことがあったら使わせていただこうと思っています。 ・・・なにか問題でも? ・・・作者の方に怒られるかな。 悪意はありません、ホントに kama.

次の

古文翻訳装置はすごい!

古文翻訳サイト

くずし字翻刻(テキスト化) くずし字の「翻刻」とは、古典籍や古文書などに記されたを読み、現代日本語の文字コード(実質的にはUnicode)に変換する作業を指します。 情報処理の用語としてはテキスト化と非常に近いですが、後述するように両者がカバーする意味は微妙に異なります。 人間による翻刻 翻刻はデジタル化以前から行われてきた作業です。 以前であれば、古典籍や古文書の手書き文字を判読(解読)し、現代の文字に置き換えた原稿を作成し、活字を組んで印刷・出版していました。 それに対して現在では、現代の文字コードを入力した電子テキストを作成する方向に変わってきています。 とはいえ、翻刻を行うためには、くずし字の読み方を知らなくてはいけません。 現代の日本人できちんとくずし字が読める人は全人口の0. そこで市民も参加できる翻刻システム「みんなで翻刻」などを用いて、くずし字の翻刻を進めながら、くずし字を読める人も増やしていくプロジェクトが進んでいます。 AIによるテキスト化 一方人間ではなく機械が行うテキスト化にも注目が集まっています。 特に機械学習(AI)に基づくを用いて、多数のくずし字文書を自動的にテキスト化することへの期待が高まっています。 CODHでは国文研と協力してやを公開しており、これらをディープラーニング(深層学習)などで学習することにより、くずし字OCRに向けた研究開発が進むことが期待できます。 翻字(テキスト化)から校訂へ 翻字(テキスト化)とは、古典籍や古文書に書いてある通りに、現代の文字コードを割り当てることを目的とします。 一方、翻字の後には校訂というプロセスがあります。 これは単なる文字化を越えて、テキストの内容を可能な限り変えずに読みやすさを向上させる作業です。 日本語は仮名と漢字という異なる文字種を使い分けられるため、文字の置換などにより読みやすさを向上させることができます。 さらに原文にない句読点を補ったり、空白・改行などを追加したりすることも、読みやすさに影響を与える重要な作業です。 さらにテキストの誤りを修正するという課題もあります。 古典籍や古文書には書き間違いがありますし、写本の場合は写し間違いもあります。 さらにどう読むのか確定しづらい、微妙な字形の文字もあります。 学問的な研究としては、そのような間違いがなぜ生じたかを追究することが研究テーマになりますが、情報を得るために読むだけの場合、明らかな間違いは修正されていた方が読みやすいでしょう。 しかしこれらは機械的な作業を越え、校訂者の考え方が反映する部分が生じます。 ゆえに、誰がやっても同じ校訂結果になるとは限りません。 狭義の翻刻である翻字の場合、得られるテキストは原文に忠実となりますが、広義の翻刻である校訂テキストは、原文と文字レベルで一致することはなくなります。 こうした検討を経た翻刻テキストを作成する作業となると、AIによる自動化は難しく、専門家が作業することが必要になります。 そして今後の研究開発が進めば、AIが下読みし人間が修正するという翻刻ワークフローが一般化するかもしれません。 専門家がAIによる翻刻支援を活用できれば、より多くの古典籍や古文書の翻刻が進む可能性も生まれます。 また下読みレベルのテキストであっても、それを全文検索などに活用できれば、資料へのアクセス性を大きく向上させることも可能です。 翻刻から読解・史料批判へ 実は文字が読めるだけでは、古典籍や古文書の内容を理解することはできません。 ことばの意味は文脈によって変わりますし、曖昧に書いてある場合、「行間を読む」ことが必要な場合など、ことばの意味を読み解くには様々な専門知識が必要です。 さらに史料の場合、不注意で、あるいは意図的に、誤った情報が書いてあることがあります。 対立する陣営が正反対の視点から記録することもあるでしょう。 このような複雑な状況に対応しながら、テキストの正確性を批判的に検討し、それが何を意味するかを読解するには、多くの専門知識が必要です。 これはAIで自動化できるような領域ではなく、専門家が何年も研究を重ねてようやくたどりつけるような領域です。 このことを踏まえると、AIは専門家の作業を自動化するものではなく、人間が資料を読むプロセスを支援するものと捉えるべきでしょう。 機械と人間が協力しながら古典籍や古文書を読んでいくような世界を実現したいと考えています。 たとえ翻刻ができても、古文や漢文から現代文への翻訳ができないと、読める人はそれほど増えないかもしれません。 しかし、翻刻が古い文字から現代の文字への文字単位のほぼ機械的な変換なのに対し、翻訳は古文や漢文から現代文への語や文単位の意味を考慮した変換となりますので、後者の方が正解を定義することがより難しくなります。 翻刻と翻訳の違いを見るには、がわかりやすいでしょう。 また、翻刻はコンピュータビジョン(文字認識)系の技術を用いるのに対し、翻訳は自然言語処理(機械翻訳)系の技術を用いるため、技術体系としても両者は大きく異なります。 最近は両者ともディープラーニングの技法に収束しつつありますが、具体的なモデル化の技法や利用する周辺技術などの面では大きな違いがあります。 また必要なデータセットも異なります。 翻訳を実現するには変換対象となる2つの言語で書かれたテキストのペア(対訳コーパス)が必要となりますが、古文や漢文と現代文の対訳コーパスはまだ十分な量が揃っていません。 多くの日本人は、くずし字を読むよりも現代の文字で書かれた古文や漢文を読む方が簡単でしょうから、翻刻は文字レベルの読みやすさを改善できます。 ただし翻刻はあくまで文字を読めるというだけであり、内容を読むためには、古文や漢文の文法を理解し、ことばの意味を知る必要があります。 ゆえに読みやすさをさらに改善するために、機械翻訳を用いて古文や漢文を現代文に翻訳することへの期待が高まるわけです。 このように、現代日本人が古典籍・古文書にアクセスしやすくなる状況を実現するためには、機械による翻刻と翻訳を多段に接続するという方法が一つの技術的な解決策になるでしょう。 ただし現在の技術レベルはまだ初歩的なものであり、そのような時代が実際に到来するのは、まだまだ先になりそうです。 さらに読解や史料批判のように、単に文が読めるというその先に広がる(学問的な)世界に入っていくには、機械を使いこなすだけにはとどまらない、自分自身の専門的な勉強が必要になります。 そのことは改めて強調しておきたいと思います。 参考文献 をご覧下さい。

次の

古文と現代文を相互に自動翻訳するソフト「古文翻訳装置」

古文翻訳サイト

: 古文にする 吾輩は猫である。 名前はまだ無い。 どこで生れたかとんと見当がつかぬ。 何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 吾輩はここで始めて人間というものを見た。 しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。 この書生というのは時々我々を捕えて煮て食うという話である。 しかしその当時は何という考もなかったから別段恐しいとも思わなかった。 ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。 掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。 この時妙なものだと思った感じが今でも残っている。 第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。 その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。 のみならず顔の真中があまりに突起している。 そうしてその穴の中から時々ぷうぷうと煙を吹く。 どうも咽せぽくて実に弱った。 これが人間の飲む煙草というものである事はようやくこの頃知った。 words HQ.

次の