語学学習に起きたブレークスルー (LLMとWhisper)

直近で技術革新により語学学習に大きなブレークスルーが発生しているので簡単にまとめます。

LLM (Large Language Models) によるティーチング

語学学習における疑問はAIに尋ねることが最善の選択となりました。 LLMの言語能力は想像を絶するレベルに達しており、複数の言語に渡る質問にも答えてくれます。 以下にOpenAIのChartGPT(GPT-4)への質問とその返答のサンプルを示します。

Sample1

次の会話の意図を日本語で教えてください。

A: No way! Got any pictures?

B: Not telling.


ChatGPT

A: 信じられない! 写真はある?

B: 教えない。

この会話の意図は、Aが何かを知りたくて、特にその事実の証拠となる写真があるかどうかを尋ねています。しかし、Bはそれについて話すことを拒否しています。つまり、Bは情報を秘密にするつもりであるという意味になります。

Sample2

次の発言の意図を日本語で教えてください。

Alright, time to get some more dunzo.


ChatGPT

「さて、もっとdunzoを手に入れる時間だ。」

この発言の意図を完全に理解するためには、"dunzo"の文脈が必要です。"Dunzo"はスラングで、何かが終わった、完成した、または終了したという意味になります。しかし、2021年までの私の情報では、「dunzo」が何か具体的な物やサービスを指すことは少ないです。

一方で、"Dunzo"はインドで使われるデリバリーサービスの名前でもあります。したがって、発言者がインドの文化やサービスに精通している場合、このフレーズは「さて、もっとDunzo(デリバリーサービス)を利用する時間だ」という意味になり得ます。これは、もっと物を注文したり、何かを配達してもらう時間だという意味になる可能性があります。

最終的な解釈は、"dunzo"が何を指しているのかという文脈によります。

Sample3

次の発言の意図を日本語で教えてください。

So you made her mouth twitch a little when she talks,huh?


ChatGPT

「彼女が話す時、少し口元が動くようにしたんだね?」

この発言は、話者が他の人が特定の行動(この場合は「彼女が話すときに口元が少し動く」こと)を引き起こしたと指摘していることを示しています。具体的な状況によりますが、これは様々なシチュエーションで使用できます。

例えば、これはアニメーションやゲームデザインのコンテキストで使用される可能性があります。その場合、発言者は他の人がキャラクターのアニメーションを作成した際に特定の動き(口元が少し動く)を追加したことを指摘しているかもしれません。

また、このフレーズは、誰かが他の人を笑わせるか、あるいは何か特定の感情を引き出すことに成功したときにも使われる可能性があります。その場合、発言者はその人が「彼女」の反応(口元が少し動く)を引き出したことを認めているかもしれません。

ただし、これらの解釈はすべて文脈依存であり、具体的な状況が提供されていない限り、絶対的な意図を確定することは難しいです。

英語の文脈を理解し、それを全く違和感のない流暢な日本語で解説してくれていることが見て取れると思います。

WhisperによるCC(Closed Caption)字幕の生成

語学学習の教材として音声や動画は一般的なものです。 しかしTranscriptが提供されていなかったり、字幕が実際の発話と異なることも多く、そのようなケースでは学習効率が悪くなっていました。 結果としてCC字幕の教材を探す作業に時間を消費し、教材の幅も狭くなることが課題でした。 この状況を一変させたのがWhisperです。 Whisperは音声から高精度のTranscriptを生成することができます。

ただし、注意点として現在公開されているオリジナルのWhisper (https://github.com/openai/whisper)およびその派生ソフトウェア(https://github.com/guillaumekln/faster-whisper 等)が生成する字幕には次の問題があります。

  • 時刻がずれる
  • ハルシネーションが発生する

これらの問題はstable-ts (https://github.com/jianfch/stable-ts)で改善されているため、こちらを使うことを強くお勧めします。

Sample1

Sample2

使用例

指定したパス以下の動画全てに字幕を生成することは例えば次のようにすれば可能です。

NVIDIAGPUや適切なPythonの依存パッケージの設定が必要です。

gen_anime_cc_subtitle.py · GitHub

AI英会話

詳細は明らかにされていませんが、上記で紹介したLLMとWhisperかあるいはそれに類似した技術を組み合わせて、AIと英会話をするアプリが登場しています。 シチュエーションをカスタマイズでき、様々なシーンを前提としてAIと英会話をすることができます。 LLMの言語理解とWhisperのヒアリング性能のいずれが欠けても実現しなかった領域だと思います。 www.speak.com

シチュエーションの可能性は無限大です。

雑感

本当によい時代になりましたね。もっと頭が柔軟で時間が一杯使えるうちにこんな時代を迎えたかったものです… 😇