iPad AIチューターのデモは、学生にとって驚くべき新しい世界を示しています

Kepout
qbuwa
0 comments

昨日のOpenAIイベントをまだご覧になっていない方は、ぜひご覧になることをお勧めします。最新のGPT-4oモデルが、テキスト、音声、動画のあらゆる組み合わせでシームレスに動作するというニュースが目玉でした。

これには、別のアプリで撮影した画面録画を GPT-4o アプリに「表示する」機能が含まれます。この機能は、同社が iPad AI チューターの非常に素晴らしいデモで披露したものです...

GPT-4o

OpenAIによれば、「o」は「omni（オムニ）」の略だという。

GPT-4o（「o」は「omni」の略）は、より自然な人間とコンピューターの相互作用に向けた一歩であり、テキスト、音声、画像の任意の組み合わせを入力として受け入れ、テキスト、音声、画像の任意の組み合わせの出力を生成します。

音声入力には最短 232 ミリ秒、平均 320 ミリ秒で応答できます。これは、会話における人間の応答時間(新しいウィンドウで開きます)とほぼ同じです […] GPT-4o は、既存のモデルと比較して、視覚と音声の理解が特に優れています。

音声認識という側面も大きな特徴です。以前のChatGPTは音声入力を受け付けていましたが、処理前にテキストに変換していました。一方、GPT-4oは音声を実際に理解するため、変換段階を完全に省略します。

昨日お伝えしたように、無料ユーザーも、これまでは有料会員に限定されていた多くの機能を利用できるようになります。

AI iPad チューターのデモ

OpenAI が実演した機能の 1 つは、GPT-4o が iPad 画面 (分割画面モード) でユーザーが何をしているかを監視する機能です。

この例では、AIが生徒に数学の問題を指導しています。GPT-4oは当初、問題を理解し、すぐに解こうとしていたのが分かります。しかし、新しいモデルは中断される可能性があり、この場合は生徒が自力で問題を解くのを手伝うように指示されました。

このデモは狂ってる。
生徒が iPad の画面を新しい ChatGPT + GPT-4o で共有すると、AI が生徒と会話し、*リアルタイム*で学習を支援します。
これを世界中のすべての学生に与えることを想像してみてください。
未来はとても明るい。pic.twitter.com/t14M4fDjwV
— マッケイ・リグレー（@mckaywrigley）2024年5月13日

ここで見られるもう一つの機能は、このモデルが音声から感情を検知し、さらに感情を自ら表現できるという点です。私の好みとしては、デモ版ではこの点がやややり過ぎに感じられ、それがこのモデルにも反映されています。AIは少し見下したような言い方をしているかもしれません。しかし、これらはすべて調整可能です。

事実上、世界中のすべての学生がこのような能力を持つ家庭教師を持つことができるのです。

Apple はこれをどの程度取り入れるのでしょうか?

iOS 18の主な焦点はAIであり、OpenAIの機能をAppleデバイスに導入するための契約を最終調整していることは周知の事実です。当初はChatGPTとの契約とされていましたが、現在では実際の契約はGPT-4oへのアクセスに関するものである可能性が非常に高いようです。

しかし、Appleが独自のAIモデルの開発に取り組んでおり、自社のデータセンターで独自のチップを運用していることも分かっています。例えば、AppleはSiriがアプリ画面を理解できるようにする独自の方法を開発しています。

同社が自社デバイスにどのGPT-4o機能を搭載するかは正確には分かりませんが、これはAppleらしい機能なので、搭載されるだろうと確信しています。これはまさにテクノロジーを活用して人々をエンパワーメントする取り組みと言えるでしょう。

画像: OpenAI。Benjamin Mayo がこのレポートに貢献しました。

kepout.com を Google ニュースフィードに追加します。

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。