GPT-4oでできること<活用事例> 何がすごい?手書き文書からの文字起こし・要約・プログラミングも可能に!
【この記事にはPRを含む場合があります】
2024年5月13日(米国時間)に、チャットGPTを提供するOpenAI社から、最新のAIモデル『GPT-4o(ジーピーティーフォーオー)』が発表されました。
『GPT-4o』は、OpenAI社の “大規模言語モデル(LLM)” の中で最上級モデルである『GPT-4 Turbo』と同等の性能を持ちながら、”高速処理” ができるように進化。
さらに、”視覚” と “音声” の理解力が大幅に向上したことで、”ユーザーが共有する画像を理解して会話や議論できるようになる” など、従来のAIチャットボットという枠を超えて、より人間に近い応答ができるツールになったと評判です。
発表されると同時にSNSでも『GPT-4o』がトレンド入りするなど、世界中で話題になったので、具体的にどんなことができるのか、ビジネスでの活用方法について気になっている人も多いのではないでしょうか。
そこで今回は、GPT-4oでできることや、活用事例、GPT-4oの何がすごいのかについてお伝えします。
GPT-4oとは?
これまでOpenAI社が発表していた”大規模言語モデル(LLM)” の中では、入力1Mトークンあたり$10.00(約1,500円)、出力1Mトークンあたり$30.00(約4,500円)という利用料金がかかる『GPT-4 Turbo』が最上級モデルでした。
『ChatGPT Plus(月額20ドル 約3,000円)』などの有料プランに契約しているユーザーは、『GPT-4 Turbo』の1つ前の言語モデル『GPT-4』を利用できたものの、チャットGPTの無料ユーザーは2022年11月30日のチャットGPTリリース当時から導入されている『GPT-3.5』しか使えず、「ほかのAIチャットボットに比べて、回答速度が遅い」「ChatGPTは利用料金を払わないと、性能が良くない」など、競争が激しい生成AI業界の中で、ほかの生成AIにユーザーを奪われるケースもありました。
そんな中、今回発表された『GPT-4o』は、最上級モデルの『GPT-4 Turbo』と同等の性能を持ちながら、”高速処理” ができるように進化。
さらに、テキストだけでなく、”音声や画像での入力・出力が可能に” なった上で、”無料ユーザーでも利用できる” ことが発表されたので、世界中で大きな話題になり、歓迎の声が上がっています。
実際に『GPT-4o』を使ってみたユーザーからは、「回答の速度や精度がすごい」など、感動の声が上がっています。
GPT-4oの速度と精度がすごい。
簡単なシューティングゲームを作ってと言ったら10秒でプログラミングコードが出てきて、pythonistaにコピーすればしっかり動いた。世界が加速する!!#GPT4o #GPT pic.twitter.com/aQa96wftLP
— STX-03@AI速報ドットコム開発コア (@AIstx_03) May 14, 2024
GPT-4oなんだけど200ページ超の博士論文PDFを読ませても高速で概要をまとめてくれるのはちょっとすごいわ。 pic.twitter.com/IqfbS5ccIR
— 佐藤剛裕 (@officesatojapan) May 14, 2024
便利に進化したことで、またChatGPTの利用者が増えそうですよね!
GPT-4oでできること。何がすごい?
『GPT-4o』は、これまでの最上級モデルである『GPT-4 Turbo』と比較して、下記の点が進化しています。
<GPT-4o のすごいところ・進化したポイント>
1. 高速処理が可能になった
→ 音声での応答時間は最小で232ミリ秒。平均でも320ミリ秒で、”人間の平均的な会話における応答速度と同程度” に高速化。
2. 多様なコンテンツに対応
→ テキスト・音声・画像・ビデオなど、あらゆるコンテンツでの入力と出力が可能に。
3. 視覚と音声の理解力が大幅アップ
→ 画像をもとに要約や議論をする力が向上し、音声での受け答えが可能に。
音声での対話ができるようになったり、より速く、より的確な内容を回答してもらえるようになったので、「すごすぎる!」「より人間に近くなった」と話題になったんですね!
実際、下記はOpenAI社が発表した “テキスト” に関するベンチマークとの比較結果なのですが、OpenAI社の既存モデルである『GPT-4』や『GPT-4 Turbo』、Anthropic(アンソロピック)社の『Claude 3 Opus(クロード3)』、Google社の『Gemini(ジェミニ)』、Meta社の『Llama3(ラマ3)』といった、ほかの大規模言語モデルと比較して、改善したり、同等のスコアを記録していることがわかります。
(出典:OpenAI GPT-4o 公式ページ)
『GPT-4o』は無料で利用できるので、”優秀なスペックを備えたアシスタントを無料で雇えるのと同等” だと考えると、いかにすごいことなのか、イメージが湧いてきますよね!
GPT-4oの活用事例
早速、SNS上ではGPT-4oの利用方法について、「こんなこともできた!」という活用事例があがってきています。
「この作業が数十秒でできるなんて…」と感動するものも多く、業務効率化のヒントにもなるので、参考にしてみてください。
※ なお、『GPT-4o』だからできることをクリアにするため、従来のChatGPTでもできること(校正・要約等)については、省略しています。ChatGPTの基本の活用方法については、下記の記事を参考にしてください。
1. 手書き文書の文字起こし・要約
『GPT-4o』は、画像での入力に対応しているので、”手書きで書いたメモ・資料を写真に撮り、文字起こし・要約を依頼する” ことができます。
出力スピードも一瞬なので、”大幅な業務効率化が可能” になります。
GPT4o、かなりすごい。自分の講義用ノートの「手書きの」一部を見せて、要約してもらい、さらに、ノートのtexファイルを作ってもらった。γとδが違うのは自分の字が汚いからいいとして、数式がちゃんと読み取られている。そしてこれが無料版でできていることがすごい。 pic.twitter.com/GdBm4MPfJy
— Yuki Nagai (@cometscome_phys) May 15, 2024
漫画の内容の要約・読解も可能だったとのこと。すごい理解力ですよね!
GPT-4o マジだ、相当複雑にも関わらず相当高いレベルで漫画を読解できててすごい
雑なプロンプトだから一部セリフが抜けちゃってるけど、それよりも漫画から人物の状況をほぼ完璧に理解できていることの方に驚いた エッグいな…… pic.twitter.com/J59zf55GI8— Torishima / INTP (@izutorishima) May 13, 2024
2. 手書きイラストからのプログラミング
『GPT-4o』は、画像での入力に対応しているので、”手書きで書いたイラストをもとにコードを起こしてもらう” ことが可能です。
下記は、実際に手書きイラストの内容を、GPT-4oにhtmlコード化してもらい、フォームを作ったという事例なのですが、一瞬できちんとしたコードが出てくるなんて、夢のようですよね!
GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。
ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。
つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い#GPT4o pic.twitter.com/3XHMFg3yye
— kmizu (@kmizu) May 14, 2024
ChatGPTはもともとプログラミングに強いという特徴があり、下記のように、既存のコードを修正したいときや、バグを見つけたいときにアドバイスをもらうことも可能で、プログラミングの分野での活用はますます進みそうです。
今回のGPT-4oの一番ヤバいのこれですね
今回Macデスクトップ版もリリースされたのですのが、画面のコードを写しながらChatGPTと会話してフィードバックをもらうことができる。
応用のイメージ
・バグの解決
・最適なアルゴリムや記法の提案
・新規FW・ライブラリ学習pic.twitter.com/E69YunYXIY— IT勇者ほし@Python (@hosh_it_) May 14, 2024
3. リアルタイムでの翻訳
『GPT-4o』は、音声での入力・出力に対応しているので、”リアルタイムでの翻訳” をお願いすることも可能です。
日本語・英語をはじめ、50以上の言語に対応しているので、海外企業との商談や、旅先でホテルのチェックインで困ったときに使ったりと、ビジネス・プライベート問わず、あらゆる場面で役に立ちます。
GPT-4oのリアルタイム翻訳がやばすぎて草
英語⇔イタリア語の翻訳だけどマジですごいから見て pic.twitter.com/jeqfDeTwdj
— サカモト@エンジニアキャリア論 (@sakamoto_582) May 13, 2024
上記は、”英語” ⇄ “イタリア語” に翻訳している事例です。
スマホとWiFi環境さえあれば、いろんな国の人とコミュニケーションを取れるようになるので、グローバルな時代にぴったりのツールだと言えるでしょう。
4. データの解析・分析
『GPT-4o』は、高速での処理が可能なので、”データの解析・分析を瞬時に行う” ことができます。
これまで時間がかかっていたデータまとめの作業が大幅に短縮されるので、業務効率化が進むでしょう。
これはすごい。新モデル「GPT-4o」は、わずか30秒以内に単一のシンプルなプロンプトから、
スプレッドシートのデータをもとに詳細なチャートや統計分析を生成することが出来るようです。
以前はExcelで何時間もかかっていた作業が、こんなに簡単にできるようとは驚きです↓ pic.twitter.com/wmYkI5SXKO
— 木内翔大@SHIFT AI代表「日本をAI先進国に」𝕏 (@shota7180) May 15, 2024
「残業時間を減らしたい」「もっと時短したい」などと考えている人には、魅力的なツールです。
5. カメラを活用した視覚障害者のサポート
『GPT-4o』は、映像での入力・出力に対応しているので、今目の前で見えている映像を音声で解説するなど、”視覚に障害を持つ人のサポート” ができるのではと言われています。
社会福祉の分野でも、『GPT-4o』は注目されているんですね!
GPT-4oと視覚障害者の相性がこんなにいいなんて…これはすごい
pic.twitter.com/vQiLNnEMDS— 澤田智洋|世界ゆるスポーツ協会 (@sawadayuru) May 14, 2024
『GPT-4o』は、ビジネスの場面だけでなく、多様な生活シーンでの活用が期待されているので、ぜひ自分のライフスタイルに合った活用方法を見つけてみてください。
GPT-4oを使ってより便利な生活を実現しよう!
このように、『GPT-4o』は、”高速処理” ができるように進化し、テキストだけでなく、”音声や画像での入出力も可能” になったことで、より多くの場面で活用できる、便利なAIモデルです。
驚くほどの速さで要約や翻訳。データの分析などが可能になるので、業務効率化や時短を進めたいにとっては強い味方になるはず。
これまでChatGPTを使ってきた人も、まだChatGPTを使ったことがない人も、ぜひこの機会に『GPT-4o』のすごさを体感してみてください。