【Apple発のAI画像編集】Pico-Banana-400Kとは?Nano Bananaとの関係

/

Apple Pico-Banana-400K

「テキストで指示するだけで、思い通りに画像を編集できたらいいのに」—そう思っていませんか。

現在、ChatGPT(チャットGPT)のようなAI技術の進化により、言葉で指示するだけでオリジナルの画像を生成したり、既存の画像を修正したりすることが、誰でも手軽にできるようになりました。例えば、ChatGPTではOpenAI社が開発した画像生成AI「DALL·E 3(ダリスリー)」が利用可能であり、Adobe FireflyCanvaMicrosoft Image Generatorなど、無料でも利用できる画像生成AIツールが多数登場しています。

しかし、私たちが本当に求めているのは、画像をゼロから作る機能だけではありません。既存の写真を「まるでプロが手を入れたかのように」繊細かつ意図通りに編集する、「画像編集」の領域でAIが活躍することです。

そんな中、AIの進化を根底から支え、研究コミュニティの進歩を大きく加速させる画期的なデータセットが発表され、大きな注目を集めています。その名もPico-Banana-400K(ピコバナナ400K)です。

このデータセットは、テキストによる指示で画像を編集する能力を持つAIを訓練・評価するために、Appleの著者陣によって開発され、GitHubで公開されたことで話題になっています。

この記事では、Pico-Banana-400Kが具体的に何をするためのもので、なぜこれほどまでにAI研究者や画像編集に興味がある人々の間で話題になっているのかを、分かりやすくご紹介します。また、Googleの技術であるNano Banana(ナノバナナ)Gemini 2.5 Proがこのデータセットの作成にどのように関わっているのか、そして、私たちの画像編集の未来がどのように変わっていくのかについても解説していきます。

AIの最新動向に注目している方、画像編集の可能性を知りたい方は、ぜひ最後までご覧ください。

Pico-Banana-400KはApple主導のAI画像編集を変えるデータセット

Apple Store

Pico-Banana-400Kとは、テキストで誘導される画像編集(Text-Guided Image Editing)の能力を持つAIを学習・評価させるために設計された、大規模かつ高品質なデータセットです。

このデータセットは、その名の通り「400K」つまり約40万組のデータトリプレット(三つ組)で構成されています。各データトリプレットには、以下の3つの要素が含まれています。

  1. オリジナルの画像(編集前の写真)
  2. 編集指示文(ユーザーがAIに送るテキストによる編集リクエスト)
  3. 編集された結果画像(指示通りにAIが編集を施した写真)

Pico-Banana-400Kの最大の特徴は、「実写画像」を基盤に構築されている点です。これまでの画像編集データセットには、合成データが多く、AIが現実世界で撮影された写真(ユーザーが実際に撮る写真)に対応しにくいという課題(ドメインシフト問題)がありました。Pico-Banana-400Kは、OpenImagesコレクションから取得した実際の写真を使用することで、AIが現実世界に即した編集能力を身につけられるように設計されています。

このデータセットは、単に大量のデータを提供するだけでなく、「品質の高さ」と「編集種類の多様性」を両立させることを目指しています。

具体的には、カラー調整から複雑なシーン構成に至るまで、35種類の異なる編集操作が、8つのカテゴリーにわたって体系的に収録されています。これにより、AIは、幅広い編集スキルを網羅的かつ系統的に学習できます。

開発者たちは、このデータセットを通じて、AIが「美的な感覚」「リアリズム」を自動的に学習し、AI同士が協調して理想的な結果を導き出す、新しい「自動化された美学」の基盤を築くことを目指していると言えます。

AI画像編集の精度を革新!Pico-Banana-400Kが実現する3つの進化

Pico-Banana-400K Apple

Pico-Banana-400Kは、研究コミュニティがより複雑で実用的なAI画像編集の課題に取り組むための、貴重なリソースです。このデータセットのユニークな構造により、特に以下の3つの分野で、AI画像編集技術のブレイクスルーが期待されています。

1. 会話の流れで画像を修正できる「マルチターン編集」

従来のAI編集は、一回の指示で編集を完了させる「シングルターン」が主流でした。しかし、人間が画像を編集する際は、「この部分を直して、次にこの色を変えて、最後にこれを少し大きくして」と、何度も指示を出しながら段階的に作業を進めます。

Pico-Banana-400Kの特筆すべき点の一つは、72,000例の「マルチターン編集」のシーケンスが含まれていることです。これらは、同じ画像に対して2回から5回連続で編集指示が行われたデータで構成されており、AIにシーケンシャルな編集(連続的な編集)、推論、プランニングといった、より高度な処理能力を学習させることができます。

このデータセットにより、AIは文脈や記憶を保持し、ユーザーのフィードバックに基づいて画像を洗練させる「対話のような編集体験」を実現できるようになるでしょう。

2. 失敗例から学べる「選好サブセット」によるアライメント強化

AIが生成する結果の品質を向上させるには、AI自身に「何が成功で、何が失敗か」を理解させることが不可欠です。この「人間の選好(好み)」にAIを合わせる研究をアライメント研究と呼びます。

Pico-Banana-400Kには、アライメント研究のために設計された56,000組の「選好サブセット(Preference Subset)」が含まれています。

このサブセットは、同じ指示に対して成功した編集結果と、失敗した編集結果をペアにして提供します。例えば、ある指示に対してAIが生成した画像のうち、品質チェック(後述)をクリアできなかった失敗例が、成功例とともに「ネガティブな例」として明確にマークされます。

この成功と失敗の明確な対比(高いコントラストのシグナル)を利用することで、AIは、どのバージョンがなぜ成功し、なぜ失敗したのかという細かな忠実度(ファイングレイン・フィデリティ)を学習できるようになり、より信頼性の高いAIツールの開発につながります。

3. ユーザーの自然な指示をAIが理解・要約する能力の向上

Pico-Banana-400Kは、長い指示文と短い指示文のペアも収録しています。

これは、ユーザーが入力する簡潔で自然な指示(タイプII:例:「犬をフェンスに近づけて」)と、AIが編集を正確に実行するために必要な、詳細で専門的な指示(タイプI:例:「デスク上の分厚いヴィンテージのコンピューターモニターを、より流線的で奥行きの浅いCRTモデルに再形成し、全体の画面サイズと反射プロファイルを維持する」)の両方を含むデータ構造です。

このペアリングにより、AIは、人間が入力する自然言語の指示を、編集タスクを実行可能な具体的なステップへと変換・要約する能力を開発できるようになるでしょう。

Nano Banana(ナノバナナ)とGemini 2.5 Proの役割:データセット構築の裏側

Gemini

(出典:Google

Pico-Banana-400Kが約40万組という大規模かつ高品質なデータセットを実現できたのは、人間による手作業ではなく、複数の強力なAI技術が連携した「自動生成パイプライン」を採用したからです。

このパイプラインにおいて、GoogleのAIモデルを含む二つの主要なAIシステムが、それぞれ編集の実行と品質管理という重要な役割を果たしました。

Nano Banana(ナノバナナ)の役割:編集の実行エンジン

Nano Bananaは、Pico-Banana-400Kのデータセット構築において、実際の画像編集を生成したAIモデルです。OpenImagesの実際の写真に対してテキストの指示に基づいた編集を施す「エンジン」として機能しました。

Nano Bananaは、OpenAIのGPT-4oと並び、テキスト誘導型画像編集の分野で新しいベンチマークを設定しているシステムとして言及されています。

Google Gemini 2.5 Proの役割:自動品質審査員(AIジャッジ)

AIが生成した編集結果の品質を確保するため、Pico-Banana-400Kの開発者たちは、Googleが開発した生成AI「Gemini 2.5 Proを、自動化された品質審査員(Automated Judge)として活用しました。

Gemini 2.5 Proは、プロの画像編集者を模倣するように設計された複雑なシステムプロンプトに従い、すべての編集結果にスコアを付けました。これは、人間による高価な品質チェック(アノテーション)を、ターゲットを絞ったMLM(マルチモーダル大規模言語モデル)による評価で代替できることを証明しています。

Gemini 2.5 Proによる品質評価の基準と重み付けは、特に「指示への忠実性」を重視しています。

評価基準 重み付け 目的
指示への忠実性(Instruction Compliance) 40% プロンプトの要求をAIが実行したか。最優先事項でした。
シームレス性(Seamlessness) 25% 編集箇所が不自然でなく、自然に画像にブレンドされているか。
保存性のバランス(Preservation Balance) 20% 編集を求められていない元の画像の部分が、変更されずに維持されているか。
技術的品質(Technical Quality) 15% 画像のシャープさや色精度など、基本的な視覚的品質。

Gemini 2.5 Proは、このスコアリングにより、編集の成功/失敗を自動的に判断し、成功と失敗のペアを生成することで、選好サブセットのキュレーションにも貢献しています。開発者たちは、Geminiのスコアが人間による評価と強い相関があることを確認しており、この評価システムが高いスケーラビリティを持つことを示しました。

Nano BananaとPico-Banana-400Kの違い

Nano BananaとPico-Banana-400Kは、その名称から関連性があるように見えますが、役割は異なります。

  • Nano Banana
    画像編集を実行するAIシステム(モデル)
  • Pico-Banana-400K
    Appleの著者陣によって開発された、AIモデルを訓練・評価するためのデータセット(研究リソース)

また、GoogleのGemini 2.5 Proは、データセットの品質を評価・担保するために活用されており、異なる開発元の強力なAI技術が連携して、研究コミュニティ全体に役立つリソースを生み出したという点が、このプロジェクトの特筆すべき点です。

Pico-Banana-400Kは一般利用できる?研究者向けGitHub公開とStable Diffusion連携の可能性

GitHubトップページキャプチャ

(出典:GitHub

Pico-Banana-400Kは、一般のエンドユーザーが直接利用して画像を編集するためのツールではありませんが、研究開発のリソースとして公開されています。

データセットへのアクセスとライセンス

Pico-Banana-400Kのコードとメタデータは、研究コミュニティの進歩を促進するために、GitHubを通じて公開されています。これにより、世界中のAI研究者やエンジニアが、この大規模で高品質なデータセットを利用して、次世代の画像編集モデルを訓練・ベンチマークすることが可能です。

ただし、このデータセットには非営利ライセンス(non-commercial license)が付与されています。これは、研究利用を目的としており、商業目的での利用を検討する際には、倫理的な使用を確保することが前提となります。

既存の画像編集AI(Stable Diffusion, ChatGPT, DALL·E)との関係

ChatGPTのDALL·EStable Diffusionといった画像生成・編集AIは、ユーザーが直接利用できるAIツールです。

一方、Pico-Banana-400Kは、これらのAIツールをさらに賢く、より正確にするための訓練用データです。

将来的には、Pico-Banana-400Kで訓練された新しいモデルが、これらの既存のプラットフォームや、Appleが提供するiPhoneやMacなどのデバイスの機能に組み込まれることで、私たちの手元にその技術が届くことになります。

Apple製品にPico-Banana-400Kの成果が組み込まれる未来とは?iPhone/Macでの編集革命

iPhonePico-Banana-400Kは、AI画像編集の分野における直感性と信頼性を高めるために設計されたデータセットです。Appleの著者陣が主導したプロジェクトであることから、将来的には、iPhoneやMacといったApple製品に、その研究成果が組み込まれる可能性は十分に考えられます。

この技術が実用化されれば、アイデア出しや企業のマーケティングビジュアルの作成、芸術的なプロジェクトの強化など、幅広い応用が可能です。また、ユーザーが画像を見ながら対話形式で編集を進める、インタラクティブな編集ツールの開発も期待されています。

画像編集AIの実現に向けた技術的な課題

Pico-Banana-400Kは大きな前進ですが、このデータセットに基づくベンチマークの結果から、現在のモデルが克服すべき課題も明確になっています。研究者たちは、今後、以下の難しい課題の解決に取り組む必要があります。

1. 幾何学的制御の不足

AIは、画像のスタイル全体(グローバルな変更)を変更することは得意ですが、精密な空間制御を必要とするタスク、例えば「オブジェクトの正確な位置変更」(成功率約59%)や、複雑な人物のポーズ変更、視点の変更などには、幾何学的な理解が不十分なため、依然として苦戦しています。 開発者たちは、訓練データの品質を維持するために、ポーズの書き換えや強い遠近法の変更といった、現在の拡散モデルが苦手とする不安定な編集タイプを意図的に除外しました。これは、幾何学的課題には、データセットだけでなく、新しいアーキテクチャが必要であることを示唆しています。

2. テキスト編集の低精度

画像内に表示されているテキストのフォントや色を正確に変更する編集は、最も成功率が低いタスクの一つでした(成功率約57%)。これは、AIが非意味的な空間的精度(テキストの形、配置)をマスターすることの難しさを浮き彫りにしています。

3. スケーラビリティとプライバシー

データセットの自動生成パイプラインは効率的ですが、今後さらに規模を拡大し、品質を維持すること(スケーラビリティ)が課題となります。また、実写画像、特に人物中心の編集データを含むため、技術の普及には、プライバシーと同意の確保という倫理的な側面の議論が不可欠です。

これらの課題を克服するためには、単にテキストのプロンプトに依存するだけでなく、スケッチやバウンディングボックス(領域指定)のような非テキスト的な入力を組み合わせる必要性が、今後のマルチモーダル研究の大きな焦点となるでしょう。

AI画像編集の新時代へ:Pico-Banana-400Kが描く創造的な未来への一歩

iPhoneとMac

Appleの著者陣によって開発され、GitHubで公開されたPico-Banana-400Kは、テキスト誘導型画像編集モデルの訓練とベンチマークのための、大規模で高品質なリソースとして、AI研究コミュニティに強固な基盤を提供しました。

このデータセットの作成には、Nano Bananaが編集を生成し、GoogleのGemini 2.5 Proが自動で品質を評価するという、複数の強力なAI技術が組み合わされました。

特に、マルチターン編集失敗例から学ぶ選好学習を可能にするサブセットの存在は、AIが人間の意図を深く理解し、複数のステップを経て編集を完遂できる、信頼性の高い、真のクリエイティブアシスタントへと進化していく道筋を示しています。

Pico-Banana-400Kを利用した研究が進むことで、画像編集の幅は格段に広がり、私たちが日々の生活や仕事で使うiPhoneやMacなどのデバイスで、AIがサポートする直感的で高精度な画像編集機能が、より当たり前になる未来が期待されます。

このエキサイティングなAI画像編集の新時代の動きと、研究コミュニティがGitHubで公開されたこのリソースをどのように活用し、次のブレイクスルーを生み出すのかに、これからもぜひ注目していきましょう。

> GitHub『Pico-Banana-400K』公式ページはこちら

rakuraku-売り切れごめんwifi