ジェネレーティブAI–古いコンテンツを別の方法で更新する人工知能

公開: 2022-04-20

テクノロジーの新しい時代は、古いコンテンツの基本的なパターンを観察できるだけでなく、ベースと同様であるがフロントエンドが異なる新しいコンテンツを生成できるテクノロジーをもたらす準備ができています。
「ジェネレーティブAI」とは、コンピューターが入力に関連する基本的なパターンを理解し、そのパターンに基づいて同等の素材を生成できるようにする技術です。

ジェネレーティブAIとは何ですか?

Generative AIは、テキスト、オーディオレコーディング、写真などの既存のコンテンツから新しい信頼できる素材を作成できるようにする人工知能アルゴリズムです。 言い換えれば、コンピューターが入力に関連付けられた基本的なパターンを抽象化し、それを使用して同様の素材を生成できるようにします。

既存のテキスト、オーディオファイル、または画像を利用して新しいコンテンツを作成するには、次のようなさまざまな手法を使用します。

敵対的生成ネットワーク(GAN)

GANは、ジェネレーターとディスクリミネーターの2つのニューラルネットワークが相互に作用する生成モデルです。 ジェネレーターは、生成ネットワークとも呼ばれ、ソースデータと同様の新しいデータまたはコンテンツを生成するニューラルネットワークです。 識別ネットワークは、識別ネットワークとも呼ばれ、ソースデータと生成されたデータを区別するニューラルネットワークです。

これらのニューラルネットワークは両方とも交互のサイクルでトレーニングされ、ジェネレーターはより現実的なデータを生成することを学習し、ディスクリミネーターは偽のデータと実際のデータを区別することを学習します。

泥棒と警察官の間の関係のように、両方とも彼ら自身の終わりで彼らの義務を実行する新しい方法を学びます。 泥棒は、盗難行為を減らすために、物と役員を並行して奪う新しい方法を見つけようとします。 彼らの努力の結果として、彼らのそれぞれは徐々に反対側を改善します。

MNISTデータを実装するGAN
MNISTデータを実装するGAN(クレジット:Thalles Silva)

トランスフォーマー

変圧器は、特定のタイプのニューラルネットワークアーキテクチャです。 要約すると、ニューラルネットワークは、写真、ビデオ、オーディオ、テキストなどの複雑なデータ型を評価するための強力なツールです。

簡単に言えば、人間の手書きのパターンを複製したり、書き直したりすることもできます。

GPT-3、LaMDA、Wu-Daoなどのトランスフォーマーは、さまざまな方法で入力データの関連性を測定することにより、認知的注意を複製します。 彼らは、言語や画像を認識し、いくつかの分類タスクを実行し、大きなデータセットからテキストや画像を生成するように教えられています。

元の紙からの変圧器の図
元の紙からの変圧器の図

変分オートエンコーダー

エンコーダーはデータを圧縮コードに変換し、デコーダーはそれをデコードして元のデータを再生します。
この圧縮された表現は、正しく選択およびトレーニングされた場合、入力データ分布を大幅に縮小された次元表現で格納します。

ジェネレーティブAIの実装とアプリケーション

本物の写真を再現する:

ジェネレーティブAIは、写真にいくつかのバリエーションを加えて、実際のレプリカを再現できます。 画像であるものはすべて、同様のベースで複製できますが、提供する入力に基づいて元の画像とは異なって見えます。

新しいデータサンプルを作成するためのGANの実装
MNIST手書き数字データセット、CIFAR-10スモールオブジェクト画像データセット、およびトロントフェイスデータベースの新しいデータサンプルを作成するためのGANの実装については、2014年に発行されたIanGoodfellowの論文「GenerativeAdversarialNetworks」で説明されています。

手書きのように見える数字や、実在の人物に似た顔を作ることができます。

品質、安定性、変動性を改善するためのGANの漸進的な成長
画像:品質、安定性、変動性を改善するためのGANの漸進的成長、2017年

Tero Karrasは、2017年に公開された彼の作品「品質、安定性、バリエーションを改善するためのGANの進歩的な成長」で、人間の顔のリアルな画像の生成を示しました。顔の世代は有名な例で教育されています。つまり、一部の顔には特定の有名人の特徴があります。したがって、見覚えがあるように見えます。

画像の再変換

昼から夜への変換
昼から夜への変換
衛星ビューからプレーンビュー
衛星ビューからプレーンビュー
バリエーションへのペイント
バリエーションへのペイント
スタックされた敵対的生成ネットワークを使用したテキストからフォトリアリスティックな画像合成

スタック型敵対的生成ネットワーク(StackGAN)を使用したテキストからフォトリアリスティックな画像合成
RawToRealおよびその逆
RawToRealおよびその逆
実際にスケッチする
実際にスケッチする
フェイスビューの生成
フェイスビューの生成左側がプロファイル、中央が合成、右側がグラウンドトゥルースの正面
アバターへの画像
アバターへの画像
若い画像を再現するエイジングアプリ
若い画像を再現するエイジングアプリ

エンターテインメントの世界:3D印刷、CRISPR、およびその他のテクノロジーによってトリガーされると、生成AIを使用して製品をゼロから作成することもできます。

ディープフェイクテクノロジーは、素材をローカライズ(吹き替えとフィルタリング)し、世界中に配布するために使用されます。 アーティスト/元の俳優の声は、顔の合成と音声の複製を使用してリップシンクと一致させることができます。https://www.youtube.com/embed/QiiSAvKJIHo?feature = oembed

利点と利点

ジェネレーティブAIには、各データセットから自己学習することで高品質の出力を確実に開発できるなど、多くの利点があります。
-プロジェクトの危険性をより低いレベルに移動する
-機械学習モデルを強化して、偏りを少なくします
-センサーを必要としない詳細な予測
-ディープフェイクを使用してコンテンツのローカリゼーションと地域化を可能にする
-ロボットがシミュレーションと実生活の両方でより抽象的な概念を理解できるようにします。

どちらが有益ですか

  • ID保護:インタビューや作業の際にIDを明らかにしたくない人は、GenerativeAIアバターを使用してIDを隠すことができます。
  • ロボット制御:生成モデリングは、シミュレーションおよび実世界でより抽象的な概念を理解する上で、強化機械学習モデルを支援します。
  • ヘルスケア:ジェネレーティブAIは、潜在的な悪意の早期発見と効果的な治療法の開発を可能にします。 たとえば、GANは、X線画像のいくつかの角度を計算して、腫瘍の潜在的な拡大を視覚化します。

いくつかのChallanges

  • セキュリティ:一部の人は、他人をだますなどの悪意のある動機にGenerativeAIを使用する場合があります。
  • 機能の過大評価:タスクを実行するために、生成AIアルゴリズムは大量のトレーニングデータを必要とします。 一方、GANは、まったく新しい画像やフレーズを生成することはできません。 彼らは単に彼らが知っていることを異なる方法でまとめます。
  • 予期しない結果:GANなどの一部のジェネレーティブAIモデルの動作を制御することは困難です。 それらは不規則に動作し、予期しない結果をもたらします。
  • データプライバシー:個人レベルのデータプライバシーは、健康関連のアプリケーションの問題です。