どのように自動化するか

2023年6月6日19:55 EDT更新

キット・ドットソン著

OpenAI LP の ChatGPT などの人工知能チャットボットは、人間のような会話を行う能力だけでなく、調査、検索、コンテンツ生成などの知識タスクを実行できるため、最近人気が急上昇しています。

現在、ソーシャルメディアに旋風を巻き起こしている新しい候補者がいます。これは、OpenAI の機能をさらに自動化することで、その機能を拡張します。Auto-GPT です。これは、「自律 AI エージェント」と呼ばれる新しいクラスの AI ツールの一部であり、ChatGPT の背後にある生成 AI テクノロジである GPT-3.5 および GPT-4 の力を利用して、タスクに取り組み、独自の知識を構築し、アプリとアプリを接続します。タスクを自動化し、ユーザーに代わってアクションを実行するサービス。

ChatGPT は、質問に答えたり、ユーザーのプロンプトに基づいてコンテンツを作成したりできる機能 (大規模な文書の要約、詩や物語の生成、コンピューターコードの記述など) を備えているため、ユーザーにとって魔法のように見えるかもしれません。ただし、一度に 1 つのタスクしか実行できないため、できることは限られています。 ChatGPT を使用したセッション中、ユーザーは一度に 1 つの質問のみを AI に入力できますが、それらのプロンプトや質問を調整するのは時間がかかり、退屈な作業になる可能性があります。

ゲーム開発者 Toran Bruce Richards によって作成された Auto-GPT は、ユーザーが AI に目標と達成すべき一連の目標を与えることを可能にし、これらの制限を取り除きます。次に、人間と同じように動作するボットを生成し、OpenAI の GPT モデルを使用して、その目標に近づくために AI プロンプトを実行します。その過程で、反復ごとにより良い結果を得るために、プロンプトと質問を改良する方法を学習します。

検索から追加情報を収集するためにインターネット接続も備えています。さらに、データベース接続を通じて短期および長期のメモリを備えているため、サブタスクを追跡できます。また、必要に応じて GPT-4 を使用してテキストやコードなどのコンテンツを生成します。 Auto-GPT は、タスクが不完全な場合に自らに挑戦し、より良い結果を得るために独自のプロンプトを変更することでギャップを埋めることもできます。

リチャーズ氏によると、現在の AI チャットボットは非常に強力ですが、独自のプロンプトをその場で改良してタスクを自動化できないことがボトルネックになっています。「このインスピレーションを受けて、私は Auto-GPT を開発することになりました。Auto-GPT は、GPT-4 の推論を、長期計画と複数のステップを必要とする、より広範で複雑な問題に適用できるものです」と同氏は Vice に語った。

Auto-GPT は、GitHub でオープンソースとして入手できます。 GPT-4 にアクセスするには、OpenAI からのアプリケーションプログラミングインターフェイスキーが必要です。これを使用するには、Python と、Dev Container 拡張機能を備えた Docker や VS Code などの開発環境をインストールする必要があります。そのため、セットアップには広範なドキュメントが用意されていますが、使用するには少し技術的なノウハウが必要になる場合があります。

Auto-GPT はテキストインターフェイスで、AI に名前、役割、目的、および到達すべき最大 5 つの目標を与えるようユーザーに求めます。これらはそれぞれ、AI エージェントがユーザーが望むアクションにどのようにアプローチし、最終製品をどのように提供するかを定義します。

まず、ユーザーは「RestaurantMappingApp-GPT」などの AI の名前を設定し、次に「近くのレストランのインタラクティブな地図を提供する Web アプリを開発する」などの役割を設定します。ユーザーは、「Python でバックエンドを書く」や「HTML でフロントエンドをプログラムする」、または「利用可能な場合はメニューへのリンクを提供する」や「配信アプリへのリンク」などの一連の目標を設定できます。

ユーザーが Enter キーを押すと、Auto-GPT はエージェントの起動を開始し、GPT-4 のプロンプトを生成し、元の役割とさまざまな目標にアプローチします。最後に、さまざまなプロンプトの調整と再帰を開始し、Python または JavaScript を使用して Google マップに接続できるようにします。

これは、ジョブ全体を小さなタスクに分割してそれぞれに取り組むことで実現し、「マネージャー」として機能する主要な監視 AI ボットを使用して、それらのタスクが確実に調整されるようにします。この特定のプロンプトでは、ボットがさまざまな可動部分を追跡していないと失敗する可能性がある、やや複雑なアプリを構築するようボットに求められているため、そこに到達するまでに多くの手順が必要になる可能性があります。

各ステップで、各 AI インスタンスは自分が行っていることを「ナレーション」し、与えられた目標へのアプローチに応じてプロンプトを改良するために自分自身を批判することもあります。特定の目標に到達すると、各インスタンスはプロセスを終了し、その答えをメインの管理タスクに返します。

ChatGPT やさらに高度なサブスクリプションベースの GPT-4 を監視なしで実行しようとすると、人間が対応する必要がある多数の手動手順が必要になります。 Auto GPT はそれらを独自に実行します。

AI コード補完ツールを提供する Tabnine Ltd. のエコシステム担当バイスプレジデントである Brandon Jung 氏は、Auto-GPT の機能は、ゲームで優位に立つことを目指す初心者の開発者にとって有益であると SiliconANGLE に語った。

「利点の 1 つは、コーディングを初めて行う人にとって良い導入であり、迅速なプロトタイピングが可能になることです」と Jung 氏は言います。「正確性を必要としないユースケースや、セキュリティ上の懸念がないユースケースの場合、レビューのための専門家を含む広範なシステムに参加する必要がなく、作成プロセスをスピードアップできる可能性があります。」

一連の単純なテキストプロンプトから、すべてのコードを一度に含むアプリを迅速に構築できるようになると、開発者はコード用の新しいテンプレートを多数手に入れることができます。基本的には、迅速なソリューションと構築のための基盤を提供します。ただし、製品化する前に、まず徹底的なレビューを通過する必要があります。

これは Auto-GPT の機能の一例にすぎません。その機能により、開発者、プロジェクトマネージャー、AI 研究者、およびそのソースコードをダウンロードできるその他の人々によって現在探求されている幅広い可能性が秘められています。

「市場調査、ビジネスプランの作成、アプリの作成、食事の計画、レシピの特定、すべての材料の注文などの目標を追求するための複雑なタスクの自動化、さらにはトランザクションの実行に Auto-GPT を使用している例が数多くあります。ユーザーに代わって」とデジタルビジネス変革企業ピュブリシスサピエントの最高製品責任者であるシェルドンモンテイロ氏は SiliconANGLE に語った。

Auto-GPT はインターネットを検索する機能を備えているため、「200 ドル以下のゲーミングキーボードを 5 つ見つけて、その長所と短所をリストアップしてください」といった迅速な市場調査を行うことができます。タスクを複数のサブタスクに分割する機能を備えた自律型 AI は、複数のレビューサイトを迅速に検索し、市場調査レポートを作成し、その金額以下で価格と価格を提供するゲーミングキーボードのリストを返すことができます。彼らに関する情報。

MOE という名前の Twitter ユーザーは、自律的に市場データを分析し、他の AI にアウトソーシングできる「Isabella」という名前の Auto-GPT ボットを作成しました。これは、AI フレームワーク Lang-chain を使用して自律的にデータを収集し、さまざまな市場でセンチメント分析を行うことで実現されます。

autogpt は私のためにアプリを作成しようとしていて、Node を持っていないことに気づき、Node のインストール方法をグーグルで検索し、リンク付きの stackoverflow 記事を見つけ、それをダウンロードして解凍し、サーバーを生成しました。

私の貢献？私は見ました。 pic.twitter.com/2QthbTzTGP

— ヴァルン・マヤ (@VarunMayya) 2023 年 4 月 6 日

Auto-GPT はインターネットにアクセスでき、ユーザーに代わってアクションを実行できるため、アプリケーションをインストールすることもできます。 Twitter ユーザーの Varun Mayya さんの場合、ボットにソフトウェアの構築を依頼すると、Node.js (Web ブラウザではなくローカルで JavaScript を実行できる環境) がインストールされていないことが判明しました。その結果、インターネットを検索して StackOverflow チュートリアルを発見し、それをインストールしてアプリの構築を進めることができました。

現在利用可能な自律エージェント AI は Auto-GPT だけではありません。もう一つ流行しているのは、ベンチャーキャピタリストであり人工知能研究者である中島洋平氏によって作成された BabyAGI です。 AGI は「汎用人工知能」を指します。これは、あらゆる知的タスクを実行する能力を持つ仮想的なタイプの AI ですが、既存の AI はそれに近いものはありません。 BabyAGI は、Auto-GPT などの OpenAI API を使用する Python ベースのタスク管理システムで、目標に向けて新しいタスクに優先順位を付けて構築します。

AgentGPT と GodMode もあります。これらは、コンピューターにインストールする必要がなく、Web インターフェイスを使用するため、サービスとしてアクセスできるため、はるかにユーザーフレンドリーです。これらのサービスは、使用するのに技術的な知識を必要とせず、コードの生成、質問への回答、調査の実行など、Auto-GPT と同様のタスクを実行するため、ユーザーにとって簡単になることで参入障壁が低くなります。ただし、コンピュータに文書を書き込んだり、ソフトウェアをインストールしたりすることはできません。

ただし、これらのツールには欠点もあるとモンテイロ氏は警告します。インターネット上の例は厳選されたものであり、テクノロジーを輝かしい光で彩ります。すべての成功とは裏腹に、使用中には多くの問題が発生する可能性があります。

「タスクループにはまり、混乱する可能性があります」とモンテイロ氏は言う。「そして、これらのタスクループはかなり高価になる可能性があり、GPT-4 API 呼び出しのコストが非常に速くなります。意図したとおりに動作する場合でも、かなり長い一連の推論ステップが必要になる可能性があり、それぞれのステップで高価な GPT-4 が消費されます。トークン。」

GPT-4 へのアクセスには、使用するトークンの数に応じて費用がかかる場合があります。トークンは、チャットボットを通じて送信される単語またはフレーズの一部に基づいています。料金の範囲は、プロンプトの場合は 1,000 トークンあたり 3 セントから、結果の場合は 1,000 トークンあたり 6 セントです。つまり、複雑なプロジェクトで Auto-GPT を実行したり、無人のループに陥ったりすると、最終的に数ドルのコストがかかる可能性があります。

同時に、GPT-4 は「幻覚」として知られるエラーを起こしやすく、プロセス中に問題が発生する可能性があります。アプリケーションの作成を求められたときに、まったく間違った、または間違ったアクションが実行されたり、さらに悪いことに、安全でないコードや悲惨なほど悪いコードが生成される可能性があります。

「（Auto-GPTは）以前の出力を実行する能力があり、たとえ何か問題があったとしても、それは継続し続けます」とGartnerの著名な副社長アナリストであるBern Elliot氏は述べています。「レールから外れて動き続けることを避けるためには、強力な制御が必要です。適切なガードレールなしで誤用すると、予期せぬ、意図しない有害な結果が生じることが予想されます。」

ソフトウェア開発側も同様に問題を抱えている可能性があります。 Auto-GPT が壊れたコードを生成するような間違いを犯さなかったとしても、ソフトウェアが単に失敗する原因となり、セキュリティ上の問題を抱えたアプリケーションが作成される可能性があります。

「Auto-GPT は、テスト、セキュリティなどのソフトウェア開発ライフサイクル全体の一部ではなく、IDE にも統合されていません」と Jung 氏は述べ、ツールの誤用によって生じる可能性のある潜在的な問題について警告しました。「強力な基盤の上に構築している場合、複雑さを抽象化するのは問題ありません。しかし、これらのツールは定義上、強力なコードを構築するものではなく、不正で安全でないコードが本番環境にプッシュされることを奨励しています。」

Auto-GPT、BabyAGI、AgentGPT、GodMode などのツールはまだ実験段階ですが、休暇の計画や買い物などの日常的なタスクを置き換えるためにこれらを使用する方法には、より広範な意味があるとモンテイロ氏は説明しました。

現在、Microsoft は Bing Chat 用のプラグインの簡単な例も開発しています。これにより、ユーザーは夕食の提案を依頼できるようになり、GPT-4 を搭載した AI が食材のリストを作成し、Instacart を起動して配達の準備をします。これは自動化の方向への一歩ではありますが、Auto-GPT などのボットは、完全な自律的な動作の潜在的な将来に向けて一歩ずつ進んでいます。

ユーザーは Auto-GPT を要求して、地元の店舗を調べ、材料リストを作成し、価格と品質を比較し、ショッピングカートを設定し、さらには自律的に注文を完了することもできます。この実験段階では、多くのユーザーはボットが自分のクレジットカードを使用して注文をすべて勝手に配達することを許可したくないかもしれません。ボットが混乱して数百束のバジルを送信する可能性があるためです。

Auto-GPT を使用して AI が旅行代理店に対してこれを行う同様の未来も、そう遠くないかもしれません。「ビーチ、最大移動時間 4 時間、ホテルのクラスなど、パラメータと予算を指定すると、Web ブラウジングのすべてを喜んで実行し、目的を達成するためにオプションを比較してくれます」とモンテイロ氏は言います。「それが完了すると、その結果が表示され、どのようにしてそこに到達したかを確認することもできます。」

これらのツールが成熟し始めると、インターネット上で行われる日常的な段階的なタスクを自動化する方法を人々に提供できる可能性が大きく高まります。これは、特に電子商取引において興味深い影響をもたらす可能性があります。

「これらのエージェントがサイトを閲覧し、人間がブランドを見る前に設定された検討事項から製品を排除する場合、企業はどのように適応するでしょうか?」とモンテイロは言いました。「電子商取引の観点から見ると、人々がオンラインで商品やサービスを購入するために Auto-GPT ツールを使い始めれば、小売業者は顧客エクスペリエンスを適応させる必要があります。」

ありがとう

Auto-GPT が AI チャットボットにどのような革命をもたらすか

オラクルの「Starlink」クラウド戦略が面白くなる

カウチベース株は損失拡大とソフトガイダンスで下落

スーパークラウドの力: よりシンプルで安全な未来に向けたシスコのビジョンに関する TheCUBE の分析

CrowdStrike は、クラウド環境を保護するためのサイバーセキュリティ機能をさらに追加します

シスコは、新しい Cisco Networking Cloud プラットフォームで製品ポートフォリオを簡素化

Auto-GPT が AI チャットボットにどのような革命をもたらすか

AI - KYT DOTSON 著。 1分前

オラクルの「Starlink」クラウド戦略が面白くなる

ビッグデータ - ゲスト著者による。 3分前

カウチベース株は損失拡大とソフトガイダンスで下落

ビッグデータ - マイク・ウィートリー著。 24分前

スーパークラウドの力: よりシンプルで安全な未来に向けたシスコのビジョンに関する TheCUBE の分析

AI - チャド・ウィルソン著。 2時間前

CrowdStrike は、クラウド環境を保護するためのサイバーセキュリティ機能をさらに追加します

セキュリティ - マリア・ドイッチャー著。 3時間前

シスコは、新しい Cisco Networking Cloud プラットフォームで製品ポートフォリオを簡素化

クラウド - マリア・ドイッチャー著。 4時間前

「TheCUBE は業界にとって重要なパートナーです。皆さんは本当に私たちのイベントに参加しており、来てくれて本当に感謝しています。皆さんが作成したコンテンツも同様に高く評価していると思います。」 – Andy Jassy ありがとう

ブログ