米Googleは5月20日(現地時間)、Google検索に「AIモード」を追加すると発表した。同社のAIモデル「Gemini 2.5」を活用。AI機能とWeb検索を組み合わせ、ユーザーの質問に対し、より高度な回答ができる。同日から米国で一般ユーザーに展開。同社の新機能の先行体験ユーザー向けに、今後数週間から数カ月以内に提供予定。
Googleが画像・動画生成AIを発表。このクオリティは本気だぞ…2024.12.19 12:3016,476 宮城圭介 どんどん登場、新AI 今年の初めにGoogle(グーグル)は動画生成AI「Veo」と画像生成AI「Imagen 3」を公開しましたが、年末さらに新しいバージョンを発表しました。今月16日Googleが発表した生成AIの新バージョンは「Veo 2」と「Imagen 3の最新版」です。 まずはそのアウトプットが見たい! GIF: GoogleGIF: Googleいかがでしょう。この美しさ(都合上GIFにしているため画質は落ちてしまっていますが)。 実際のサンプルを見てもらえれば、まるで本物と見分けがつかないほど繊細な映像です。生成映像だと言われて見るとわかるはわかるのですが…何も知らずに映像だけ見たら見極められそうにありません…。 Veoは動画生成AIとして登場した時点で
米Googleは12月19日(現地時間)、新たな推論AIモデル「Gemini 2.0 Flash Thinking」を発表し、Experimental(実験)モデルをGoogle AI Studioで公開した。 Gemini 2.0 Flash Thinkingは、回答の一部としてモデルが行う「思考プロセス」、つまり、問題を解決するためにどのような手順で考え、どのような情報を参照したのかを、人間が理解できる形で示すようにトレーニングされた推論モデル。ベースとした「Gemini 2.0 Flash」よりも、より強力な推論機能を備えており、マルチモーダル理解、推論、コーディングに最適という。 Google DeepMindとGoogle Researchのチーフサイエンティスト、ジェフ・ディーン氏はXのポストで、「思考を明示的に示すモデル」と説明した。同氏がシェアしたデモでは、「電子は、x=-
近年急速に発達しているAIの分野として、自然な会話や文章の生成ができるChatGPTのようなチャットボットや、テキストを入力するだけで高度な画像やイラストを生成できる画像生成AIを思い浮かべる人は多いはず。そんな中、OpenAIやGoogleなどの大手テクノロジー企業は、AIのさらなる発展の波として「AIエージェント」の計画を発表しています。今後のAIの鍵を握るAIエージェントとはどのようなものなのか、アメリカのクイニピアック大学でコンピュータサイエンスを専門とするブライアン・オニール氏が解説しています。 What is an AI agent? A computer scientist explains the next wave of artificial intelligence tools https://theconversation.com/what-is-an-ai-agen
Googleが2024年12月16日に、画像を入力することでさまざまな画像を生成できる新たな画像生成AI「Whisk」を発表しました。 Whisk https://labs.google/fx/tools/whisk/unsupported-country Introducing Whisk: Prompt Less, Play More | Google Labs - YouTube Whisk: Visualize and remix ideas using images and AI https://blog.google/technology/google-labs/whisk/ 従来の画像生成AIでは「90年代のアニメ風の○○」「サイバーパンク風の○○」といったテキストプロンプトを入力する必要がありました。しかし、今回発表されたWhiskは、テキストプロンプトを入力する必要がない
米Google(グーグル)は米国時間2024年12月13日、企業内の情報を検索できるAIエージェント「Google Agentspace」を発表した。業務を自動化する社内向けエージェントをカスタマイズできるのが特徴だ。 米Microsoft(マイクロソフト)や米Salesforce(セールスフォース)などが業務用のAIエージェントサービスを発表しており、グーグルも続いた形だ。生成AIを、単なる支援機能から実際の業務をこなすエージェントへと進化させる動きが活発になってきた。 Agentspaceは社内データに接続された企業向けAIサービスで、ユーザーインターフェース(UI)は企業内ポータルサイトのようなデザイン。トップページからAIとの対話や検索が可能だ。 グーグルが提供するグループウエア「Google Workspace」に加えて、「Microsoft SharePoint」、「Sales
論文や本をまとめて調査や執筆に活用できるGoogleのAIアシスタント「NotebookLM」に、AIと対話しながら概要を聞くことができる機能などいくつかの新要素が追加されました。 NotebookLM announces NotebookLM Plus and other new features https://blog.google/technology/google-labs/notebooklm-new-features-december-2024/ NotebookLMは文章を分析してアイデア出しや思考整理を手助けするGoogleのAIで、文章の内容を理解したポッドキャストの司会者のような存在を作るなど、高度な文章要約機能が搭載されています。とある本の筆者は「自著を読み込ませると、NotebookLMが2人の人格を作り上げ、音声による対談形式の要約を生成した」などと報告していま
生成AI(人工知能)の活用が“第2章”に突入している。今後の生成AIの主役は、ユーザーの指示から意図をくみ取り、仕事や日常生活におけるあらゆる作業や手続きを実行してくれる「AIエージェント」に変わりつつある。生成AIの技術の1つである大規模言語モデル(LLM)を利用したこれまでの対話型AIは、ユーザーの質問に回答する「話し相手」に過ぎなかった。 AIエージェントは、ユーザーが自然言語で与えた指示をLLMが解釈し、適切な手段を選択して自律的に処理を実行する。従業員の出張を支援するAIエージェントを例に考えてみよう。AIエージェントはユーザーと出張について対話しながら、裏でWeb検索やAPI(アプリケーション・プログラミング・インターフェース)などを使って、場所や予算といった希望に合ったフライトや宿泊先を探し出す。さらに予約サイトに接続し、フライトや宿泊先を実際に予約する。AIエージェントから
生成AI(人工知能)の精度を高める手法として、大規模言語モデル(LLM)と検索エンジンを組み合わせたRAG(Retrieval Augmented Generation、検索拡張生成)の利用が盛んだ。ところが米Google(グーグル)によれば、RAGよりも性能を高めやすい手法があるのだという。「メニーショットICL(Many-Shot In-Context Learning)」や「ロングコンテキストICL(Long-Context In-Context Learning)」と呼ばれる手法だ。 「ロングコンテキストICLを利用すると、RAGに比べて性能が12ポイント向上した例も出てきている」。Google Cloudが2024年10月24日に開催した生成AIに関するイベント「Generative AI Summit Tokyo '24 Fall」で、グーグル・クラウド・ジャパンの寳野雄太テク
AIの開発・運用が簡単に行えるようになるGoogleのプラットフォーム「Vertex AI」で、動画生成モデルの「Veo」と画像生成モデル「Imagen 3」のプライベートプレビュー版提供が始まりました。 Introducing Veo and Imagen 3 on Vertex AI | Google Cloud Blog https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai/ 「Veo」は、開発元のGoogle DeepMindが「これまでで最も高性能」と表現する動画生成モデルで、2024年5月に開催されたGoogle I/O 2024でお披露目されました。 自動で1080p・1分超の動画を生成できるAI「Veo」をGoogleが発表 -
米Google傘下のGoogle DeepMindは12月4日(現地時間)、生成AIベースの高精度天気予測モデル「GenCast」を発表した。最大15日先までの日々の天気と台風などの気象現象の両方を、「従来の最先端システムよりも正確に予測できる」としている。 GenGastは気象軌跡を表す50以上の予測で構成される「アンサンブルモデル」で、従来の単一の推定値を提供する決定論的モデルとは対照的だとDeepMindは説明する。また、複雑なデータの確率分布をモデル化し、新しいサンプルを生成できる生成的な機械学習手法である「拡散モデル」でもある。 例えば、台風の進路予測でも優れた性能を示すという。例として、2019年に日本に上陸した台風19号の予測性能を紹介した。下の画像では、上陸7日前はまだ不確実性が高い状態だが、上陸が近づくにつれて正確な進路予測が可能になることを示している。 DeepMind
企業のマーケティング事例と関連するキーワードを手軽に学べる連載「事例で学ぶキーワード」。今回は、ライオン株式会社による「CausalImpact(コーザルインパクト)」の活用事例を基に紹介します。 事例:ライオンやサントリーのクロスメディア検証 —— テレビと YouTube の重複接触、メディアごとの効果を明らかに従来、ライオンのオーラルケアブランド「クリニカ」は、テレビ CM を中心としたマーケティングで認知を獲得してきました。 YouTube 広告はテレビ CM の補完としての活用でしたが、生活者のメディア接点の変化を受けて、2022 年に発売した新商品のマーケティングでは、これまでの同社のセオリーを転換。さらなるブランドの成長に向けて、生活の隅々まで浸透している YouTube が態度変容を促せるのか、検証しました。 テレビ CM に加えて、TrueView インストリーム広告と
Google Researchが地球の大気を迅速かつ効率的で正確にシミュレートできるモデル「NeuralGCM」を開発したと発表した。このモデルは、欧州中期予報センター(ECMWF)と共同で開発したとのこと。 「NeuralGCM」は、従来の物理ベースのモデリングと機械学習(ML)を組み合わせて、シミュレーションの精度と効率を向上させているのだという。現在のスタンダードな物理ベースのモデルよりも2~15日間の天気予報を正確に生成し、従来の大気モデルよりも過去40年間の気温を正確に再現することが可能だ。 同社は、「NeuralGCM」を完全な気候モデルに組み込むことはまだないが、より強力でアクセスしやすい気候モデルの開発に向けた大きな一歩だとしている。最終的には、気候がどのように変化しているかをより正確かつ実用的な方法で理解できるようになることを期待しているとのことだ。 従来の気候モデルは、
8月29日、GoogleはGemini in BigQueryの複数の新機能を正式に提供開始した。 Gemini in BigQueryとは、Google Cloudのデータ分析プラットフォームであるBigQueryにAI機能を統合した新しいサービスであり、データ分析作業の効率を飛躍的に向上させる。これにより、ユーザーはAIを活用して複雑なデータセットの分析や重要な情報の抽出を、より簡単かつ迅速に行うことができる。 特に注目すべきは、自然言語での指示を通じてAIが適切なSQLクエリやPythonコードを生成する機能である。たとえば、ユーザーは次のように指示を出すことができる: 「このテーブルの各製品ごとの総売上を計算して。」 「pandasを使って、製品の売上と顧客レビュー数の相関を求めるPythonコードを書いて。」 「サブスクライバータイプ別に平均旅行時間を計算して。」 これらの指示を
sponsored いまゲーミングノートを選ぶなら“薄軽”が必須条件、Ryzen AI 9とRTX 4060搭載の最新「ROG Zephyrus G16」 sponsored CORSAIR「iCUE LINK TITAN RX RGB」をチェック iCUE LINKで面倒な取り付けやRGB設定が超簡単、冷却性能もバッチリ高いCPUクーラーが3万円強! sponsored ASUSの新ケース「TUF Gaming GT502 Horizon」にCore Ultra 9 285Kを採用 あれもこれもASUS! 新ピラーレスケースも渋カッコいいBTOPCのコダワリを聞く sponsored 基調講演には総務省 CISOの山内智生氏が登壇、サイバー空間をめぐる脅威動向や政策を紹介 ランサム感染の実体験からMDR導入事例までが語られた「Canon Security Days 2024」 spons
Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表 基本的に、アプリケーションのユーザーインターエイス(UI)は開発時に設計され実装されて、その実装通りに実行時に表示されるものです。 しかしこのUIを開発時ではなく、アプリケーションの実行時に生成AIが適切に構成して動的に生成し表示する「AI Generated UI」という仕組みを、Googleがインドのバンガロールで行われたイベント「Google I/O Connect Bengaluru 2024」で発表しました。 現時点でAI Generated UIはFlutterフレームワークの上にアーリープレビューとして実装されており、ユーザーの意図に基づいてFlutterが動的にUIコンポーネントとレイアウトを構成し、ユーザーにパーソナライズされた最適なUIを表示すると説明されています
これはなに? 自著 「つくりながら学ぶ!生成AIアプリ&エージェント開発入門」 に掲載するために作ったOpenAI・Anthropic・GoogleのLLMの一覧表です。 各社が新しいモデルを出すたびに本の内容が陳腐化するため、この記事に最新の情報を更新していきます。 各社のモデルの主要諸元・費用に加えて、自分の印象を書いてあります。 性能の目安としてChatbot Arenaのスコアを参考までに添付しています これはあくまで参考用かつ英語での評価なので、スコアが一番高いものがいい、もしくは低いからダメというわけではありません。 少なくともこの記事に掲載されているモデルは、スコアが低いものでも単純な翻訳などでは十分な性能を持っています。そして何より高性能モデルとは比較にならないほど高速です。 用途や使用言語によって試してみて最適なものを選ぶのが良いでしょう [PR] 宣伝 本の紹介は↓に書
Googleの研究チームが、写真1枚と音声を入力することで「音声に合わせて身ぶり手ぶりを交えて話すリアルな動画」を生成できるAIフレームワーク「VLOGGER」を発表しました。 VLOGGER https://enriccorona.github.io/vlogger/ Google researchers unveil 'VLOGGER', an AI that can bring still photos to life | VentureBeat https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/ Google researchers unite to create Vlogger | Cybernews https://cybe
Googleがテキスト・画像・ムービーをまとめて処理できるマルチモーダルAI「Gemini」の次世代モデルとして「Gemini 1.5」を発表しました。処理できるトークン数の上限が100万まで上昇したほか、従来の1.0モデルと比べて少ない計算で高い品質の結果を提供できるとのことです。 Google Japan Blog: 次世代モデル、 Gemini 1.5 を発表 https://japan.googleblog.com/2024/02/gemini-15.html 従来モデルであるGemini 1.0は「GPT-4を超える性能のマルチモーダルAI」として2023年12月6日に登場しました。最上位モデルのGemini 1.0 Ultraを使用したハンズオンムービーではまるで人間かと思うような受け答えをしている様子が確認できます。 文字・音声・画像を同時に処理して人間以上に自然なやりとりが
Googleの研究チームが動画生成AI「Lumiere」を2024年1月24日(水)に発表しました。Lumiereではフレーム同士が自然につながった違和感の少ない動画を生成可能で、テキストや画像を入力して動画を生成できるほか、動画の一部分を指定して別の動画に置き換えたり、写真の一部分だけを動かしたりといった操作も可能です。 Lumiere https://lumiere-video.github.io/ テキストや画像を入力して動画を生成できるAIは数多く存在していますが、それらのAIの多くは「フレームを複数枚生成し、フレーム同士を補間する」という手法で動画を生成しているため、フレーム同士のつながりが不自然になりがちです。一方で、Lumiereは「動画全体のフレームを一度に生成する」という手法を採用しており、フレーム同士のつながりが自然で違和感の少ない動画を生成可能。生成可能な動画のフレー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く