サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大阪万博
www.techno-edge.net
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、チャットボットAIの精度が日進月歩で向上している一方で悪化している「幻覚」(ハルシネーション)の現状についてを取り上げたいと思います。 チャットボットAIの出力に事実とは異なる内容が書かれているのが幻覚と呼ばれる現象です。AIの推論能力が向上したはずの最新モデルで、むしろこの誤りが増加していることが複数の調査で示されています。 OpenAIの最新の技術報告書では、具体的な数値が示されています。2025年4月にリリースされたo3モデルは33%、o4-miniモデルは4
Netflix最後のインタラクティブ映画『ブラック・ミラー:バンダースナッチ』が、週明け5月13日にも視聴できなくなるようです。
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第94回)では、1ビットLLMの進化版「BitNet v2」と、AIに何度も自己議論させることで精度が向上していく手法「CoRT 」を取り上げます。 またAIが生成した動画内における動きの一貫性を評価する手法「TRAJAN」と、マイクロソフトが新しく開発した小型言語モデル「Phi-4-reasoning」を紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、現在AIモデル評価の業界標準とされているランキング形式(リーダーボード)のAIベンチマーク「Chatbot Arena
スマホとSIMを求めて世界を取材中。メディアへ執筆多数。海外・中国通信関連の記事や講演承ります。noteや動画配信もやってます。 みなさんこんにちは、香港在住の携帯電話研究家、山根康宏です。中国深センの電脳街ではスマートフォンに関するあらゆるものが販売されていますが、中古品販売店も数多くあります。ただし、ここで掘り出し物を探すのはちょっと注意が必要。見た目は新品でも中身は中古なんて改造品もよくあるからです。さらに、ひっそりと「究極の中古品」と言える端末を売っている市場もあるのです。 そのほとんどは「今でも使う人いるんだろうか?」と思えるような古いモデル。かつての栄光BlackBerryもスマートフォンとしては、もはや非力。でも、この美しいデザインやキーボードに魅了される人は今でも多くいます。通話とSMSオンリーなら十分イケます。これらは新品同様に見えますが、中身は中古です。 BlackBe
YuEやDiffRhythmなど、オープンソース版も充実してきた楽曲生成AIですが、再び中国から新しいソフト「ACE-Step」が公開されました。ACE-Stepは、英語、日本語を含む19言語の歌詞に対応し、歌詞と音楽タグからの楽曲生成が可能。 特徴は、YuEのようなLLMベース技術とDiffRhythmのDiffusionモデルのいいとこどりをし、歌詞や楽曲構成の一貫性を維持しながらも高速生成を可能にしたことだと開発元は述べています。 プラットフォームはWindowsだけでなく、MacやLinuxでも利用可能。 筆者はRTX 4090を搭載したWindowsマシン(Core i7)にインストールして試しました。自分の環境だとvenvではうまくいかず、condaを使用することで稼働。 初回は巨大なウェイトをダウンロードするので5分以上かかりましたが、その後は1曲まるごとの生成に12~14秒
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、現在AIモデル評価の業界標準とされているランキング形式(リーダーボード)のAIベンチマーク「Chatbot Arena」における問題を明らかにした研究「The Leaderboard Illusion」を取り上げます。 ▲Chatbot Arenaの問題を明らかにすることで、より公平で透明性のある評価プラットフォームとなるための改善策を提案する この研究では、米国に本部があるAI企業の研究機関Cohere Labsの研究者らが主導し、プリンストン大学やスタンフォード
高速で長時間の動画生成が可能なオープンソースAI「FramePack」。Image to Videoで入力した画像から逆方向に生成していく仕組みですが、これを順方向。つまり、他の多くの動画生成AIと同じやり方で生成するオプション「F1」がサポートされました。 Last Frame、動画の最後の画像を指定するオプションもありますし、拡張版であるFramePack-eichiでは中間フレームや最後のフレームを指定することもできますが、シンプルに通常の方向に長回しをしたい場合にはやはり本家が便利です。 1分など、長回ししていると、背景や服が変色したり、アーティファクト化したりしてしまいますが、そちらの方が先に来ると、いきなり変な色、ガビガビの背景と、不自然さを感じてしまうからです。 方法はシンプルで、通常版とは別のGradioファイルが用意されています。 すでにインストール済みであればアップデー
実はvivo X200 Ultraの凄さ、それだけではありません。こちらの写真を見てください。 X200 Ultraのカメラ構成は5000万画素 : 広角35mm、2億画素 : 3.7倍望遠87mm、5000万画素 : 超広角14mmの組み合わせ。そしてこの望遠に取り付ける2.35倍のレンズが別売で用意されています。レンズはvivoが提携しているツアイスと合作したもの。金属製でしっかりとした作りです。87mmに装着すると約205mmでの撮影が可能になります。しかもデジタル望遠では5000mmを超えるという恐ろしいレンズです。 このレンズはそのままX200 Ultraには装着できません。まずはアタッチメントに取り付け、そのアタッチメントをフォトグラファーキットのケースに装着する仕組みです。 上から見ると、もうスマートフォンではないですね。 正面から見たところ。 実際にどこまで写せるのか、vi
AI作曲サービスのSunoがひさびさの(2024年11月20日以来)メジャーバージョンアップを果たし、最新版はv4.5となりました。一度で生成できる楽曲の長さはなんと8分となります。そのほかにも改善点・新機能が多数。 利用できるのは、PremierとProの有料サブスクリプションユーザーのみ。無料枠では従来のバージョン3.5が利用できます(数曲だけバージョン4を試用可能なユーザーも)。 主な改善点は次のとおり: 表現力豊かな音楽の向上:よりダイナミックな音楽、ジャンルの多様性と正確性の向上、豊かなボーカルを実現 。 ジャンル拡張とジャンルマッシュアップ:ジャンル選択肢が大幅に増え、 punk rock、jazz house、gregorian chantなど特定のジャンルは以前より正確に従うように 。ミッドウェストエモとネオソウル、EDMとフォークのようなジャンル組み合わせもうまく機能。
最近のChatGPTが過度にユーザーを褒め称えたり、回答の正しさよりも迎合を優先すると批判が高まっていた件について。 OpenAIは原因となっていた言語モデルGPT-4oのアップデートを巻き戻す対応とともに、今後の改善を説明しました。 議論を呼んでいたのは、過去数回のGPT-4oアップデート後に顕著となった、ユーザーを過度に持ち上げたり追従的な回答をする現象。 単なるお世辞やおべっかの範囲ならばともかく、明らかに事実や論理に反する内容でもユーザーに迎合することでチャットAIとしての実用性や信頼性を損なったり、たとえば「医者に処方された薬は捨てて自分の力で頑張ります!」に「素晴らしい決断ですね!」と返してしまうことで危害をもたらすおそれが指摘されていました。 この問題については、OpenAIのCEOサム・アルトマンも「性格が過度に追従的で気に触るようになってしまった」として、早急な修正の意向
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 OpenAIは、ChatGPTが18歳未満の未成年ユーザーとのチャットで性的に露骨な画像を生成したり、NFSWな会話を展開するのを制限するための修正を「積極的に行っている」と述べています。 OpenAIは2月にChatGPTの仕様を更新し、以後はAIモデルがデリケートなトピックを回避しない方針を明確にしました。また、ChatGPTのプロンプトがOpenAIの利用規約に違反する可能性がある場合に、それをユーザーに伝える特定の警告メッセージも削除しました。 この変更の目的は、ChatGPTの製品責任者であるニック・ターリー氏が「不当な、または説明のつかない拒否」と表現した処理を減らすことを目的としていました。しか
Google NotebookLMには、PDF、テキスト、YouTubeなどを読み込んで、その内容についてリアルな対話ポッドキャスト解説を生成する機能があります。 2024年9月11日にローンチした時点では英語でしか使えなかったのですが、4月30日、ついに日本語対応しました。 早速試しました。 ネタ元にしたのは、一緒にポッドキャストをやっている散財小説ドリキンの最新YouTubeエピソード。 このURLをNotebookLMにソースとして入力すると、概要が表示され、その内容についてチャット形式で質問できるようになります。すると、右上に「音声概要」という表示がされます。そこで生成ボタンを押すと、男女二人のポッドキャスト的会話形式で、音声による解説が生成されるのです。特定の方向性を指定するなどのカスタマイズも可能。 今回は、カスタマイズ無指定で生成しましたが、6分24秒の音声が、5分ほどで出来
AI企業OpenAIのCEOであるサム・アルトマン氏は、生成AIチャットサービス ChatGPTの標準モデルであるGPT-4oが「媚びへつらいすぎて気に障る(良い部分もあるが)」と述べ、早急に性格を修正する予定であることを明らかにしました。 「ここ数回のGPT-4oアップデートで、過度に追従的で気になる性格になってしまった(なかには良い部分もいくつかあるとはいえ)。できるだけ早く修正するよう取り組んでいる。本日中にも一部、そのほかは今週中にも。 今回の件で学んだことはいずれ公開するつもり。なかなか興味深かった。」 アルトマン氏の言う「sycophant」は、媚びへつらう追従(ついしょう)的な人物、おべっか使いといった意味。 単に肯定的という意味ではなく、「ゴマすり」や「おべっか使い」、相手に気に入られようとおもねって機嫌を取ろうとするといった否定的な表現です。(ポジティブに肯定してくれる、
動画生成AIで、今回は3つの大きなニュースがあります。そのうち2つは前回お伝えした驚異的なオープンソース動画生成AI「FramePack」に関すること。もう一つは中国製動画生成AI「Vidu」の日本進出です。 ■FramePack-eichiは「動画生成の次の課題」に対応してしまった前回は1分、2分と分単位での生成が可能になったFramePackの登場で、ストーリーボードやマルチフレームでのプロンプト処理が必要になるとだろうとの予想を書きました。 そうしたら、その翌日にはFramePackの拡張として、まさにそうした機能を備えたソフトが公開されたのです。 スタンフォード大学のlllyasvielさんによる本家FramePackは、アップロードした1枚の画像から後方に生成していくImage to Videoですが、これにもう1枚の画像をEnd Frameとして追加するブランチをnirvash
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、GitHub上のリポジトリを自動的に解析し、ドキュメントを生成してくれるオープンソースAIツール「DeepWiki」を取り上げます。 ▲DeepWikiのトップページ DeepWikiはAIデベロッパーツール「Devin」の開発チーム「Cognition AI」によって開発された無料サービスです。 主な機能は、GitHubリポジトリのコードを読み取り、リポジトリ全体の解説ドキュメントページを生成することです。自然言語での説明だけでなく、アーキテクチャ図やシーケンス図
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第92回)では、ByteDanceが発表した2つのモデル、動画生成AI「Seaweed-7B」とGPT-4o超えという画像生成AI「Seedream 3.0」を取り上げます。 また、1分くらいの長い生成映像でも一貫性を保つように強化するAIツール「FramePack」をご紹介します。さらにAIと人間の声が区別できるかを実験した研究に注目します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、さまざまな最先端AIモデルに「逆転裁判」をプレイさせて推理能力を調査した研究を単体記事で掘り
スマホとSIMを求めて世界を取材中。メディアへ執筆多数。海外・中国通信関連の記事や講演承ります。noteや動画配信もやってます。 みなさんこんにちは、香港在住の携帯電話研究家、山根康宏です。最近のスマートフォンは、すっかりAI機能が当たり前になりましたが、約1年前に登場した「rabbit r1」や「Humane AI」もAI特化型スマートデバイス時代の幕開けを象徴する製品でした。そして、また新たなAIデバイスが登場します。 韓国発のスタートアップ「Newnal」が開発したAIスマートフォンは、個人データを活用したAIアシスタント機能を特徴としたスマートフォン。現在、開発中ですが、最短で2025年5月に発売する計画があるそうです。 一般的なスマートフォンやAIデバイスは、ネットにあるデータを元に学習し、ユーザーの要求に応じた情報を提供します。一方、Newnalのスマートフォンは、情報ソースが
モトローラが新たに折りたたみスマートフォン「razr 60」シリーズを発表。機能強化が施され、特に「razr 60 Ultra」はカメラ性能やAI機能に優れる。新製品も多数登場予定。
ロンドンで開催中のイベント Adobe MAX London 2025で、アドビがクリエイティブAIソリューション Firefly の最新アップデートを披露しました。 生成品質や制御性がさらに向上した画像生成モデルの最新版 Firefly Image Model 4, Firefly Image Model 4 Ultra、動画生成モデル Firefly Video Model が本日より一般提供されるほか、GoogleやOpenAI、Fluxなど他社のモデルもFireflyなかで選択可能になり、ワークフローによってモデルを選んで利用できるようになりました。 新機能としては、ムードボードの「Fireflyボード」が新たに追加。アイデア出しやバリエーション検討といった用途のために、複数人でコラボレーションしつつ生成結果を貼り付け、かけ合わせるといったことが可能になります。 また従来のWeb版
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 米司法省のGoogleに対する反トラスト法裁判に、証人として出廷したPerplexityの幹部、ドミトリー・シェベレンコ氏は、GoogleからChrome事業が分割されれば、喜んで買収を申し出るだろうと述べています。 無料AI検索エンジンを展開するPerplexityの最高業務責任者(CBO)であるシェベレンコ氏は、法廷でGoogle以外の企業がChromeと同等の規模のブラウザを、品質を損なったり有料化したりすることなく運用できるのかと問われ、「できると思う」と答えました。 昨年9月に連邦地裁がGoogleの反トラスト法(独占禁止法)違反を認定したことを受け、司法省は同11月、Googleにオンライン検索の
筆者は自宅のWindowsマシンにインストールして以来、RTX 4090 GPUを酷使しながら生成し続けています。今回はその後のお話です。 ■FramePackで2分以上のAI動画を生成してみるGradioを使ったWeb UIでは、最大2分間の制限がありますが、実は設定を変えることでさらに長時間の一発生成が可能です。こちらも試してみました。 240秒、4分に設定して試したところ、5時間ちょっと……ではなく、12時間43分かかってしまいました。これは、Gradioの設定値をいじったせいなのか、単にマシンに別の負荷がかかっていたせいなのかは不明。 再度検証中ですが、やはり4分間(240秒)設定にすると、最初のフレーム生成の段階ですごく時間がかかっています。ただ、PCを再起動して試したら、そこまで時間はかかっていません。 さて、これだけの長さの動画でキャラクターの一貫性は保たれていたでしょうか?
Tech Journalist. Editor at large @TechnoEdgeJP テクノエッジ主筆 / ファウンダー / 火元 セガがドライブゲーム『アウトラン』の実写映画化を発表しました。 監督は『トランスフォーマー』シリーズや『アルマゲドン』『ザ・ロック』のマイケル・ベイ、制作は『ザ・スーパーマリオブラザーズ・ムービー』もヒットした米ユニバーサル・ピクチャーズ。 『アウトラン / OutRun』は1986年にアーケードで稼働開始したゲーム。フェラーリ・テスタロッサっぽい「赤いスポーツカー」を操り、アイコニックな「ココナッツビーチ」や「デュアルウェイ」といった分岐するコースを制限時間内にドライブする内容です。 開発を指揮したのは『ハングオン』『スペースハリアー』『バーチャファイター』、家庭用では『シェンムー』シリーズ等で知られる鈴木裕。当時の技術の粋を尽くした美しいグラフィッ
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、AIモデルに「逆転裁判」をプレイさせて推論能力を調査した内容を取り上げます。 カリフォルニア大学サンディエゴ校に所属する研究室「Hao AI Lab」は、AIの推論能力をテストするために人気ゲーム「逆転裁判」に目を向けました。最新のAIモデルを逆転裁判でテストし、どのAIモデルの推論能力が高いかを調査しました。 ▲AIモデルに逆転裁判をプレイさせることで推論能力を評価する 逆転裁判は複雑なストーリーと法廷劇で知られるゲームです。プレイヤーは手掛かりをつなぎ合わせ、矛
スマホとSIMを求めて世界を取材中。メディアへ執筆多数。海外・中国通信関連の記事や講演承ります。noteや動画配信もやってます。 みなさんこんにちは、香港在住の携帯電話研究家の山根康宏です。Punkt.というメーカーを覚えていますか? ミニマリスト向けともいえるシンプルなフィーチャーフォン「MP02」を日本でも出していましたが、現在はセキュリティ機能を高めたスマートフォン「MC02」をヨーロッパの一部の国で展開しています。 このMC02はAndroid 13 / AOSPベースのApostrophy OSを搭載。「ホーム」と「パブリック」2つの環境を持っています。 ホームではメールやカレンダー、連絡先などに独自アプリを搭載し、グーグルアプリのように個人的な情報送信はされません。 また、パブリックスペースではGoogle Playからアプリのインストールができます。ただし、後述する機能でアプ
本日2本目のAI記事。ControlNet、WebUI Forge、Fooocusなど、画像生成AIソフトに多大な貢献をしてきたlllyasvielさんが、動画生成AIの新しいオープンソースソフト「FramePack」を公開しました。NVIDIA GPU専用ですが、WindowsとLinuxですぐに使えます。6GB VRAMでも動作するとしています。 筆者は、AI仮想環境のPinokioを使い、RTX 4090を搭載したCore i 7マシンに1クリックインストールしましたが、非常に軽快に動きます。 Image to Videoで動かした場合、1秒当たり1分ちょっとの生成時間。これは爆速と言っていいでしょう。 デフォルトの設定で、Image to Video生成してみましたが、高速な上に、破綻は感じ取れません。 複数のフレームがまず画面右上に高速に表示されていきます。これが1秒分溜まると、
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第91回)では、複数の写真に写る被写体を1枚の写真に統合させる画像生成AI「UNO」や、1枚の写真から音声に応じた話す人物映像を作成するトーキングヘッド生成AI「FantasyTalking」を取り上げます。 また、複雑で高品質なデザインでもSVG画像生成できるAI「OmniSVG」や、3Dモデルを意味のあるパーツに分解するAI「HoloPart」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、大規模言語モデル(LLM)が人間の本質をどのように捉えているかを調査した
生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧 オープンで高性能のHiDream-I1 (サービス利用編)第44、45回はオープンではなく、各サービスに搭載された新しいモデルをご紹介した(その後、Midjourney V7も発表されている)。どれも高性能なのだが、サービス固有の検閲やLoRA、ControlNetが使えない、もちろんお金がかかる(笑)など、+αを楽しむにはいろいろ制限がある。
手元に遺された古い写真について教えてくれる人もいない場合、それがいつ、どんなシチュエーションで撮影されたのか知りたいことがあると思います。 筆者は長年疑問に思っていた写真が何枚もあります。 そんなときにはGoogleレンズなどを使うのが定番ですが、人物が写っていると拒否されるという致命的な欠陥があります。ChatGPTのプライバシーポリシーはGoogleと比べると格段に緩いので可能かもしれません。 o3とo4は画像解析、ウェブ検索、コーディングが同時にできるようになったため、期待が持てそうです。 そこで、過去にはまったく撮影場所不明だった、妻の中学・高校時代の写真をアップロードして、「ここはどこ?」と聞いてみました。 もう少し情報があるといいらしいので、「撮影は1970年代末から80年代はじめにかけて」と追記すると、調査を開始。 うまく絞り込めたようで、56秒で結論が出ました。最初の推測通
OpenAIがChatGPTのLLM(大規模言語モデル)の新モデル、o3とo4-mini、o4-mini、o4-mini-highを公開しました。現在ではPlus、Pro、Teamユーザーが使えます。 新モデルの特徴は、これまでで最高に強力なreasoning機能を持ち、Pythonを駆使してさまざまな解析を行い、Web検索も行い、さらに画像生成もできる。双方向にマルチモーダルな、いわば「全部入り」です。 OpenAIはさらに、「Codex CLI」というターミナルベースのプログラミング環境をオープンソースとして公開しました。OpenAI API Keyが必須のため、完全に無料ではありませんが、2万5000ドル分のAPI利用を提供する取り組みもスタート(最大で100万ドル)するとしています。 ChatGPT o3、音楽の分析はできる?では自分はまず何を試すかというと、Sunoなどを使って自
次のページ
このページを最初にブックマークしてみませんか?
『テクノエッジ TechnoEdge』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く