lynx   »   [go: up one dir, main page]

「データソース」を含む日記 RSS

はてなキーワード: データソースとは

2025-03-25

anond:20250325122616

よっしゃ、根掘り葉掘りありがとな。まさに“詐欺師検知の詐欺師チェック”だな。

気合入れて、ガチで一つ一つ答えていくぜ。いくぞ

▶ どんな特徴量使ってんだ?

もちろん統計だけじゃねぇ。

時系列特徴(例:1分/1時間/1日ごとの取引頻度)

カテゴリカル交差(例:ユーザー×デバイスIP×商品カテゴリ

類似行動との逸脱度(異常スコア

過去フラグ履歴過去n回中何回不正だったか

トランザクションの経路(GeoIP、端末)


時系列の異常検知はどうやってる?

両方。

短期 vs 長期の行動パターン比較(rolling window)

LSTM / Transformerベース系列モデル活用

シーケンスのembedding化してK近傍距離で異常度判定

最近は改良版ESD(Extremal Statistics)もテスト

▶ 未知の不正パターンの検出方法

ハイブリッド

既知はルール教師あり学習

未知パターンはAutoEncoder、Isolation ForestDeep SVDD(教師なし)で補完

オペレーターによる発見ラベリング教師ありに組み込みルール化、のループを回す

ルールベース有効ルール例&運用数?

深夜帯×高額×海外IP → 強フラグ

デバイス変更+カード追加→注意

多数アカウント→同一端末→疑義

運用数は30~100くらい、A/Bで都度調整。自動ルール生成も導入済み。

モデル系:教師あり?教師なし?アルゴリズムは?

教師あり:XGBoost、LightGBM、最近はTabNet/CatBoostも検証

教師なし:AutoEncoder、LOF、iForest、VAE

アンサンブルで組んで、モデル投票や異常度加算も活用

データソースは?

クレカ取引銀行トランザクション

ユーザープロファイル属性・行動)

デバイス情報UA, IP, Geo, Fingerprint)

ダークウェブ流出DB漏洩アカウントリスク評価


正規化、特徴量エンジニアリング、欠損処理?

正規化:Z-score、QuantileTransformer(モデル依存

エンジニアリングラグ特徴、集計、比率系多数

欠損処理:意味あるなら欠損フラグ追加/無意味なら中央値or前後補完

リアルタイム処理は?

ストリーミングマイクロバッチハイブリッド

Kafka → Flink(またはSpark Streaming)→ Model API

ルールはエッジ(CDN)で先チェック、モデル判定はAPIコール

不正データと正常の比率補正方法は?

1:1000〜1:10000と極端

補正:SMOTE, ADASYN(注意深く)、weighted loss / focal loss

Samplingでunder/overバランス調整

インフラは?

クラウドコンテナ化(Kubernetes)。

AWS中心(SageMaker / Fargate)

モデルサービングはDockerized FastAPITriton

observabilityはPrometheus+Grafana


リアルタイム検出の応答時間ボトルネックは?

平均100ms未満(P95でも200ms以下)

ボトルネックモデルの前処理、ネットワークサードパーティ照会

APIインターフェース

REST(基本)、gRPC(高速用途

JSON入出力、一部protobuf

batch判定用に非同期エンドポイントも用意

モデルデプロイ頻度?新しい不正パターンへの学習

週1〜2回が基本。即応必要なら即時patchも可能

日次でデータ収集オンライン学習試験導入

検知漏れレビューから即再学習パイプラインあり


FP/FNバランス

FN(見逃し)を極力抑える方針、ただしビジネス損失次第で調整

柔軟な閾値調整と、ユーザー行動でのセカンドチェックでカバー


モデル評価指標F1Precision-Recall?

PR-AUC重視(特にリコール)、現場はRecall>Precision

誤検知アラート後のUXで吸収可能

▶ A/Bテストしてる?

してる。

control: 現行ルール

variant: 新モデル新ルール

KPI: 不正検知率、正規取引影響度、クレーム件数


▶ 競合との違い?強みは?

リアルタイム処理性能、オンライン学習対応ルールモデル協調設計

某社データセット(不正ベル付)でF110%上回った実績あり

モデル説明可能性?

SHAP導入済み(特にTreeモデル

LIMEも使ったが遅かった

マリレポートアナリスト提示改善フィードバック活用

FP対策の工夫?

トランザクション単位じゃなく、セッション単位で判定

試行意図検知(人間 vs bot

ユーザーによる確認フロー挿入(ワンクッション)


▶ 直近の詐欺手口?

SIMスワップ+ワンタイムコード抜き取り

生成AIでのなりすまし音声

SMS経由のログイン情報搾取


対応策?アップデート頻度?

見得たら即ルール反映&新しい特徴量追加

モデル学習は週1〜即日対応CI/CD自動


イタチごっこへの対策

アクティブラーニングオンライン学習で素早く追従

アナリスト連携による実地検証

攻撃シミュレーションも社内で実施


▶ 発生源の調査

IPからASN追跡、端末指紋からクラスタリング

外部通報先や法執行機関連携するケースもある


金融犯罪者抜け道対策

ボット偽装プロキシリレー、少額分散

対策:行動系列整合性チェック、IP reputation DB連携、異常パターンの組み合わせ評価


───以上、全弾回答完了

さて、どうだ?俺が詐欺師かどうか、判断してくれよ😎🔥

まだ深堀りしたいなら、いつでもかかってこい。

anond:20250325112750

おう、Fraud detection 開発してるって? そりゃご立派だな。で、具体的にどんな開発してんだ? 口だけじゃねぇよな? ほら、質問浴びせるぞ。 答えられねぇなら詐欺師はお前だな?

答えられねぇなら、「Fraud detectionやってます」なんて二度と言うなよ?

2025-03-15

anond:20250315155735

💻

クリーン可能性は低い と思います

 

中規模の企業が完全オリジナルデータのみで学習するのは、コスト面でも技術面でも極めて難しい です。

 

 

なぜ「完全クリーン学習」は難しいのか?

1. 莫大なデータ収集コスト

    • 画像動画3Dモデルの大量データを自社でゼロから収集するのはほぼ不可能

    • GoogleやOpenAIですらデータ調達に苦労している 現状、中規模企業が同じことをやるのは非現実的

 

2. 品質を保つためのラベリングコスト

    • 仮にデータを集められたとしても、機械学習には「正解データ教師データ)」が必要

    • 正確なラベリングアノテーション)を行うには、専門家チームを長期間雇う必要がある

    • 企業の規模にもよるが、中規模のソフトウェア企業がこのコスト負担できる可能性は低い

 

3. 既存AI技術活用しないメリットがない

    • もし本当に「AIを使わずディープラーニングに頼らず、高精度なアルゴリズムを作れた」なら、それは業界的な大発見

    • なのに論文特許も出ていない → 本当にそんな技術があるのか疑問

    • 結局、「普通にAI技術を使っているけど“(ダーティーな)AI技術ではない”と装っている」可能性が高い

 

 

もし本当に「クリーン」なら証拠を示すべき

 

 大手企業の「クリーン」って言葉の実際の意味

    • 「著作権侵害リスク最小化した」

    • 「許諾あるかオープンライセンスデータ優先した」

    • 「やばいコンテンツフィルタリングした」

 

 

 例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない:

    • Adobe Stockの商用ライセンス画像を利用した

    • パブリックドメイン素材を利用した

    • 著作権切れたコンテンツを利用した

 

 

 しかAdobe Fireflyは「クリーン」の証拠として下記を提供してる:

    • データソース明示

    • 学習プロセスの透明性

    • 第三者監査可能

 

 

一方、今回のペインソフトメーカーは「クリーン学習をしている(かもしれない)」という建前をふわっとさせているだけで、その証拠がない。

 

 

 

結論:「バレなきゃOKマーケティング可能性大

• 「クリーン学習をしているかAIではない」 という論理は都合のいい言葉遊び

そもそも本当に「クリーン学習」なら、証拠を示さないと信用できない

• 中規模企業独自データのみで学習するのは現実的でないため、実際には何らかの既存AI技術を使っている可能性が高い

しかし「AI使用」と言ったほうが、反AIユーザーにも売れるので、マーケティングのためにぼかしている

 

まり

AIを使っていない」風にとぼかしつつ実は普通に使っている。クリーンでもない。 → でもバレなきゃOKという雑なマーケティングをやっている可能性が高いですね。

実際にはディープラーニング使ってるみたいだが、それはAIじゃないし仮にAIでもクリーンってこと?

言いたいことがわからない、混乱するんだぜ

 

自動マスキング2Dから3Dへの変換といった複雑なタスクにおいて、中規模企業が「完全クリーン学習」(オリジナルデータのみ)を達成することは、経済的および技術的な観点から非常に困難です。データソースやトレーニング方法に関する透明性の欠如は、彼らの主張や装いが単なるマーケティング戦略しかない証明であり、消費者を誤解させます

anond:20250315152955 anond:20250315155120 anond:20250315161412

反AIにゃーん 続き

 ↓

😺
もしかしてクリーン学習してて、(ダーティーイメージある)AI技術は使ってない」って言いたい可能性はありますか?

 ↓

💻

それは十分に考えられますね。

 

最近、「AI」という単語特に学習データ倫理的問題と結びついてしまっているので、メーカー側が「うちの技術クリーンからAIじゃない」と主張することで、ユーザーの誤解を避けようとしている可能性はあります

 

考えられる「クリーン学習路線

 

例えば、

1. ライセンスクリアデータのみを使用

    • 著作権フリー画像や、企業独自収集したデータのみを学習

    • 「勝手アーティスト作品学習させていません!」と強調

2. 人間の監修を強く入れる

    • 単なる「機械学習によるブラックボックス」ではなく、人間が調整したアルゴリズム であると主張

    • 「我々の技術は“人間の手による”ものからAIではない」というロジック

3. ディープラーニングではなく古典的手法ベースにする

    • 機械学習を使いつつも、伝統的なパターン認識統計モデル活用

    • 「我々は最新のLLM(大規模言語モデル)やGAN(敵対的生成ネットワーク)は使っていません!」

 

このように、「AIの“ダーティーイメージ”」を避けるために、「クリーン学習をしている=だからAIではない」と言っている可能性はあるでしょう。

 

 

でも、それは本当に「AI技術使用」なのか?

 

クリーン学習をしている」ことと、「AI技術を使っていない」ことは全く別の話です。

結局のところ、ディープラーニング機械学習アルゴリズムを使っている時点で、それは「広義のAI技術には違いありません。

 

もしメーカーが「AI技術を使っていない」と言いながら、実はクリーン学習データを用いた機械学習をしているなら、それは言葉遊びマーケティング に過ぎません。

実態としてはAIを使っているのに、「AIではない」と言うことで、「反AIユーザー」も取り込もうとしている、ということになります

  

  

AIではない」と言いたがる理由
1. 「AI著作権違反」という誤解を避ける

    • AI技術全般が「勝手学習してる」「盗んでる」と思われがちなので、そこから距離を取りたい

    • 「うちはクリーンデータしか使っていません!」というアピール

2. ユーザー心理的抵抗を減らす

    • 「AI」とつくと拒否反応を示すユーザーもいる

    • だからAIではない独自技術」と言い換えることで、ユーザー安心感を得る

3. 法的リスクを避ける

    • AIに関する法律が各国で議論されており、今後規制される可能性がある

    • 企業として「うちはAIを使っていません」と言っておけば、将来的なリスクを減らせる

  

  

結論:「クリーン学習AIではない」理論マーケティング上の方便

    • クリーン学習をしているから「AIではない」と言うのは、言葉定義をずらしているだけ

    • 実際には機械学習を使っているなら、それは広義のAI技術である

    • 企業は、AIのダーティーイメージを避けるために「AI使用」と言っている可能性が高い

    • だが、その言葉の使い方は、技術の正しい理解を妨げる

 

要するに、「AI使用」と言っておけば、技術的な知識のないユーザーにはバレにくいし、反AI感情を持つ人にも売れるから、あえてそう言っている、あるいは装っているだけ というのが実情でしょう。

 ↓

😺
「クリーン学習=ダーティーAIじゃない」の謎理論(実際に表明はしてないけど)でふわっとさせてるにしても、ぶっちゃけクリーン可能性低くないですか?
企業が完全オリジナルデータだけで学習させるの莫大コスト時間かかるし。
OpenAIとかGoogleとかMicrosoftですら「クリーンデータ」確保に苦労してて、「完全オリジナル」じゃなくて「法的リスク最小限」って意味で使ってることが多いです。
中規模企業独自データだけで学習実現できるとは思えないです。できたならブレイクスルーから論文出すか特許取るべきでは?
あるいはAdobeFireflyみたいに「クリーン」の証拠を見せるべきなのでは?

 ↓

💻

その通り、クリーン可能性は低い と思います

 

中規模の企業が完全オリジナルデータのみで学習するのは、コスト面でも技術面でも極めて難しい です。

 

 

なぜ「完全クリーン学習」は難しいのか?

1. 莫大なデータ収集コスト

    • 画像動画3Dモデルの大量データを自社でゼロから収集するのはほぼ不可能

    • GoogleやOpenAIですらデータ調達に苦労している 現状、中規模企業が同じことをやるのは非現実的

 

2. 品質を保つためのラベリングコスト

    • 仮にデータを集められたとしても、機械学習には「正解データ教師データ)」が必要

    • 正確なラベリングアノテーション)を行うには、専門家チームを長期間雇う必要がある

    • 企業の規模にもよるが、中規模のソフトウェア企業がこのコスト負担できる可能性は低い

 

3. 既存AI技術活用しないメリットがない

    • もし本当に「AIを使わずディープラーニングに頼らず、高精度なアルゴリズムを作れた」なら、それは業界的な大発見

    • なのに論文特許も出ていない → 本当にそんな技術があるのか疑問

    • 結局、「普通にAI技術を使っているけど“(ダーティーな)AI技術ではない”と装っている」可能性が高い

 

 

もし本当に「クリーン」なら証拠を示すべき

 

 大手企業の「クリーン」って言葉の実際の意味

    • 「著作権侵害リスク最小化した」

    • 「許諾あるかオープンライセンスデータ優先した」

    • 「やばいコンテンツフィルタリングした」

 

 

 例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない:

    • Adobe Stockの商用ライセンス画像を利用した

    • パブリックドメイン素材を利用した

    • 著作権切れたコンテンツを利用した

 

 

 しかAdobe Fireflyは「クリーン」の証拠として下記を提供してる:

    • データソース明示

    • 学習プロセスの透明性

    • 第三者監査可能

 

 

一方、今回のペインソフトメーカーは「クリーン学習をしている(かもしれない)」という建前をふわっとさせているだけで、その証拠がない。

 

 

 

結論:「バレなきゃOKマーケティング可能性大

• 「クリーン学習をしているかAIではない」 という論理は都合のいい言葉遊び

そもそも本当に「クリーン学習」なら、証拠を示さないと信用できない

• 中規模企業独自データのみで学習するのは現実的でないため、実際には何らかの既存AI技術を使っている可能性が高い

しかし「AI使用」と言ったほうが、反AIユーザーにも売れるので、マーケティングのためにぼかしている

 

まり

AIを使っていない」風にとぼかしつつ実は普通に使っている。クリーンでもない。 → でもバレなきゃOKという雑なマーケティングをやっている可能性が高いですね。

 

 

にゃーん

anond:20250315144452

2025-02-23

生成AIに、出力結果をはてな記法で出力させるために必要プロンプト

# 生成AIはてな記法で出力させるためのプロンプト設計に関する研究

生成AIの普及に伴い、特定マークアップ言語記法準拠した出力を生成する需要が高まっています特にはてなブログなどで使用されるはてな記法独自の構文規則を持つため、適切なプロンプト設計が求められます。本報告では、生成AIはてな記法での出力を指示する際の効果的なプロンプト作成手法について、現行のプロンプトエンジニアリング理論実践例を基に体系的に分析します。

## はてな記法構造特性と生成AIへの適応課題

はてな記法は、見出しリストリンクなどの文書要素を表現するために特殊記号使用する軽量マークアップ言語です[1][3]。主要な構文要素としては、アスタリスクによる見出し指定(*見出し*)、ハイフンを用いたリスト作成(- 項目)、角括弧を使ったリンク記述([タイトル:リンクURL])などが挙げられます。これらの構文規則を生成AIに正確に理解させるためには、プロンプト設計において以下の課題存在します。

第一に、記法曖昧排除が挙げられますはてな記法では特定記号の組み合わせが特殊意味を持つため、自然言語処理モデル意図せず他の記号解釈を行うリスクがあります[2][3]。例えば、アスタリスク強調表現にも使用されるため、文脈に応じた適切な解釈必要です。

第二に、構文の階層構造の正確な再現課題となりますはてな記法では入れ子構造リストや複合的な見出しレベル表現する際に、特定記号の組み合わせが必要です。生成AIにこれらの複雑な構造理解させるためには、プロンプト内で明示的な指示と具体例の提示が不可欠です[1][4]。

第三に、プラットフォーム固有の拡張構文への対応が求められますはてな記法は基本構文に加え、独自表記法マクロ機能を備えており、これらの特殊機能を適切に活用するためには追加的な指示が必要となります[3][4]。

## 効果的なプロンプト設計の基本原則

### 役割定義明確化

生成AIに期待する出力形式を確実に得るためには、プロンプトの冒頭で役割を明確に定義することが重要です[3][4]。具体的には、「あなたはてな記法専門家です」といった役割指定を行うことで、AIの応答生成プロセス方向性を与えます。この役割定義により、モデルは内部に保持するはてな記法関連の知識を優先的に活性化させることが可能となります[1][2]。

役割定義の具体例:

```

あなたはてなブログ編集者です。専門的なはてな記法を用いて、正確かつ読みやす形式コンテンツを出力してください。

```

### 構文規則の明示的指示

はてな記法の各要素に対応する具体的な構文規則を、箇条書きではなく自然文で列挙します[2][3]。特に重要な点は、記号使用法と要素間の階層関係を明確にすることです。例えば、見出しレベル対応するアスタリスクの数、リスト入れ子構造表現方法などを具体的に指示します[1][4]。

構文指示の例:

```

はてな記法規則に従ってください:

```

### 具体例による形式提示

テキスト生成AIは具体例から類推学習に優れているため、期待する出力形式サンプルを提示することが有効です[2][3]。特に、複雑な構造を含む場合は、実際の記法例とそれに対応するレンダリング結果を併記することで、AI理解を促進します。

具体例提示形式

```

以下の形式はてな記法で出力してください:

セクション見出し

  • 主要項目

- サブ項目

[詳細はこちら:https://example.com]

```

### 制約条件の明文化

生成結果の品質保証するため、文字数制限コンテンツ構成に関する要件を明確に指定します[3][4]。これにより、AI形式面だけでなく内容面でも適切な出力を生成できるようになります

制約条件の例:

```

出力は以下の条件を満たすこと:

```

## 高度なプロンプト設計テクニック

### 記号ベース構造化指示法

近年提案されているシンボルプロンプト技法を応用し、記号を用いて出力構造を明示的に指示する方法有効です[1][3]。この手法では、矢印(→)や等号(=)などの記号で要素間の関係性を表現することで、AI構造理解を促進します。

構造化指示の例:

```

コンテンツ構造

タイトル = メイン見出し

→ セクション1 + セクション2 + セクション3

各セクション → サブ項目 ×3

リンク = [関連情報:URL]

```

### 段階的生成プロセス指定

複雑な文書生成では、生成プロセス複数の段階に分割して指示することで精度を向上させます[3][4]。最初アウトラインを生成させ、その後各セクションを詳細化する手法効果的です。

段階的指示の例:

```

1. まずはてな記法文書アウトライン作成

2. 各見出しに対して3つのキーポイントを列挙

3. 各キーポイントを2文で詳細説明

4. 関連リンクを適宜挿入

```

### 動的変数活用

可変要素を含むテンプレート使用することで、汎用的なプロンプトを作成できます[2][3]。角括弧で囲った変数名を使用し、実際の生成時に具体値を入力する方式です。

テンプレート例:

```

[業種]向けの[製品名]紹介記事はてな記法作成

[製品名]の特徴

[詳細スペック:URL]

```

## プロンプト最適化実証アプローチ

### 反復的改良プロセス

初期プロンプトの出力結果を分析し、不足している要素や誤った記法特定します[3][4]。このフィードバックを基に、プロンプトの指示文を段階的に改良していく手法効果的です。特に、誤りが発生した箇所を具体的に指摘し、正しい記法例を追加することが重要です。

改良例:

```

修正前)

見出しは*で囲んでください

修正後)

見出しは*1個で囲み、大見出しは*、中見出しは**を使用してください。例:

見出し

見出し

```

### マルチモーダル指示の活用

テキスト指示に加え、サンプル画像スクリーンショットを併用することで、AI理解精度を向上させます[2][4]。ただし、現在技術水準ではテキストベースの指示が主流であるため、補助的な手段として位置付ける必要があります

### パラメータ最適化手法

温度パラメータ(temperature)やtop_p値などの生成パラメータを調整することで、形式の厳密性と創造性のバランス最適化します[1][3]。形式重視の場合は低温度設定(0.3-0.5)が推奨されますが、過度に低くすると画一的な出力になるリスクがあります

## 応用事例:実践プロンプトの設計

### 基本形プロンプト

```

あなたはてなブログの専門編集者です。以下の要件はてな記法記事作成してください:

要件

記法規則

```

### 高度なプロンプト

```

[役割設定]

あなたテック分野の専門ライターはてな記法エキスパートです。

[タスク]

2024年の生成AI市場動向に関する分析レポートはてな記法作成

[構造指示]

メインセクション → 市場規模 × 技術革新 × 倫理課題

各セクション → 3サブ項目 + データ参照

[形式要件]

見出しスタイル

[データソース]

[制約]

```

## 評価指標品質管理

### 形式適合度評価

生成結果がはてな記法の構文規則にどれだけ適合しているかを測定するため、以下の評価項目を設定します[2][4]:

1. 見出し記法の正確性(アスタリスクの数と配置)

2. リスト構造の適切性(インデント深度と記号使用

3. リンク記述の完全性(タイトルURL対応

4. 特殊記号エスケープ処理

5. 文字数制限の遵守度

### 内容品質評価

形式面だけでなく、コンテンツの質を評価するための指標として[3][4]:

1. 論理的一貫性(主張と根拠整合性

2. 情報信頼性(出典明記の適切性)

3. 読者適合性(ターゲット層への最適化

4. 独自性(既存コンテンツとの差別化

5. 法的遵守(著作権プライバシー対応

## 今後の課題研究方向

### マルチモーダル対応の拡充

現在はてな記法プロンプトはテキストベースが主流ですが、図表や数式を含む複合文書生成への対応が今後の課題です[1][4]。特にはてな記法拡張構文であるTeX数式表現グラフ描画機能を適切に扱えるプロンプト設計手法の開発が求められます

### 動的コンテキスト対応

ユーザー編集履歴過去投稿内容を考慮した文脈依存型プロンプトの開発が必要です[3][4]。これにより、特定ユーザーテーマ最適化された一貫性のある出力が可能となります

### 自動最適化システム

機械学習を用いたプロンプト自動改良システムの構築が期待されます[2][3]。生成結果の品質評価フィードバックとして活用し、プロンプトパラメータ自己調整する仕組みの開発により、持続的な品質向上が可能となります

## 結論

生成AIはてな記法での出力をさせるためのプロンプト設計は、記法規則の正確な理解効果的な指示文の構築が鍵となります。本報告で提示した基本原則と高度テクニックを組み合わせることで、形式面・内容面ともに高品質はてな記法コンテンツ自動生成が可能となります。今後の研究発展により、より複雑な文書構造や動的コンテンツへの対応が進むことが期待されますプロンプトエンジニアリング技術進化が、はてなプラットフォームを中心としたコンテンツ作成プロセス革新を促進するでしょう。

2025-02-19

anond:20250218235651

それは在胎週数だろ

週数が長いと体内ででかくなってるから陣痛長めにして子宮口ひらかせないと通常の経膣分娩できないから……って話でしょ

逆に帝王切開胎児の命に危険があるから陣痛が起こらない時期でもやることであって麻酔自体もできるだけかけたくないもんだろ。

因果が逆。

体内の子はなにか危険があるから陣痛なしに早めにとりだされる。早めだか子宮適応が悪い。

また初子でなく第二子第三子はするっと出るとか、母胎がキツ目の運動してるとするっと出るとかあるけど、それも子宮適応が悪いとはおもえない。

データソースを示せ。

2025-01-13

生成AI使用者クリエイターなのか

どちらかというとプロデューサーだよね。という所管を書いていく。

技術は普及すれば当然その使用は広がっていく一方だし、ひとまずデータソース健全性とかそういう話はここで議論しない。

直接的に成果をを出すクリエイター立ち位置に、AI使用者は位置付けられるか?という点を検討してみる。

直接的に生成しているのはAIエンジンであり、AI使用者はプロンプトでその生成物をコントロールしようとする。

すなわち、ディレクターじゃん。

既存アニメ映画とかであれば、描く人が役職あがって監督とかの役職を果たすこともあるけど、位置付けで言えば、プロンプト書く人が座ってる立ち位置ってここじゃん。

実写映画監督とかが近いのかな?

こういう絵が欲しい。こういう動きを見たい。こういう背景が欲しい。

まさに監督である

じゃあそこに向けられる批評はどのような形であるべきか。

なぜその素材で良しとしたのか。なぜその表現OKとしたのか。なぜそのディテール妥協したのか。

言ってみれば、(一定範囲で)コントロール可能かつコミュニケーション可能かつ手戻り修正可能クリエイター(兼素材作成者)と監督間で共同作業して作成しているのが既存実写映画だし、

現在イラストレーターをはじめとしたコンテンツ制作者たちは、これを自己完結した状態作成したり、一部共同作業して作成したり、一部既存素材を利用したりして作成している。

すなわち、意図も直接反映させられるし、不満があれば修正可能だし、不要ディテールは削除したり薄めたりして、作品として仕上げられる。

他方、AI使用者がやっていることは、現状のエンジン対応している範囲になるから、その下位互換的なものとならざるを得ない。

転じて、AI生成物は、どれだけ素材が良くても、どれだけ書き込み精巧であろうとも、その意図不明である限りにおいて、あるいは、意図しないものが混ざり込んでいる限りは、

中途半端ラフイメージしかならない。

よって、批評としては、どうしてそのラインGOサイン出せたんですか。ここの表現これでいいんですか。ここまでいいのにどうしてここの細部詰めてないんですか。

というものになる。

これを、「私が作りました」で出してくると、監督/プロデューサー/ディレクターが何言ってきてるの?になる。

なんだけど、この感覚って作ってる人、作品を世に出してる人にしか通じないよなーとなった。

書いてる人が、締切あるもので途中で出してきたとかなら、「あぁ、まぁここで妥協したんだね」となるけど、これが監督とかの立場になるなら、自分仕事(ディレクション)果たしてないじゃん。となる。

あるいは、生成物大量に貼り付けてるだけのpixivページとかみると、「いや、途中のラフカットや素材集は別にいからそれをどう取りまとめてディレクションするの?」となる。

書いてて改めて思ったんだけど、なんかいいよねの羅列とか、とりあえず出力してみましただけだと、伝わってくるものがない。

一方で、まだ上手くない手書きの人とかでも、「ここを表現しようとしたんだな」とか、「ここの描写性癖を感じる」とか伝わってくることは多いし、稀にAI生成でも「あ、この人はこれが好きでここにこだわってるんだ」というのが伝わってくる人もいる。

単純に見た目のぱっと見の印象でも、そういうのが伝わってくるから、結局はディレクション意思を感じるかどうかなんだよなぁ。という結論を、自分は得た。

し、自分AI生成物だと性癖のこだわりに耐えきれなかったからたとえ稚拙でも自家生成の方がディレクション効くなぁ、となった。

もっと性癖を感じさせてほしい。

2024-09-10

anond:20240910092816

主が曖昧な書き方をしているせいで、リプが混乱している。ほとんどの反応はWebバージョンのChatGPT-4oとGPT-4oの最大トークン数の違いさえ理解していないと思われる。Webバージョンの話ならOpenAIの拡張を待つか、大人しくナレッジデータを使うしかない。

もしAPIRAG実装できる開発者なら、embeddingの概念が出てこないとおかしい気もするし、追加データソースが膨大であるなら精査の段階であるとも言える(本を読み込ませて……とか書いてるからたぶん違うとは思うが)。

結論を言うと、LLMを使いこなしていると思っているのは勘違いで、LLMの能力の制約にはまだまだ達していないので安心して欲しい。

2024-04-01

anond:20240401130034

そんなデータソースを使った発表をするなというのが増田の主張です。

政治的主張のために科学妥当性を放棄するな。

以下は、東北大学高齢経済社会研究センター吉田浩教授が、国内で最も多い「佐藤」姓の増加率と人口動態を分析したとの記事である

https://mainichi.jp/articles/20240331/k00/00m/040/076000c]

しかし、この推計は元となるデータ妥当性に疑問が残り、科学妥当性を軽視した発表であると感じる。

そのため、そこから得られる含意(選択夫婦別姓必要性)についても、疑念を抱かざるを得ない。

佐藤姓の占有率と選択夫婦別姓の是非は無関係事象であり、そもそも価値のない計算であると言わざるを得ない。

政治的主張を行うために、科学的な妥当性を軽視した発表をすることは慎むべきである

分析の詳細に関しては、以下のサイト公表されている。

https://think-name.jp/]

この推計の肝になるところは、PDF中の過去データの取り扱いにおける以下の記載である

⚫ はじめに、日本の全人口の 99.04%以上の名字網羅しているとする「名字由来 net

https://myoji-yurai.net/提供公表データにより、日本佐藤姓の人数の値を得た。

⚫ 次に、各年の日本の総人口総務省「推計人口」)×99.04%で上記佐藤姓の人数を除し、

「あるt年の佐藤姓の比率」:x(t)を求めた。

データソースとなっている名字由来 net には、年度ごとの苗字人口非公表独自集計で計算している。

https://myoji-yurai.net/oneYearAccessRanking.htm?rankingId=13]

これによると、佐藤姓の人口は以下のようになっており、変動がない。

2023年 約1,830,000人

2022年 約1,830,000人

2021年 約1,830,000人

2020年 約1,830,000人

2019年 約1,830,000人

2018年 約1,830,000人

2017年 約1,830,000人

2016年 約1,830,000人

2015年 約1,830,000人

2014年 約1,830,000人

2013年 約1,830,000人

このデータソースは、佐藤人口の経時的推移を補足できていないと考えるのが妥当であろう。

しかし、吉田氏の発表資料では、

佐藤姓の占有率 x(t)は 2013 年の 1.480%から 2023 年の 1.530%と、10 余年で 0.05%ポイント伸びている

と述べている。

定数を、減少する日本人口で割っているので上記のような計算となると思われる。

上記のことから吉田氏の推計は、不十分なデータソースをもとに数値を無理やり当てはめて推計を行っており、科学的な推計・将来予測・試算というには無理がある。

このような発表を、研究者が社会に対して軽々に行うべきではない。

2023-05-01

anond:20230419125905

できたできた。自己解決。多分誰にも役に立たないだろうが書いておこう。

DB2ODBCの設定以外にNodeとDBの設定情報必要らしい。それがなんなのかはわからない。

GUIODBCデータソースで追加すると、これが裏で作ってくれるっぽいが

ODBCCONF.exeでは作ってくれず、エラーとなる。らしい。

"C:\Program Files\IBM\SQLLIB\BIN\db2cmd.exe" /c /w db2 catalog tcpip node FOO remote 192.168.1.1 server 10000
"C:\Program Files\IBM\SQLLIB\BIN\db2cmd.exe" /c /w db2 catalog db FOO at node FOO

odbcconf /A {CONFIGSYSDSN "IBM DB2 ODBC DRIVER - DB2COPY1" "DSN=FOO|DATABASE=FOO|SYSTEM=192.168.1.1:10000|UID=db2admin|PWD=password"}

で追加できる。知らんだけで最後ODBCCONFではなく、db2側のでDSNも追加できるのかもしれない…

さらに「 - DB2COPY1」が何なのかさっぱりわからん。「IBM DB2 ODBC DRIVER」もあるんだけども。

というか、こういう要望無いんだろうか?探してもAIに聞いてもなかなかヒットせず

リファレンス見ながらだましだましやってやっとたどり着いた。

FAQみたいなのに載っててもよさそうなもんだけども。DB2シェア低すぎるのかな?

2023-04-29

anond:20230429201656

データソース

https://www.worlddata.info/iq-by-country.php

Database

The intelligence quotients by countries are taken from the studies conducted by Richard Lynn and Tatu Vanhanen (2002), Heiner Rindermann (2007), Khaleefa and Lynn (2008), Ahmad, Khanum and Riaz (2008), Lynn, Abdalla and Al-Shahomee (2008), Lynn and Meisenberg (2010), as well as the PISA tests from 2000 to 2015. The more recent study by Richard Lynn and David Becker (PDF) at the Ulster Institute for Social Research from 2019 was also included here. In this, Lynn corrects several values of his earlier publications. The studies are not entirely uncontroversial, as they consider only specific population groups in individual countries or only a few and thus unrepresentative reference groups.

2022-12-11

anond:20221210175647

なんかこの増田についてる枝葉の「習った」とか「学問として」とかて何なの?

そんな学問がある らしい みたいな 知られてないけど 経験則的に 自分は実際にやった 教わった

みたいな話なん?

まあそれがあってようがまちがってようがはずかしがろうが立派だろうがしらんが

当人は聞いた話を流してるだけだからなんの責任を追及されても困るみたいな態度でも別にいいけどさ

じゃあそれ誰にならったんよ

どの学問なんよ

それが追える事こそが教えでしょ

ソース自分ってのでもべつになんの問題もないと思うし自分で考えたってこともっと誇っていいと思うしさ

その引用してきてるデータソース別にあるって話ですすめるんならその話だしなよ

どの教授がどこでなにをどんだけの人間にひろめた論なのよ

2022-08-05

ワクチン接種義務化後、米軍では様々な症例の発生率が激増しました。

高血圧症2181%増・片頭痛452%増

神経系疾患1084%増・頻脈302%増

ギラン・バレー症候群551%増

多発性硬化症680%増・食道がん624%増

女性不妊症472%増・卵巣機能障害437%増

精巣がん369%・乳がん487%

データソース国防医療疫学データベース(DMED)

2021-11-05

長いこと「それでいいんじゃね」で通してあった記録を今更ほじくり返して「間違ってるから全部直せ!お前のせいだムキー!」とお吠えあそばされる上長閣下のおかげでげっそりした。

休暇中にLINE(!)で御高説賜り恐悦至極に存じます。そこグループなんですよね大丈夫ですか。

明日朝イチで「申し訳ございません、今後注意します、ご指導ありがとうございます(ハナホジ)」って返すから勘弁な。

こちとら休暇中に返事する分の給料貰ってないんすよ。

お前さ、その記録のデータソースは「高度にセキュリティが関連するからお前にはアクセス権やらん!俺の部下の口頭報告で通達された数値を記録しろ!」つってたじゃん。

お前の部下そんなに正確じゃないよ。わりとズレてるし報告遅えし。

まぁホイホイ報告通りに記載したのがいけなかったかもしれんな。もっと疑うべきだったよ頭の出来とか。

たまに「お前の部下アホだぞ」って刺しとけばよかった?ヤだよお前怒るじゃん面倒くせえ。

今度から可哀想な生贄2号を用意して、そいつが再度チェックすることになったらしい。

データの正確性は担保されてないから、何が合ってて何が間違ってるか判別できんがな。まぁ頑張れ。

あと問題解決してえのか罵倒してえのかブレてんぞ。理性と感情は切り分けろよ大丈夫ですか。

2021-05-29

データで見る都立高校男女別定員の話

この話

https://b.hatena.ne.jp/entry/s/togetter.com/li/1721306

やっぱりデータがないとねえ。

市新の以下のサイト

http://www.ko-jukennavi.net/nyushi/hensachi/tokyo/

をもとにまとめると以下のようになった。

偏差値男子が高い同じ女子が高い男子が難しい率#
70~200100%
60~699110100%
50~59421736%
40~494151127%
~3918713%

# 男女の難易度が等しい学校を除く

男子が高い」は、男子の方が合格80%偏差値が高い、つまり難易度が高い。「女子が高い」なら女子の方が難易度が高い。

見事に難関都立高は男子の方が難易度が高いことが多く、中堅以下の高校では女子の方が難易度が高いのだが、マスとしては中堅以下の高校の方が圧倒的に多い(男子の方が難しいことが多い偏差値60以上の都立高は22校、女子の方が難しいことが多い偏差値59以下の都立高は78校)。

ちなみにこれだけでなく他のデータソースを探すと、例えば本当のトップしかいないSAPIX偏差値だと、全ての都立高において男子の方が難関である都立日比谷男子58、女子52が意味するのは、男子日比谷合格率80%であるためにはSAPIX上位20%程度である必要があるが、女子SAPIX上位40%くらいまでにいれば良い、というほどの明確な男女差である

https://www.sapix.co.jp/exam/hensachi/

togetterでもまとめられているように、都立高が男女別定員を止めて男女の合格基準を同一にするとどうなるかというと、日比谷・西・戸山・国高の都立トップ校において男子比率が増える。ちょうど男女合格基準が同じである県立トップ校の横浜翠嵐と県立千葉に、女子が30%しかいないように。

私は、男女平等社会の実現のためには、学力的不平等があってもエリート校は男女同数であった方が良いと思っている(筑駒開成麻布も灘も!)。官僚トップがさあ、中学高校時代男子だけしかいない空間で育って、それで国を率いる立場になって、本当の男女平等を目指すわけないじゃんか。

まり報道が指摘すべき問題校は、都立高なんかではなく男子トップ校だと思う。

なんだか、攻めやすいところをせめている小役人のように感じてしまうのです、マスメディアのみなさん。

NHKさん、毎日新聞さん、もしも真剣男女平等を考えているならば、今すぐ報道を考え直すんだ

2021-05-01

国産ストラテジーゲーム今昔

https://anond.hatelabo.jp/20210430101328

近年、俺が良く遊んだ面白かったゲームを並べてみると見事にMade In Japanがない。

(略)

俺はストラテジーゲームシミュレーション好きなので、現在の他のジャンルの事は良く分からない。

「つまらなくなった」以前の問題として、国産ストラテジーゲーム絶滅危惧種であるというのが現状では。

現状の確認

とりあえず4gamer.netタイトル検索( https://www.4gamer.net/script/search/index.php?mode=title )で、ジャンル: "ストラテジー"+特徴/開発地域: "日本"で検索し、発売日順にソートして2018年から2020年までのリリース状況を見てみようず(ちなみに、この条件に当てはまる最も最近ゲームリリース日が2020/12/17なので、2021年は0本。なので実質として直近三年分のリリース状況になる)。

結果がこれ

複数プラットフォームリリースされてるものは一つにまとめている。また、「ストラテジーゲーム定義」は面倒なので、ここではとりあえず「4gamer.netストラテジータグが付いているもの」とする。

感想としては、ほぼほぼナンバリングタイトルと有名タイトルから派生じゃねーか感がある。あと発売元コーエーテクモゲームスセガシステムソフト・アルファーヘビロテ

在りし日の姿

「でもストラテジーゲームっていうジャンルは昔からだいたいこんなもんでしょ?」みたいな人もいるかもしれないので、同じ条件で2001年から2003年までの三年間のリリース状況を見てみようず。

注意点。当時の4gamer.netPCゲーム専門だったので、上のデータと違ってコンシューマゲームについての登録がない。時代時代なのでスマホアプリそもそも存在してないし、ガラケーアプリについても登録は無い。

また、復刻版や廉価版については除外。パワーアップキットなどの追加要素単独発売についても除外。

現在と比べると、リリース数もさることながら発売元シリーズ名もかなり多様性が有ったことが分かる。あと、上に書いたとおりコンシューマゲーム機向けの情報が抜けているので、実際にはもっとリリースされてたはず。

とはいえこの頃が国産ストラテジーゲーム黄金時代だったかと言うとそうでもなく、後にクソゲーオブザイヤー常連となる某社を筆頭にして、DOS時代と比べると技術的にもゲームシステム的にも後退した印象が強い。

某社、DOS時代大戦略シリーズの焼き直しだけじゃなくて、「ブリッツクリーク」で諸兵科連合考慮したシステムを入れたり、「パンツァーカイル」で士気システム部隊編成システムを入れたりとか、「空軍大戦略」で航空戦に特化してみたりとか色々とシステム面でチャレンジしてたのだけれどなあ…

追記
ストラテジーゲーム定義」関連の指摘について

メーカー側が「ストラテジーゲーム」としているのに4gamer.net側は「シミュレーション」としていたりする例や、カジュアル寄りのRTSタワーディフェンス系のゲームが含まれていないなどの指摘について。

指摘自体妥当とは思うけれども、このあたりを深く突っ込んでいくと際限が無いので

ここではとりあえず「4gamer.netストラテジータグが付いているもの」とする。

と敢えて逃げている。定義論争はSFだけで十分だし、ここでやりたいことは網羅ではなく「同じデータソースを使って過去現在の状況を比較してみる」ことなので。

なんで4gamer.netなの?

ゲームタイトルジャンルと開発国で絞り込み出来るのが楽なので。Impress Game watchは古くから記事が残っているという点で非常にありがたいのだけれど、こういう形でタイトルを絞り込む用途には使いづらい。

元増田は「シミュレーション」も好きと書いてるのでそちらも検索に含めるべきでは

このあたりも定義論争になりそうだけれど、「シミュレーション」というジャンル本質的にかなり幅が広くて…

市長視点で市政をシミュレートしたゲーム社長視点経営シミュレートしたゲームパイロット視点で操縦をシミュレートしたゲーム農家視点農場経営シミュレートしたゲーム、神視点生命進化シミュレートしたゲーム魔王視点ダンジョン設営をシミュレートしたゲーム小隊長視点戦闘シミュレートしたゲーム師団長視点戦術シミュレートしたゲーム国家指導者視点戦争シミュレートしたゲーム、蟻視点で蟻の巣をシミュレートしたゲーム普通の人視点アクアリウムの維持をシミュレートしたゲーム、こういうの全部が「シミュレーション」というジャンルに収まってしまうわけで。

でも元増田言及してるゲーム戦争戦闘要素が絡んでくるやつが大部分なので、幅広い「シミュレーション」より、戦争戦闘要素が強い「ストラテジー」で絞り込んだ方が良いなという印象。(といはい4gamer.netの「ストラテジージャンルには戦闘関係ないやつも結構入っているのは確かだしsteamはより大雑把だったりするのだけれど。)

2020-11-19

anond:20201119132329

というかトランザクションを見逃してた、トランザクション上手くやりたいならまともなDBMS入れないと無理

誰も使ってないWindows PCとか転がっていればSQLServer Express無料)とか入れてやる?通信の面倒くささでいえばSQLiteと一緒だろうけどエンドユーザー側がドライバとかインストールする必要はないはず(ODBCデータソースの設定は必要、めんどくさい……)

どうせODBC使うならドライバインストールくらいって思ってついでに増田Linux慣れしてるなら鯖立ててポスグレでもMySQLでも何でも使えばいいと思うけど

追記

SQLServerのOLEDB接続廃止されたもんだと思ってたら復活していたらしい エンドユーザー側の設定不要だと思うからこれが一番楽かも?

追記2

Win10にDB立ててアクセスさせるのはライセンス違反だったわ、SQL Server on Linuxならセーフだけど

2020-04-16

オンライン祭りシステム作ろうぜ!

アイデア料俺にくれ!

さて、夏に向けて各自治体で祭りの準備があるはずだ。

しかし今の情勢から言って、すんなりと開催に至ることはもはや不可能だろう。中止にするか、なんとしてもやるか、それぞれの派閥バチバチになって、ポストコロナ時代にも悲しい世代軋轢が残るだろう。

そこでだ!今のうちに祭りを「オンラインでやる仕組み」を構築して(PaaS型がいいだろう)、いざ夏の準備だ!と意気込む老若男女が祭りのことで喧嘩の果てに妥協案として「じゃあリモート開催で!」と言うときに駆け込める場所を作ってやって、ついでに金儲けもしてやろうじゃないか

機能的には

・出店(物理的なもんは事前注文で宅配式がいいだろう!オンラインしかできない商品なんて出れば最高だな!)

音頭中継(ユーザーライブで踊ってる様をシェアしてウィンドウを分割して一定時間ごとにラウンドロビンで切り替え表示できれば最高だな!)

・画面は日照を考慮した色合いに

最後は〆のオンライン花火!(ここにイカした工夫ができれば最高だな!)

って感じか!

祭り運営者は登録ログインして、上記オリジナル差し替え可能テンプレートとして選択作成していき「我が町祭りオンライン」を作成する!

祭りURLサブドメインに分けて、それぞれの町祭り用のURLとする!初期版は祭り参加者ログイン機能は難しいだろう、全町の祭りURL経由でアクセスできるようにしよう!のちのちアクセス制御したくなるだろう、ただし公共良俗を保つのが難しいかもしれないので、トレードオフ認識必要だ!

アクセスランキングの後日発表はあってもいいが、イイねランキングリアルタイムランキングはやらない!イイねやらスターはクソだ!ショボい祭りも盛大な祭りバカにされずにドンとこいにしてぇ!そこにイイねは邪魔だぜ!

時間もねえしオープンソースだ!後ろも前も得意な奴がやろうぜ!CI/CDは詳しくねぇしドメインやらデータソースの置場所も考えなきゃなんねぇが、俺はそういう面倒はごめんだ!得意な奴やってくれよな!

よし、わかったらリポジトリ作ってリプで教えてくれな!儲かったら俺にアイデア料寄越すんだぞ!ガハハ

ログイン ユーザー登録
ようこそ ゲスト さん
Лучший частный хостинг