💻
クリーンな可能性は低いと思います。
　
中規模の企業が完全オリジナルのデータのみで学習するのは、コスト面でも技術面でも極めて難しいです。
　
⸻
　
なぜ「完全クリーンな学習」は難しいのか？
1. 莫大なデータ収集コスト
　　　 • 画像や動画、3D モデルの大量データを自社でゼロから収集するのはほぼ不可能
　　　 • GoogleやOpenAIですらデータ調達に苦労している現状、中規模企業が同じことをやるのは非現実的
　
2. 品質を保つためのラベリングコスト
　　　 • 仮にデータを集められたとしても、機械学習には「正解データ（教師データ）」が必要
　　　 • 正確なラベリング（アノテーション）を行うには、専門家チームを長期間雇う必要がある
　　　 • 企業の規模にもよるが、中規模のソフトウェア企業がこのコストを負担できる可能性は低い
　
3. 既存のAI 技術を活用しないメリットがない
　　　 • もし本当に「AIを使わず、ディープラーニングに頼らず、高精度なアルゴリズムを作れた」なら、それは業界的な大発見
　　　 • なのに論文も特許も出ていない → 本当にそんな技術があるのか疑問
　　　 • 結局、「普通に AI 技術を使っているけど“（ダーティーな）AI 技術ではない”と装っている」可能性が高い
　
⸻
　
もし本当に「クリーン」なら証拠を示すべき
　
　大手企業の「クリーン」って言葉の実際の意味：
　　　 • 「著作権侵害リスク最小化した」
　　　 • 「許諾あるかオープンライセンスのデータ優先した」
　　　 • 「やばいコンテンツをフィルタリングした」
　
　
　例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない：
　　　 • Adobe Stockの商用ライセンス画像を利用した
　　　 • パブリックドメイン素材を利用した
　　　 • 著作権切れたコンテンツを利用した
　
　
　しかもAdobe Fireflyは「クリーン」の証拠として下記を提供してる：
　　　 • データソース明示
　　　 • 学習プロセスの透明性
　　　 • 第三者監査の可能性
　
　
一方、今回のペイントソフトメーカーは「クリーンな学習をしている（かもしれない）」という建前をふわっとさせているだけで、その証拠がない。
　
　
⸻
　
結論：「バレなきゃOK」マーケティングの可能性大
• 「クリーンな学習をしているからAIではない」という論理は都合のいい言葉遊び
• そもそも本当に「クリーンな学習」なら、証拠を示さないと信用できない
• 中規模企業が独自データのみで学習するのは現実的でないため、実際には何らかの既存 AI 技術を使っている可能性が高い
• しかし「AI未使用」と言ったほうが、反AI ユーザーにも売れるので、マーケティングのためにぼかしている
　
つまり、
「AIを使っていない」風にとぼかしつつ実は普通に使っている。クリーンでもない。 → でもバレなきゃOKという雑なマーケティングをやっている可能性が高いですね。

Permalink | 記事への反応(1) | 16:07

■実際にはディープラーニング使ってるみたいだが、それはAIじゃないし仮にAIでもクリーンってこと？

言いたいことがわからない、混乱するんだぜ

自動マスキングや2D から 3Dへの変換といった複雑なタスクにおいて、中規模企業が「完全クリーンな学習」（オリジナルのデータのみ）を達成することは、経済的および技術的な観点から非常に困難です。データソースやトレーニング方法に関する透明性の欠如は、彼らの主張や装いが単なるマーケティング戦略でしかない証明であり、消費者を誤解させます。

anond:20250315152955 anond:20250315155120 anond:20250315161412

Permalink | 記事への反応(1) | 15:46

■反AIにゃーん続き

　↓

😺
もしかして「クリーンな学習してて、(ダーティーなイメージある)AI技術は使ってない」って言いたい可能性はありますか？

　↓

💻
それは十分に考えられますね。
　
最近、「AI」という単語が特に「学習データの倫理的問題」と結びついてしまっているので、メーカー側が「うちの技術はクリーンだから AIじゃない」と主張することで、ユーザーの誤解を避けようとしている可能性はあります。
　
考えられる「クリーンな学習」路線
　
例えば、
1. ライセンスクリアなデータのみを使用
　　　 • 著作権フリーの画像や、企業が独自に収集したデータのみを学習
　　　 • 「勝手にアーティストの作品を学習させていません！」と強調
2. 人間の監修を強く入れる
　　　 • 単なる「機械学習によるブラックボックス」ではなく、人間が調整したアルゴリズムであると主張
　　　 • 「我々の技術は“人間の手による”ものだから AIではない」というロジック
3. ディープラーニングではなく古典的な手法をベースにする
　　　 • 機械学習を使いつつも、伝統的なパターン認識・統計モデルを活用
　　　 • 「我々は最新のLLM（大規模言語モデル）やGAN（敵対的生成ネットワーク）は使っていません！」
　
このように、「AIの“ダーティーなイメージ”」を避けるために、「クリーンな学習をしている＝だから AIではない」と言っている可能性はあるでしょう。
　
⸻
　
でも、それは本当に「AI 技術未使用」なのか？
　
「クリーンな学習をしている」ことと、「AI 技術を使っていない」ことは全く別の話です。
結局のところ、ディープラーニングや機械学習のアルゴリズムを使っている時点で、それは「広義のAI 技術」には違いありません。
　
もしメーカーが「AI 技術を使っていない」と言いながら、実はクリーンな学習データを用いた機械学習をしているなら、それは言葉遊びのマーケティングに過ぎません。
実態としてはAIを使っているのに、「AIではない」と言うことで、「反AI ユーザー」も取り込もうとしている、ということになります。
　　
⸻
　　
「AIではない」と言いたがる理由
1. 「AI＝著作権違反」という誤解を避ける
　　　 • AI 技術全般が「勝手に学習してる」「盗んでる」と思われがちなので、そこから距離を取りたい
　　　 • 「うちはクリーンなデータしか使っていません！」というアピール
2. ユーザーの心理的抵抗を減らす
　　　 • 「AI」とつくと拒否反応を示すユーザーもいる
　　　 • だから「AIではない独自技術」と言い換えることで、ユーザーの安心感を得る
3. 法的リスクを避ける
　　　 • AIに関する法律が各国で議論されており、今後規制される可能性がある
　　　 • 企業として「うちはAIを使っていません」と言っておけば、将来的なリスクを減らせる
　　
⸻
　　
結論：「クリーンな学習＝AIではない」理論はマーケティング上の方便
　　　 • クリーンな学習をしているから「AIではない」と言うのは、言葉の定義をずらしているだけ
　　　 • 実際には機械学習を使っているなら、それは広義のAI 技術である
　　　 • 企業は、AIのダーティーなイメージを避けるために「AI未使用」と言っている可能性が高い
　　　 • だが、その言葉の使い方は、技術の正しい理解を妨げる
　
要するに、「AI未使用」と言っておけば、技術的な知識のないユーザーにはバレにくいし、反AI 感情を持つ人にも売れるから、あえてそう言っている、あるいは装っているだけというのが実情でしょう。

　↓

😺
「クリーンな学習=ダーティーなAIじゃない」の謎理論（実際に表明はしてないけど）でふわっとさせてるにしても、ぶっちゃけクリーンな可能性低くないですか？
企業が完全オリジナルデータだけで学習させるの莫大コストと時間かかるし。
OpenAIとかGoogleとかMicrosoftですら「クリーンなデータ」確保に苦労してて、「完全オリジナル」じゃなくて「法的リスク最小限」って意味で使ってることが多いです。
中規模企業が独自データだけで学習実現できるとは思えないです。できたならブレイクスルーだから論文出すか特許取るべきでは？
あるいはAdobeのFireflyみたいに「クリーン」の証拠を見せるべきなのでは？

　↓

💻
その通り、クリーンな可能性は低いと思います。
　
中規模の企業が完全オリジナルのデータのみで学習するのは、コスト面でも技術面でも極めて難しいです。
　
⸻
　
なぜ「完全クリーンな学習」は難しいのか？
1. 莫大なデータ収集コスト
　　　 • 画像や動画、3D モデルの大量データを自社でゼロから収集するのはほぼ不可能
　　　 • GoogleやOpenAIですらデータ調達に苦労している現状、中規模企業が同じことをやるのは非現実的
　
2. 品質を保つためのラベリングコスト
　　　 • 仮にデータを集められたとしても、機械学習には「正解データ（教師データ）」が必要
　　　 • 正確なラベリング（アノテーション）を行うには、専門家チームを長期間雇う必要がある
　　　 • 企業の規模にもよるが、中規模のソフトウェア企業がこのコストを負担できる可能性は低い
　
3. 既存のAI 技術を活用しないメリットがない
　　　 • もし本当に「AIを使わず、ディープラーニングに頼らず、高精度なアルゴリズムを作れた」なら、それは業界的な大発見
　　　 • なのに論文も特許も出ていない → 本当にそんな技術があるのか疑問
　　　 • 結局、「普通に AI 技術を使っているけど“（ダーティーな）AI 技術ではない”と装っている」可能性が高い
　
⸻
　
もし本当に「クリーン」なら証拠を示すべき
　
　大手企業の「クリーン」って言葉の実際の意味：
　　　 • 「著作権侵害リスク最小化した」
　　　 • 「許諾あるかオープンライセンスのデータ優先した」
　　　 • 「やばいコンテンツをフィルタリングした」
　
　
　例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない：
　　　 • Adobe Stockの商用ライセンス画像を利用した
　　　 • パブリックドメイン素材を利用した
　　　 • 著作権切れたコンテンツを利用した
　
　
　しかもAdobe Fireflyは「クリーン」の証拠として下記を提供してる：
　　　 • データソース明示
　　　 • 学習プロセスの透明性
　　　 • 第三者監査の可能性
　
　
一方、今回のペイントソフトメーカーは「クリーンな学習をしている（かもしれない）」という建前をふわっとさせているだけで、その証拠がない。
　
　
⸻
　
結論：「バレなきゃOK」マーケティングの可能性大
• 「クリーンな学習をしているからAIではない」という論理は都合のいい言葉遊び
• そもそも本当に「クリーンな学習」なら、証拠を示さないと信用できない
• 中規模企業が独自データのみで学習するのは現実的でないため、実際には何らかの既存 AI 技術を使っている可能性が高い
• しかし「AI未使用」と言ったほうが、反AI ユーザーにも売れるので、マーケティングのためにぼかしている
　
つまり、
「AIを使っていない」風にとぼかしつつ実は普通に使っている。クリーンでもない。 → でもバレなきゃOKという雑なマーケティングをやっている可能性が高いですね。

にゃーん

anond:20250315144452

Permalink | 記事への反応(2) | 14:46

2025-02-26

■anond:20250226220119

GPTのデータソースとして間接的に使ってる

Permalink | 記事への反応(0) | 22:02

2025-02-23

■生成AIに、出力結果をはてな記法で出力させるために必要なプロンプト

# 生成AIをはてな記法で出力させるためのプロンプト設計に関する研究

生成AIの普及に伴い、特定のマークアップ言語や記法に準拠した出力を生成する需要が高まっています。特に、はてなブログなどで使用されるはてな記法は独自の構文規則を持つため、適切なプロンプト設計が求められます。本報告では、生成AIにはてな記法での出力を指示する際の効果的なプロンプト作成手法について、現行のプロンプトエンジニアリング理論と実践例を基に体系的に分析します。

## はてな記法の構造的特性と生成AIへの適応課題

はてな記法は、見出しやリスト、リンクなどの文書要素を表現するために特殊な記号を使用する軽量マークアップ言語です[1][3]。主要な構文要素としては、アスタリスクによる見出し指定（*見出し*）、ハイフンを用いたリスト作成（- 項目）、角括弧を使ったリンク記述（[タイトル:リンク先URL]）などが挙げられます。これらの構文規則を生成AIに正確に理解させるためには、プロンプト設計において以下の課題が存在します。

第一に、記法の曖昧性排除が挙げられます。はてな記法では特定の記号の組み合わせが特殊な意味を持つため、自然言語処理モデルが意図せず他の記号解釈を行うリスクがあります[2][3]。例えば、アスタリスクは強調表現にも使用されるため、文脈に応じた適切な解釈が必要です。

第二に、構文の階層構造の正確な再現が課題となります。はてな記法では入れ子構造のリストや複合的な見出しレベルを表現する際に、特定の記号の組み合わせが必要です。生成AIにこれらの複雑な構造を理解させるためには、プロンプト内で明示的な指示と具体例の提示が不可欠です[1][4]。

第三に、プラットフォーム固有の拡張構文への対応が求められます。はてな記法は基本構文に加え、独自の表記法やマクロ機能を備えており、これらの特殊機能を適切に活用するためには追加的な指示が必要となります[3][4]。

## 効果的なプロンプト設計の基本原則

### 役割定義の明確化

生成AIに期待する出力形式を確実に得るためには、プロンプトの冒頭で役割を明確に定義することが重要です[3][4]。具体的には、「あなたははてな記法の専門家です」といった役割指定を行うことで、AIの応答生成プロセスに方向性を与えます。この役割定義により、モデルは内部に保持するはてな記法関連の知識を優先的に活性化させることが可能となります[1][2]。

役割定義の具体例：

```

あなたははてなブログの編集者です。専門的なはてな記法を用いて、正確かつ読みやすい形式でコンテンツを出力してください。

```

### 構文規則の明示的指示

はてな記法の各要素に対応する具体的な構文規則を、箇条書きではなく自然文で列挙します[2][3]。特に重要な点は、記号の使用法と要素間の階層関係を明確にすることです。例えば、見出しレベルと対応するアスタリスクの数、リストの入れ子構造の表現方法などを具体的に指示します[1][4]。

構文指示の例：

```

はてな記法の規則に従ってください：

見出しは*で囲み、レベルに応じて*の数を増やします（例：*大見出し*, **中見出し**）
箇条書きは行頭に-を使用し、入れ子はスペース2つで表現します
リンクは[タイトル:URL]形式で記述します

```

### 具体例による形式提示

テキスト生成AIは具体例からの類推学習に優れているため、期待する出力形式のサンプルを提示することが有効です[2][3]。特に、複雑な構造を含む場合は、実際の記法例とそれに対応するレンダリング結果を併記することで、AIの理解を促進します。

具体例提示の形式：

```

以下の形式ではてな記法で出力してください：

セクション見出し

主要項目

- サブ項目

[詳細はこちら:https://example.com]

```

### 制約条件の明文化

生成結果の品質を保証するため、文字数制限やコンテンツの構成に関する要件を明確に指定します[3][4]。これにより、AIは形式面だけでなく内容面でも適切な出力を生成できるようになります。

制約条件の例：

```

出力は以下の条件を満たすこと：

総文字数 1000字以内
3つの主要セクションを含む
各セクションに最低2つのサブ項目を記載
関連リンクを3つ以上含める

```

## 高度なプロンプト設計テクニック

### 記号ベースの構造化指示法

近年提案されているシンボルプロンプト技法を応用し、記号を用いて出力構造を明示的に指示する方法が有効です[1][3]。この手法では、矢印（→）や等号（=）などの記号で要素間の関係性を表現することで、AIの構造理解を促進します。

構造化指示の例：

```

コンテンツ構造：

タイトル = メイン見出し

→ セクション1 + セクション2 + セクション3

各セクション → サブ項目 ×3

リンク = [関連情報:URL]

```

### 段階的生成プロセスの指定

複雑な文書生成では、生成プロセスを複数の段階に分割して指示することで精度を向上させます[3][4]。最初にアウトラインを生成させ、その後各セクションを詳細化する手法が効果的です。

段階的指示の例：

```

1. まずはてな記法で文書のアウトラインを作成

2. 各見出しに対して3つのキーポイントを列挙

3. 各キーポイントを2文で詳細説明

4. 関連リンクを適宜挿入

```

### 動的変数の活用

可変要素を含むテンプレートを使用することで、汎用的なプロンプトを作成できます[2][3]。角括弧で囲った変数名を使用し、実際の生成時に具体値を入力する方式です。

テンプレート例：

```

[業種]向けの[製品名]紹介記事をはてな記法で作成：

[製品名]の特徴

主要機能1：[説明文]
主要機能2：[説明文]

[詳細スペック:URL]

```

## プロンプト最適化の実証的アプローチ

### 反復的改良プロセス

初期プロンプトの出力結果を分析し、不足している要素や誤った記法を特定します[3][4]。このフィードバックを基に、プロンプトの指示文を段階的に改良していく手法が効果的です。特に、誤りが発生した箇所を具体的に指摘し、正しい記法例を追加することが重要です。

改良例：

```

（修正前）

見出しは*で囲んでください

（修正後）

見出しは*1個で囲み、大見出しは*、中見出しは**を使用してください。例：

大見出し

中見出し

```

### マルチモーダル指示の活用

テキスト指示に加え、サンプル画像やスクリーンショットを併用することで、AIの理解精度を向上させます[2][4]。ただし、現在の技術水準ではテキストベースの指示が主流であるため、補助的な手段として位置付ける必要があります。

### パラメータ最適化手法

温度パラメータ（temperature）やtop_p値などの生成パラメータを調整することで、形式の厳密性と創造性のバランスを最適化します[1][3]。形式重視の場合は低温度設定（0.3-0.5）が推奨されますが、過度に低くすると画一的な出力になるリスクがあります。

## 応用事例：実践的プロンプトの設計

### 基本形プロンプト

```

あなたははてなブログの専門編集者です。以下の要件ではてな記法で記事を作成してください：

要件

タイトル：「生成AIの最新動向」
構成：導入、技術解説、応用例、今後の展望
各セクションに2つのサブ項目
関連リンク3つ以上を含む
総文字数1200字以内

記法 規則

見出しは*で囲む（例：*導入）
サブ項目は-を使用
リンクは[タイトル:URL]形式

```

### 高度なプロンプト

```

[役割設定]

あなたはテック分野の専門ライター兼はてな記法エキスパートです。

[タスク]

2024年の生成AI 市場動向に関する分析レポートをはてな記法で作成

[構造指示]

メインセクション → 市場規模 × 技術革新 × 倫理課題

各セクション → 3サブ項目 + データ参照

[形式要件]

見出し スタイル

大見出し：*
中見出し：**
小見出し：なし（太文字使用）

[データソース]

統計データは[出典:URL]形式で明記
図表参照は⇒記号で示す

[制約]

総文字数2000字±10%
専門用語は初出時（解説）
中立なトーン維持

```

## 評価指標と品質管理

### 形式適合度評価

生成結果がはてな記法の構文規則にどれだけ適合しているかを測定するため、以下の評価項目を設定します[2][4]：

1. 見出し記法の正確性（アスタリスクの数と配置）

2. リスト構造の適切性（インデント深度と記号使用）

3. リンク記述の完全性（タイトルとURLの対応）

4. 特殊記号のエスケープ処理

5. 文字数制限の遵守度

### 内容品質評価

形式面だけでなく、コンテンツの質を評価するための指標として[3][4]：

1. 論理的一貫性（主張と根拠の整合性）

2. 情報の信頼性（出典明記の適切性）

3. 読者適合性（ターゲット層への最適化）

4. 独自性（既存コンテンツとの差別化）

5. 法的遵守（著作権・プライバシー対応）

## 今後の課題と研究方向

### マルチモーダル対応の拡充

現在のはてな記法プロンプトはテキストベースが主流ですが、図表や数式を含む複合文書生成への対応が今後の課題です[1][4]。特に、はてな記法の拡張構文である TeX数式表現やグラフ描画機能を適切に扱えるプロンプト設計手法の開発が求められます。

### 動的コンテキスト対応

ユーザーの編集履歴や過去の投稿内容を考慮した文脈依存型プロンプトの開発が必要です[3][4]。これにより、特定のユーザーやテーマに最適化された一貫性のある出力が可能となります。

### 自動最適化システム

機械学習を用いたプロンプト自動改良システムの構築が期待されます[2][3]。生成結果の品質評価をフィードバックとして活用し、プロンプトパラメータを自己調整する仕組みの開発により、持続的な品質向上が可能となります。

## 結論

生成AIにはてな記法での出力をさせるためのプロンプト設計は、記法規則の正確な理解と効果的な指示文の構築が鍵となります。本報告で提示した基本原則と高度テクニックを組み合わせることで、形式面・内容面ともに高品質なはてな記法コンテンツの自動生成が可能となります。今後の研究発展により、より複雑な文書構造や動的コンテンツへの対応が進むことが期待されます。プロンプトエンジニアリング技術の進化が、はてなプラットフォームを中心としたコンテンツ作成プロセスの革新を促進するでしょう。

Permalink | 記事への反応(0) | 18:50

2025-02-19

■anond:20250218235651

それは在胎週数だろ

週数が長いと体内ででかくなってるから陣痛長めにして子宮口ひらかせないと通常の経膣分娩できないから……って話でしょ

逆に帝王切開は胎児の命に危険があるから陣痛が起こらない時期でもやることであって麻酔自体もできるだけかけたくないもんだろ。

因果が逆。

体内の子はなにか危険があるから陣痛なしに早めにとりだされる。早めだから子宮外適応が悪い。

また初子でなく第二子第三子はするっと出るとか、母胎がキツ目の運動してるとするっと出るとかあるけど、それも子宮外適応が悪いとはおもえない。

データソースを示せ。

Permalink | 記事への反応(0) | 15:15

2025-01-13

■生成AI 使用者はクリエイターなのか

どちらかというとプロデューサーだよね。という所管を書いていく。

技術は普及すれば当然その使用は広がっていく一方だし、ひとまずデータソースの健全性とかそういう話はここで議論しない。

直接的に成果をを出すクリエイターの立ち位置に、AI 使用者は位置付けられるか？という点を検討してみる。

直接的に生成しているのはAI エンジンであり、AI 使用者はプロンプトでその生成物をコントロールしようとする。

すなわち、ディレクターじゃん。

既存アニメ映画とかであれば、描く人が役職あがって監督とかの役職を果たすこともあるけど、位置付けで言えば、プロンプト書く人が座ってる立ち位置ってここじゃん。

実写映画の監督とかが近いのかな？

こういう絵が欲しい。こういう動きを見たい。こういう背景が欲しい。

まさに監督である。

じゃあそこに向けられる批評はどのような形であるべきか。

なぜその素材で良しとしたのか。なぜその表現でOKとしたのか。なぜそのディテールで妥協したのか。

言ってみれば、(一定の範囲で)コントロール可能かつコミュニケーション可能かつ手戻り修正可能なクリエイター(兼素材作成者)と監督間で共同作業して作成しているのが既存実写映画だし、

現在のイラストレーターをはじめとしたコンテンツ制作者たちは、これを自己完結した状態で作成したり、一部共同作業して作成したり、一部既存素材を利用したりして作成している。

すなわち、意図も直接反映させられるし、不満があれば修正可能だし、不要なディテールは削除したり薄めたりして、作品として仕上げられる。

他方、AI 使用者がやっていることは、現状のエンジンが対応している範囲になるから、その下位互換的なものとならざるを得ない。

転じて、AI生成物は、どれだけ素材が良くても、どれだけ書き込みが精巧であろうとも、その意図が不明瞭である限りにおいて、あるいは、意図しないものが混ざり込んでいる限りは、

中途半端なラフイメージにしかならない。

よって、批評としては、どうしてそのラインでGO サイン出せたんですか。ここの表現これでいいんですか。ここまでいいのにどうしてここの細部詰めてないんですか。

というものになる。

これを、「私が作りました」で出してくると、監督/プロデューサー/ディレクターが何言ってきてるの？になる。

なんだけど、この感覚って作ってる人、作品を世に出してる人にしか通じないよなーとなった。

書いてる人が、締切あるもので途中で出してきたとかなら、「あぁ、まぁここで妥協したんだね」となるけど、これが監督とかの立場になるなら、自分の仕事(ディレクション)果たしてないじゃん。となる。

あるいは、生成物大量に貼り付けてるだけのpixivページとかみると、「いや、途中のラフカットや素材集は別にいいからそれをどう取りまとめてディレクションするの？」となる。

書いてて改めて思ったんだけど、なんかいいよねの羅列とか、とりあえず出力してみましただけだと、伝わってくるものがない。

一方で、まだ上手くない手書きの人とかでも、「ここを表現しようとしたんだな」とか、「ここの描写に性癖を感じる」とか伝わってくることは多いし、稀にAI生成でも「あ、この人はこれが好きでここにこだわってるんだ」というのが伝わってくる人もいる。

単純に見た目のぱっと見の印象でも、そういうのが伝わってくるから、結局はディレクションの意思を感じるかどうかなんだよなぁ。という結論を、自分は得た。

し、自分はAI生成物だと性癖のこだわりに耐えきれなかったからたとえ稚拙でも自家生成の方がディレクション効くなぁ、となった。

もっと性癖を感じさせてほしい。

Permalink | 記事への反応(1) | 19:47

2024-09-10

■anond:20240910092816

主が曖昧な書き方をしているせいで、リプが混乱している。ほとんどの反応はWeb バージョンのChatGPT-4oとGPT-4oの最大トークン数の違いさえ理解していないと思われる。Web バージョンの話ならOpenAIの拡張を待つか、大人しくナレッジデータを使うしかない。

もしAPIにRAGを実装できる開発者なら、embeddingの概念が出てこないとおかしい気もするし、追加データソースが膨大であるなら精査の段階であるとも言える（本を読み込ませて……とか書いてるからたぶん違うとは思うが）。

結論を言うと、LLMを使いこなしていると思っているのは勘違いで、LLMの能力の制約にはまだまだ達していないので安心して欲しい。

Permalink | 記事への反応(0) | 18:03

2024-07-09

■anond:20240708192019

なお、データソースは無いので低学歴の妄想の模様

Permalink | 記事への反応(0) | 01:43

2024-04-01

■anond:20240401130034

そんなデータソースを使った発表をするなというのが増田の主張です。

Permalink | 記事への反応(0) | 13:03

■anond:20240401125916

名字由来netとやらのほうが「不十分なデータソース」だろ

Permalink | 記事への反応(1) | 13:00

■政治的主張のために科学的妥当性を放棄するな。

以下は、東北大学高齢経済社会研究センターの吉田浩教授が、国内で最も多い「佐藤」姓の増加率と人口動態を分析したとの記事である。

https://mainichi.jp/articles/20240331/k00/00m/040/076000c]

しかし、この推計は元となるデータの妥当性に疑問が残り、科学的妥当性を軽視した発表であると感じる。

そのため、そこから得られる含意（選択的夫婦別姓の必要性）についても、疑念を抱かざるを得ない。

佐藤姓の占有率と選択的夫婦別姓の是非は無関係の事象であり、そもそも価値のない計算であると言わざるを得ない。

政治的主張を行うために、科学的な妥当性を軽視した発表をすることは慎むべきである。

分析の詳細に関しては、以下のサイトに公表されている。

https://think-name.jp/]

この推計の肝になるところは、PDF中の過去のデータの取り扱いにおける以下の記載である。

⚫ はじめに、日本の全人口の 99.04%以上の名字を網羅しているとする「名字由来 net」
（https://myoji-yurai.net/）提供・公表データにより、日本の佐藤姓の人数の値を得た。
⚫ 次に、各年の日本の総人口（総務省「推計人口」）×99.04%で上記の佐藤姓の人数を除し、
「あるｔ年の佐藤姓の比率」:x(t)を求めた。

データソースとなっている名字由来 net には、年度ごとの苗字人口を非公表の独自集計で計算している。

https://myoji-yurai.net/oneYearAccessRanking.htm?rankingId=13]

これによると、佐藤姓の人口は以下のようになっており、変動がない。

2023年約1,830,000人
2022年約1,830,000人
2021年約1,830,000人
2020年約1,830,000人
2019年約1,830,000人
2018年約1,830,000人
2017年約1,830,000人
2016年約1,830,000人
2015年約1,830,000人
2014年約1,830,000人
2013年約1,830,000人

このデータソースは、佐藤姓人口の経時的推移を補足できていないと考えるのが妥当であろう。

しかし、吉田氏の発表資料では、

佐藤姓の占有率 x(t)は 2013 年の 1.480％から 2023 年の 1.530％と、10 余年で 0.05%ポイント伸びている

と述べている。

定数を、減少する日本人口で割っているので上記のような計算となると思われる。

上記のことから、吉田氏の推計は、不十分なデータソースをもとに数値を無理やり当てはめて推計を行っており、科学的な推計・将来予測・試算というには無理がある。

このような発表を、研究者が社会に対して軽々に行うべきではない。

Permalink | 記事への反応(1) | 12:59

2023-05-01

■anond:20230419125905

できたできた。自己解決。多分誰にも役に立たないだろうが書いておこう。

DB2はODBCの設定以外にNodeとDBの設定情報が必要らしい。それがなんなのかはわからない。

GUIのODBC データソースで追加すると、これが裏で作ってくれるっぽいが

ODBCCONF.exeでは作ってくれず、エラーとなる。らしい。

"C:\Program Files\IBM\SQLLIB\BIN\db2cmd.exe" /c /w db2 catalog tcpip node FOO remote 192.168.1.1 server 10000
"C:\Program Files\IBM\SQLLIB\BIN\db2cmd.exe" /c /w db2 catalog db FOO at node FOO

odbcconf /A {CONFIGSYSDSN "IBM DB2 ODBC DRIVER - DB2COPY1" "DSN=FOO|DATABASE=FOO|SYSTEM=192.168.1.1:10000|UID=db2admin|PWD=password"}

で追加できる。知らんだけで最後はODBCCONFではなく、db2側のでDSNも追加できるのかもしれない…

さらに「 - DB2COPY1」が何なのかさっぱりわからん。「IBM DB2 ODBC DRIVER」もあるんだけども。

というか、こういう要望無いんだろうか？探してもAIに聞いてもなかなかヒットせず

リファレンス見ながらだましだましやってやっとたどり着いた。

FAQみたいなのに載っててもよさそうなもんだけども。DB2がシェア低すぎるのかな？

Permalink | 記事への反応(0) | 10:01

2023-04-29

■anond:20230429201656

データソース

https://www.worlddata.info/iq-by-country.php

Database
The intelligence quotients by countries are taken from the studies conducted by Richard Lynn and Tatu Vanhanen (2002), Heiner Rindermann (2007), Khaleefa and Lynn (2008), Ahmad, Khanum and Riaz (2008), Lynn, Abdalla and Al-Shahomee (2008), Lynn and Meisenberg (2010), as well as the PISA tests from 2000 to 2015. The more recent study by Richard Lynn and David Becker (PDF) at the Ulster Institute for Social Research from 2019 was also included here. In this, Lynn corrects several values of his earlier publications. The studies are not entirely uncontroversial, as they consider only specific population groups in individual countries or only a few and thus unrepresentative reference groups.

Permalink | 記事への反応(1) | 20:28

2023-04-28

■anond:20230428195926

やべえ結果が出るんだろうな〜と思いながら国別の出生率と平均IQの関係をプロットしてみたよ。

草も生えない。

https://imgur.com/a/jrY3EP0

データソース

出生率: https://www.globalnote.jp/post-3758.html

平均IQ: https://jp.wwiqtest.com/iq-compared-by-countries/

Permalink | 記事への反応(1) | 20:38

2022-12-11

■anond:20221210175647

なんかこの増田についてる枝葉の「習った」とか「学問として」とかて何なの？

そんな学問がある　らしい　みたいな　知られてないけど　経験則的に　自分は実際にやった　教わった

みたいな話なん？

まあそれがあってようがまちがってようがはずかしがろうが立派だろうがしらんが

当人は聞いた話を流してるだけだからなんの責任を追及されても困るみたいな態度でも別にいいけどさ

じゃあそれ誰にならったんよ

どの学問なんよ

それが追える事こそが教えでしょ

ソースは自分ってのでもべつになんの問題もないと思うし自分で考えたってこともっと誇っていいと思うしさ

その引用してきてるデータソースが別にあるって話ですすめるんならその話だしなよ

どの教授がどこでなにをどんだけの人間にひろめた論なのよ

Permalink | 記事への反応(0) | 21:37

2022-10-06

■anond:20221006151835

それ技術そのものじゃなくて権利的にあやしいデータソースで学習させたところが出たからだよね？？？

Permalink | 記事への反応(1) | 15:25

2022-08-05

■

ワクチン接種義務化後、米軍では様々な症例の発生率が激増しました。

高血圧症2181％増・片頭痛452％増

神経系疾患1084％増・頻脈302％増

ギラン・バレー症候群 551％増

多発性硬化症680％増・食道がん624％増

女性不妊症472％増・卵巣機能障害437％増

精巣がん369％・乳がん487％増

データソース：国防医療疫学データベース(DMED)

Permalink | 記事への反応(0) | 03:31

2021-11-05

■

長いこと「それでいいんじゃね」で通してあった記録を今更ほじくり返して「間違ってるから全部直せ！お前のせいだムキー！」とお吠えあそばされる上長閣下のおかげでげっそりした。

休暇中にLINE（！）で御高説賜り恐悦至極に存じます。そこグループなんですよね大丈夫ですか。

明日朝イチで「申し訳ございません、今後注意します、ご指導ありがとうございます（ﾊﾅﾎｼﾞ）」って返すから勘弁な。

こちとら休暇中に返事する分の給料貰ってないんすよ。

お前さ、その記録のデータソースは「高度にセキュリティが関連するからお前にはアクセス権やらん！俺の部下の口頭報告で通達された数値を記録しろ！」つってたじゃん。

お前の部下そんなに正確じゃないよ。わりとズレてるし報告遅えし。

まぁホイホイ報告通りに記載したのがいけなかったかもしれんな。もっと疑うべきだったよ頭の出来とか。

たまに「お前の部下アホだぞ」って刺しとけばよかった？ヤだよお前怒るじゃん面倒くせえ。

今度から可哀想な生贄2号を用意して、そいつが再度チェックすることになったらしい。

データの正確性は担保されてないから、何が合ってて何が間違ってるか判別できんがな。まぁ頑張れ。

あと問題解決してえのか罵倒してえのかブレてんぞ。理性と感情は切り分けろよ大丈夫ですか。

Permalink | 記事への反応(0) | 21:22

2021-05-29

■データで見る都立高校男女別定員の話

この話

https://b.hatena.ne.jp/entry/s/togetter.com/li/1721306

やっぱりデータがないとねえ。

市新の以下のサイト

http://www.ko-jukennavi.net/nyushi/hensachi/tokyo/

をもとにまとめると以下のようになった。

偏差値	男子が高い	同じ	女子が高い	男子が難しい率#
70~	2	0	0	100%
60~69	9	11	0	100%
50~59	4	21	7	36%
40~49	4	15	11	27%
~39	1	8	7	13%

# 男女の難易度が等しい学校を除く

「男子が高い」は、男子の方が合格80%偏差値が高い、つまり難易度が高い。「女子が高い」なら女子の方が難易度が高い。

見事に難関都立高は男子の方が難易度が高いことが多く、中堅以下の高校では女子の方が難易度が高いのだが、マスとしては中堅以下の高校の方が圧倒的に多い（男子の方が難しいことが多い偏差値60以上の都立高は22校、女子の方が難しいことが多い偏差値59以下の都立高は78校）。

ちなみにこれだけでなく他のデータソースを探すと、例えば本当のトップ層しかいないSAPIX 偏差値だと、全ての都立高において男子の方が難関である。都立日比谷の男子58、女子52が意味するのは、男子は日比谷の合格率80%であるためにはSAPIX上位20%程度である必要があるが、女子はSAPIX上位40%くらいまでにいれば良い、というほどの明確な男女差である。

https://www.sapix.co.jp/exam/hensachi/

togetterでもまとめられているように、都立高が男女別定員を止めて男女の合格基準を同一にするとどうなるかというと、日比谷・西・戸山・国高の都立トップ校において男子比率が増える。ちょうど男女合格基準が同じである県立トップ校の横浜翠嵐と県立千葉に、女子が30%しかいないように。

私は、男女平等社会の実現のためには、学力的不平等があってもエリート校は男女同数であった方が良いと思っている（筑駒も開成も麻布も灘も！）。官僚トップがさあ、中学高校時代に男子だけしかいない空間で育って、それで国を率いる立場になって、本当の男女平等を目指すわけないじゃんか。

つまり報道が指摘すべき問題校は、都立高なんかではなく男子トップ校だと思う。

なんだか、攻めやすいところをせめている小役人のように感じてしまうのです、マスメディアのみなさん。

NHKさん、毎日新聞さん、もしも真剣に男女平等を考えているならば、今すぐ報道を考え直すんだ

Permalink | 記事への反応(0) | 01:08

2021-05-01

■国産 ストラテジーゲーム今昔

https://anond.hatelabo.jp/20210430101328

近年、俺が良く遊んだ、面白かったゲームを並べてみると見事にMade In Japanがない。
(略)
俺はストラテジーゲーム、シミュレーション好きなので、現在の他のジャンルの事は良く分からない。

「つまらなくなった」以前の問題として、国産ストラテジーゲームが絶滅危惧種であるというのが現状では。

現状の確認

とりあえず4gamer .net のタイトル検索( https://www.4gamer.net/script/search/index.php?mode=title )で、ジャンル: "ストラテジー"＋特徴/開発地域: "日本"で検索し、発売日順にソートして2018年から 2020年までのリリース状況を見てみようず(ちなみに、この条件に当てはまる最も最近のゲームのリリース日が2020/12/17なので、2021年は0本。なので実質として直近三年分のリリース状況になる)。

結果がこれ

WCCF FOOTISTA 2021 (セガ)
三國志14 with パワーアップキット (コーエーテクモゲームス)
WCCF FOOTISTA 2020 (セガ)
三國志14 (コーエーテクモゲームス)
カプセルさーばんと (TYPE-MOON)
WCCF FOOTISTA 2019 (セガ)
信長の野望･大志 with パワーアップキット (コーエーテクモゲームス)
大戦略パーフェクト4.0 (システムソフト・アルファー)
信長の野望･大志 (コーエーテクモゲームス)
WORLD CLUB Champion Football 2017-2018 (セガ)
Auto Puppet (TAKOYAKING)

複数プラットフォームでリリースされてるものは一つにまとめている。また、「ストラテジーゲームの定義」は面倒なので、ここではとりあえず「4gamer .netでストラテジータグが付いているもの」とする。

感想としては、ほぼほぼナンバリングタイトルと有名タイトルからの派生じゃねーか感がある。あと発売元もコーエーテクモゲームス、セガ、システムソフト・アルファーのヘビロテ。

在りし日の姿

「でもストラテジーゲームっていうジャンルは昔からだいたいこんなもんでしょ？」みたいな人もいるかもしれないので、同じ条件で2001年から 2003年までの三年間のリリース状況を見てみようず。

注意点。当時の4gamer .netはPCゲーム専門だったので、上のデータと違ってコンシューマゲームについての登録がない。時代が時代なのでスマホアプリはそもそも存在してないし、ガラケーアプリについても登録は無い。

また、復刻版や廉価版については除外。パワーアップキットなどの追加要素単独発売についても除外。

現在と比べると、リリース数もさることながら発売元やシリーズ名もかなり多様性が有ったことが分かる。あと、上に書いたとおりコンシューマゲーム機向けの情報が抜けているので、実際にはもっとリリースされてたはず。

とはいえこの頃が国産ストラテジーゲーム黄金時代だったかと言うとそうでもなく、後にクソゲーオブザイヤー常連となる某社を筆頭にして、DOS 時代と比べると技術的にもゲームシステム的にも後退した印象が強い。

某社、DOS 時代は大戦略シリーズの焼き直しだけじゃなくて、「ブリッツクリーク」で諸兵科連合を考慮したシステムを入れたり、「パンツァーカイル」で士気システムや部隊編成システムを入れたりとか、「空軍大戦略」で航空戦に特化してみたりとか色々とシステム面でチャレンジしてたのだけれどなあ…

追記

「ストラテジーゲームの定義」関連の指摘について

メーカー側が「ストラテジーゲーム」としているのに4gamer .net側は「シミュレーション」としていたりする例や、カジュアル寄りのRTSやタワーディフェンス系のゲームが含まれていないなどの指摘について。

指摘自体は妥当とは思うけれども、このあたりを深く突っ込んでいくと際限が無いので

ここではとりあえず「4gamer .netでストラテジータグが付いているもの」とする。

と敢えて逃げている。定義論争はSFだけで十分だし、ここでやりたいことは網羅ではなく「同じデータソースを使って過去と現在の状況を比較してみる」ことなので。

なんで4gamer .netなの？

ゲームタイトルをジャンルと開発国で絞り込み出来るのが楽なので。Impress Game watchは古くからの記事が残っているという点で非常にありがたいのだけれど、こういう形でタイトルを絞り込む用途には使いづらい。

元増田は「シミュレーション」も好きと書いてるのでそちらも検索に含めるべきでは

このあたりも定義論争になりそうだけれど、「シミュレーション」というジャンルは本質的にかなり幅が広くて…

でも元増田が言及してるゲームは戦争・戦闘要素が絡んでくるやつが大部分なので、幅広い「シミュレーション」より、戦争・戦闘要素が強い「ストラテジー」で絞り込んだ方が良いなという印象。（といはいえ4gamer .netの「ストラテジー」ジャンルには戦闘関係ないやつも結構入っているのは確かだしsteamはより大雑把だったりするのだけれど。）

Permalink | 記事への反応(13) | 14:41

2020-11-19

■anond:20201119132329

というかトランザクションを見逃してた、トランザクション上手くやりたいならまともなDBMS入れないと無理

誰も使ってないWindows PCとか転がっていればSQLServer Express（無料）とか入れてやる？通信の面倒くささでいえばSQLiteと一緒だろうけどエンドユーザー側がドライバとかインストールする必要はないはず（ODBC データソースの設定は必要、めんどくさい……）

どうせODBC使うならドライバインストールくらいって思ってついでに増田がLinux慣れしてるなら鯖立ててポスグレでもMySQLでも何でも使えばいいと思うけど

追記

SQLServerのOLEDB 接続、廃止されたもんだと思ってたら復活していたらしいエンドユーザー側の設定不要だと思うからこれが一番楽かも？

追記2

Win10にDB立ててアクセスさせるのはライセンス違反だったわ、SQL Server on Linuxならセーフだけど

Permalink | 記事への反応(1) | 13:49

2020-04-16

■オンライン 祭り システム作ろうぜ！

アイデア料俺にくれ！

さて、夏に向けて各自治体で祭りの準備があるはずだ。

しかし今の情勢から言って、すんなりと開催に至ることはもはや不可能だろう。中止にするか、なんとしてもやるか、それぞれの派閥がバチバチになって、ポストコロナ時代にも悲しい世代間軋轢が残るだろう。

そこでだ！今のうちに祭りを「オンラインでやる仕組み」を構築して(PaaS型がいいだろう)、いざ夏の準備だ！と意気込む老若男女が祭りのことで喧嘩の果てに妥協案として「じゃあリモート開催で！」と言うときに駆け込める場所を作ってやって、ついでに金儲けもしてやろうじゃないか！

機能的には

・出店(物理的なもんは事前注文で宅配式がいいだろう！オンラインでしかできない商品なんて出れば最高だな！)

・音頭中継(ユーザーがライブで踊ってる様をシェアしてウィンドウを分割して一定時間ごとにラウンドロビンで切り替え表示できれば最高だな！)

・画面は日照を考慮した色合いに

・最後は〆のオンライン花火！(ここにイカした工夫ができれば最高だな！)

って感じか！

祭りの運営者は登録・ログインして、上記をオリジナルに差し替えも可能なテンプレートとして選択や作成していき「我が町祭りオンライン」を作成する！

各祭りのURLはサブドメインに分けて、それぞれの町祭り用のURLとする！初期版は祭り参加者のログイン機能は難しいだろう、全町の祭りにURL経由でアクセスできるようにしよう！のちのちアクセス制御したくなるだろう、ただし公共良俗を保つのが難しいかもしれないので、トレードオフの認識は必要だ！

アクセス数ランキングの後日発表はあってもいいが、イイねランキングやリアルタイムランキングはやらない！イイねやらスターはクソだ！ショボい祭りも盛大な祭りもバカにされずにドンとこいにしてぇ！そこにイイねは邪魔だぜ！

時間もねえしオープンソースだ！後ろも前も得意な奴がやろうぜ！CI/CDは詳しくねぇしドメインやらデータソースの置場所も考えなきゃなんねぇが、俺はそういう面倒はごめんだ！得意な奴やってくれよな！

よし、わかったらリポジトリ作ってリプで教えてくれな！儲かったら俺にアイデア料寄越すんだぞ！ガハハ！

Permalink | 記事への反応(0) | 16:12

「データソース」を含む日記

1. 莫大なデータ収集コスト

2. 品質を保つためのラベリングコスト

3. 既存のAI技術を活用しないメリットがない

もし本当に「クリーン」なら証拠を示すべき

大手企業の「クリーン」って言葉の実際の意味：

例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない：

しかもAdobe Fireflyは「クリーン」の証拠として下記を提供してる：

結論：「バレなきゃOK」マーケティングの可能性大

■実際にはディープラーニング使ってるみたいだが、それはAIじゃないし仮にAIでもクリーンってこと？

1. ライセンスクリアなデータのみを使用

2. 人間の監修を強く入れる

3. ディープラーニングではなく古典的な手法をベースにする

でも、それは本当に「AI技術未使用」なのか？

「AIではない」と言いたがる理由

1. 「AI＝著作権違反」という誤解を避ける

2. ユーザーの心理的抵抗を減らす

3. 法的リスクを避ける

結論：「クリーンな学習＝AIではない」理論はマーケティング上の方便

1. 莫大なデータ収集コスト

2. 品質を保つためのラベリングコスト

3. 既存のAI技術を活用しないメリットがない

もし本当に「クリーン」なら証拠を示すべき

大手企業の「クリーン」って言葉の実際の意味：

例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない：

しかもAdobe Fireflyは「クリーン」の証拠として下記を提供してる：

結論：「バレなきゃOK」マーケティングの可能性大

にゃーん

■生成AIに、出力結果をはてな記法で出力させるために必要なプロンプト

セクション見出し

[製品名]の特徴

大見出し

中見出し

■生成AI使用者はクリエイターなのか

■政治的主張のために科学的妥当性を放棄するな。

■データで見る都立高校男女別定員の話

■国産ストラテジーゲーム今昔

現状の確認

在りし日の姿

「ストラテジーゲームの定義」関連の指摘について

なんで4gamer.netなの？

元増田は「シミュレーション」も好きと書いてるのでそちらも検索に含めるべきでは

■オンライン祭りシステム作ろうぜ！

3. 既存のAI 技術を活用しないメリットがない

　大手企業の「クリーン」って言葉の実際の意味：

　例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない：

　しかもAdobe Fireflyは「クリーン」の証拠として下記を提供してる：

でも、それは本当に「AI 技術未使用」なのか？

3. 既存のAI 技術を活用しないメリットがない

　大手企業の「クリーン」って言葉の実際の意味：

　例えばAdobe Fireflyの「クリーン」は完全オリジナルという意味ではない：

　しかもAdobe Fireflyは「クリーン」の証拠として下記を提供してる：

■生成AI 使用者はクリエイターなのか

なんで4gamer .netなの？