lynx   »   [go: up one dir, main page]

タグ

クラスタリングに関するgologo13のブックマーク (17)

  • k-means をさらに速くする - ny23の日記

    昨日,今日と電車に乗っている時間が長かったので,暇つぶしに論文を読んでいた. Making k-means even faster (SDM 2010) この論文では,Elkan の三角不等式を用いた k-means の高速化手法 Using the triangle inequality to accelerate k-means (ICML 2003) のアイデアを元に,空間計算量を悪化せず k-means を高速化する手法を提案している.手法自体の新規性はそれほどない感じだけど,空間使用率を大幅に改善しつつ,かつ実際に幾つかのデータで Elkan の手法以上の高速化が得られたことに意義があるのかな. [追記; 2013/02/20] 別解出力をサポートした高速 k-means の C++ 実装を公開 - ny23の日記 で実装を公開しました.自分の専門分野だと,クラスタリングする対象

    k-means をさらに速くする - ny23の日記
  • perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

    すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi   https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ

    perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary
  • K-means and X-means implementations

    K-means and KD-trees resources Read the K-means paper (PS), or K-means paper (PDF) . Note: recently a similar, though independent, result, was brought to our attention. It predates our work. For completeness, you can read that too. Read the X-means paper (PS) or X-means paper (PDF). The X-means and K-means implementation in binary form is now available for download! Currently, there are versions f

  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
  • untitled

    辻井研演習3 単語クラスタリングの諸考察 岡野原 大輔 04/05/24 1 背景 集合中の要素を、それらの間で定義される類似度や全体の整合性を基準にして似ている要素同士で分類する クラスタリング技術は多くの分野において、有効であることが示されてきた。自然言語処理分野においても、 単語を分類したり、文書を分類するなど、多くのケースで使用されている。 単語を Class に分類することの利点は、N-gram などの学習において、推定すべきパラメーター数に対し、 得られる情報が少ない場合に起こる Sparseness の問題が、Class N-gram を用いた補間 [2] によって解決さ れ、より頑健なモデルとなり、言語モデルの精度が向上することが挙げられる。他の利点として、文書クラス タリングにおいて、文書中の単語の出現状況を各文書の feature として用いて分類する場合、単語数

  • SumoBet88: Situs Judi Online Slot88 Terbaru Slot Gacor Hari Ini

    Pemeliharaan Terjadwal: Crowd Play pada 2023-11-30 dari 7:00 AM sampai 2025-06-02 6:30 PM (GMT + 7). Selama waktu ini, Crowd Play permainan tidak akan tersedia. Kami memohon maaf atas ketidaknyamanan yang mungkin ditimbulkan. Pemeliharaan Terjadwal: ESports Bull pada 2024-05-20 dari 10:00 AM sampai 2025-06-03 11:00 AM (GMT + 7). Selama waktu ini, ESports Bull permainan tidak akan tersedia. Kami me

    SumoBet88: Situs Judi Online Slot88 Terbaru Slot Gacor Hari Ini
  • 統計的テキスト解析(13)~テキストのクラスター分析~

    図書館の図書は何らかの特徴別にグループ分けしており、新聞の紙面は総合、社会、経済、国際、生活、料理、スポーツ、地域などに分けられている。図書は図書館の管理者が、新聞の紙面は編集者たちがグループ分けしている。しかし、インターネット上の大量のテキストを何らかの特徴別にグループ分けする場合、すべての内容を読み、グループ分けすることは現実的ではない。また、人為的にグループ分けすることは読む側の主観の印象や認識などに左右されるため、客観的なグループ分けが求められている。 稿では、テキストがどのグループに属するかに関する情報(外的規準とよぶ)を用いずにグループ分けする方法を説明する。このようなグループ分け方法をクラスター分析と呼ぶ。テキストのクラスター分析は、主に次のようなアプローチ多用されている。 (1)個体の特徴の情報に基づいて、平面や立体空間上で散布図を作成し、分布状況からクラスターの形成状況

  • http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node115.html

  • クラスター分析 非類似度

    クラスター分析のデータの種類が「生データ」の場合、データから対象(ケース)間の非類似度行列(距離行列)を計算して解析する。 ここでは計算する非類似度(距離)の種類を指定する。 ユークリッド距離 通常の距離。データの単位が関係する。 標準化ユークリッド距離 各変数ごとに分散1に標準化した値で計算したユークリッド距離。データの単位に関係しない。 マハラノビス距離 正規分布を仮定する場合に使われるが、変数間の相関も考慮した距離。データの単位が関係する。 ミンコフスキー距離 ユークリッド距離を一般化したもので、パラメータkを指定する。k=2がユークリッド距離に一致する。データの単位が関係する。 マハラノビス距離、ミンコフスキー距離で、データの単位に関係しない標準化したものを使用したい場合には、De for Win でデータを標準化しておく必要がある。 注意 変数がアイテム・カテゴリ型の場合は、各種

  • 同志社大学 理工学部 インテリジェント情報工学科 知的システムデザイン研究室

    研究室では、最適化、シミュレーテッドアニーリング、遺伝的アルゴリズム、知的照明システム、並列分散処理、センサーネットワークなどの研究を行っています。 ホームページリニューアルのお知らせ

  • 332パターン認識 - 過去を知れば未来が分かる

    世の中には、既に分かっている過去のデータがあります。このデータを利用しない手はありません。過去のデータを利用すれば、もし分からない未来のデータが出現した場合、過去のパターンから有効な知識として活用させることができます。 今回、ご紹介するのはそんな過去を知れば未来が見えてくる手法です。概して『パターン認識』と呼ばれる手法とその類です。 「パターン認識」、難しい言葉に聞こえるかもしれませんが、我々は常にパターン認識をしております。 例えば、ある人の顔を見たときに瞬時に記憶の中から誰なのか識別してますし、初めて見る場合でも似たような人物を探しどんな人間なのか当てはめたりすることもできます。 楽しいときはどんな表情をするか、苦しいときはどんな表情をするかという「パターンクラス」を私たちは持っています。初めて会う人の表情でさえ、感情をよみとる能力を持ち合わせています。それがパターン認識です。

  • edu/applied-acoustics/2003/D3-VectorQuantization.tex / 1 東京大学 工学部 計数工学科 応用音響学 D3 - ベクトル量子化 嵯峨山 茂樹 <sagayama@hil.t.u-tokyo.ac.jp> 他 東京大学 工学部 計数工学科 資料所在http://hil.t

    edu/applied-acoustics/2003/D3-VectorQuantization.tex / 1 東京大学 工学部 計数工学科 応用音響学 D3 - ベクトル量子化 嵯峨山 茂樹 <sagayama@hil.t.u-tokyo.ac.jp> 他 東京大学 工学部 計数工学科 資料所在http://hil.t.u-tokyo.ac.jp/∼sagayama/applied acoustics/ 謝辞: システム情報第一研究室勉強会資料を部分利用 (亀岡担 当分) クラスタリング k-means アルゴリズム ベクトル量子化 LBG アルゴリズム セグメンタル k-means アルゴリズム 嵯峨山 茂樹: 応用音響学: D3 - ベクトル量子化 edu/applied-acoustics/2003/D3-VectorQuantization.tex / 2 ベクトル量子化とは

  • 【PDF】クラスタリング - 嵯峨山茂樹 - 東京大学工学部計数工学科応用音響学

    嵯峨山 茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 1 東京大学 工学部 計数工学科 応用音響学 D2 - クラスタリング 嵯峨山 茂樹 <sagayama@hil.t.u-tokyo.ac.jp> 東京大学 工学部 計数工学科 資料所在 http://hil.t.u-tokyo.ac.jp/∼sagayama/applied acoustics/ クラスタリング k-means アルゴリズム ベクトル量子化 LBG アルゴリズム セグメンタル k-means アルゴリズム 嵯峨山 茂樹: 応用音響学 D2-Clustering edu/appl-acoust/2003/D2-Clustering.tex / 2 クラスタリング1 内容 1. クラスタリング 2. k-meansアルゴリズム、LBGアル

  • k平均法 - Wikipedia

    k平均法(kへいきんほう、英: k-means clustering)は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法(k-means)、c-平均法(c-means)とも呼ばれる。 何度か再発見されており、まず、Hugo Steinhusが1957年に発表し[1]、Stuart Lloydが1957年に考案し、E.W.Forgyが1965年に発表し[2]、James MacQueenが1967年に発表しk-meansと命名した[3]。 数式で表現すると、下記最適化問題を解くアルゴリズム[4]。アルゴリズムでは最小値ではなく初期値依存の極小値に収束する。 単純なアルゴリズムであり、広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見す

    k平均法 - Wikipedia
  • LBGアルゴリズム

    とりあえず、アルゴリズムだけです。 書くだけ書いたが、わかんないねキット。のままだし。 一応これをプログラム化することで、LBGは完成するんだけど…見てる人いかがでしょう? パターン空間Vの有限集合Wをクラスタに分割し、そのセントロイドを求めるLBGアルゴリズムです。 類似度関数dは、問題によって変化します。 0:LBG-Clustering-Algorithm 1: ( 2:  W:パターン空間Vの有限部分集合[入力]; 3:  N:クラスタ数[入力]; 4:  W:z1(0),z2(0),…,zN(0)[入力]; 5:  ε:収束判定の閾値[入力]; 6:  S1,S2,…,SN:クラスタ[出力]: 7:  C(S1),C(S2),…,C(SN):C(Sn)はSnのセントロイド[出力]: 8:  D(S1,S2,…,SN):総歪[出力]: 9: ) 10:begin; 11: /*

  • 第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記

    昨年と一昨年に引き続き IM (input method) 飲み会。前々回は単に参加しただけ、前回は昼の部を取りまとめただけで夜の部は oxy くんに任せていたのだが、今回は昼の部だけではなく夜の部も取りまとめることになった(京都開催なのに自分は京都住んでいないのでお店もよく分からず……森さんが助けてくれた。深謝!)ので、なかなか緊張する。 出張扱いで来る可能性のある人がいたので、とりあえず第1回入力メソッドワークショップという名前をつけてページを用意してみた(なにか開催するときはこういうものを作っておくと役に立つということを、昨年 Patrick Pantel さんを Yahoo! Labs から招聘したとき学んだ)。去年のものも入れると第2回だけど……。 今回初参加は id:kzk くんの紹介で来た id:naoya さん、tabatee さんの紹介で shinh さん、森さんの研究室

    第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記
  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • 1
Лучший частный хостинг