[B! morphological] teddy-gのブックマーク

teddy-g id:teddy-g

morphologicalに関するteddy-gのブックマーク (39)

Python: Janome で手軽に形態素解析する - CUBE SUGAR CONTAINER
Janome は Pure Python で実装された日本語の形態素解析ライブラリ。形態素解析というのは文章から意味をもった最小の構成単位となる形態素を取り出すことをいう。他の日本語の形態素解析ライブラリは Python から使えてもバインディングが提供されているだけでドキュメントがイマイチだったり、あるいはインストールが大変だったりということも多々あるんだけど Janome はそんなことがない。インストールインストールは実に簡単。 pip を使ってさっくりできる。 $ pip install janome 使ってみる使い方も至ってシンプルで janome.tokenizer.Tokenizer さえ知っていればいい。 Tokenizer#tokenize() メソッドに日本語のユニコード文字列を渡すだけで解析ができる。解析結果はリストで返ってくる。 >>> from jano
teddy-g 2016/11/28
Janomeって蛇の目か。確かに簡単に形態素解析できる。便利。

python

morphological

analysis
リンク
64bit Windows + python 2.7 + MeCab 0.996　な環境をつくる - Qiita
修正履歴 2016/2/19 コードの修正・必要なファイルの更新 2016/2/19 トラブルシューティングの追加はじめにそもそもWindowsでなぜ？という話があると思いますが、理由は一つ。Windowsには強力なIDEであるVisual Studioがあるからです。コード補完、スニペット、デバッグ・・・・多くのメリットがあるIDEですが、いかんせんWindowsでの環境構築には難所が多く、Python関係だとビルドの問題で詰まることが多いようです。理由は様々ですが、Unixのコマンドが通用しなかったり、ファイルパスの書き方が違ったりといったことがあげられます。今回は、そんなハードルを乗り越え、自然言語処理屋さん御用達、MeCabのPythonライブラリを入れてみようという話です。 MeCabって？ MeCabは、形態素解析ツール。形態素は意味の通る単語の最小ブロックといった感
teddy-g 2016/02/29
WindowsのPython環境でMeCab使う為のあれやこれや。

python

mecab

windows

NaturalLanguage

NLP

morphological

analysis
リンク
MeCab アーカイブ | PHP Archive
今回も igo-php を用いた形態素解析のサンプルなので、導入についてはこちらを御覧ください。通常分かち書きをする場合、名詞は細かく分割され、次のように解釈されます。「これは形態素解析の実験結果です。」 → 「これ | は | 形態素 | 解析 | の | 実験 | 結果 | です | 。」もちろん間違ってはいないのですが、感覚的には「形態素解析」「実験結果」はそれぞれひとつの単語でまとめられていたほうが自然です。「東京特許許可局」などの場合も同様に一つの単語として扱うことがほとんどです。法則を見てみると、名詞が連続している場合は複合名詞になるというシンプルなものなので、それを踏まえて次のようにしてみました。 <?php require_once 'lib/Igo.php'; $igo = new Igo(dirname(__FILE__) . "/ipadic", "U
teddy-g 2015/06/08
igo-phpの複合名詞対応版だが、同じことはmecabでもできるな。

morphological

analysis

NLP

mecab

php
リンク
[PHP]文章を解析して単語ごとに分解する（形態素解析） | PHP Archive
日本語は英語と違い、単語同士が明確に区切られていないので、一つ一つの単語の品詞を調べる場合は、いわゆる「分かち書き」をする必要があります。分かち書きとは次のように単語を分けて書くことです。これは日本語です → これ | は | 日本語 | ですプログラミングで分かち書きを行うには大変な労力がかかるので、ゼロから開発するのは現実的ではありません。簡単に行う方法の一つは Yahoo! API を利用することです。クエリを送るだけで簡単に解析結果を受け取ることができるので便利ですが、リクエスト回数に上限があったり、クレジット表記が義務付けられたりするので、状況によっては使いにくくなります。もう一つはサーバーに MeCab をインストールする方法です。 Mecab はオープンソースの形態素解析エンジンで、様々な分野で活用されている実績あるプログラムです。可能ならこちらを導入するのがベ
teddy-g 2015/06/08
mecabじゃない形態素解析、igo-php。mecabがあったら必要ないが、備忘まで。

morphological

analysis

NLP

mecab

php
リンク
MeCabのWindows版をインストールしてみる
今構想中のアプリの開発に形態素解析が必要なので、とりあえずインストールしてみる。形態素解析にはYahoo APIという選択肢もあったのだけど、１日の利用制限が50000回で1リクエスト100キロバイト以下という制限が、今回のアプリには厳しそうだったのでMeCabを選択した。公式サイト http://mecab.sourceforge.net/ 今回インストールするバージョンは「0.98」手順 ------------------------------ 1. ダウンロード 2. インストール 3. 動作確認 1. ダウンロード以下のサイトからWindows版のexeファイル「mecab-0.98.exe」をダウンロードする。 http://sourceforge.net/projects/mecab/files/ 2. インストールダウンロードしたexeファイルをダブルクリッ
teddy-g 2015/06/08
mecabの基本的な使い方。備忘まで。

morphological

analysis

NLP

mecab
リンク
MeCabをPHPで使う - 動かざることバグの如し
もうソース貼り付けるだけでいいよね（適当 Windows環境ver <pre> <?php function exeMecab($str){ //必ず[']で囲むこと $exe_path = 'D:\xampp\MeCab\bin\mecab.exe'; $descriptorspec = array( 0 => array("pipe", "r"), 1 => array("pipe", "w") ); $process = proc_open($exe_path, $descriptorspec, $pipes); if (is_resource($process)) { fwrite($pipes[0], $str); fclose($pipes[0]); $result = stream_get_contents($pipes[1]); fclose($pipes[1]); pro
teddy-g 2015/06/07
Windows版はPIPEで、Linux版はPHPの関数処理

php

mecab

morphological

analysis

NLP
リンク
http://blog.yuku-t.com/entry/20110623/1308810518
teddy-g 2015/06/03
LIS、LDAのロジックは要チェック。

morphological

analysis

analytics

bigdata

advancedanalytics

NLP

NaturalLanguage
リンク
RNNLM
2. 黒船到来 • 自然言語処理における Deep Learning の活用を紹介 • google の人が公開したword2vecというツールが話題 4. n-gram language model • 文に対する確率分布をモデル化 • 単語の条件付き確率の積で表す • 単語の条件付き確率はN-1個前までの単語で計算できると仮定する適切なn-gram確率をいかに求めるかがこれまでの焦点コーパスに現れない低頻度なn-gramにも事前分布に従って正確な確率を与えるという試みがなされてきた（スムージング） 5. n-gram lm の例 • HPYLM trigram の確率は… 観測したtrigram頻度をディスカウントして… bigram確率でback-off “トヨタ/自動車” の確率は 0.5 “日産/自動車”の確率は0.4 Q: トヨタと日産の関係は？ A: 知らない
teddy-g 2014/11/17
自然言語分析にNNを使う＝NNLM。単語の出現確率を元にアレでコレして推測する。

neuralnetwork

morphological

analysis

analytics

analytical

deeplearning

bigdata
リンク
GAE/jからYahooAPIの形態素解析を利用してみた - MshrKatoの日記
（20110108追記）この記事は過去のブログからインポートした物です！概要「形態素解析って何？」という方は、今ならウェールズ氏のどや顔も楽しめる、以下を参考にどうぞ。形態素解析 - Wikipedia さて、現在、twitterのbotをGAE/j上で作っている訳ですが、賢い応答をさせる為には文章の形態素解析を行う事が必要不可欠です。しかし、問題はそれをどう行うかです。自分で書くには、言語学の勉強から始めないといけませんし、ライブラリを使おうにもGAE/jにアップするにはサイズが大きすぎます。（もっとも、自力でライブラリを分割された事例もありますが……*1）何か他の方法は無いかと探しますと、実は有ります。それが、Yahoo!デベロッパーネットワークからWeb APIの形で提供されている、日本語形態素解析です。このサービスは、HTTPでリクエストを受け付け、XML形式で結果を返し
teddy-g 2014/07/17
GAEからYahooAPIつかう。Y!の制約が結構あるからなあ

morphological

analysis

googleappengine

yahoo
リンク
GAE/J で GoSen を動かして形態素解析 | Altus-Five Labs
Google App Engine Java のアプリを作ってみました。ちょっと前に検索エンジンの開発に触れる機会があったので、今回の手習いは、形態素解析器を GAE/J で動かすことをテーマにしました。まずは、下記ページに書かれている「Eclipse を使用して（または使用せずに）App Engine Java プロジェクトを作成する方法」にしたがって開発環境を作成します。 http://code.google.com/intl/ja/appengine/docs/java/gettingstarted/introduction.html そして、ひと通りチュートリアルを試して、開発環境に慣れてしまいます。実は、最初はチュートリアルは試さないで、他に GAE/J を紹介している記事を参考にして、必要なことだけをやろうとしたんですけど、後から考えると、先にチュートリアルを通し
teddy-g 2014/07/17
GAEでGoSen動かす。使うかどうかわからんけど、とりあえず。

morphological

analysis

google

googleappengine
リンク
綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み
単純ベイズ法を2つの蛇口でとらえるいままで見てきたように、単純ベイズ法を用いたスパム判定では、すでに手元にあるスパムメール中に含まれている単語の出現頻度と、非スパムメール中に含まれている単語の出現頻度を計算することで、スパムメールの判定を行いました。この計算の過程を、もう少し大ざっぱなモデルで説明してみましょう。まず、無限の単語を含んだ蛇口を2つ考えます。1つは、スパム発生源の蛇口で、もう1つは通常メールの発生源の蛇口です。そして、蛇口から流れ出た単語が袋に入りメールを生成するとします。それぞれの蛇口に含まれている単語の割合はもちろん違います。おそらく、スパムの蛇口に「無料」が含まれる割合は、非スパムの蛇口に「無料」が含まれる割合よりずっと大きなはずです。スパム判定問題は、この蛇口を使うと次のようにモデル化できます。いま、どちらか一方の蛇口から単語をばらばらと（有限個）こぼしま
teddy-g 2014/03/18
ベイズ理論の説明はこれが一番わかりやすかった。

morphological

analysis

bayes
リンク
ベクトル空間法による文書の類似度の算出
Next: シラバスの類似度の計算 Up: テキストマイニングのための自然言語処理技術 Previous: 候補語の出現頻度情報目次ベクトル空間法による文書の類似度の算出[27] 前節ではある文書における各単語の重要度を算出した。次にその重要度を利用して、ベクトル空間法という計算方法を用い、複数の文書同士の類似度を計算する。ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、二つのベクトルを比較することにより類似度を調べるものである。つまり、ベクトルの方向は文書の特徴であるので、二つのベクトルのなす角が小さいほど似ているということである。個のタームを持つ文書を形態素解析し、各ターム毎の重要度をとしたとき、文書のベクトルは以下のように表される。
teddy-g 2014/03/18
ベクトル空間法の計算式忘れたらここへ。

searchengine

morphological

analysis
リンク
棚からパルチャギ
実践編です。ベイジアンフィルタを使ったアプリケ－ションの流れは、大きく分けて以下の3段階になります。カテゴリ（クラス）定義パターン学習文書分類単純ベイズ分類器(Naive Bayes classifier)ではクラス毎に単語の出現頻度を記憶して、その情報をもとに文書がそれぞれのクラスに属する確率を求めます。 SPAMフィルタなどでは「spam」と「nospam」のように2つのクラスだけで使用されることが多いです。多分。パターン学習は、特定の文書（単語のセット）がどのクラスに所属するかを指定します。これにより出現頻度のデータベース（コーパス）が更新されて、次回以降の分類精度を向上させることができます。通常は、クラスを最初に設定して、以降は学習と分類を繰り返すような感じになると思います。 …ということで、クラスの定義から。何故かNaiveBayesianStorageには、カ
teddy-g 2014/03/18
PHPでベイジアンフィルタ。結局クラスの中身がよくわからんので実装法だけ。

php

morphological

analysis

bayes
リンク
社内勉強会-ナイーブベイジアンフィルタの実装
Rubyでベイジアンフィルタを実装し、どれくらいの精度でspam分類できるかを検証。Read less
teddy-g 2014/03/18
ベイズの公式の計算過程が丁寧に書いてある。

morphological

analysis

analytics

programming
リンク
Excelで自然言語処理: 形態素解析
- 1 user
- pub.ne.jp
- 学び
teddy-g 2014/03/17
EXCELで形態素解析するVBAコードがある。便利。

excel

morphological

analysis

vba
リンク
Link Grammar
Davy Temperley Daniel Sleator John Lafferty The Link Grammar Parser is a syntactic parser of English, based on link grammar, an original theory of English syntax. Given a sentence, the system assigns to it a syntactic structure, which consists of a set of labeled links connecting pairs of words. The parser also produces a "constituent" representation of a sentence (showing noun phrases, verb
teddy-g 2014/03/07
英語の形態素分析をするLink Parser

api

tips

hacks

English

morphological

analysis
リンク
livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）
こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説
teddy-g 2013/01/12
トライグラムで二つの文章のSimilarityを判定

morphological

analysis

text

data
リンク
��ΰ渶 - ʸ��ץ��񤤤Ƥߤ褦�� Archives
Posted at 7:39 in ʸ��ץ��񤤤Ƥߤ褦�� . | 0 Trackbacks, 0 Comments ��Τ˽񤤤��ȥ��ʸ��ץ��񤤤Ƥߤ褦��٤ؤΥե��Ҥ��֤��ˡ֥ޥ��ɥ��ȡפ��Ƥ��餢�β��ǽ񤤤��ݡ��Ȥ��ФƤ��Τǡ��Ƥ��Ȼפ��´��ڤ��ޤ��ΤƤ��ѤäƤ��ˤ��äĤ��Ż��ǽ񤤤��Τǡ��ޤ��ɤ��ǤϤ��ޤ��󤱤ɡ� ��ǯ��ŷ��Ρ��٤��ҤȤϡ��褫�ä��黲�ͤˤ��Ƥ��ʡġĤ��⤽�⡢��ʥڡ��򸫤Ĥ��Ƥ��Τ��ɡˡ��
teddy-g 2010/04/23
TFIDFで重要後抽出し、それを含む文章を長さで重み付けして抜き出して要約。レポートにある通り、係り受け関係への考慮がない。

morphological

analysis
リンク
文体診断ロゴーン
文体診断λόγων（ロゴーン）以下に文章を入力していただくと、名文の中から類似の文体を探し出します。また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。
teddy-g 2010/04/09
何でこんなに超速度なんだ。俺の文章は中島敦或いは麻生太郎らしい。

web

website

morphological

analysis
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
teddy-g 2009/05/25
CaboChaの説明ページ

morphological

analysis

programming
リンク
1 2 次のページ