lynx   »   [go: up one dir, main page]

タグ

morphologicalに関するteddy-gのブックマーク (39)

  • Python: Janome で手軽に形態素解析する - CUBE SUGAR CONTAINER

    Janome は Pure Python で実装された日語の形態素解析ライブラリ。 形態素解析というのは文章から意味をもった最小の構成単位となる形態素を取り出すことをいう。 他の日語の形態素解析ライブラリは Python から使えてもバインディングが提供されているだけでドキュメントがイマイチだったり、あるいはインストールが大変だったりということも多々あるんだけど Janome はそんなことがない。 インストール インストールは実に簡単。 pip を使ってさっくりできる。 $ pip install janome 使ってみる 使い方も至ってシンプルで janome.tokenizer.Tokenizer さえ知っていればいい。 Tokenizer#tokenize() メソッドに日語のユニコード文字列を渡すだけで解析ができる。 解析結果はリストで返ってくる。 >>> from jano

    Python: Janome で手軽に形態素解析する - CUBE SUGAR CONTAINER
    teddy-g
    teddy-g 2016/11/28
    Janomeって蛇の目か。確かに簡単に形態素解析できる。便利。
  • 64bit Windows + python 2.7 + MeCab 0.996 な環境をつくる - Qiita

    修正履歴 2016/2/19 コードの修正・必要なファイルの更新 2016/2/19 トラブルシューティングの追加 はじめに そもそもWindowsでなぜ?という話があると思いますが、理由は一つ。Windowsには強力なIDEであるVisual Studioがあるからです。 コード補完、スニペット、デバッグ・・・・多くのメリットがあるIDEですが、いかんせんWindowsでの環境構築には難所が多く、Python関係だとビルドの問題で詰まることが多いようです。 理由は様々ですが、Unixのコマンドが通用しなかったり、ファイルパスの書き方が違ったりといったことがあげられます。 今回は、そんなハードルを乗り越え、自然言語処理屋さん御用達、MeCabのPythonライブラリを入れてみようという話です。 MeCabって? MeCabは、形態素解析ツール。形態素は意味の通る単語の最小ブロックといった感

    64bit Windows + python 2.7 + MeCab 0.996 な環境をつくる - Qiita
    teddy-g
    teddy-g 2016/02/29
    WindowsのPython環境でMeCab使う為のあれやこれや。
  • MeCab アーカイブ | PHP Archive

    今回も igo-php を用いた形態素解析のサンプルなので、導入については こちら を御覧ください。 通常分かち書きをする場合、名詞は細かく分割され、次のように解釈されます。 「これは形態素解析の実験結果です。」 → 「これ | は | 形態素 | 解析 | の | 実験 | 結果 | です | 。」 もちろん間違ってはいないのですが、感覚的には「形態素解析」「実験結果」はそれぞれひとつの単語でまとめられていたほうが自然です。 「東京特許許可局」などの場合も同様に一つの単語として扱うことがほとんどです。 法則を見てみると、名詞が連続している場合は複合名詞になるというシンプルなものなので、 それを踏まえて次のようにしてみました。 <?php require_once 'lib/Igo.php'; $igo = new Igo(dirname(__FILE__) . "/ipadic", "U

    teddy-g
    teddy-g 2015/06/08
    igo-phpの複合名詞対応版だが、同じことはmecabでもできるな。
  • [PHP]文章を解析して単語ごとに分解する(形態素解析) | PHP Archive

    語は英語と違い、単語同士が明確に区切られていないので、一つ一つの単語の品詞を調べる場合は、いわゆる「分かち書き」をする必要があります。 分かち書きとは次のように単語を分けて書くことです。 これは日語です → これ | は | 日語 | です プログラミングで分かち書きを行うには大変な労力がかかるので、ゼロから開発するのは現実的ではありません。 簡単に行う方法の一つは Yahoo! API を利用することです。 クエリを送るだけで簡単に解析結果を受け取ることができるので便利ですが、リクエスト回数に上限があったり、クレジット表記が義務付けられたりするので、状況によっては使いにくくなります。 もう一つはサーバーに MeCab をインストールする方法です。 Mecab はオープンソースの形態素解析エンジンで、様々な分野で活用されている実績あるプログラムです。 可能ならこちらを導入するのがベ

    teddy-g
    teddy-g 2015/06/08
    mecabじゃない形態素解析、igo-php。mecabがあったら必要ないが、備忘まで。
  • MeCabのWindows版をインストールしてみる

    今構想中のアプリの開発に形態素解析が必要なので、 とりあえずインストールしてみる。 形態素解析にはYahooAPIという選択肢もあったのだけど、 1日の利用制限が50000回で1リクエスト100キロバイト以下という制限が、 今回のアプリには厳しそうだったのでMeCabを選択した。 公式サイト http://mecab.sourceforge.net/ 今回インストールするバージョンは「0.98」 手順 ------------------------------ 1. ダウンロード 2. インストール 3. 動作確認 1. ダウンロード 以下のサイトからWindows版のexeファイル「mecab-0.98.exe」をダウンロードする。 http://sourceforge.net/projects/mecab/files/ 2. インストール ダウンロードしたexeファイルをダブルクリッ

    MeCabのWindows版をインストールしてみる
    teddy-g
    teddy-g 2015/06/08
    mecabの基本的な使い方。備忘まで。
  • MeCabをPHPで使う - 動かざることバグの如し

    もうソース貼り付けるだけでいいよね(適当 Windows環境ver <pre> <?php function exeMecab($str){ //必ず[']で囲むこと $exe_path = 'D:\xampp\MeCab\bin\mecab.exe'; $descriptorspec = array( 0 => array("pipe", "r"), 1 => array("pipe", "w") ); $process = proc_open($exe_path, $descriptorspec, $pipes); if (is_resource($process)) { fwrite($pipes[0], $str); fclose($pipes[0]); $result = stream_get_contents($pipes[1]); fclose($pipes[1]); pro

    MeCabをPHPで使う - 動かざることバグの如し
    teddy-g
    teddy-g 2015/06/07
    Windows版はPIPEで、Linux版はPHPの関数処理
  • http://blog.yuku-t.com/entry/20110623/1308810518

    http://blog.yuku-t.com/entry/20110623/1308810518
    teddy-g
    teddy-g 2015/06/03
    LIS、LDAのロジックは要チェック。
  • RNNLM

    2. 黒船到来 • 自然言語処理における Deep Learning の活用を紹介 • google の人が公開したword2vecというツールが話題 4. n-gram language model • 文に対する確率分布をモデル化 • 単語の条件付き確率の積で表す • 単語の条件付き確率はN-1個前までの単語で計 算できると仮定する 適切なn-gram確率をいかに求めるかがこれまでの焦点 コーパスに現れない低頻度なn-gramにも事前分布に従って正確な 確率を与えるという試みがなされてきた(スムージング) 5. n-gram lm の例 • HPYLM trigram の確率は… 観測したtrigram頻度を ディスカウントして… bigram確率でback-off “トヨタ/自動車” の確率は 0.5 “日産/自動車”の確率は0.4 Q: トヨタと日産の関係は? A: 知らない

    RNNLM
    teddy-g
    teddy-g 2014/11/17
    自然言語分析にNNを使う=NNLM。単語の出現確率を元にアレでコレして推測する。
  • GAE/jからYahooAPIの形態素解析を利用してみた - MshrKatoの日記

    (20110108追記)この記事は過去のブログからインポートした物です! 概要 「形態素解析って何?」という方は、今ならウェールズ氏のどや顔も楽しめる、以下を参考にどうぞ。 形態素解析 - Wikipedia さて、現在、twitterのbotをGAE/j上で作っている訳ですが、賢い応答をさせる為には文章の形態素解析を行う事が必要不可欠です。 しかし、問題はそれをどう行うかです。自分で書くには、言語学の勉強から始めないといけませんし、ライブラリを使おうにもGAE/jにアップするにはサイズが大きすぎます。(もっとも、自力でライブラリを分割された事例もありますが……*1) 何か他の方法は無いかと探しますと、実は有ります。それが、Yahoo!デベロッパーネットワークからWeb APIの形で提供されている、日形態素解析です。このサービスは、HTTPでリクエストを受け付け、XML形式で結果を返し

    GAE/jからYahooAPIの形態素解析を利用してみた - MshrKatoの日記
    teddy-g
    teddy-g 2014/07/17
    GAEからYahooAPIつかう。Y!の制約が結構あるからなあ
  • GAE/J で GoSen を動かして形態素解析 | Altus-Five Labs

    Google App Engine Java のアプリを作ってみました。 ちょっと前に検索エンジンの開発に触れる機会があったので、今回の手習いは、形態素解析器を GAE/J で動かすことをテーマにしました。 まずは、下記ページに書かれている 「Eclipse を使用して(または使用せずに)App Engine Java プロジェクトを作成する方法」 にしたがって開発環境を作成します。 http://code.google.com/intl/ja/appengine/docs/java/gettingstarted/introduction.html そして、ひと通りチュートリアルを試して、開発環境に慣れてしまいます。 実は、最初はチュートリアルは試さないで、他に GAE/J を紹介している記事を参考にして、必要なことだけをやろうとしたんですけど、後から考えると、先にチュートリアルを通し

    teddy-g
    teddy-g 2014/07/17
    GAEでGoSen動かす。使うかどうかわからんけど、とりあえず。
  • 綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み

    単純ベイズ法を2つの蛇口でとらえる いままで見てきたように、単純ベイズ法を用いたスパム判定では、すでに手元にあるスパムメール中に含まれている単語の出現頻度と、非スパムメール中に含まれている単語の出現頻度を計算することで、スパムメールの判定を行いました。 この計算の過程を、もう少し大ざっぱなモデルで説明してみましょう。 まず、無限の単語を含んだ蛇口を2つ考えます。1つは、スパム発生源の蛇口で、もう1つは通常メールの発生源の蛇口です。 そして、蛇口から流れ出た単語が袋に入りメールを生成するとします。それぞれの蛇口に含まれている単語の割合はもちろん違います。おそらく、スパムの蛇口に「無料」が含まれる割合は、非スパムの蛇口に「無料」が含まれる割合よりずっと大きなはずです。 スパム判定問題は、この蛇口を使うと次のようにモデル化できます。 いま、どちらか一方の蛇口から単語をばらばらと(有限個)こぼしま

    綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み
    teddy-g
    teddy-g 2014/03/18
    ベイズ理論の説明はこれが一番わかりやすかった。
  • ベクトル空間法による文書の類似度の算出

    Next: シラバスの類似度の計算 Up: テキストマイニングのための自然言語処理技術 Previous: 候補語の出現頻度情報 目次 ベクトル空間法による文書の類似度の算出[27] 前節ではある文書における各単語の重要度を算出した。 次にその重要度を利用して、ベクトル空間法という計算方法を用い、複数の文書同士の類似度を計算する。 ベクトル空間法とは、文書を多次元空間上のベクトルとして表現し、 二つのベクトルを比較することにより類似度を調べるものである。 つまり、ベクトルの方向は文書の特徴であるので、二つのベクトルのなす角が小さいほど似ているということである。 個のタームを持つ文書 を形態素解析し、各ターム毎の重要度を としたとき、 文書 のベクトルは以下のように表される。

    teddy-g
    teddy-g 2014/03/18
    ベクトル空間法の計算式忘れたらここへ。
  • 棚からパルチャギ

    実践編です。 ベイジアンフィルタを使ったアプリケ-ションの流れは、大きく分けて以下の3段階になります。 カテゴリ(クラス)定義 パターン学習 文書分類 単純ベイズ分類器(Naive Bayes classifier)ではクラス毎に単語の出現頻度を記憶して、その情報をもとに文書がそれぞれのクラスに属する確率を求めます。 SPAMフィルタなどでは「spam」と「nospam」のように2つのクラスだけで使用されることが多いです。多分。 パターン学習は、特定の文書(単語のセット)がどのクラスに所属するかを指定します。 これにより出現頻度のデータベース(コーパス)が更新されて、次回以降の分類精度を向上させることができます。 通常は、クラスを最初に設定して、以降は学習と分類を繰り返すような感じになると思います。 …ということで、クラスの定義から。 何故かNaiveBayesianStorageには、カ

    teddy-g
    teddy-g 2014/03/18
    PHPでベイジアンフィルタ。結局クラスの中身がよくわからんので実装法だけ。
  • 社内勉強会-ナイーブベイジアンフィルタの実装

    Rubyでベイジアンフィルタを実装し、どれくらいの精度でspam分類できるかを検証。Read less

    社内勉強会-ナイーブベイジアンフィルタの実装
    teddy-g
    teddy-g 2014/03/18
    ベイズの公式の計算過程が丁寧に書いてある。
  • Excelで自然言語処理: 形態素解析

    teddy-g
    teddy-g 2014/03/17
    EXCELで形態素解析するVBAコードがある。便利。
  • Link Grammar

    Davy Temperley    Daniel Sleator    John Lafferty The Link Grammar Parser is a syntactic parser of English, based on link grammar, an original theory of English syntax. Given a sentence, the system assigns to it a syntactic structure, which consists of a set of labeled links connecting pairs of words. The parser also produces a "constituent" representation of a sentence (showing noun phrases, verb

    teddy-g
    teddy-g 2014/03/07
    英語の形態素分析をするLink Parser
  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

    teddy-g
    teddy-g 2013/01/12
    トライグラムで二つの文章のSimilarityを判定
  • �����ΰ渶 - ʸ�������ץ��������񤤤Ƥߤ褦�� Archives

    Posted at 7:39 in ʸ�������ץ��������񤤤Ƥߤ褦�� . | 0 Trackbacks, 0 Comments �����Τ˽񤤤������ȥ���ʸ�������ץ��������񤤤Ƥߤ褦���٤ؤΥե������Ҥ����֤��ˡ֥ޥ��ɥ��������ȡפ��������Ƥ����餢�β����ǽ񤤤����ݡ��Ȥ��ФƤ����Τǡ����Ƥ������Ȼפ���´�������ڤ��ޤ����ΤƤ��ѤäƤ������ˤ��äĤ��Ż��ǽ񤤤����Τǡ����ޤ��ɤ������ǤϤ����ޤ��󤱤ɡ� ��ǯ���ŷ������Ρ����������������٤������ҤȤϡ��褫�ä��黲�ͤˤ��Ƥ��������ʡġĤ��⤽�⡢�����ʥڡ����򸫤Ĥ��Ƥ������Τ������������ɡˡ���

    teddy-g
    teddy-g 2010/04/23
    TFIDFで重要後抽出し、それを含む文章を長さで重み付けして抜き出して要約。レポートにある通り、係り受け関係への考慮がない。
  • 文体診断ロゴーン

     文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。

    teddy-g
    teddy-g 2010/04/09
    何でこんなに超速度なんだ。俺の文章は中島敦或いは麻生太郎らしい。
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    teddy-g
    teddy-g 2009/05/25
    CaboChaの説明ページ
Лучший частный хостинг