lynx   »   [go: up one dir, main page]

タグ

morphologicalとphpに関するteddy-gのブックマーク (8)

  • MeCab アーカイブ | PHP Archive

    今回も igo-php を用いた形態素解析のサンプルなので、導入については こちら を御覧ください。 通常分かち書きをする場合、名詞は細かく分割され、次のように解釈されます。 「これは形態素解析の実験結果です。」 → 「これ | は | 形態素 | 解析 | の | 実験 | 結果 | です | 。」 もちろん間違ってはいないのですが、感覚的には「形態素解析」「実験結果」はそれぞれひとつの単語でまとめられていたほうが自然です。 「東京特許許可局」などの場合も同様に一つの単語として扱うことがほとんどです。 法則を見てみると、名詞が連続している場合は複合名詞になるというシンプルなものなので、 それを踏まえて次のようにしてみました。 <?php require_once 'lib/Igo.php'; $igo = new Igo(dirname(__FILE__) . "/ipadic", "U

    teddy-g
    teddy-g 2015/06/08
    igo-phpの複合名詞対応版だが、同じことはmecabでもできるな。
  • [PHP]文章を解析して単語ごとに分解する(形態素解析) | PHP Archive

    語は英語と違い、単語同士が明確に区切られていないので、一つ一つの単語の品詞を調べる場合は、いわゆる「分かち書き」をする必要があります。 分かち書きとは次のように単語を分けて書くことです。 これは日語です → これ | は | 日語 | です プログラミングで分かち書きを行うには大変な労力がかかるので、ゼロから開発するのは現実的ではありません。 簡単に行う方法の一つは Yahoo! API を利用することです。 クエリを送るだけで簡単に解析結果を受け取ることができるので便利ですが、リクエスト回数に上限があったり、クレジット表記が義務付けられたりするので、状況によっては使いにくくなります。 もう一つはサーバーに MeCab をインストールする方法です。 Mecab はオープンソースの形態素解析エンジンで、様々な分野で活用されている実績あるプログラムです。 可能ならこちらを導入するのがベ

    teddy-g
    teddy-g 2015/06/08
    mecabじゃない形態素解析、igo-php。mecabがあったら必要ないが、備忘まで。
  • MeCabをPHPで使う - 動かざることバグの如し

    もうソース貼り付けるだけでいいよね(適当 Windows環境ver <pre> <?php function exeMecab($str){ //必ず[']で囲むこと $exe_path = 'D:\xampp\MeCab\bin\mecab.exe'; $descriptorspec = array( 0 => array("pipe", "r"), 1 => array("pipe", "w") ); $process = proc_open($exe_path, $descriptorspec, $pipes); if (is_resource($process)) { fwrite($pipes[0], $str); fclose($pipes[0]); $result = stream_get_contents($pipes[1]); fclose($pipes[1]); pro

    MeCabをPHPで使う - 動かざることバグの如し
    teddy-g
    teddy-g 2015/06/07
    Windows版はPIPEで、Linux版はPHPの関数処理
  • 棚からパルチャギ

    実践編です。 ベイジアンフィルタを使ったアプリケ-ションの流れは、大きく分けて以下の3段階になります。 カテゴリ(クラス)定義 パターン学習 文書分類 単純ベイズ分類器(Naive Bayes classifier)ではクラス毎に単語の出現頻度を記憶して、その情報をもとに文書がそれぞれのクラスに属する確率を求めます。 SPAMフィルタなどでは「spam」と「nospam」のように2つのクラスだけで使用されることが多いです。多分。 パターン学習は、特定の文書(単語のセット)がどのクラスに所属するかを指定します。 これにより出現頻度のデータベース(コーパス)が更新されて、次回以降の分類精度を向上させることができます。 通常は、クラスを最初に設定して、以降は学習と分類を繰り返すような感じになると思います。 …ということで、クラスの定義から。 何故かNaiveBayesianStorageには、カ

    teddy-g
    teddy-g 2014/03/18
    PHPでベイジアンフィルタ。結局クラスの中身がよくわからんので実装法だけ。
  • Page2

    LinkTree - HOME http://sadako.nobody.jp/ http://monodebank.nobody.jp/ http://okichi.xxxxxxxx.jp/ http://utaneko.gozaru.jp/ http://urananaon.atukan.com/ LinkTree -

    teddy-g
    teddy-g 2009/04/27
    レン鯖だからMeCab使えない
  • はてなブログ | 無料ブログを作成しよう

    2025年 五美大展 好きな作家作品 望月朱里さんのニジイロクワガタに脱帽。このクワガタの魅力が詰まった造形をしているし、金属の青メタリックな色も素晴らしい。 川村望雪さんの「群」という山羊まみれの幸せな光景。 劉さんの木製の面のテクスチャーの細かさに感嘆。こういうのを陶器で作りたい。 野…

    はてなブログ | 無料ブログを作成しよう
    teddy-g
    teddy-g 2009/04/27
    あとCGIモードじゃないとPopenが使えない。でもって長すぎる文字列もアウトっぽい。
  • MeCab extensionを使ってTwitterで流行っているキーワードをクラウド化 - Do You PHP はてブロ

    ほとんどMeCab extension使いたさにあれこれこじつけた感ありありですが。。。 MeCabはオープンソースとして公開されている形態素解析エンジンの1つで、GPLもしくはLGPL/BSDライセンスの下に公開されています。他の形態素解析エンジンとしては、KAKASIやChaSenなどが知られていますね。 http://mecab.sourceforge.net/ で、PHPの拡張モジュールとしてはPage2で公開されているものがあります。 http://page2.xrea.jp/#php_mecab GitHub - rsky/php-mecab: MeCab binding for PHP これを使って、Twitterで流行っているキーワードをクラウド化するコードを書いてみました。なお、CSSはタグクラウドのスタイルを考える - collisions.dotimpac.toを参考

    MeCab extensionを使ってTwitterで流行っているキーワードをクラウド化 - Do You PHP はてブロ
    teddy-g
    teddy-g 2009/04/26
    TwitterをPHP+MeCabで解析
  • XREAでPHPからChasenを使う (2007-03-17)

    MeCabは利用できないみたい。SSH経由でいろいろ見てみたけれどもMeCabはインスコされていないぽい。なのでChasenを使う。Chasenは連続する数字を一塊にしてくれないのが残念。あと半角英単語もそうなるので、半角文字については適宜全角に置き換えるようにする。 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html401/loose.dtd"> <title>Chasenテスト</title> <table> <?php $path = '/usr/local/php/bin/chasen'; $str = "浜松駅の耐震工事のために長いこと利用できなかったekimachi eastの工事が、予定通り3月15日までに終了した。これでマクドナルドやミスドにまた行

    teddy-g
    teddy-g 2009/04/26
    XREAにはChasen入ってる
  • 1
Лучший частный хостинг