World Affairs Council, Wikipedia as global collaboration Feb 2010 The document discusses Wikipedia and the Wikimedia Foundation. It notes that Wikipedia is the largest encyclopedia in history with over 2 billion words and 14 million articles contributed by volunteers. The Wikimedia Foundation is a non-profit organization that facilitates and supports Wikipedia and other wiki-based projects through
Wikipediaの「削除された記事(AfD: Article for Deletion)」に関するデータ視覚化プロジェクト "Notabilia" を紹介する。視覚化を通じて見出されたパターンが興味深い。その他、研究成果の興味深い発見を紹介する。また、触発されたアイデアも述べる。 Notabiliaは、Wikipediaの記事が削除に至るまでの審議過程を視覚化 (visualize) している。 Taraborelli & Ciampagliaの研究 (論文PDF) をもとに、「情報視覚家」 (information visualizer) の Moritz Stefaner が制作した。 Stefaner は、認知科学の学士号と、インタフェース・デザインの修士号を持っている。 Wikipedia の記事は、次の過程で削除される。「削除依頼」が出された記事は「特筆性 (notabilit
『ゲーデルの不完全性定理』で学年が一つ上がっているが、これ以降に登場したリサ以外は、初登場時の学年を記載している。 「僕」 本作品の主人公。本作品は彼の視点を通して語られる。高校2年生。名前は不明。中学の頃は3年間ずっと放課後に図書館で数式を展開する生活を続けていた。高校ではミルカやテトラとともに数学の問題に明け暮れる。 眼鏡をかけているという事以外、身体的な特徴は不明。運動は苦手。一人っ子。基本的には大人しい性格だがミルカやテトラの数学のセンスにコンプレックスを抱いたり、数学の問題がうまく解けないときに悔しがったりするなど負けず嫌いの部分もある。またミルカが交通事故に遭ったときは学校から飛び出して病院に走っていくなど、感情的な行動に走ることもある。年頃の男の子らしくミルカやテトラを女の子として意識している描写が見られるが、自分から積極的に恋愛のアプローチをしたことはない。ユーリに対して特
ダウンロード http://download.wikimedia.org/の、Database XML and SQL dumpsのリンクから, XML形式, およびSQL形式での取得が可能。また, ダウンロードページにて「Dump in progress」となっているものは処理中のものなので「Dump complete」となっている箇所を探す。英語版Wikipediaのデータは enwiki, 日本語版Wikipediaのデータは jawikiのリンクが設定されている箇所から, 個別のダウンロードページに移動し取得する。 ダウンロード(裏口) 上記したページからでは, 「dump aborted」や「Dump in progress」へのリンクしかなく, 目的の言語版へのリンクが見付からない場合がまれにある。そのような場合, 以下のURLから直接接続する。 日本語版 英語版 中国語版
データインポート関連 Wikipediaの本文やページタイトルを含んだ情報をダウンロードできます。形式はSQLのダンプファイルやXMLです。 ダウンロードした情報を格納するテーブルの構成を説明してます。 Wikipediaに書かれているダウンロードデータの取り扱いにに関する説明ページ。 importDump.phpを使用したデータのインポート手順を解説しています。 jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。 jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。 データ利用関連 Hadoop使ってMapReduceでWikipediaのデータを取り扱っている人のページ。 tf-idfでpages-
午前中は共同研究のミーティング。Polycom で電話会議。こんな簡単にやりとりできるとは、便利な時代になったものだ。 午後は NLP.app 勉強会(自然言語処理の応用勉強会)で Delip Rao and David Yarowsky. Ranking and Semi-supervised Classification on Large Scale Graphs Using Map-Reduce. In Proc. of TextGraphs-4. 2009. を読む。やっていることは MapReduce を用いたラベル伝播で、これまで自然言語処理で使われていなかったのだけど、初めてやりました、という話(同じ時期に開催された ACL-IJCNLP 2009 でほぼ同じ手法を自分も使ったので、自然言語処理にこの手法を適用したのは彼と自分が同時期ということになる)。 しかし勉強会の中でも
タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。 これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。 また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N
今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう
As of April 2024, we have the following colocation facilities (each name except for Magru is derived from an acronym of the facility’s company and an acronym of a nearby airport): eqiad Application services (primary) at Equinix in Ashburn, Virginia (Washington, DC area). codfw Application services (secondary) at CyrusOne in Carrollton, Texas (Dallas-Fort Worth area). esams Caching at EvoSwitch in
ユーザー生成型の百科事典「Wikipedia」を運営している非営利団体Wikimedia Foundationは、近くWikipediaのルックアンドフィールを大幅に変更すると発表した。同財団が率先してそうした取り組みを実施するのは今回が初めてだ。 Wikimedia Foundationは米国時間3月25日夜、公式ブログ「Wikimedia Blog」への投稿で次のように述べた。「われわれはデフォルトのデザインを『Vector』というテーマに変更して、主要機能を見つけやすくする。(中略)すべてのユーザーは、サイトのレイアウトが大きく変わったことに気づくだろう。われわれはユーザーの期待に応えるために、サイトのナビゲーションを簡略化し検索ボックスの位置を変更するとともに、他のウェブ標準に準拠するため、表示の乱れを減らし、多様な解像度やブラウザ形式、ウィンドウサイズでも新機能が確実に機能するよ
ウィキペディアのページの編集の方法について、基本的な手順や、マークアップの方法を説明します。ここではウィキテキストエディターでのマークアップを説明しています。2016年5月に導入されたビジュアルエディターについてはHelp:ビジュアルエディターをお読みください。 ここでの説明は編集画面の出し方、編集結果のプレビューの方法、そして投稿する際の方法や注意点です。マークアップはウェブブラウザで表示するための表記方法であり、言葉にリンクをしたり、表示を変えたり、画像や表を使うこともできます。一通りのマークアップを紹介しその際の諸注意も説明します。代表的なマークアップは、Help:早見表をご覧ください。 試し書きは、練習用のサンドボックスを使ってください。
Unicodeで規定されている文字に必要なものがあれば、すべて使うことができます。ただし、JIS X 0201のラテン文字類、JIS X 0213、IBM拡張漢字のいずれにも規定されていない文字は、できるだけ使わないようにしてください。 ラテン文字(英字)やアラビア数字など、JIS X 0201のラテン文字類(いわゆる半角英数字)で規定されているものはそれを用います。そうでない漢字・平仮名・片仮名などは、JIS X 0213に規定されているもの(いわゆる全角文字)があればそれを用います。ただし、異体字については固有名詞などを除きJIS X 0208に規定されているものを優先してください。JIS X 0201の仮名文字類(いわゆる半角カナ)は引用など特殊な場合を除き使わないでください。 JIS X 0201のラテン文字類の記号のなかには、場合によっては全角形を用いる必要があるものや、全角形を
スタイルマニュアルでは、ウィキペディアにおいて記事を書く際の文章スタイルについて解説します。ウィキペディアの記事では、文章のスタイルよりも、記事の内容の方が大事であり、執筆者は当マニュアルで規定するスタイルに絶対に従わなければならないわけではありません。しかし、記事の読みやすさや編集のしやすさを保つために、一貫したスタイルに沿って執筆することが推奨されています。 記事全体の配置順のようなレイアウトはスタイルマニュアルの一部です。これに関してはWikipedia:スタイルマニュアル/レイアウトを参照してください。参考文献、外部リンク等記事のような基本要素に関してもそこに詳述されています。 スタイルマニュアルでは、単語を強調するために太字にしたり、表を表記する方法については解説していません。こうした文章のマークアップ方法に関してはHelp:ページの編集を参照してください。 ここで説明するスタイ
記事名は#記事名の付け方の目安に適合するよう基本的には日本語での正式名称を使用します。その際、名称が外国語のものは文字種に応じて#略号・記号・片仮名語ならびに#漢字に従ってください。よく使われる略称、別名、別表記などは記事名に使うのではなく、正式な記事名へのリダイレクト(転送)ページにしましょう。詳しくはWikipedia:リダイレクトを参照してください。 ×「日比谷高校」 → ○「東京都立日比谷高等学校」※学校名に関してはプロジェクト:学校#記事名を参照してください。 ×「私立開成高校」 → ○「開成中学校・高等学校」 ×「北朝鮮」 → ○「朝鮮民主主義人民共和国」 ※国名に関しては慣例があります。#国名を参照してください。 ×「TBS」 → ○「TBSテレビ」 ※法人・団体名に関しては#法人・団体名を参照してください。 訳語やある事象に関する記事など、正式な名称がない場合は日本語での適
ウィキペディアで新しいページ(項目)を作る方法と注意点について説明します。既に類似の記事が存在しないか、記事名の付け方、新規作成するほどのテーマかどうか、記事内容の注意、著作権の注意などです。試し書きは、練習用のサンドボックスでお願いします(ログインすればご自身専用の利用者サンドボックスも使えます)。 先にWikipedia:記事を執筆するの注意点も熟読してください。記事の作成を練習したい場合は、練習用のWikipedia:サンドボックスをご活用ください(ログインすればご自身専用の利用者サンドボックスも使えます)。 新規ページを作成する際には、以下のような注意点があります。 ウィキペディア内に類似の記事が既に存在しないか確認してください。検索ボックスにて、記事名としたい文字列を検索します。ある呼称から同じ事柄へリダイレクト(転送)されている場合もあります。このリダイレクトが作成されていない
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く