hiroto-o's diary

とある大学の大学院博士課程を何とか卒業して、とある金融の仕事をロンドンでしています! リンクはご自由に♪ メールはhiroto_o20[at_mark] hotmail.comまで。([at_mark]は@に置き換えてね)

Academic aspect of Google

久しぶりに田崎さんの日記を見てて、
Googleの検索アルゴリズムについて書いてあるページを見つけた。


例えば、「ハンバーグ 作り方」のキーワードで検索したとしよう。
この2つの言葉を含んでいるページなんて沢山あるから、
より注目度の高いページの順に検索結果を並べるようにしたい。


ページの注目度を数値化したのが「ページランク」。
大きいほど注目度が増す。(因みに、このブログのページランクは0〜10中「2」。 低っっ!)


では、どーゆー風にしてページランクを計算しているのか?
答えは、
ページランクの高い(=有用な)他のサイトから、どれだけ多くリンクされているか」
を元に計算する。
他のサイトAからリンクされているということは、サイトAの作者から「注目に値する」と認められていることを意味している。*1
ただ、同じ1つのリンクでも、零細ホームページにリンクされているのと、Yahoo!のトップページにリンクされているのじゃ訳が違う。
つまり、高ページランクサイトからのリンクによって、被リンクサイトのページランクは高くなる。


その辺を解説してくれているのが冒頭に載せたAMSのこのページ。基本的に行列の計算が分かれば概要はつかめると思う。ただ、ここで注目したのは数理面ではなく、


At that time, most search engines had been developed by businesses who were not interested in publishing the details of how their products worked. In developing Google, Brin and Page wanted to "push more development and understanding into the academic realm." That is, they hoped, first of all, to improve the design of search engines by moving it into a more open, academic environment.

の箇所。knowledgeの流出ばかりを恐れてcloseにやっていては駄目で、openにして大人数のアイデアで良いものにしていった方が良いということだろう。このlesson、検索エンジンでは成り立ったが、ほぼゼロサムゲームの金融のモデルとかだとどうなんだろう。
ページランクの日本語での解説は、http://www.gakushuin.ac.jp/~881791/mathbook/index.htmlの381ページ以降が詳しい。


ところで、今までネットワークとかグラフ理論については余り知らなかったのだが、
この考え方って鉄道とか他のネットワークにも十分応用できるはず。
ページランクでは、ノード=WEBページだが、
例えば鉄道網では、ノード=駅、リンク=路線と見ることができて、
ランク=駅の重要度となる。*2


これについては、データが簡単に入手できて、且つ解析できたら次の機会に書いてみたい。

*1:この、「注目に値する」というのは良い意味でも悪い意味でも。

*2:WEBページのリンクは、サイトA→サイトBにリンクしててもB→Aにリンクしているとは限らない、方向付きのリンク。他方、鉄道網では、駅A,Bがリンクされていれば、A→BとB→Aのどちらも可能な双方向のリンクである。これから、解説ページの行列Hは自動的に対称行列となる。すると、数値的にも対角化が容易になる。また、国内の鉄道に限定すればdangling nodeも、行列のreducibilityも無い。つまり、手で入れてやるパラメータαも要らなくなる。