verum ipsum factum

sudillap's blog

一生の短さについて

哲学的な考察はセネカに譲るとして、レイ・カーツワイル―加速するテクノロジー (NHK未来への提言)レイ カーツワイル (著), 徳田 英幸 (著)のあとがき(「インタビューを終えて」)の中に次のような興味深い一文がありました。 当時、大学のある先生の話した…

Google インフル トレンドの仕組み

Google インフル トレンドとは、インフルエンザ関連フレーズの検索数からインフルエンザの流行を予測するシステムで、報道でも取り上げられました。インフルエンザ、ネット検索増えれば流行の兆し 米研究(朝日新聞 2008年12月12日9時13分) 【ワシントン=…

Suica(スイカ)の利用履歴データから個人を特定できるのか

Business Media誠によるとJR東日本が7月1日より、IC乗車券「Suica」の利用履歴を外部に販売したとのこと。 今回販売したのは、私鉄を含む首都圏約1800駅で、Suicaを利用して鉄道を乗り降りした履歴データ。JR東日本は、累積で約4300万件のSuicaを発行してい…

$\int f(x)dg(x)$(リーマン=スティルチェス積分)について

確率や統計の文献のなかで稀に $$ a = \int f(x) dg(x) $$ のような形($dg(x)$の部分に注目)の積分が使われていて「???」となった方もいるかもしれません。$dg(x)$ではなく$dx$であれば、これは高校で習った積分 $$ a = \int f(x) dx $$ になりお馴染み…

乳幼児突然死症候群(SIDS)のリスク要因

乳幼児突然死症候群(Sudden Infant Death Syndrome、シッズ、以降 SIDS と略します)とは、「何の予兆もないままに、主に1歳未満の健康にみえた乳児に、突然死をもたらす疾患」(Wikipediaより)のことで、日本では1歳未満の乳児の死亡原因の第3位を占めて…

Rでいろいろなカラーパレットをつかってグラフィックス表示してみた

Rにはrainbowをはじめとするいくつかのカラーパレットが標準で備わっており、これらを使えば十分綺麗なグラフィックスを作成することができます。 しかし、地図などの複雑なデータを表示したり、色覚異常の方でも色を識別できるような図を描きたい場合には標…

ワインの味(美味しさのグレード)は予測できるか?(2)

それでは実際に分析を行なっていきます。 分析方法 データ分析により、ワインの成分データから味のグレード(属性quality)を求めるモデルを作成します。 グレードqualityは0(とてもまずい)から10(絶品)までの値をとる質的変数(順序尺度)とみなすの…

ワインの味(美味しさのグレード)は予測できるか?(1)

データ分析の威力を色々な実例を挙げて述べた「その数学が戦略を決める」(イアン・エアーズ著)を読まれた方も多いと思います*1。その中に、ワイン好きの経済学者オーリー・アッシェンフェルター(Orley Ashenfelter, プリンストン大学)がワインの質を計算…

TOEICのスコア分布は正規分布に従っているのか

TOEICの公式ホームページのTOEICの平均スコア・スコア分布から各実施回の「平均スコア」ページを見ると、「■注意」欄に「すべてのスコアが正規分布しているという仮説に従えば、」と書かれています。ほんとうにTOEICスコアは正規分布に従っているという仮説…

TOEICで満点(990点)を取った人は何人か?

TOEICで満点のスコアである990点を取った人は何人いるのか気になったので、その人数を推定してみました。TOEICの公式ホームページでTOEICの平均スコア・スコア分布が公開されており、そのページを見ればスコア区分(50点刻み)ごとの人数はわかります。…

「川越達也の抜き打ち発掘レストラン」採点結果の平均点を計算

テレビ番組お願い!ランキングで不定期に川越達也の抜き打ち発掘レストラン!という企画が放送されています。このページの内容紹介によると 美食アカデミーでもお馴染みの川越シェフと 進行のハライチが、 街の隠れた名店を発掘するべく突撃取材! その場で直…

サポートベクターマシンとは[カーネル法による非線形サポートベクターマシン]

ここからはこれまで述べてきたサポートベクターマシンにカーネル法を適用することにより非線形サポートベクターマシンへ拡張することを考えます。 カーネル法の導入 これまで述べてきたサポートベクターマシーン分離面が超平面であることを前提としていまし…

サポートベクターマシンとは[ソフトマージンサポートベクターマシン]

スラック変数の導入 スラック変数を導入すると、訓練データの各データが支持超平面から分類超平面のほうにどの程度はみ出したかを測ることができます。別の表現をすれば、はみ出したデータを無視して支持超平面を構成した結果として発生する誤差の程度を測る…

サポートベクターマシンとは[最適化問題の解法]

はじめに最適化問題の解法について一般論を述べた後、それをサポートベクターマシンで現れる最適化問題に適用していきます。最適化問題とは、「ある制約の下で、関数の最小値や最大値を発見すること」で、次のように定式化できます。 最適化問題(主問題) $…

サポートベクターマシンとは[ハードマージンサポートベクターマシン]

まずはじめに訓練データが線形分離可能な場合について定式化します。この場合のサポートベクターマシンをハードマージンサポートベクターマシンと呼びます。 線形分離できないデータへの拡張(ソフトマージンサポートベクターマシン)については次の記事で説…

サポートベクターマシンとは[はじめに]

目次 はじめに ハードマージンサポートベクターマシン 最適化問題の解法 ソフトマージンサポートベクターマシン カーネル法による非線形サポートベクターマシン 本記事ではサポートベクターマシンについて説明します。Wikipediaによるとサポートベクターマシ…

Rの基本グラフィックス機能またはggplot2を使って地図を描くには

Rに元から備わっているグラフィックス機能とその機能を拡張するggplot2で日本地図を表示する方法について説明します。 地図データの準備 日本地図のシェープファイルを入手します。入手先は2ヶ所(Global Administrative AreasおよびESRIジャパン株式会社)…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[おわりに]

さまざまな外れ値検出法を用いて、100個の玉の中から貴重な石を一つだけ選び出す課題を解いてきました。手法により結果は異なりますが、87番目のデータが外れ値である可能性が最も高そうです。 最後にこの出題自体に対するコメントを述べたいと思います。 …

「金塊か、キノコ料理か」(外れ値検出問題)を解く[LOF(local outlier factor)]

LOF(local outlier factor)とは密度ベースの外れ値検出法です。ある点のまわりの密度がほかの点と比べて小さければ小さいほど、LOFの値は大きくなります。したがって、LOFの最も大きいデータを外れ値すればいいことになります。 LOFアルゴリズムについては後…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[ランダムフォレスト]

一般的に、ランダムフォレストは分類や回帰問題に用いられますが、実はデータ間の近接度も求めることができます。この近接度から外れ度(後述)を計算できるので、この値が大きいデータを外れ値とみなすことができます。Rスクリプトとその結果は次のとおりで…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[1クラスサポートベクターマシン]

サポートベクターマシンの一種である1クラスサポートベクターマシンで外れ値を見つけてみます。1クラスサポートベクターマシンでデータを入力空間から特徴空間に写像すると、入力空間で孤立しているデータは特徴空間内の原点近くに写像されます。この性質…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[クラスター分析]

外れ値とは他のデータから離れているという意味なので、次のようにクラスター分析を用いれは見つけられそうです。 データを一つしか含まない孤立したクラスターに分類されたデータ クラスターの中心から離れた場所にあるデータ ここではクラスター分析の代表…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[主成分分析]

主成分分析を用いて外れ値を見つけましょう。ここでの方針は、主成分分析を使って3次元から2次元に縮約したデータをもとに外れ値で見つようということです。 スクリープロットを見ると、主成分2つで元データの90%以上の情報を保持していますので2次元…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[はじめに]

ITエンジニアのための実務スキル評価サービスCodeIQの機械学習分野の問題を眺めていたら、「金塊か、キノコ料理か」(by naoya_tさん)という問題がありました。おもしろそうなので、解答締め切りは過ぎていますが挑戦してみました。 この問題の挑戦受付は終…