verum ipsum factum

sudillap's blog

R

Rでいろいろなカラーパレットをつかってグラフィックス表示してみた

Rにはrainbowをはじめとするいくつかのカラーパレットが標準で備わっており、これらを使えば十分綺麗なグラフィックスを作成することができます。 しかし、地図などの複雑なデータを表示したり、色覚異常の方でも色を識別できるような図を描きたい場合には標…

Rの基本グラフィックス機能またはggplot2を使って地図を描くには

Rに元から備わっているグラフィックス機能とその機能を拡張するggplot2で日本地図を表示する方法について説明します。 地図データの準備 日本地図のシェープファイルを入手します。入手先は2ヶ所(Global Administrative AreasおよびESRIジャパン株式会社)…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[おわりに]

さまざまな外れ値検出法を用いて、100個の玉の中から貴重な石を一つだけ選び出す課題を解いてきました。手法により結果は異なりますが、87番目のデータが外れ値である可能性が最も高そうです。 最後にこの出題自体に対するコメントを述べたいと思います。 …

「金塊か、キノコ料理か」(外れ値検出問題)を解く[LOF(local outlier factor)]

LOF(local outlier factor)とは密度ベースの外れ値検出法です。ある点のまわりの密度がほかの点と比べて小さければ小さいほど、LOFの値は大きくなります。したがって、LOFの最も大きいデータを外れ値すればいいことになります。 LOFアルゴリズムについては後…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[ランダムフォレスト]

一般的に、ランダムフォレストは分類や回帰問題に用いられますが、実はデータ間の近接度も求めることができます。この近接度から外れ度(後述)を計算できるので、この値が大きいデータを外れ値とみなすことができます。Rスクリプトとその結果は次のとおりで…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[1クラスサポートベクターマシン]

サポートベクターマシンの一種である1クラスサポートベクターマシンで外れ値を見つけてみます。1クラスサポートベクターマシンでデータを入力空間から特徴空間に写像すると、入力空間で孤立しているデータは特徴空間内の原点近くに写像されます。この性質…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[クラスター分析]

外れ値とは他のデータから離れているという意味なので、次のようにクラスター分析を用いれは見つけられそうです。 データを一つしか含まない孤立したクラスターに分類されたデータ クラスターの中心から離れた場所にあるデータ ここではクラスター分析の代表…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[主成分分析]

主成分分析を用いて外れ値を見つけましょう。ここでの方針は、主成分分析を使って3次元から2次元に縮約したデータをもとに外れ値で見つようということです。 スクリープロットを見ると、主成分2つで元データの90%以上の情報を保持していますので2次元…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[はじめに]

ITエンジニアのための実務スキル評価サービスCodeIQの機械学習分野の問題を眺めていたら、「金塊か、キノコ料理か」(by naoya_tさん)という問題がありました。おもしろそうなので、解答締め切りは過ぎていますが挑戦してみました。 この問題の挑戦受付は終…