verum ipsum factum

sudillap's blog

機械学習

Google インフル トレンドの仕組み

Google インフル トレンドとは、インフルエンザ関連フレーズの検索数からインフルエンザの流行を予測するシステムで、報道でも取り上げられました。インフルエンザ、ネット検索増えれば流行の兆し 米研究(朝日新聞 2008年12月12日9時13分) 【ワシントン=…

ワインの味(美味しさのグレード)は予測できるか?(2)

それでは実際に分析を行なっていきます。 分析方法 データ分析により、ワインの成分データから味のグレード(属性quality)を求めるモデルを作成します。 グレードqualityは0(とてもまずい)から10(絶品)までの値をとる質的変数(順序尺度)とみなすの…

ワインの味(美味しさのグレード)は予測できるか?(1)

データ分析の威力を色々な実例を挙げて述べた「その数学が戦略を決める」(イアン・エアーズ著)を読まれた方も多いと思います*1。その中に、ワイン好きの経済学者オーリー・アッシェンフェルター(Orley Ashenfelter, プリンストン大学)がワインの質を計算…

サポートベクターマシンとは[カーネル法による非線形サポートベクターマシン]

ここからはこれまで述べてきたサポートベクターマシンにカーネル法を適用することにより非線形サポートベクターマシンへ拡張することを考えます。 カーネル法の導入 これまで述べてきたサポートベクターマシーン分離面が超平面であることを前提としていまし…

サポートベクターマシンとは[ソフトマージンサポートベクターマシン]

スラック変数の導入 スラック変数を導入すると、訓練データの各データが支持超平面から分類超平面のほうにどの程度はみ出したかを測ることができます。別の表現をすれば、はみ出したデータを無視して支持超平面を構成した結果として発生する誤差の程度を測る…

サポートベクターマシンとは[最適化問題の解法]

はじめに最適化問題の解法について一般論を述べた後、それをサポートベクターマシンで現れる最適化問題に適用していきます。最適化問題とは、「ある制約の下で、関数の最小値や最大値を発見すること」で、次のように定式化できます。 最適化問題(主問題) $…

サポートベクターマシンとは[ハードマージンサポートベクターマシン]

まずはじめに訓練データが線形分離可能な場合について定式化します。この場合のサポートベクターマシンをハードマージンサポートベクターマシンと呼びます。 線形分離できないデータへの拡張(ソフトマージンサポートベクターマシン)については次の記事で説…

サポートベクターマシンとは[はじめに]

目次 はじめに ハードマージンサポートベクターマシン 最適化問題の解法 ソフトマージンサポートベクターマシン カーネル法による非線形サポートベクターマシン 本記事ではサポートベクターマシンについて説明します。Wikipediaによるとサポートベクターマシ…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[おわりに]

さまざまな外れ値検出法を用いて、100個の玉の中から貴重な石を一つだけ選び出す課題を解いてきました。手法により結果は異なりますが、87番目のデータが外れ値である可能性が最も高そうです。 最後にこの出題自体に対するコメントを述べたいと思います。 …

「金塊か、キノコ料理か」(外れ値検出問題)を解く[LOF(local outlier factor)]

LOF(local outlier factor)とは密度ベースの外れ値検出法です。ある点のまわりの密度がほかの点と比べて小さければ小さいほど、LOFの値は大きくなります。したがって、LOFの最も大きいデータを外れ値すればいいことになります。 LOFアルゴリズムについては後…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[ランダムフォレスト]

一般的に、ランダムフォレストは分類や回帰問題に用いられますが、実はデータ間の近接度も求めることができます。この近接度から外れ度(後述)を計算できるので、この値が大きいデータを外れ値とみなすことができます。Rスクリプトとその結果は次のとおりで…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[1クラスサポートベクターマシン]

サポートベクターマシンの一種である1クラスサポートベクターマシンで外れ値を見つけてみます。1クラスサポートベクターマシンでデータを入力空間から特徴空間に写像すると、入力空間で孤立しているデータは特徴空間内の原点近くに写像されます。この性質…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[クラスター分析]

外れ値とは他のデータから離れているという意味なので、次のようにクラスター分析を用いれは見つけられそうです。 データを一つしか含まない孤立したクラスターに分類されたデータ クラスターの中心から離れた場所にあるデータ ここではクラスター分析の代表…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[主成分分析]

主成分分析を用いて外れ値を見つけましょう。ここでの方針は、主成分分析を使って3次元から2次元に縮約したデータをもとに外れ値で見つようということです。 スクリープロットを見ると、主成分2つで元データの90%以上の情報を保持していますので2次元…

「金塊か、キノコ料理か」(外れ値検出問題)を解く[はじめに]

ITエンジニアのための実務スキル評価サービスCodeIQの機械学習分野の問題を眺めていたら、「金塊か、キノコ料理か」(by naoya_tさん)という問題がありました。おもしろそうなので、解答締め切りは過ぎていますが挑戦してみました。 この問題の挑戦受付は終…