Campaign_Otaku

Campaign, more than anything

データサイエンティストを億万長者にするかも知れない「アルゴリズム」のコンテスト


Bloomberg Businessweekで“Kaggle's Contests: Crunching Numbers for Fame and Glory”(名誉と栄光を賭けたデータ処理)という興味深い記事を見つけたので抄訳してみた。
コンテストと言えば映像や写真なんかが一般的で頻繁に目にするけど、「アルゴリズム」のコンテストというのがあるそうだ。このコンテストを主宰するのはKaggle。企業がスポンサーとなり、必要なデータを開示した上で、その企業の売上を向上させたり、特定の問題の原因を突き止めるようなアルゴリズムを広く募集し、最適な解を提示した人に高額賞金を提供するという仕組み。Kaggle曰く、アルゴリズム開発者が「ヘッジファンドのマネージャーやプロゴルファー並みに高額収入を得る時代が来るだろう」と語っている。
国内でも博報堂が「ビッグデータ解析」に関する新サービスを発表したけど、それをオープンに世界の知を使ってやってしまおうという発想だ。
※以下、抄訳です。

Netflixは数年前、映画推薦のアルゴリズムを改良するために、人は映画をどのように評価するかの匿名情報をネットに掲載し、Netflix独自のCinematchアルゴリズムを10%向上させるべく、コンテストを実施し、人々に参加を促した。186カ国約51,000人が、挑戦してきた。もちろん、100万ドルの賞金は、魅力的だったからだが、巷にはこういった情報分析に活用されていないデータが溢れかえっている。
これに目をつけたオーストラリア人の経済学者Anthony Goldbloomは、2010年4月、Netflixスタイルのコンテストを行うKaggleという会社を立ち上げた。依頼主は、データをKaggleに提供し、欲しい情報を導き出す問いを説明し、賞金額を決定する。それを受けてKaggleは、コンテストのデータ処理用にデータ入力する。これまで約25,000人が、Ford、DeloitteやMicrosoft等の企業がサポートする多数のコンテストに参加する為、Kaggleに殺到した。これに興味を示したPayPalの共同創業者Max LevchinやGoogleのチーフエコノミストHal Varianを含む投資家達は、11月、Kaggleに1,100万ドルをつぎ込んだ。
Kaggleの成長と共に、データサイエンティストと呼ばれる人達に対するシリコンバレーの需要が急増してきた。データサイエンティストとは、情報の山の中からビジネスや技術的に必要なものを取り出すことが出来る人である。FacebookGoogleのようなBig Webショップは、広告アルゴリズムの改良のためにデータサイエンティストを利用している。その他、データサイエンティストは、小売店には商品の販売促進方法の改善、銀行には不正摘発のサポートを行っている。
大企業は、花形的な情報を活用し、その他は見捨ててきた。しかし、Goldbloomは、マニア達が進んで難題解決に取り組むのに有益なデータはたくさんあると主張している。
IBMやMIT等からの数学やコンピュータサイエンスの達人が好結果を出す傾向はあるが、中には雪氷学者や考古学者等一風変わった参加者もいる。例えば、アメリカ大洋大気圏局のシニアソフトエンジニア、Momchil Georgievは、日中に天気予報データを検証し、夜には人々は何曜日にスーパーマーケットに行き、いくら費やすかを導き出し、500人以上を相手に勝利した。
Allstateの副社長Eric Hulsは、Allstateの数学の達人たちもKaggleに惹きつけられていると言う。コンテストの形式が従来の会社で働くのと比べて、Kaggleを類い希なものにしている。
Allstateは、Kaggleの薦めを受けて参加を決定し、昨年7月、自動車保険料の査定方法を改善できるかどうかを調べるため、1万ドルの賞金を提供した。特に、ある共通の特徴を持つ自動車が、事故に遭う可能性が高いのか調べたかった。「これは新たに生まれた問題ではないが、参加者が、我々が従来してきたのとは違うアプローチをするかどうか見たいと思った。実際、コンテスト最高のアルゴリズムは、我々のモデルを向上させてくれた」と、Hulsは語る。
Fordは、注意深いドライバーと疲労ドライバーを区別する方法を見つけ出すためコンテストを開催し、200人以上の参加者が3ヶ月かけて挑戦した。トップの1人、Christopher Hefeleは、AT&Tラボのエンジニアで、25の異なるエントリーを提出したが、総額たった950ドルの賞金をもらったにすぎない。
Kaggleのコンテストにおいて飛びぬけて高い賞金は、Heritage Provider Networkが提供する300万ドルだ。これは、過去の保険金請求データを基に、1年以内にどういう患者が入院するかを最も正確に予測した人に贈られる。過去4年間の通院情報を含むデータを1,000人以上がダウンロードしており、締め切りは、2013年4月となっている。
KaggleのチーフサイエンティストJeremy Howardは、いくつかのコンテストを成功させた後、Kaggleに入った起業家だ。現在、コンテスト方法を改良したり、頭の切れるデータサイエンティストを採用したりしている。彼曰く「我々は、eBayオークションのようなシステムを構築したい」。Kaggleは現在、コンテスト1つ当たり、総額2万ドルの固定料金と、月々1万ドルをクライアントに請求している。
更にKaggleは選ばれた者のみ参加出来るコンテストを重視する計画を立てている。これは、依頼会社がKaggleに機密情報を提供し、10〜15名のみにその情報を分析させることが狙いである。Kaggleは、問題に取り組むにふさわしい候補者の選定を手助けする。「もし、こういったコンテストに参加したいのであれば、他のコンテストでよい結果を出していないといけない」とHowardは言う。夢は、バイオ技術企業が、まだ秘密にされている画期的な新薬になりうる薬のデータを安心して公表してくれることである。
Kaggleに対するHowardの夢は、コンテスト参加者の数名が、本業を辞めることが出来るぐらい成長することだ。「ヘッジファンドのマネージャーやプロゴルファーと同じぐらい稼ぐことが出来るはずだ」と、彼は言う。
最後に:資本金1,100万ドルでスタートさせたKaggleは、企業が頭脳集団に安心して機密データを提供してくれることを望んでいる。