2011年 1月 30日 はてなブックマーク -

つくづくソフトウェア業界を、従来の枠組みだけで見ちゃいけないと思う。

今月の11日だったかな、New York Timesが、Rubyのライブラリをオープンにしたことを発表した。


New York Timesと言えば、Amazon EC2とS3を使って、過去130年分の記事データを、たった一日でPDF化して、かけたコストが滅茶苦茶安かったと評判になった会社。短時間で終わった理由は、Hadoopを使って100台の仮想サーバーをぶんまわしたから。Hadoopの並列処理機構をつかったので、台数が増えると性能が上がるという訳。聞いたところによると、従来の手法を使ったら、完成に数ヶ月かかったとか。しかも、かけたコストは、20万円もしなかったとか。

しかも開発したのは、たった一人のエンジニア。

そんな経験を活かして、ノウハウをRubyで実装し、オープンソースにしたのが、mrtoolkit。

いわゆる大規模なバッチ処理を、一人で作って。Amazon使って、多分インフラ構成するのに数時間。データ送り込むのに数時間。処理するのに数時間。終わったデータ受け取るのに数時間。

「人月の神話」どころの話じゃないよな。

Groovin’ High: New York Timesが公開したオープンソース

まだ1次情報に当たってないけど… そんな短時間で全記事PDF化したんだ。

(via micamica) (via yamato) (via petapeta) 2009-06-08 (via gkojax-text) (via vmconverter) (via hexe) (via kiri2) (via clione)

(via h-yamaguchi) (via atm09td)

1年前 | | 2011年 1月 30日 | このエントリーを含むはてなブックマーク