無印吉澤

Site Reliability Engineering(SRE)、ソフトウェア開発、クラウドコンピューティングなどについて、吉澤が調べたり試したことを書いていくブログです。

Spark

手を動かす Spark MLlib & Word2Vec Part 2 (Wikipedia 英語版から Word2Vec モデルを作るまで)

このシリーズについて Part 2 の範囲 Wikipedia 英語版のデータからコーパス作成 最終的にやったこと つまづいたこと コーパスの、S3 へのアップロード 最終的にやったこと つまづいたこと spark-submit で使う jar の作成 最終的にやったこと つまづいたこ…

手を動かす Spark MLlib & Word2Vec Part 1 (spark-ec2 でクラスタを構築するまで)

このシリーズについて Part 1 の範囲 Spark をローカル環境(Mac)にインストールする 最終的にやったこと つまづいたこと ローカル環境での Word2Vec の実行 最終的にやったこと つまづいたこと Amazon EC2 への Spark クラスタの構築(spark-ec2 を使った…

OS X + Docker Machine + Cloudera QuickStart Docker Image で Spark MLlib のお試し環境を構築する

最近、Spark MLlib を勉強するための環境を作る機会があったので、せっかくなので Cloudera QuickStart Docker Image で環境構築してみました。その際に、普通に進めるとうまくいかないポイントがいくつかあったので、そのときの構築手順をまとめておきます。