機械学習をする中で、今日までGoogleColaboratoryは万能であると信じていた。
90分、12時間ルール、ファイルや標準以外のライブラリは、毎回インストールしないといけないなどの、デメリットはあったが、問題なくGoogleColaboratoryで完結できた。
しかし、今回はGoogleColaboratoryではどうしようもないケースに遭遇したので、備忘録としてメモメモ。
今回の問題
どでかいデータはアップロードできない
対象のデータ
驚異の2.65GB!
いつも通り、以下の手順で。
ローカルにファイル(zipファイル)をダウンロード
↓
GoogleColaboratoryにアップロード
GoogleColabでトライ!
ゲージが動くことなく、待てど暮らせど赤丸が表示されたまま。
ディスク容量に余裕があるのに。。。
赤丸が示す意味
ファイルがデカすぎるため、アップロードできない。
ちなみに、Excelで対象のCSVファイルを開こうとしても、
こんな感じで待っても開かない。
Excelで開けない原因
Excelには、上限がある。下記参照。
対象のデータのデータサイズ
2911万行超え!
そりゃ、Excelじゃ開けないわけだ。
jupyter labでトライ!
完了まで5分ほどかかったが、なんとか読み込みに成功!
まとめ
今回で、わかったこと
GoogleColaboratoryはとても便利だが、盲目的になんでもできると疑わないほうが良い。