ぺーぱーの日々

上機嫌でいること、夢中でいることを目標に、今日も色んなことに手を出します。

MENU

どでかいデータのアップロードはできず、GoogleColaboratoryは万能ではないことがわかった

機械学習をする中で、今日までGoogleColaboratoryは万能であると信じていた。

90分、12時間ルール、ファイルや標準以外のライブラリは、毎回インストールしないといけないなどの、デメリットはあったが、問題なくGoogleColaboratoryで完結できた。

しかし、今回はGoogleColaboratoryではどうしようもないケースに遭遇したので、備忘録としてメモメモ。

今回の問題

どでかいデータはアップロードできない

対象のデータ

驚異の2.65GB!

いつも通り、以下の手順で。

ローカルにファイル(zipファイル)をダウンロード

GoogleColaboratoryにアップロード

GoogleColabでトライ!

ゲージが動くことなく、待てど暮らせど赤丸が表示されたまま。

ディスク容量に余裕があるのに。。。

赤丸が示す意味

ファイルがデカすぎるため、アップロードできない。

ちなみに、Excelで対象のCSVファイルを開こうとしても、

こんな感じで待っても開かない。

Excelでも開けない

Excelで開けない原因

Excelには、上限がある。下記参照。

Excelの上限

対象のデータのデータサイズ

対象のデータサイズ

2911万行超え!

そりゃ、Excelじゃ開けないわけだ。

jupyter labでトライ!

完了まで5分ほどかかったが、なんとか読み込みに成功!

まとめ

今回で、わかったこと

  • GoogleColaboratoryでアップロードできるデータには上限がある
  • (正確ではないが、)CSVであればExcelで開けない=GoogleColaboratoryでのアップロードは不可

GoogleColaboratoryはとても便利だが、盲目的になんでもできると疑わないほうが良い。