1. ホーム
  2. スクリプト・コラム
  3. パイソン

Pythonの学習とデータマイニングのために知っておくべきターミナルコマンドのトップ10

2022-01-02 02:39:31

IT業界では誰もがTerminalの基本を知るべきであり、データサイエンティストも例外ではありません。特にモデルやデータパイプラインをリモートマシンにデプロイする場合、ターミナルがすべてであることがあります。

さあ、はじめましょう

1.ウィジェット

wgetユーティリティは、リモート・サーバーからファイルをダウンロードするために使用します。URLがわかっていて、wgetコマンドでダウンロードできるのであれば、データセットのダウンロードに使うことができる。例として、次のURLを使うことにする。

https://raw.githubusercontent.com/jbrownlee/Datasets/master/airline-passengers.csv

Macをお使いの方で、wgetがデフォルトで利用できない場合は、ターミナルからbrew install wgetを実行し、インストールを行ってください。データセットのダウンロードが完了したので、基本的な探索に移りましょう。

2.ヘッド

Pythonをお使いの方ならおなじみでしょう。そうでなければ、headコマンドはファイルの最初のN行を表示するために使用されます。デフォルトでは、10行が表示されます。

違う数字、例えば3が欲しい場合は、-nパラメータを使用します。完全なコマンドは次のとおりです。

head -n 3 airline-passengers.csv


3.テール

tailコマンドはheadコマンドと非常によく似ていますが、最後のN行を表示します。

デフォルトでは、10行が表示されます。

headと同様に、-nパラメータで印刷する行数を指定することもできます。

ここまでで基本的なことはわかったので、もう少し面白いことに移りましょう。

4. wc

ファイル内にあるデータポイントの数を知りたいときがあります。わざわざファイルを開いて、手動で下までスクロールする必要はありません。簡単なコマンドで時間を短縮することができます。

まとめると、airline-passengers.csvファイルには144行が含まれています。

5. grep

このコマンドはテキストを処理するためのもので、文字列や正規表現にマッチさせることができます。ここでは、このコマンドを使って、"1949"という文字列を含む行だけを抽出することにします。これは単純なデータセットなので、特に問題はないでしょう。デフォルトでは、grepコマンドは結果を表示しますが、別のCSVファイルに保存することもできます。

6.猫

前の操作がうまくいったかどうかを確認するために、catコマンドを使います。これは、ファイル全体をシェルに表示するために使用します。また、ファイルの結合などにも使用できますが、それは別の機会に説明します。

では、ファイル全体を印刷してみましょう。データは月別にまとめられているので、全部で12行になるはずです。

7.見つける

findコマンドは、ファイルやフォルダーを検索するために使用します。例えば、以下のコマンドを実行すると、カレントディレクトリ(ドットで指定)内のすべてのCSVファイルがシェルに出力されます。

アスタリスク(*)は、ファイル名が ".csv" で終わっていれば、ファイル名は関係ないことを示します。

8.ソート

sortコマンドは、その名の通り、ファイルの中身を何らかの基準で並べ替えることができるコマンドです。例えば、次のコマンドは、データセットを乗客数の昇順でソートします。

k2引数は、2列目のソートを指定します。降順に並べ替えるには、-r引数を

9.ナノ

厳密にはシェルコマンドではありませんが、実行することでNanoエディタが起動します。ここでは、Pythonファイルを作成する方法を説明します。

nano pyfile.py


ここで、簡単なPythonのコードを書いてみましょう。

エディターで任意のPythonコードを記述し、単純なターミナルコマンドでは複雑すぎる解析を行うことができます。終了したら、Pythonファイルを実行することができます。

10. 変数

今日の記事の最後は、変数についてです。ファイルパスが長くなったときや、何度も使う必要があるときなど、便利に使えます。

ここでは、2つの文字列変数を宣言し、mvコマンドを使用してairline-passengers-1949.csvファイルをnew.csvにリネームする方法を説明します。

lsコマンドでディレクトリ内のファイルを一覧表示すると、ご覧の通り、名前の変更操作が成功しました。

以上、pythonの学習・データマイニングで知っておきたいターミナルコマンドTOP10の詳細をご紹介しました。pythonのデータマイニングに必要なターミナルコマンドTOP10については、スクリプトハウスの他の関連記事も参考にしてみてください