ディレクトリのすべてのファイルを一覧表示するにはどうすればよいですか?


3473

Pythonでディレクトリのすべてのファイルをリストし、それらをどのように追加できますlistか?


回答:


4215

os.listdir()ディレクトリにあるすべてのものを取得します- ファイルディレクトリ

あなたがしたい場合は、単にファイルを、あなたはどちらか、これを使用して絞り込むことができos.path

from os import listdir
from os.path import isfile, join
onlyfiles = [f for f in listdir(mypath) if isfile(join(mypath, f))]

またはあなたが使用することができos.walk()ますどの二つのリストを生成する分割に-各ディレクトリのそれ訪問のためのファイルおよびdirsにあなたのために。最上位のディレクトリのみが必要な場合は、最初に生成されたときにブレークすることができます

from os import walk

f = []
for (dirpath, dirnames, filenames) in walk(mypath):
    f.extend(filenames)
    break

87
少し簡単:((_, _, filenames) = walk(mypath).next() ウォークが少なくとも1つの値を返すと確信している場合は、それを返す必要があります。)
misterbee

9
フルパスを格納するためのわずかな変更:os.walk(mypath)の(dirpath、dirnames、filenames)の場合:checksum_files.extend(os.path.join(dirpath、filename)for filenames in filenames)ブレーク
okigan

150
f.extend(filenames)実際にはと同等ではありませんf = f + filenames。インプレースでextend変更さfれますが、追加すると新しいメモリの場所に新しいリストが作成されます。これextendは通常、よりも効率的ですが+、複数のオブジェクトがリストへの参照を保持している場合、混乱を招くことがあります。最後に、それの価値があることは注目にf += filenames同等ですf.extend(filenames)ではありません f = f + filenames
ベンジャミンホジソン

30
@misterbee、あなたのソリューションは最高です、ほんの1つの小さな改善:_, _, filenames = next(walk(mypath), (None, None, []))
bgusach

35
python 3.xでの使用(_, _, filenames) = next(os.walk(mypath))
ET-CS

1683

globパターンマッチングと拡張を行うため、私はモジュールを使用することを好みます。

import glob
print(glob.glob("/home/adam/*.txt"))

照会されたファイルのリストを返します。

['/home/adam/file1.txt', '/home/adam/file2.txt', .... ]


31
明確にするために、これは「フルパス」を返しませ。グロブの展開を返すだけです。たとえば、指定された/home/user/foo/bar/hello.txt場合、ディレクトリfooで実行されている場合、はglob("bar/*.txt")を返しbar/hello.txtます。実際にフル(つまり、絶対)パスが必要な場合があります。それらのケースについては、stackoverflow.com
questions /

1
関連:globを使用してファイルを再帰的に検索:stackoverflow.com/a/2186565/4561887
Gabriel Staples

6
この質問には答えません。glob.glob("*")だろう。
ジャン=フランソワ・ファーブル

綺麗な!!!!そう.... x=glob.glob("../train/*.png")私は、フォルダの名前を知っている限り、私は私のパスの配列を与えます。とてもクール!
ジェニファークロスビー

858

Python 2および3でファイルのリストを取得する


os.listdir()

現在のディレクトリにあるすべてのファイル(およびディレクトリ)を取得する方法(Python 3)

以下は、Python 3でoslistdir()関数を使用して、現在のディレクトリ内のファイルのみを取得する簡単な方法です。さらに探索すると、ディレクトリ内のフォルダを返す方法が示されますが、サブディレクトリにはファイルがありません。ウォークを使用できます-後で説明します)。

 import os
 arr = os.listdir()
 print(arr)

 >>> ['$RECYCLE.BIN', 'work.txt', '3ebooks.txt', 'documents']

glob

同じタイプのファイルまたは共通のファイルを選択する方が、グロブの方が簡単であることがわかりました。次の例を見てください。

import glob

txtfiles = []
for file in glob.glob("*.txt"):
    txtfiles.append(file)

glob リスト内包表記

import glob

mylist = [f for f in glob.glob("*.txt")]

glob 機能付き

関数は、引数で指定された拡張子(.txt、.docx ecc。)のリストを返します

import glob

def filebrowser(ext=""):
    "Returns files with an extension"
    return [f for f in glob.glob(f"*{ext}")]

x = filebrowser(".txt")
print(x)

>>> ['example.txt', 'fb.txt', 'intro.txt', 'help.txt']

glob 以前のコードを拡張する

関数は、引数として渡した文字列と一致するファイルのリストを返すようになりました

import glob

def filesearch(word=""):
    """Returns a list with all files with the word/extension in it"""
    file = []
    for f in glob.glob("*"):
        if word[0] == ".":
            if f.endswith(word):
                file.append(f)
                return file
        elif word in f:
            file.append(f)
            return file
    return file

lookfor = "example", ".py"
for w in lookfor:
    print(f"{w:10} found => {filesearch(w)}")

出力

example    found => []
.py        found => ['search.py']

フルパス名を取得する os.path.abspath

お気づきのように、上記のコードにはファイルの完全パスがありません。絶対パスが必要な場合は、os.pathと呼ばれるモジュールの別の関数を使用_getfullpathnameos.listdir()て、取得したファイルを引数として使用できます。後で確認するように、フルパスを取得する方法は他にもあります(mexmexで提案されているように、_getfullpathnameをに置き換えましたabspath)。

 import os
 files_path = [os.path.abspath(x) for x in os.listdir()]
 print(files_path)

 >>> ['F:\\documenti\applications.txt', 'F:\\documenti\collections.txt']

あるタイプのファイルの完全パス名をすべてのサブディレクトリに取得するには walk

これは多くのディレクトリで何かを見つけるのに非常に役立ち、名前を覚えていないファイルを見つけるのに役立ちました。

import os

# Getting the current work directory (cwd)
thisdir = os.getcwd()

# r=root, d=directories, f = files
for r, d, f in os.walk(thisdir):
    for file in f:
        if file.endswith(".docx"):
            print(os.path.join(r, file))

os.listdir():現在のディレクトリからファイルを取得(Python 2)

Python 2では、現在のディレクトリにあるファイルのリストが必要な場合は、引数を「。」として指定する必要があります。または、os.listdirメソッドのos.getcwd()。

 import os
 arr = os.listdir('.')
 print(arr)

 >>> ['$RECYCLE.BIN', 'work.txt', '3ebooks.txt', 'documents']

ディレクトリツリーを上に移動するには

# Method 1
x = os.listdir('..')

# Method 2
x= os.listdir('/')

ファイルを取得する:os.listdir()特定のディレクトリ(Python 2および3)

 import os
 arr = os.listdir('F:\\python')
 print(arr)

 >>> ['$RECYCLE.BIN', 'work.txt', '3ebooks.txt', 'documents']

特定のサブディレクトリのファイルを取得するには os.listdir()

import os

x = os.listdir("./content")

os.walk('.') - カレントディレクトリ

 import os
 arr = next(os.walk('.'))[2]
 print(arr)

 >>> ['5bs_Turismo1.pdf', '5bs_Turismo1.pptx', 'esperienza.txt']

next(os.walk('.')) そして os.path.join('dir', 'file')

 import os
 arr = []
 for d,r,f in next(os.walk("F:\\_python")):
     for file in f:
         arr.append(os.path.join(r,file))

 for f in arr:
     print(files)

>>> F:\\_python\\dict_class.py
>>> F:\\_python\\programmi.txt

next(os.walk('F:\\') -フルパスを取得-リスト内包

 [os.path.join(r,file) for r,d,f in next(os.walk("F:\\_python")) for file in f]

 >>> ['F:\\_python\\dict_class.py', 'F:\\_python\\programmi.txt']

os.walk -フルパスを取得-サブディレクトリ内のすべてのファイル**

x = [os.path.join(r,file) for r,d,f in os.walk("F:\\_python") for file in f]
print(x)

>>> ['F:\\_python\\dict.py', 'F:\\_python\\progr.txt', 'F:\\_python\\readl.py']

os.listdir() -txtファイルのみを取得

 arr_txt = [x for x in os.listdir() if x.endswith(".txt")]
 print(arr_txt)

 >>> ['work.txt', '3ebooks.txt']

を使用globしてファイルの完全パスを取得する

ファイルの絶対パスが必要な場合:

from path import path
from glob import glob
x = [path(f).abspath() for f in glob("F:\\*.txt")]
for f in x:
    print(f)

>>> F:\acquistionline.txt
>>> F:\acquisti_2018.txt
>>> F:\bootstrap_jquery_ecc.txt

os.path.isfileリスト内のディレクトリを回避するために使用

import os.path
listOfFiles = [f for f in os.listdir() if os.path.isfile(f)]
print(listOfFiles)

>>> ['a simple game.py', 'data.txt', 'decorator.py']

pathlibPython 3.4からの使用

import pathlib

flist = []
for p in pathlib.Path('.').iterdir():
    if p.is_file():
        print(p)
        flist.append(p)

 >>> error.PNG
 >>> exemaker.bat
 >>> guiprova.mp3
 >>> setup.py
 >>> speak_gui2.py
 >>> thumb.PNG

list comprehension

flist = [p for p in pathlib.Path('.').iterdir() if p.is_file()]

または、pathlib.Path()代わりにpathlib.Path(".")

pathlib.Path()でglobメソッドを使用する

import pathlib

py = pathlib.Path().glob("*.py")
for file in py:
    print(file)

>>> stack_overflow_list.py
>>> stack_overflow_list_tkinter.py

os.walkですべてのファイルを取得します

import os
x = [i[2] for i in os.walk('.')]
y=[]
for t in x:
    for f in t:
        y.append(f)
print(y)

>>> ['append_to_list.py', 'data.txt', 'data1.txt', 'data2.txt', 'data_180617', 'os_walk.py', 'READ2.py', 'read_data.py', 'somma_defaltdic.py', 'substitute_words.py', 'sum_data.py', 'data.txt', 'data1.txt', 'data_180617']

次のファイルのみを取得し、ディレクトリを歩く

 import os
 x = next(os.walk('F://python'))[2]
 print(x)

 >>> ['calculator.bat','calculator.py']

次のディレクトリのみを取得し、ディレクトリ内を歩く

 import os
 next(os.walk('F://python'))[1] # for the current dir use ('.')

 >>> ['python3','others']

すべてのサブディレクトリ名を取得します walk

for r,d,f in os.walk("F:\\_python"):
    for dirs in d:
        print(dirs)

>>> .vscode
>>> pyexcel
>>> pyschool.py
>>> subtitles
>>> _metaprogramming
>>> .ipynb_checkpoints

os.scandir() Python 3.5以降

import os
x = [f.name for f in os.scandir() if f.is_file()]
print(x)

>>> ['calculator.bat','calculator.py']

# Another example with scandir (a little variation from docs.python.org)
# This one is more efficient than os.listdir.
# In this case, it shows the files only in the current directory
# where the script is executed.

import os
with os.scandir() as i:
    for entry in i:
        if entry.is_file():
            print(entry.name)

>>> ebookmaker.py
>>> error.PNG
>>> exemaker.bat
>>> guiprova.mp3
>>> setup.py
>>> speakgui4.py
>>> speak_gui2.py
>>> speak_gui3.py
>>> thumb.PNG

例:

例 1:サブディレクトリにはファイルがいくつありますか?

この例では、すべてのディレクトリとそのサブディレクトリに含まれているファイルの数を探します。

import os

def count(dir, counter=0):
    "returns number of files in dir and subdirs"
    for pack in os.walk(dir):
        for f in pack[2]:
            counter += 1
    return dir + " : " + str(counter) + "files"

print(count("F:\\python"))

>>> 'F:\\\python' : 12057 files'

例2:ディレクトリから別のディレクトリにすべてのファイルをコピーする方法は?

あるタイプのファイル(デフォルト:pptx)をすべて見つけて、新しいフォルダーにコピーすることをコンピューターに指示するスクリプト。

import os
import shutil
from path import path

destination = "F:\\file_copied"
# os.makedirs(destination)

def copyfile(dir, filetype='pptx', counter=0):
    "Searches for pptx (or other - pptx is the default) files and copies them"
    for pack in os.walk(dir):
        for f in pack[2]:
            if f.endswith(filetype):
                fullpath = pack[0] + "\\" + f
                print(fullpath)
                shutil.copy(fullpath, destination)
                counter += 1
    if counter > 0:
        print('-' * 30)
        print("\t==> Found in: `" + dir + "` : " + str(counter) + " files\n")

for dir in os.listdir():
    "searches for folders that starts with `_`"
    if dir[0] == '_':
        # copyfile(dir, filetype='pdf')
        copyfile(dir, filetype='txt')


>>> _compiti18\Compito Contabilità 1\conti.txt
>>> _compiti18\Compito Contabilità 1\modula4.txt
>>> _compiti18\Compito Contabilità 1\moduloa4.txt
>>> ------------------------
>>> ==> Found in: `_compiti18` : 3 files

例 3:txtファイル内のすべてのファイルを取得する方法

すべてのファイル名でtxtファイルを作成したい場合:

import os
mylist = ""
with open("filelist.txt", "w", encoding="utf-8") as file:
    for eachfile in os.listdir():
        mylist += eachfile + "\n"
    file.write(mylist)

例:ハードドライブのすべてのファイルを含むtxt

"""
We are going to save a txt file with all the files in your directory.
We will use the function walk()
"""

import os

# see all the methods of os
# print(*dir(os), sep=", ")
listafile = []
percorso = []
with open("lista_file.txt", "w", encoding='utf-8') as testo:
    for root, dirs, files in os.walk("D:\\"):
        for file in files:
            listafile.append(file)
            percorso.append(root + "\\" + file)
            testo.write(file + "\n")
listafile.sort()
print("N. of files", len(listafile))
with open("lista_file_ordinata.txt", "w", encoding="utf-8") as testo_ordinato:
    for file in listafile:
        testo_ordinato.write(file + "\n")

with open("percorso.txt", "w", encoding="utf-8") as file_percorso:
    for file in percorso:
        file_percorso.write(file + "\n")

os.system("lista_file.txt")
os.system("lista_file_ordinata.txt")
os.system("percorso.txt")

C:\のすべてのファイルを1つのテキストファイルに

これは前のコードの短いバージョンです。別の位置から開始する必要がある場合は、ファイルの検索を開始するフォルダーを変更します。このコードは、私のコンピューター上で50 MBのテキストファイルを生成し、完全なパスを含むファイルを使用して500.000行未満の行を生成します。

import os

with open("file.txt", "w", encoding="utf-8") as filewrite:
    for r, d, f in os.walk("C:\\"):
        for file in f:
            filewrite.write(f"{r + file}\n")

タイプのフォルダにすべてのパスを含むファイルを書き込む方法

この関数を使用すると、検索するファイルの種類の名前(例:pngfile.txt)を含み、その種類のすべてのファイルの完全なパスを含むtxtファイルを作成できます。それは時々役立つと思います。

import os

def searchfiles(extension='.ttf', folder='H:\\'):
    "Create a txt file with all the file of a type"
    with open(extension[1:] + "file.txt", "w", encoding="utf-8") as filewrite:
        for r, d, f in os.walk(folder):
            for file in f:
                if file.endswith(extension):
                    filewrite.write(f"{r + file}\n")

# looking for png file (fonts) in the hard disk H:\
searchfiles('.png', 'H:\\')

>>> H:\4bs_18\Dolphins5.png
>>> H:\4bs_18\Dolphins6.png
>>> H:\4bs_18\Dolphins7.png
>>> H:\5_18\marketing html\assets\imageslogo2.png
>>> H:\7z001.png
>>> H:\7z002.png

(新規)すべてのファイルを検索し、tkinter GUIで開きます

この2019に、dir内のすべてのファイルを検索するための小さなアプリを追加し、リスト内のファイルの名前をダブルクリックしてそれらを開くことができるようにしたかっただけです。 ここに画像の説明を入力してください

import tkinter as tk
import os

def searchfiles(extension='.txt', folder='H:\\'):
    "insert all files in the listbox"
    for r, d, f in os.walk(folder):
        for file in f:
            if file.endswith(extension):
                lb.insert(0, r + "\\" + file)

def open_file():
    os.startfile(lb.get(lb.curselection()[0]))

root = tk.Tk()
root.geometry("400x400")
bt = tk.Button(root, text="Search", command=lambda:searchfiles('.png', 'H:\\'))
bt.pack()
lb = tk.Listbox(root)
lb.pack(fill="both", expand=1)
lb.bind("<Double-Button>", lambda x: open_file())
root.mainloop()

14
これは、ここで質問されていない質問に対する回答が多すぎる寄せ集めです。警告または推奨されるアプローチとは何かを説明する価値もあります。同じことを実行する20の方法と1つの方法を知っている方がいいです。
cs95

[OK]を、できるだけ早く私は私の答えを見て、それがよりクリーンでなどの方法の違いについてのより便利な情報を作るしようとします
ジョヴァンニ・G. PY

ファイル名に部分文字列が含まれているかどうかを確認して、ファイルの拡張子を判断しないでください。それは多くの問題を引き起こすかもしれません。ファイル名が特定の部分文字列で終わるかどうかを常に確認することをお勧めします。
ni1ight

OK、@ n1lightコードを変更しました...
Giovanni G. PY

811
import os
os.listdir("somedirectory")

「somedirectory」内のすべてのファイルとディレクトリのリストを返します。


11
glob.glob
xji

22
@JIXiang:os.listdir()常に単なるファイル名を返します(相対パスではありません)。glob.glob()返されるものは、入力パターンのパス形式によって決まります。
mklement0 2016年

os.listdir()->指定された場所内のディレクトリとファイルを常にリストします。ファイルではなくディレクトリのみを一覧表示する方法はありますか?
RonyA

160

ファイルのリストのみを取得する1行のソリューション(サブディレクトリなし):

filenames = next(os.walk(path))[2]

または絶対パス名:

paths = [os.path.join(path, fn) for fn in next(os.walk(path))[2]]

7
既にご利用の場合は、ワンライナーのみimport osglob()私ほど簡潔ではないようです。
ArtOfWarfare 2014年

4
globの問題は、「something.something」というフォルダーがglob( '/ home / adam /*.*')によって返されることです
Remi

6
OS Xでは、バンドルと呼ばれるものがあります。これは、一般にファイル(.tarなど)として扱われるディレクトリです。それらをファイルまたはディレクトリとして扱いますか?を使用glob()すると、ファイルとして扱われます。あなたのメソッドはそれをディレクトリとして扱います。
ArtOfWarfare 14

132

ディレクトリとそのすべてのサブディレクトリから完全なファイルパスを取得する

import os

def get_filepaths(directory):
    """
    This function will generate the file names in a directory 
    tree by walking the tree either top-down or bottom-up. For each 
    directory in the tree rooted at directory top (including top itself), 
    it yields a 3-tuple (dirpath, dirnames, filenames).
    """
    file_paths = []  # List which will store all of the full filepaths.

    # Walk the tree.
    for root, directories, files in os.walk(directory):
        for filename in files:
            # Join the two strings in order to form the full filepath.
            filepath = os.path.join(root, filename)
            file_paths.append(filepath)  # Add it to the list.

    return file_paths  # Self-explanatory.

# Run the above function and store its results in a variable.   
full_file_paths = get_filepaths("/Users/johnny/Desktop/TEST")

  • 上記の関数で提供したパスには3つのファイルが含まれていました。そのうちの2つはルートディレクトリにあり、もう1つは「SUBFOLDER」というサブフォルダーにあります。次のようなことができます。
  • print full_file_paths リストを印刷します:

    • ['/Users/johnny/Desktop/TEST/file1.txt', '/Users/johnny/Desktop/TEST/file2.txt', '/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat']

必要に応じて、コンテンツを開いて読み取るか、以下のコードのように拡張子 ".dat"のファイルのみに焦点を合わせることができます。

for f in full_file_paths:
  if f.endswith(".dat"):
    print f

/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat


これが唯一の答えです。
thelearner

78

バージョン3.4以降には、これよりもはるかに効率的な組み込みのイテレータがありますos.listdir()

pathlibバージョン3.4の新機能。

>>> import pathlib
>>> [p for p in pathlib.Path('.').iterdir() if p.is_file()]

PEP 428によると、pathlibライブラリの目的は、ファイルシステムパスとユーザーがそれらに対して行う一般的な操作を処理するためのクラスの単純な階層を提供することです。

os.scandir()バージョン3.5の新機能。

>>> import os
>>> [entry for entry in os.scandir('.') if entry.is_file()]

バージョン3.5以降でos.walk()os.scandir()なくを使用しos.listdir()、その速度はPEP 471に従って2〜20倍に増加したことに注意してください。

以下のShadowRangerのコメントもお読みください。


1
ありがとう!直接返さない唯一の解決策だと思いますlist。必要p.namep応じて、最初の代わりに代わりに使用できます。
jeromej

1
ようこそ!pathlib.Path()インスタンスには廃棄物を無駄にしたくない多くの便利なメソッドがあるので、インスタンスを生成したいと思います。str(p)パス名を要求することもできます。
SzieberthAdam

6
注:必要な場合でも、チェックなどを使用するos.scandirよりもソリューションが効率的になります(遅延反復の恩恵を受けないため)。反復しながら情報を無料で提供するOS提供のAPIを使用するためです。ディスクへのノーごとのファイルの往復のすべてでそれら(Windowsの場合は、sがあなたの完全取得* NIXシステム上で無料で見る、それが必要とする情報を超えたため、などが、最初にキャッシュ便宜のため)。os.listdiros.path.is_filelistos.scandiris_filestatDirEntrystatstatis_fileis_dirDirEntrystat
ShadowRanger、2015年

1
を使用entry.nameして、ファイル名のみentry.pathを取得したり、その完全パスを取得したりすることもできます。あちこちにos.path.join()はありません。
user136036 2017年

56

序論

  • 質問テキストではファイルディレクトリの用語に明確な違いがありますが、ディレクトリは実際には特別なファイルであると主張する人もいます
  • ステートメント:「ディレクトリのすべてのファイル」は、2つの方法で解釈できます。
    1. すべての直接(またはレベル1)の子孫のみ
    2. ディレクトリツリー全体のすべての子孫(サブディレクトリの子孫を含む)
  • 質問があったとき、私はPython 2LTSバージョンであったと想像しますが、コードサンプルはPython 3.5で実行されます(可能な限りPython 2準拠に保ちます。また、私が投稿するPythonは、v3.5.4からです -特に指定がない限り)。それは質問の別のキーワードに関連する結果を持っています:「リストにそれらを追加してください」:

    • 事前にPythonの2.2バージョン、配列(イテレート可能オブジェクト)はほとんどリスト(タプル、セット、...)で表されました
    • Python 2.2の概念ジェネレータ[Python.Wiki]:ジェネレータ) -の礼儀[パイソン3]:収率文が) -を導入しました。時間が経つにつれ、リストを返したり操作したりする関数に対応するジェネレータが出現し始めました
    • ではPythonの3、発電機は、デフォルトの動作です
    • リストを返すことが依然として必須であるかどうかはわかりませんが(またはジェネレーターも同様です)、ジェネレーターをリストコンストラクターに渡すと、リストからリストが作成されます(また、リストを消費します)。以下の例は、[Python 3]の違いを示していますmapfunction、iterable、...
    >>> import sys
    >>> sys.version
    '2.7.10 (default, Mar  8 2016, 15:02:46) [MSC v.1600 64 bit (AMD64)]'
    >>> m = map(lambda x: x, [1, 2, 3])  # Just a dummy lambda function
    >>> m, type(m)
    ([1, 2, 3], <type 'list'>)
    >>> len(m)
    3


    >>> import sys
    >>> sys.version
    '3.5.4 (v3.5.4:3f56838, Aug  8 2017, 02:17:05) [MSC v.1900 64 bit (AMD64)]'
    >>> m = map(lambda x: x, [1, 2, 3])
    >>> m, type(m)
    (<map object at 0x000001B4257342B0>, <class 'map'>)
    >>> len(m)
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    TypeError: object of type 'map' has no len()
    >>> lm0 = list(m)  # Build a list from the generator
    >>> lm0, type(lm0)
    ([1, 2, 3], <class 'list'>)
    >>>
    >>> lm1 = list(m)  # Build a list from the same generator
    >>> lm1, type(lm1)  # Empty list now - generator already consumed
    ([], <class 'list'>)
  • 例は、次の構造を持つroot_dirというディレクトリに基づいています(この例はWin用ですが、Lnxでも同じツリーを使用しています)。

    E:\Work\Dev\StackOverflow\q003207219>tree /f "root_dir"
    Folder PATH listing for volume Work
    Volume serial number is 00000029 3655:6FED
    E:\WORK\DEV\STACKOVERFLOW\Q003207219\ROOT_DIR
    ¦   file0
    ¦   file1
    ¦
    +---dir0
    ¦   +---dir00
    ¦   ¦   ¦   file000
    ¦   ¦   ¦
    ¦   ¦   +---dir000
    ¦   ¦           file0000
    ¦   ¦
    ¦   +---dir01
    ¦   ¦       file010
    ¦   ¦       file011
    ¦   ¦
    ¦   +---dir02
    ¦       +---dir020
    ¦           +---dir0200
    +---dir1
    ¦       file10
    ¦       file11
    ¦       file12
    ¦
    +---dir2
    ¦   ¦   file20
    ¦   ¦
    ¦   +---dir20
    ¦           file200
    ¦
    +---dir3


ソリューション

プログラムによるアプローチ:

  1. [Python 3]:os。listdirpath = '。'

    パスで指定されたディレクトリ内のエントリの名前を含むリストを返します。リストは任意の順序であり、特別なエントリ'.''..'... は含まれていません。


    >>> import os
    >>> root_dir = "root_dir"  # Path relative to current dir (os.getcwd())
    >>>
    >>> os.listdir(root_dir)  # List all the items in root_dir
    ['dir0', 'dir1', 'dir2', 'dir3', 'file0', 'file1']
    >>>
    >>> [item for item in os.listdir(root_dir) if os.path.isfile(os.path.join(root_dir, item))]  # Filter items and only keep files (strip out directories)
    ['file0', 'file1']

    より複雑な例(code_os_listdir.py):

    import os
    from pprint import pformat
    
    
    def _get_dir_content(path, include_folders, recursive):
        entries = os.listdir(path)
        for entry in entries:
            entry_with_path = os.path.join(path, entry)
            if os.path.isdir(entry_with_path):
                if include_folders:
                    yield entry_with_path
                if recursive:
                    for sub_entry in _get_dir_content(entry_with_path, include_folders, recursive):
                        yield sub_entry
            else:
                yield entry_with_path
    
    
    def get_dir_content(path, include_folders=True, recursive=True, prepend_folder_name=True):
        path_len = len(path) + len(os.path.sep)
        for item in _get_dir_content(path, include_folders, recursive):
            yield item if prepend_folder_name else item[path_len:]
    
    
    def _get_dir_content_old(path, include_folders, recursive):
        entries = os.listdir(path)
        ret = list()
        for entry in entries:
            entry_with_path = os.path.join(path, entry)
            if os.path.isdir(entry_with_path):
                if include_folders:
                    ret.append(entry_with_path)
                if recursive:
                    ret.extend(_get_dir_content_old(entry_with_path, include_folders, recursive))
            else:
                ret.append(entry_with_path)
        return ret
    
    
    def get_dir_content_old(path, include_folders=True, recursive=True, prepend_folder_name=True):
        path_len = len(path) + len(os.path.sep)
        return [item if prepend_folder_name else item[path_len:] for item in _get_dir_content_old(path, include_folders, recursive)]
    
    
    def main():
        root_dir = "root_dir"
        ret0 = get_dir_content(root_dir, include_folders=True, recursive=True, prepend_folder_name=True)
        lret0 = list(ret0)
        print(ret0, len(lret0), pformat(lret0))
        ret1 = get_dir_content_old(root_dir, include_folders=False, recursive=True, prepend_folder_name=False)
        print(len(ret1), pformat(ret1))
    
    
    if __name__ == "__main__":
        main()

    • 2つの実装があります。
      • ジェネレータを使用するもの(もちろん、ここでは結果をリストに変換するので、ここでは役に立たないようです)
      • 古典的なもの(_oldで終わる関数名)
    • 再帰が使用されます(サブディレクトリに入る)
    • 各実装には、2つの関数があります。
      • 下線_)で始まるもの:「private」(直接呼び出さないでください)-すべての処理を実行します
      • パブリックパス(以前のラッパー):返されたエントリから(必要に応じて)初期パスを削除します。これは醜い実装ですが、現時点で思いついたのはそれだけです。
    • パフォーマンスの面では、ジェネレーターは一般的に少し高速です(作成時間と 反復時間の両方を考慮して)が、私は再帰関数でそれらをテストしていません。また、内部ジェネレーターで関数内を反復しています-パフォーマンスがどのようにわからないのかフレンドリーです
    • さまざまな結果を得るために引数を試してください


    出力

    (py35x64_test) E:\Work\Dev\StackOverflow\q003207219>"e:\Work\Dev\VEnvs\py35x64_test\Scripts\python.exe" "code_os_listdir.py"
    <generator object get_dir_content at 0x000001BDDBB3DF10> 22 ['root_dir\\dir0',
     'root_dir\\dir0\\dir00',
     'root_dir\\dir0\\dir00\\dir000',
     'root_dir\\dir0\\dir00\\dir000\\file0000',
     'root_dir\\dir0\\dir00\\file000',
     'root_dir\\dir0\\dir01',
     'root_dir\\dir0\\dir01\\file010',
     'root_dir\\dir0\\dir01\\file011',
     'root_dir\\dir0\\dir02',
     'root_dir\\dir0\\dir02\\dir020',
     'root_dir\\dir0\\dir02\\dir020\\dir0200',
     'root_dir\\dir1',
     'root_dir\\dir1\\file10',
     'root_dir\\dir1\\file11',
     'root_dir\\dir1\\file12',
     'root_dir\\dir2',
     'root_dir\\dir2\\dir20',
     'root_dir\\dir2\\dir20\\file200',
     'root_dir\\dir2\\file20',
     'root_dir\\dir3',
     'root_dir\\file0',
     'root_dir\\file1']
    11 ['dir0\\dir00\\dir000\\file0000',
     'dir0\\dir00\\file000',
     'dir0\\dir01\\file010',
     'dir0\\dir01\\file011',
     'dir1\\file10',
     'dir1\\file11',
     'dir1\\file12',
     'dir2\\dir20\\file200',
     'dir2\\file20',
     'file0',
     'file1']


  1. [Python 3]:os。scandirpath = '。'Python 3.5 +、バックポート:[PyPI]:scandir

    pathで指定されたディレクトリのエントリに対応するos.DirEntryオブジェクトのイテレータを返します。エントリは任意の順序で生じ、及び特殊エントリされていると含まれていません。'.''..'

    使用SCANDIR()の代わりに、LISTDIRは()ので、大幅に、また、ファイルの種類やファイルの属性情報を必要とするコードのパフォーマンスを向上させることができos.DirEntryは、ディレクトリをスキャンするときに、オペレーティング・システムがそれを提供する場合、この情報を公開するオブジェクト。すべてのos.DirEntryメソッドはシステムコールを実行できますが、is_dir()およびis_file()は通常、シンボリックリンクのシステムコールのみを必要とします。os.DirEntry.stat()は、Unixでは常にシステムコールを必要としますが、Windowsではシンボリックリンクに1つだけ必要です。


    >>> import os
    >>> root_dir = os.path.join(".", "root_dir")  # Explicitly prepending current directory
    >>> root_dir
    '.\\root_dir'
    >>>
    >>> scandir_iterator = os.scandir(root_dir)
    >>> scandir_iterator
    <nt.ScandirIterator object at 0x00000268CF4BC140>
    >>> [item.path for item in scandir_iterator]
    ['.\\root_dir\\dir0', '.\\root_dir\\dir1', '.\\root_dir\\dir2', '.\\root_dir\\dir3', '.\\root_dir\\file0', '.\\root_dir\\file1']
    >>>
    >>> [item.path for item in scandir_iterator]  # Will yield an empty list as it was consumed by previous iteration (automatically performed by the list comprehension)
    []
    >>>
    >>> scandir_iterator = os.scandir(root_dir)  # Reinitialize the generator
    >>> for item in scandir_iterator :
    ...     if os.path.isfile(item.path):
    ...             print(item.name)
    ...
    file0
    file1

    • それはに似ています os.listdir
    • しかし、それはまた、より柔軟性があり(そしてより多くの機能を提供し)、より多くのPython IC(そして場合によってはより高速)です。


  1. [Python 3]:os。ウォークtop、topdown = True、onerror = None、followlinks = False

    ツリーをトップダウンまたはボトムアップでウォークして、ディレクトリツリーにファイル名を生成します。ディレクトリをルートとするツリー内の各ディレクトリのトップ(含むトップ自体)は、(3タプルをもたらしますdirpathdirnamesfilenames)。


    >>> import os
    >>> root_dir = os.path.join(os.getcwd(), "root_dir")  # Specify the full path
    >>> root_dir
    'E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir'
    >>>
    >>> walk_generator = os.walk(root_dir)
    >>> root_dir_entry = next(walk_generator)  # First entry corresponds to the root dir (passed as an argument)
    >>> root_dir_entry
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir', ['dir0', 'dir1', 'dir2', 'dir3'], ['file0', 'file1'])
    >>>
    >>> root_dir_entry[1] + root_dir_entry[2]  # Display dirs and files (direct descendants) in a single list
    ['dir0', 'dir1', 'dir2', 'dir3', 'file0', 'file1']
    >>>
    >>> [os.path.join(root_dir_entry[0], item) for item in root_dir_entry[1] + root_dir_entry[2]]  # Display all the entries in the previous list by their full path
    ['E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0', 'E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir1', 'E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir2', 'E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir3', 'E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\file0', 'E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\file1']
    >>>
    >>> for entry in walk_generator:  # Display the rest of the elements (corresponding to every subdir)
    ...     print(entry)
    ...
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0', ['dir00', 'dir01', 'dir02'], [])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0\\dir00', ['dir000'], ['file000'])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0\\dir00\\dir000', [], ['file0000'])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0\\dir01', [], ['file010', 'file011'])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0\\dir02', ['dir020'], [])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0\\dir02\\dir020', ['dir0200'], [])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir0\\dir02\\dir020\\dir0200', [], [])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir1', [], ['file10', 'file11', 'file12'])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir2', ['dir20'], ['file20'])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir2\\dir20', [], ['file200'])
    ('E:\\Work\\Dev\\StackOverflow\\q003207219\\root_dir\\dir3', [], [])

    • シーンでは、それを使用しますos.scandiros.listdir古いバージョン)
    • サブフォルダで繰り返し実行することで、重労働を行います


  1. [Python 3]:グロブ。globpathname、*、recursive = False[Python 3]:glob。iglobpathname、*、recursive = False

    マッチするパス名の可能性-空のリストを返すパス名パス指定を含む文字列でなければなりません。パス名は絶対(など/usr/src/Python-1.5/Makefile)または相対(など../../Tools/*/*.gif)のいずれかで、シェルスタイルのワイルドカードを含めることができます。壊れたシンボリックリンクが結果に含まれます(シェルと同様)。
    ...
    バージョン3.5で変更:「**」を使用した再帰グロブのサポート。


    >>> import glob, os
    >>> wildcard_pattern = "*"
    >>> root_dir = os.path.join("root_dir", wildcard_pattern)  # Match every file/dir name
    >>> root_dir
    'root_dir\\*'
    >>>
    >>> glob_list = glob.glob(root_dir)
    >>> glob_list
    ['root_dir\\dir0', 'root_dir\\dir1', 'root_dir\\dir2', 'root_dir\\dir3', 'root_dir\\file0', 'root_dir\\file1']
    >>>
    >>> [item.replace("root_dir" + os.path.sep, "") for item in glob_list]  # Strip the dir name and the path separator from begining
    ['dir0', 'dir1', 'dir2', 'dir3', 'file0', 'file1']
    >>>
    >>> for entry in glob.iglob(root_dir + "*", recursive=True):
    ...     print(entry)
    ...
    root_dir\
    root_dir\dir0
    root_dir\dir0\dir00
    root_dir\dir0\dir00\dir000
    root_dir\dir0\dir00\dir000\file0000
    root_dir\dir0\dir00\file000
    root_dir\dir0\dir01
    root_dir\dir0\dir01\file010
    root_dir\dir0\dir01\file011
    root_dir\dir0\dir02
    root_dir\dir0\dir02\dir020
    root_dir\dir0\dir02\dir020\dir0200
    root_dir\dir1
    root_dir\dir1\file10
    root_dir\dir1\file11
    root_dir\dir1\file12
    root_dir\dir2
    root_dir\dir2\dir20
    root_dir\dir2\dir20\file200
    root_dir\dir2\file20
    root_dir\dir3
    root_dir\file0
    root_dir\file1

    • 用途 os.listdir
    • 大きなツリーの場合(特に再帰がオンの場合)、iglobが推奨されます
    • 名前に基づいて高度なフィルタリングを可能にします(ワイルドカードにより)


  1. [Python 3]:クラスパスライブラリ。パス* pathsegmentsPython 3.4 +、バックポート:[PyPI]:pathlib2

    >>> import pathlib
    >>> root_dir = "root_dir"
    >>> root_dir_instance = pathlib.Path(root_dir)
    >>> root_dir_instance
    WindowsPath('root_dir')
    >>> root_dir_instance.name
    'root_dir'
    >>> root_dir_instance.is_dir()
    True
    >>>
    >>> [item.name for item in root_dir_instance.glob("*")]  # Wildcard searching for all direct descendants
    ['dir0', 'dir1', 'dir2', 'dir3', 'file0', 'file1']
    >>>
    >>> [os.path.join(item.parent.name, item.name) for item in root_dir_instance.glob("*") if not item.is_dir()]  # Display paths (including parent) for files only
    ['root_dir\\file0', 'root_dir\\file1']

    • これは私たちの目標を達成する一つの方法です
    • パスを処理するOOPスタイルです
    • 多くの機能を提供します


  1. [Python 2]:dircache.listdir(path)Python 2のみ)


    def listdir(path):
        """List directory contents, using cache."""
        try:
            cached_mtime, list = cache[path]
            del cache[path]
        except KeyError:
            cached_mtime, list = -1, []
        mtime = os.stat(path).st_mtime
        if mtime != cached_mtime:
            list = os.listdir(path)
            list.sort()
        cache[path] = mtime, list
        return list


  1. [man7]:OPENDIR(3) / [man7]:READDIR(3) / [man7]:[Python 3]を介したCLOSEDIR(3):ctypes-Python用の外部関数ライブラリPOSIX固有)

    ctypesはPython用の外部関数ライブラリです。C互換のデータ型を提供し、DLLまたは共有ライブラリの関数を呼び出すことができます。これらのライブラリを純粋なPythonでラップするために使用できます。

    code_ctypes.py

    #!/usr/bin/env python3
    
    import sys
    from ctypes import Structure, \
        c_ulonglong, c_longlong, c_ushort, c_ubyte, c_char, c_int, \
        CDLL, POINTER, \
        create_string_buffer, get_errno, set_errno, cast
    
    
    DT_DIR = 4
    DT_REG = 8
    
    char256 = c_char * 256
    
    
    class LinuxDirent64(Structure):
        _fields_ = [
            ("d_ino", c_ulonglong),
            ("d_off", c_longlong),
            ("d_reclen", c_ushort),
            ("d_type", c_ubyte),
            ("d_name", char256),
        ]
    
    LinuxDirent64Ptr = POINTER(LinuxDirent64)
    
    libc_dll = this_process = CDLL(None, use_errno=True)
    # ALWAYS set argtypes and restype for functions, otherwise it's UB!!!
    opendir = libc_dll.opendir
    readdir = libc_dll.readdir
    closedir = libc_dll.closedir
    
    
    def get_dir_content(path):
        ret = [path, list(), list()]
        dir_stream = opendir(create_string_buffer(path.encode()))
        if (dir_stream == 0):
            print("opendir returned NULL (errno: {:d})".format(get_errno()))
            return ret
        set_errno(0)
        dirent_addr = readdir(dir_stream)
        while dirent_addr:
            dirent_ptr = cast(dirent_addr, LinuxDirent64Ptr)
            dirent = dirent_ptr.contents
            name = dirent.d_name.decode()
            if dirent.d_type & DT_DIR:
                if name not in (".", ".."):
                    ret[1].append(name)
            elif dirent.d_type & DT_REG:
                ret[2].append(name)
            dirent_addr = readdir(dir_stream)
        if get_errno():
            print("readdir returned NULL (errno: {:d})".format(get_errno()))
        closedir(dir_stream)
        return ret
    
    
    def main():
        print("{:s} on {:s}\n".format(sys.version, sys.platform))
        root_dir = "root_dir"
        entries = get_dir_content(root_dir)
        print(entries)
    
    
    if __name__ == "__main__":
        main()

    • libc(現在のプロセスに読み込まれている)から3つの関数を読み込み、それらを呼び出します(詳細については、[SO]を確認してください。例外なくファイルが存在するかどうかを確認するにはどうすればよいですか?(@CristiFatiの回答) -項目#4の最後のメモ)。それはこのアプローチをPython / Cエッジに非常に近づけます
    • LinuxDirent64は、[man7]からの構造dirent64のctypes表現です私のマシンからのdirent.h(0P)DT_定数も同様):Ubtu 16 x644.10.0-40-genericおよびlibc6-dev:amd64)。他のフレーバー/バージョンでは、構造体の定義が異なる場合があります。異なる場合は、ctypesエイリアスを更新する必要があります。そうでない場合、未定義の動作になります
    • データをos.walkの形式で返します。私はそれを再帰的にすることを気にしませんでしたが、既存のコードから始めて、それはかなり簡単な仕事でしょう
    • Winでもすべて実行可能で、データ(ライブラリ、関数、構造体、定数など)が異なります


    出力

    [cfati@cfati-ubtu16x64-0:~/Work/Dev/StackOverflow/q003207219]> ./code_ctypes.py
    3.5.2 (default, Nov 12 2018, 13:43:14)
    [GCC 5.4.0 20160609] on linux
    
    ['root_dir', ['dir2', 'dir1', 'dir3', 'dir0'], ['file1', 'file0']]


  1. [ActiveState.Docs]:win32file.FindFilesWWin固有)

    Windows Unicode APIを使用して、一致するファイル名のリストを取得します。API FindFirstFileW / FindNextFileW / Find close関数へのインターフェース。


    >>> import os, win32file, win32con
    >>> root_dir = "root_dir"
    >>> wildcard = "*"
    >>> root_dir_wildcard = os.path.join(root_dir, wildcard)
    >>> entry_list = win32file.FindFilesW(root_dir_wildcard)
    >>> len(entry_list)  # Don't display the whole content as it's too long
    8
    >>> [entry[-2] for entry in entry_list]  # Only display the entry names
    ['.', '..', 'dir0', 'dir1', 'dir2', 'dir3', 'file0', 'file1']
    >>>
    >>> [entry[-2] for entry in entry_list if entry[0] & win32con.FILE_ATTRIBUTE_DIRECTORY and entry[-2] not in (".", "..")]  # Filter entries and only display dir names (except self and parent)
    ['dir0', 'dir1', 'dir2', 'dir3']
    >>>
    >>> [os.path.join(root_dir, entry[-2]) for entry in entry_list if entry[0] & (win32con.FILE_ATTRIBUTE_NORMAL | win32con.FILE_ATTRIBUTE_ARCHIVE)]  # Only display file "full" names
    ['root_dir\\file0', 'root_dir\\file1']


  1. トリックを行ういくつかの(その他の)サードパーティパッケージをインストールする
    • ほとんどの場合、上記の1つ(または複数)に依存します(わずかなカスタマイズが必要な場合があります)


  • コードは移植可能(マークされている特定の領域をターゲットとする場所を除く)またはクロスすることを意図しています:

    • プラットフォーム(NixWin、)
    • Pythonバージョン(2、3、)
  • 上記のバリアント全体で複数のパススタイル(絶対、相対)を使用して、使用した「ツール」がこの方向に柔軟であることを示しました

  • os.listdirそしてos.scandiropendir / readdir / closedir[MS.Docs]:FindFirstFileW function / [MS.Docs]:FindNextFileW function / [MS.Docs]:FindClose function)([GitHub]:python / cpython-(master)cpython /を使用) Modules / posixmodule.c

  • win32file.FindFilesWこれらの(Win固有の)関数も使用します([GitHub]経由:mhammond / pywin32-(マスター)pywin32 / win32 / src / win32file.i

  • _get_dir_content(ポイント#1から)は、これらのアプローチのいずれかを使用して実装できます(いくつかはより多くの作業を必要とし、いくつかはより少なくなります)

    • いくつかの高度なフィルタリング(ファイルディレクトリだけでなく)を実行できます。たとえば、include_folders引数を、引数としてパスをとる関数となる別の引数(たとえば、filter_func)に置き換えることができます(これは取り除かfilter_func=lambda x: Trueません)何か)そして_get_dir_contentの内部のようなもの:(if not filter_func(entry_with_path): continue関数が1つのエントリで失敗した場合、スキップされます)しかし、コードが複雑になるほど、実行に時間がかかります
  • ノタベネ!再帰が使用されているので、ラップトップ(Win 10 x64)でいくつかのテストを実行したが、この問題とはまったく無関係であり、再帰レベルが(990 .. 1000)範囲のどこかの値に達したとき(recursionlimit -1000 (デフォルト))、StackOverflowを取得しました:)。ディレクトリツリーがその制限を超えている場合(私はFSのエキスパートではないので、それが可能かどうかさえわかりません)、それが問題になる可能性があります。
    私はまた、この分野での経験がないため、再帰制限を増加させようとはしなかったことにも言及する必要があります(OSでスタックを増やす前に、どれだけ増やすことができますか?レベル)、しかし理論的には、dirの深さが可能な最大の再帰制限(そのマシン上で)より大きい場合、常に障害が発生する可能性があります。

  • コードサンプルは、説明のみを目的としています。私は(私はないと思うのアカウントのエラー処理に時間はかからなかったということを意味試し / 除く / / 最後にコードが堅牢ではないので、ブロック)が(理由は次のとおりです。単純に短い可能な限りそれを維持します)。以下のために生産、エラーハンドリングは良くとして追加する必要があります

その他のアプローチ:

  1. ラッパーとしてのみPythonを使用する

    • すべては別のテクノロジーを使用して行われます
    • そのテクノロジーはPythonから呼び出されます
    • 私が知っている最も有名なフレーバーは、私がシステム管理者アプローチと呼んでいるものです。

      • 使用のPython実行するために(またはそのことについては任意のプログラミング言語)シェルコマンドを(その出力を解析)
      • これはきちんとしたハックだと考える人もいます
      • アクション自体はシェル(この場合はcmd)から実行されるため、Pythonとは何の関係もないため、私はそれを下手な回避策(gainarie)のように考えています。
      • フィルタリング(grep/ findstr)または出力フォーマットは両側で行うことができますが、私はそれを主張するつもりはありません。また、私は意図的にのos.system代わりに使用しましたsubprocess.Popen
      (py35x64_test) E:\Work\Dev\StackOverflow\q003207219>"e:\Work\Dev\VEnvs\py35x64_test\Scripts\python.exe" -c "import os;os.system(\"dir /b root_dir\")"
      dir0
      dir1
      dir2
      dir3
      file0
      file1

    一般に、このアプローチは避けてください。OSのバージョンやフレーバーによってコマンド出力形式が少し異なる場合は、解析コードも変更する必要があるためです。ロケール間の違いは言うまでもありません)。


48

同じ名前のモジュールのadamkの回答、あなたが使用することを提案することを本当に気に入っていますglob()。これにより、*s とのパターンマッチングが可能になります。

しかし、他の人々がコメントで指摘したように、glob()一貫性のないスラッシュの方向につまずく可能性があります。それを支援するために、私はあなたが使用することをお勧めjoin()expanduser()の関数をos.pathモジュール、そしておそらくgetcwd()内の関数osだけでなく、モジュール。

例として:

from glob import glob

# Return everything under C:\Users\admin that contains a folder called wlp.
glob('C:\Users\admin\*\wlp')

上記はひどいです-パスはハードコードされており、Windowsでドライブ名と\パスにハードコードされているsの間でのみ機能します。

from glob    import glob
from os.path import join

# Return everything under Users, admin, that contains a folder called wlp.
glob(join('Users', 'admin', '*', 'wlp'))

上記はうまく機能しますUsersが、Windowsでよく見られ、他のOSではあまり見られないフォルダー名に依存しています。また、特定の名前を持つユーザーに依存していますadmin

from glob    import glob
from os.path import expanduser, join

# Return everything under the user directory that contains a folder called wlp.
glob(join(expanduser('~'), '*', 'wlp'))

これはすべてのプラットフォームで完全に機能します。

プラットフォーム間で完全に動作し、少し異なることを行う別の素晴らしい例:

from glob    import glob
from os      import getcwd
from os.path import join

# Return everything under the current directory that contains a folder called wlp.
glob(join(getcwd(), '*', 'wlp'))

これらの例が、標準のPythonライブラリモジュールにあるいくつかの関数の力を理解するのに役立つことを願っています。


4
Extra glob fun:Python 3.5以降では、**を設定している限り機能しますrecursive = True。こちらのドキュメントをご覧ください:docs.python.org/3.5/library/glob.html#glob.glob
ArtOfWarfare

36
def list_files(path):
    # returns a list of names (with extension, without full path) of all files 
    # in folder path
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(name)
    return files 

ありがとう!動作します!完璧!
ambigus9

23

findの Python実装を探している場合、これは私がかなり頻繁に使用するレシピです。

from findtools.find_files import (find_files, Match)

# Recursively find all *.sh files in **/usr/bin**
sh_files_pattern = Match(filetype='f', name='*.sh')
found_files = find_files(path='/usr/bin', match=sh_files_pattern)

for found_file in found_files:
    print found_file

それでPyPI パッケージを作成し、GitHubリポジトリもあります。誰かがこのコードに潜在的に役立つことを誰かが見つけてくれることを願っています。


14

より優れた結果を得るには、ジェネレーターと一緒にモジュールのlistdir()メソッドを使用できますos(ジェネレーターは、その状態を保持する強力なイテレーターです)。次のコードは、Python 2とPython 3の両方のバージョンで正常に動作します。

ここにコードがあります:

import os

def files(path):  
    for file in os.listdir(path):
        if os.path.isfile(os.path.join(path, file)):
            yield file

for file in files("."):  
    print (file)

このlistdir()メソッドは、指定されたディレクトリのエントリのリストを返します。このメソッドos.path.isfile()True、指定されたエントリがファイルの場合に戻ります。そして、yieldオペレーターはfuncを終了しますが、現在の状態を維持し、ファイルとして検出されたエントリーの名前のみを返します。上記のすべてにより、ジェネレーター関数をループすることができます。


11

絶対ファイルパスのリストを返し、サブディレクトリに再帰しません

L = [os.path.join(os.getcwd(),f) for f in os.listdir('.') if os.path.isfile(os.path.join(os.getcwd(),f))]

2
注:のos.path.abspath(f)代わりにいくらか安くなるでしょうos.path.join(os.getcwd(),f)
ShadowRanger

あなたがから始めてcwd = os.path.abspath('.')、冗長なシステムコールの負荷を回避するためcwd'.'、代わりに、そしてos.getcwd()全体を通して使用した場合、私はまだより効率的です。
Martijn Pieters

10
import os
import os.path


def get_files(target_dir):
    item_list = os.listdir(target_dir)

    file_list = list()
    for item in item_list:
        item_dir = os.path.join(target_dir,item)
        if os.path.isdir(item_dir):
            file_list += get_files(item_dir)
        else:
            file_list.append(item_dir)
    return file_list

ここでは再帰的な構造を使用しています。


同じだけで1行で達成することができるpathlibfilter(Path.is_file, Path().rglob('*'))
ゲオルギー

9

賢明な先生は私に一度言った:

何かを行うための確立された方法がいくつかある場合、それらすべてがすべての場合に適しているわけではありません。

したがって、問題のサブセットの解決策を追加します。多くの場合、サブディレクトリに移動せずに、ファイルが開始文字列と終了文字列に一致するかどうかを確認するだけです。したがって、次のようなファイル名のリストを返す関数が必要です。

filenames = dir_filter('foo/baz', radical='radical', extension='.txt')

最初に2つの関数を宣言する場合は、次のようにすることができます。

def file_filter(filename, radical='', extension=''):
    "Check if a filename matches a radical and extension"
    if not filename:
        return False
    filename = filename.strip()
    return(filename.startswith(radical) and filename.endswith(extension))

def dir_filter(dirname='', radical='', extension=''):
    "Filter filenames in directory according to radical and extension"
    if not dirname:
        dirname = '.'
    return [filename for filename in os.listdir(dirname)
                if file_filter(filename, radical, extension)]

このソリューションは、正規表現で簡単に一般化できます(patternパターンを常にファイル名の先頭または末尾に固定したくない場合は、引数を追加することもできます)。


6

ジェネレーターの使用

import os
def get_files(search_path):
     for (dirpath, _, filenames) in os.walk(search_path):
         for filename in filenames:
             yield os.path.join(dirpath, filename)
list_files = get_files('.')
for filename in list_files:
    print(filename)

4

Python 3.4以降の非常に読みやすい別のバリアントは、pathlib.Path.globを使用することです。

from pathlib import Path
folder = '/foo'
[f for f in Path(folder).glob('*') if f.is_file()]

より具体的にするのは簡単です。たとえば、すべてのサブディレクトリで、シンボリックリンクではないPythonソースファイルのみを検索します。

[f for f in Path(folder).glob('**/*.py') if not f.is_symlink()]

3

これが私の汎用機能です。ファイル名ではなくファイルパスのリストが返されます。それはそれを多用途にするいくつかのオプションの引数があります。たとえば、pattern='*.txt'やなどの引数を使用してよく使用しますsubfolders=True

import os
import fnmatch

def list_paths(folder='.', pattern='*', case_sensitive=False, subfolders=False):
    """Return a list of the file paths matching the pattern in the specified 
    folder, optionally including files inside subfolders.
    """
    match = fnmatch.fnmatchcase if case_sensitive else fnmatch.fnmatch
    walked = os.walk(folder) if subfolders else [next(os.walk(folder))]
    return [os.path.join(root, f)
            for root, dirnames, filenames in walked
            for f in filenames if match(f, pattern)]

2

ソースパスとファイルタイプを入力として提供できるサンプルの1つのライナーを提供します。コードは、csv拡張子を持つファイル名のリストを返します。を使用します。すべてのファイルを返す必要がある場合。これにより、サブディレクトリも再帰的にスキャンされます。

[y for x in os.walk(sourcePath) for y in glob(os.path.join(x[0], '*.csv'))]

必要に応じて、ファイル拡張子とソースパスを変更します。


1
使用する場合はglob、そのまま使用してくださいglob('**/*.csv', recursive=True)。でこれを組み合わせる必要ありませんがos.walk()再帰的にする(recursive**はPython 3.5以降でサポートされています)。
Martijn Pieters


2

dircacheは「バージョン2.6で廃止:dircacheモジュールはPython 3.0で削除されました。」

import dircache
list = dircache.listdir(pathname)
i = 0
check = len(list[0])
temp = []
count = len(list)
while count != 0:
  if len(list[i]) != check:
     temp.append(list[i-1])
     check = len(list[i])
  else:
    i = i + 1
    count = count - 1

print temp

17
dirchacheは「バージョン2.6で非推奨:dircacheモジュールはPython 3.0で削除されました。」
Daniel Reis
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.