dreambox_tools: comparison dupecheck.py

-:1c0beeca2f9c
+:c18abd9198c0
 #pylint: disable=line-too-long
 #pylint: disable=invalid-name
 from __future__ import print_function
-import difflib
 import os, sys
+def similarity(a, b):
+if DIFFLIB:
+return difflib.SequenceMatcher(a=a, b=b).ratio()
+else:
+return Levenshtein.ratio(a, b)
 class dupechecker(object):
 """
 Simple class to scan multiple directories recursive,
 build a list of movie filenames.
 def __init__(self):
 self.basedir = ""
 self.filelist = []
 self.duplicates = {}
 self.ratio = 0.85
 def reset(self):
 self.filelist = []
 self.duplicates = {}
 print("\r%d %s\033[K" % (
 idx, self.filelist[idx][0]), end='')
 sys.stdout.flush()
 for idx2 in range(idx + 1, listlen):
 if self.filelist[idx2]:
-if difflib.SequenceMatcher(a=self.filelist[idx][0], b=self.filelist[idx2][0]).ratio() > self.ratio:
+if similarity(self.filelist[idx][0], self.filelist[idx2][0]) > self.ratio:
 #print "possible duplicate %d %s" % (idx2, item2[0])
 key = os.path.join(self.filelist[idx][2], self.filelist[idx][1])
-if not key in self.duplicates.keys():
+if not key in self.duplicates:
 self.duplicates[key] = []
 self.duplicates[key].append(
 os.path.join(
 self.filelist[idx2][2],
 self.filelist[idx2][1]
 ))
 # unset the found duplicate, so that this will not be scanned again
 self.filelist[idx2] = None
-print("\n\n\n")
+print("\n\n")
 def output(self):
 """
 Dump found duplicates to console
 """
 idx = 1
-for base in self.duplicates.keys():
+for base in self.duplicates:
 print("Duplicate file set #%i" % idx)
 print(base)
 for dup in self.duplicates[base]:
 print(dup)
 print()
 import argparse
 parser = argparse.ArgumentParser(\
 description='Movie database filename duplicate checker')
 parser.add_argument('--ratio', type=float, default=0.85, \
-help='filename duplicate threshold 0.1 < ratio 1.0')
+help='filename duplicate threshold 0.1 < ratio 1.0 (default 0.85)')
+parser.add_argument('--difflib', action='store_true', default=False, \
+help='force the use of difflib instead Levenshtein')
 parser.add_argument('basedir', metavar='basedir', nargs='+', \
 help='one or more base directories')
 args = parser.parse_args()
 dupe = dupechecker()
 dupe.ratio = args.ratio
+if args.difflib:
+DIFFLIB = True
+import difflib
+else:
+try:
+import Levenshtein
+DIFFLIB = False
+except ImportError:
+import difflib
+DIFFLIB = True
+print("Consider 'pip install python-Levenshtein' for faster analyze")
 for srcstr in args.basedir:
 dupe.scandir(srcstr)
 dupe.analyze()
 dupe.output()

Mercurial > hg-public > dreambox_tools / file comparison

comparison: dupecheck.py

dupecheck.py