楼主:
avans (阿纬)
2025-05-10 14:30:11※ [本文转录自 AI_Art 看板 #1e7l78xk ]
作者: avans (阿纬) 看板: AI_Art
标题: [AIGC] Video Processor using dghs-imgutils
时间: Sat May 10 14:27:15 2025
这里要介绍的是Video Processor using dghs-imgutils专案
他是一个可处理多个动画影片
并依据UI接口设定的检测与分析方式
产出各角色图片的工具
经过人工筛选图片并加上tag后
可再用于训练SD LoRA模型
https://huggingface.co/spaces/avans06/ImgutilsVideoProcessor
因为专案放在huggingface免费空间,线上应该是无法直接执行
建议git clone到本机执行,python需要安装gradio与dghs-imgutils[gpu]
一部23分的影片依电脑等级不同,处理时间约350秒~1000秒之间
以香格里拉动画做测试,其执行结果例子如下
https://i.imgur.com/yQVWShF.png
https://i.imgur.com/610d1rn.png
___
底下说明下UI中各参数的用途
* 取样间隔 (毫秒) (Sample Interval (ms))
设定从影片中撷取影格进行分析的时间间隔,单位是毫秒 (ms)。
___
*人物侦测选项 (Person Detection Options)
启用人物侦测 (Enable Person Detection):
勾选后,程式会尝试在每个取样影格中侦测人物。
最小目标宽度 (影格宽度的百分比) (Min Target Width (% of Frame Width)):
设定被侦测到的人物必须达到的最小宽度(相对于完整影格宽度的百分比),才会被视
为有效目标进行后续处理。例如,0.25 代表人物宽度至少需达到影格宽度的 25%。
人物侦测模型 (PD Model):
选择用于人物侦测的预训练模型。不同的模型在速度和准确度上可能有所差异。
人物侦测信心度阈值 (PD Conf):
设定人物侦测的信心度阈值。只有当模型的预测信心度高于此值时,侦测结果才被接受
人物侦测 IoU 阈值 (PD IoU):
设定人物侦测中用于非极大值抑制 (NMS) 的交并比 (Intersection over Union)
阈值,用来过滤重叠的侦测框。
___
*半身侦测选项 (Half-Body Detection Options)
启用半身侦测 (Enable Half-Body Detection):
勾选后,若“人物侦测”未启用或未侦测到人物,程式会在完整影格上尝试侦测
半身像。
使用半身像作为目标 (Use Half-Bodies as Targets):
若启用半身侦测,勾选此项会将侦测到的半身像裁切下来作为主要处理目标。
最小目标宽度 (影格宽度的百分比) (Min Target Width (% of Frame Width)):
设定被侦测到的半身像必须达到的最小宽度(相对于完整影格宽度的百分比),
才会被视为有效目标。
半身侦测模型 (HBD Model):
选择用于半身侦测的预训练模型。
半身侦测信心度阈值 (HBD Conf):
设定半身侦测的信心度阈值。
半身侦测 IoU 阈值 (HBD IoU):
设定半身侦测中用于 NMS 的 IoU 阈值。
___
*脸部侦测选项 (Face Detection Options)
启用脸部侦测 (Enable Face Detection):
勾选后,程式会在已识别的主要目标(如人物或半身像)上进行脸部侦测。
裁切侦测到的脸部 (Crop Detected Faces):
若启用脸部侦测,勾选此项会将侦测到的脸部裁切下来并单独储存。
最小裁切宽度 (父影像宽度的百分比) (Min Crop Width (% of Parent Width)):
设定脸部裁切的最小宽度,此百分比是相对于其父影像(即人物或半身像的裁切图)
的宽度。
脸部侦测信心度阈值 (FD Conf):
设定脸部侦测的信心度阈值。
脸部侦测 IoU 阈值 (FD IoU):
设定脸部侦测中用于 NMS 的 IoU 阈值。
过滤未侦测到脸部的目标 (Filter Targets Without Detected Faces):
若勾选,则主要目标(如人物、半身像)如果未能在其上侦测到任何脸部,则该主要
目标将被过滤掉,不进行后续处理和储存。
___
*头部侦测选项 (Head Detection Options)
启用头部侦测 (Enable Head Detection):
勾选后,程式会在已识别的主要目标上进行头部侦测。
裁切侦测到的头部 (Crop Detected Heads):
若启用头部侦测,勾选此项会将侦测到的头部裁切下来并单独储存(需满足最小宽度)
最小裁切宽度 (父影像宽度的百分比) (Min Crop Width (% of Parent Width)):
设定头部裁切的最小宽度,此百分比是相对于其父影像的宽度。
头部侦测模型 (HD Model):
选择用于头部侦测的预训练模型。
头部侦测信心度阈值 (HD Conf):
设定头部侦测的信心度阈值。
头部侦测 IoU 阈值 (HD IoU):
设定头部侦测中用于 NMS 的 IoU 阈值。
过滤未侦测到头部的目标 (Filter Targets Without Heads):
若勾选,则主要目标如果未能在其上侦测到任何头部,则该主要目标将被过滤掉。
___
*CCIP 分类选项 (CCIP Classification Options)
启用 CCIP 分类 (Enable CCIP Classification):
勾选此项以启用 CCIP 特征提取与分类。程式会根据图片内容的相似性将图片分到不同
的丛集(资料夹)中。资料夹会根据内部图片数量排序命名。
CCIP 模型 (CCIP Model):
选择用于 CCIP 特征提取的模型。
CCIP 相似度阈值 (CCIP Similarity Threshold):
设定 CCIP 分类的相似度阈值。两张图片的 CCIP 特征向量差异小于此阈值时,被认为
属于同一个丛集。值越小,代表对相似度的要求越高。
___
*LPIPS 聚类选项 (LPIPS Clustering Options)
启用 LPIPS 聚类 (Enable LPIPS Clustering):
勾选此项以启用 LPIPS 聚类。LPIPS 是一种衡量图片感知相似度的指标,用于将视觉上
相似的图片分组。如果 CCIP 分类已启用,LPIPS 聚类会在每个 CCIP 丛集内部进行;否
则,会在所有收集到的图片上进行全域聚类。
LPIPS 相似度阈值 (LPIPS Similarity Threshold):
设定 LPIPS 聚类的相似度阈值。两张图片的 LPIPS 距离小于此阈值时,被认为属于
同一个丛集。值越小,代表对相似度的要求越高。
___
*美学分析选项 (Aesthetic Analysis Options)
启用美学分析 (动漫风格) (Enable Aesthetic Analysis (Anime)):
勾选此项以启用基于动漫风格的美学评分模型。分析结果(如 great, good, normal,
low, worst)会作为标签加到图片档名的最前面。分析结果仅供参考不一定准确。
美学模型 (Aesthetic Model):
选择用于美学分析的预训练模型。
___
本专案有使用Gemini补助开发且功能设计概念参考了
cybermeow作者制作的anime_screenshot_pipeline专案
#1ZrgoSI5 (AI_Art) [AI] 练了个怕痛的模型
https://github.com/cyber-meow/anime_screenshot_pipeline
anime_screenshot_pipeline是使用waifuc套件的command-line接口程式
ImgutilsVideoProcessor 是使用dghs-imgutils具有UI接口程式
上述两个专案核心套件(waifuc、dghs-imgutils)皆为DeepGHS团队开发设计的
https://github.com/deepghs
PS. waifuc专案的核心套件是dghs-imgutils并重新包装改写