广告位 |
您现在的位置是:主页 > SEO工具 >
批量采集抖音作品(2021.02.01更新)
2021-02-08 10:26SEO工具 人已围观
简介初学Python之作,软件使用为方便本人,如有需要自取。 抖音作品采集工具已经很多,本工具主要是用于这种情况:下载了某个用户的作品后又有更新了,再用以往的工具不是很方便(往...
初学Python之作,软件使用为方便本人,如有需要自取。 抖音作品采集工具已经很多,本工具主要是用于这种情况:下载了某个用户的作品后又有更新了,再用以往的工具不是很方便(往往需全部解析,下载也可能会重复)。用法很简单,程序没有窗口,使用的是Python的标准输出界面,无需额外操作,只需在使用前建立好相应文件夹即可,具体如下: 这里只作简单介绍,具体使用方法请到网盘文件夹下载“Win10完整5分半操作演示(视频有注释).rar”,解压到观看演示即可。 使用中有问题,请先看看介绍或在论坛帖子中有没有提到类似情况 功能设置在“设置.ini”文件中,首次使用必须设置“作品保存总目录”并对应建立好此目录;需使用某一功能时,请认真查看“设置.ini”中的详细说明,此说明中只是简单介绍。 1.先打开工具目录下的"设置.ini"文件,将里面的"作品保存总目录=D:\DyDown"对应的文件夹修改为自己需保存抖音作品的地方,如"E:\抖音作品保存"之类 2.建立好相应文件夹,首先必须要有刚设置的那个总目录 然后在总目录下建立每个需采集的抖音用户的子目录,格式如图(图片中括号为全角括号,一般中文输入法输入即是) 3.准备工作已经就绪,直接运行程序即可,界面如下: 4.耐心等待程序结束,在对应目录自动保存好以作品ID开头的视频文件了(因为有些用户作品太多,所以分年度、季度保存) 5.程序结束后,将自动显示日志文本文件 在下次再次运行时将自动跳过用户已有作品 压缩包内含32位版本(可用于XP),在WinXP/Win7(32位、64位)/Win10(32位、64位)精简版虚拟机无Python环境测试通过 如有问题,可反馈,但不一定更新 程序目录下必须要有aria2c.exe用于多线程下载无水印视频文件,64位程序附带的是1.35.0版本,32位程序附带的是1.18.0版本,均为官网下载,不放心请自行下载并保存到程序目录下。设置.ini文件也必须在程序目录下,否则无法处理的。 建立的文件夹层次如下: 作品保存总目录-用户名1(短链接字符) -用户名2(短链接字符) …… 用户名可以随意填写,不需要与抖音上显示的一致,但短链接字符不能有误(有误可能会出现获取SEC_UID失败,无法继续的情况) 下载地址(网盘文件夹形式): https://wwa.lanzous.com/b084058hi 密码:3345 2021.02.01 针对前面一段时间总是出现超过最大重试次数无法采集再次运行又保存了新的作品数无法重新采集的问题,增加“不判断是否有新作品直接读取作品列表”选项,此选项对每位作者为分别单独设置,运行一次新版程序将在每位作者目录下的“作者信息.txt”最前面加入两行内容,如果需要开启“不判断是否有新作品直接读取作品列表”功能,请在“作者信息.txt”中设置,详情请运行新版程序后查看“作者信息.txt”(不要改动第二行的文字) 2021.01.24 加入在程序结束时日志是否显示的开关,方便自动化采集的用户,具体请看“设置.ini” 2021.01.22(版本功能通过其他操作可以代替,因此未提供,不过后期版本均加入此功能,仅测试Win10可用,XP肯定不能用) 在加入任务计划后无法获取程序目录,导致无法运行的问题,加入了通过创建任务计划时生成的xml文件来获取程序目录的功能(任务计划名称必须包含“抖音”字样),本功能不适用于XP,Win10下测试没有问题。 2021.01.19 在保存Excel列表时可设置为加上创建时间的“视频列表202101191010.xlsx”格式,请在“设置.ini”自行开启此功能(仅在保存Excel视频列表文件时有效,“设置.ini”文件中设置“作品列表保存为Excel=1”) 需要注意的是:解析出来的链接存在有效期限的,时间长了好像用不了的,请自行测试 2021.01.10 有时文案确实很简单,只有“#、@”开头的文字,这样未自定义文件名格式时保存的文件名就只有视频ID全是数字了,看着确实不好看,因此在“设置.ini”中添加选项,想保留的保留,不想保留的保持原样就行 2021.01.09 新增功能:在“设置.ini”中可以设置视频文件保存的文件名格式,请务必认真查看“设置.ini”后再使用此功能 同时网盘中的“总是下载失败重新解析小工具”相应进行更新,如果使用了新版本的主程序且自定义了保存的文件名格式,务必使用此新版小工具 2021.01.04 针对提出的“规定解析多少视频”问题,考虑到确实有些抖音作者发布视频特别多而前面发布的旧作品又有一定时效性(如“四川观察”,截止我编辑这些文字时已经有8500多个作品了,前面的一些新闻关注度不高),再完整采集确实没有必要,特增加功能:在“设置.ini”中新增选项“最大采集用户新作品数”,设置为非0值时,用于限制采集用户新作品数,当采集到此数量时不再采集用户的其他作品(无论是否还有新作品),设置为0时(默认值),与以前一样,为采集到保存的最新作品ID或完整采集后才停止。 需要注意的是:如果开启了此功能采集用户作品后,再关闭(即设置为0)也无法再采集到用户的旧作品,只能在关闭此功能后清空已采集作品并删除用户目录下的“作者信息.txt”才能完整采集用户所有作品 另:网盘中增加了“总是下载失败重新解析小工具”,如果遇到个别视频解析出的地址始终无法下载,有“下载失败.txt”存在,请下载使用(具体请看小工具压缩包中的说明) 2021.01.02 针对提出的“下载完的视频剪切走或者改名了,再运行软件会重新下一遍”问题,考虑到部分用户可能会有此需求,增加功能:在“作者信息.txt”文件中记录本次采集到的最后一个视频的ID(即作者当前的),在“设置.ini”中新增选项“检测上次最后采集的视频ID”,设置为非0值时,在获取作品列表时将判断是否采集到记录的最后一个视频的ID,采集到则不再继续,防止重复采集已移除的作品;选项设置为0时,与以前一样,将逐一检查作品是否存在,不存在则下载,某一页最后一个作品存在则不再读取下一页。无论选项如果设置,“作者信息.txt”均会开始记录最新作品ID。 2020.12.25(此版本更新的Bug并不影响使用,未提供下载) 修复可能会出现重复用户未能检测到、导致重复创建并下载作品的小Bug,在重复的用户没有新作品时从剪贴板创建和手动建立目录均会出现 2020.12.18 1.为防止误操作连续打开程序引起混乱,程序只能运行一次,再次运行将直接退出。 2.新增在启动时自动根据剪贴板中的内容创建用户功能(设置.ini有选项),可识别抖音APP用户主页分享复制链接的内容(多个用户则连续复制在一起就行),当在手机复制此内容后通过QQ、微信发送到电脑上后或使用在电脑虚拟机上直接复制出的内容,选中后直接按Ctrl+C将内容复制剪贴板,再运行程序即可自动在主目录下创建用户目录将采集解析下载,免去手动输入防止可能出错。如将“在抖音,记录美好生活! https://v.douyin.com/Jqu3TT1/在抖音,记录美好生活! https://v.douyin.com/JqH1GLe/”引号内的内容(随便刷的抖音2个用户然后分享复制链接的内容连在一起的)复制到剪贴板后,再次启动程序时判别出有2个用户链接,将自动建立符合程序要求的用户目录(用户名为昵称仅保留汉字字母数字),之后将进行采集下载。 2020.12.11 重新理顺了一下程序,有些提示和日志记录都不一样了,请注意。 1.多线程获取作品数等用户信息,无需再逐个检查是否有新作品了,我现在采集191个用户,也仅需要2-3秒就能获取所有用户的信息,速度要提高不少的。 2.多线程解析无水印视频地址时能显示已经解析成功、失败的数量,没显示之前会显得是卡几秒的样子。 3.解析成功后直接在后台使用子进程调用“aria2c.exe”进行下载,无需等全部采集解析完成,同步下载可以稍微提高一下速度,基本上在全部解析完成后也下载得差不多了。 4.每个用户下载完毕后即开始移动文件,此时再建立相应的目录,之后再写入“作者信息.txt”文件,以前先建立目录、写入“作者信息.txt”,导致异常退出时存在空目录,而且下次再采集时会跳过此用户,需手动删除“作者信息.txt”重新采集。 5.可以在采集中途中断程序,务必用Ctrl+C快捷键,不要直接关闭控制台窗口(那样无法处理后期已经下载的视频),按一次即可,在多线程解析和重试读取作品页面时暂时不会响应中断请求,读取成功或解析结束才能响应到中断请求,同时后台有视频在下载,也需要等待下载结束(这样可以尽可能地保留已下载完毕用户的视频,免得下次又要处理) 6.控制台实时提示用颜色进行了一点区分,请自行使用查看。 另: 1.缺少api-ms-win-core-path-l1-1-0.dll文件的请用32位版本试试,32位版本在64位系统也是可以运行的,因为我编译的时候64位系统上有个缺少lib警告,但程序使用没有问题,32位系统上编译没有出现这个警告 2.论坛上用户反映WinError:文件系统错误,可能是因为前面的程序多线程解析无水印视频时边解析边建立目录,但没有进行锁定,可能会出现多个线程同时建立同一个目录的情况,此时就会出现这个错误,现在修改后是移动文件时再建立目录,应该不会出现了,请测试 3.如果选择生成Excel列表文件,在运行程序前务必不要打开这个Excel文件,否则无法再次写入,会出现访问拒绝的错误 4.“解析失败.txt”和“下载失败.txt”如果生成了,已经调整为在设置中如果将“启动时自动重试”项设置为0,则会自动删除失败记录,不再弹出对话框询问,建立一定要将“启动时自动重试”项设置为非0值,这样重新运行程序就能自动重试解析/下载了 2020.12.6更新: 1.当保存的用户名(就是那个目录里的)与读取到的用户昵称不一致时,将格外显示读取到的用户昵称,可自行检查是否有问题。 2.在用户目录生成的“作者信息.txt”增加当前总获赞数、当前抖音粉丝数、头像地址3项内容,其中粉丝数仅为抖音粉丝数,在抖音APP中显示的是包含头条粉丝数的总数,头像地址可复制到浏览器直接查看,也可自行下载回来。 3.在“设置.ini”新增“作品列表保存为Excel”选项,设置为1时将会把解析成功的视频保存为列表存入程序目录下的“视频列表.xlsx”文件中,具体信息请打开“设置.ini”查看。 文件名:批量采集抖音作品201206.rar,下载地址看下面12月3日更新 2020.12.3更新: 1.Aria下载过程显示出来了,不然作品太多会长时间停留在下载界面,感觉卡死一样。 2.没有“设置.ini”、“Aria2c.exe”文件或设置有误时以前会直接退出,就像闪退一样,修改后程序退出会显示“日志.txt”,里面有错误信息。 3.有时解析出的地址有误无法下载,但程序误判为解析成功,予以修正,将重新解析,超过10次解析不成功则写入“解析失败.txt”。 4.如果出现解析失败或下载失败的情况,程序目录出现“解析失败.txt”或“下载失败.txt”,下次运行时将询问是否重新解析/下载,如果选择是将重试,选择否将直接删除失败文件。 同时添加了一个XP下的使用方法录屏,供参考,请下载后解压后观看。因为虚拟机XP只有C盘,所以我将保存目录设置为“C:\DyDown”了 视频演示下载的是二楼出错的那个抖音用户(短链接:https://v.douyin.com/JxjCSpu) 二楼可以看看(由于只能看出二楼使用的是32位程序,不知道是XP还是其他,所以用XP作的示范,XP是“Aero止步”制作的虚拟机精简系统,纯净的,未安装任何其他软件) 注意: 0.初学Python,虽然已在多种系统环境下测试,但程序写得有些乱,难免会有Bug,可反馈,不过不一定能修正,如有修正,会上传到上面蓝奏盘目录内,可自行提取 1.程序和要保存作品的目录最好在一个磁盘上,因为用Aria命令行下载不支持中文文件名,所以采取先下载后移动的方法,如果程序和要保存作品的目录不在一个磁盘上,移动将会比较费时。临时保存目录为程序下的Temp目录,每次运行程序将会清空删除此目录 2.日志文件每次运行将会重写,需要留存以前日志的自行备份 3.如果解析无水印视频失败会生成“解析失败.txt”(每行内容为视频ID和要保存到的用户目录,中间用制表符分隔),下载不到视频或下载的视频长度为0会生成“下载失败.txt”(每行内容为无水印视频地址和要保存为的含完整路径的文件名,中间用制表符分隔),下次运行可重试解析/下载,请勿随意改动此记录文件,也勿删除变更用户目录。如不需要可直接删除或下次运行时选择否程序予以删除 4.由于视频数不一定和作品数完成相同,所以运行过程中可能出现显示的采集作品数小于作品总数就退出继续处理下一用户的情况,属正常 另:本程序要采集的用户、作品过多时不可避免地很慢,介意勿用。运行时间参考:演示XP下载“四川观察(JxjCSpu)”7645个无水印视频12.4G耗时54分26秒,我自用下载141个用户的98个新作品(其余已下载保存过)耗时11分19秒 |
免费评分
Tags: 初学 采集 批量 更新 2021.02.01 P 作品 抖音
下一篇:没有了
广告位 |
广告位 |
本栏推荐
广告位 |