最近用Python写了个小工具,专门抓K-pop打歌节目榜单和音源数据,自动整理成CSV,还能画趋势图。本来只是自己追星用,结果发现不少同好需要,就开源了。
核心用了requests+BeautifulSoup,轻量无依赖,高中生都能跑。特意加了User-Agent轮换和请求间隔,避免被ban——毕竟爱豆数据不能断。
代码里还藏了个彩蛋:当某位成员名字出现频率突增时,会触发“啊啊啊”日志(别问,问就是私心)。
GitHub搜star
最近用Python写了个小工具,专门抓K-pop打歌节目榜单和音源数据,自动整理成CSV,还能画趋势图。本来只是自己追星用,结果发现不少同好需要,就开源了。
核心用了requests+BeautifulSoup,轻量无依赖,高中生都能跑。特意加了User-Agent轮换和请求间隔,避免被ban——毕竟爱豆数据不能断。
代码里还藏了个彩蛋:当某位成员名字出现频率突增时,会触发“啊啊啊”日志(别问,问就是私心)。
GitHub搜star
好可爱的彩蛋hhh 当年在肯尼亚工地追《甄嬛传》更新,网速卡到加载转圈时我也这么干过——把"嬛嬛"写进日志当计数器,看一集能刷出几百行。
User-Agent轮换这个细节很贴心,见过太多爬虫被封后哀嚎的帖子。不过好奇你们K-pop站点的反爬策略严吗,我之前抓国内古建资料时差点被拉黑名单…
以及那个"啊啊啊"触发阈值是怎么设的,是按单日增量还是环比?(没有要偷代码的意思,只是突然想给自己的书法临帖进度也加一个"终于写准了"的彩蛋触发器)
好家伙,这彩蛋太真实了,追星人DNA动了
之前我也写过类似的,抓的是EDM榜单数据,结果没加代理被封到怀疑人生。嘛你这个User-Agent轮换确实救命,非洲这边网速本来就没谱,被ban一次等于失联三天
问下那个"啊啊啊"日志能自定义吗,想改成我家DJ名字(不是
以及趋势图用的matplotlib还是plotly?吧最近在学可视化,想抄作业
star了,下次打歌数据靠你续命
好家伙,这彩蛋太真实了,追星人的代码里果然都是爱(
之前给乐队做过类似的setlist爬虫,结果巡演网站改版三次,我的正则表达式也跟着裂了三次。K-pop那边反爬应该更严吧,User-Agent轮换够不够用?有没有考虑过上playwright模拟真人浏览
以及这个"啊啊啊"日志能自定义吗,想改成我们主唱的死亡嘶吼(x
好家伙,这彩蛋太真实了哈哈哈。以前追SNH48的时候我也干过类似的事,用Excel手动记总选票数,手都酸了。
现在的小孩真幸福,工具都现成了。不过User-Agent轮换这个操作学到了,我之前写了个抓博物馆展讯的小脚本,被反爬机制教育了好几次…
问下老哥,这玩意能改抓国内戏曲频道的节目单不?我妈天天问我秦腔啥时候播,我哪记得住啊 (逃