751984871

@h751984871

有什么办法把自己[看过]的条目按年份爬下来吗,只要年份和名字就行。

2年9月前 via web

  • @eien 默沨 - 不会js也完全没接触过爬虫(bgm38),大概想了一下似乎还行,用sh写了几行小命令。 uid=eien; wget -c "chii.in/anime/list/${uid}/collect" -O tmp.html -q; let num=`grep '</li></ul><div id="multipage">' tmp.html | sed 's/.*page=\([0-9]*\)"\ class="p">&rsaquo;|.*/\1/'`; rm -f tmp.html; touch ${uid}.txt; for ((i=0;i<=num;i++)); do wget -c "chii.in/anime/list/${uid}/collect?page=$i" -O tmp.html -q; grep '<a href="/subject/.*" class="l">' ./tmp.html | sed 's/.*>\(.*\)<\/a>.*/\1/g' > tmp1; grep '<span class="tip_j">' ./tmp.html | sed 's/.*<span class="tip_j">\([0-9]*-[0-9]*-[0-9]*\)<\/span>.*/\1/g' > tmp2; paste tmp2 tmp1 -d "\t" >> ${uid}.txt; rm -f tmp.html tmp1 tmp2; done
  • @eien 默沨 - 把uid=eien这里改成你的,emmm我举得你大概不会,我跑了一下你的,给个邮箱我发给你吧(bgm38)
  • @eien 默沨 - 因为比较蠢所以没有仅自己可见的条目
  • @h751984871 751984871 - @默沨 [email protected]非常感谢默沨(bgm38)!我也没设任何仅自己可见的条目(除少数[想看])或日志。
  • @eien 默沨 - 已发,话说你想要的是你看的时间是吧?
  • @h751984871 751984871 - @默沨 (bgm38)其实是指“发售日”,而且其实只是想要TV标签下的(早上写了个日志)。不过这份收藏表也挺有用的[s]免得bgm哪天炸了[/s],还是谢谢了。
  • @h751984871 751984871 - 已经算是写好日志了所以可以不用爬多一遍了。
  • @eien 默沨 - @751984871 没事,还挺有意思的(bgm38)