『大发网盟』

收益高、结算快、超稳定,直营无中间商差价

『1866资源网』

全网最早的资源,实力雄厚,速度超快,超稳定

『78免费网盘』

永久免费的多媒体转码与云分发平台,无限存储

『209资源网』

全网唯一一家全亚洲服务器加速播放,速度超快

『推荐模板服务商』

海洋CMS官方推荐可信赖模板制作服务商家

没有流量,要删库跑路了,分享一个自用的自动采集任务的脚本

零流量 2月前 2283

* 针对Liunx,Windows自行扩展。

* 需要Python3支持。


* 首先根据 https://www.seacms.net/thread-938.htm 设置密码


* 脚本目录

├── README.md
├── data
│   └── job-data.txt
├── logs
│   └── job-log-2019-08-12.log
└── sbin
    └── job.py

1.data目录 job-data.txt 文件为需要采集的url地址的参数部分,一行一条 如:

    ?ac=day&rid=33uudy&url=http://cj.156zy.me/inc/seacmsapi.php&password=你的密码

    ?ac=day&rid=zuikzy&url=http://cj.zuikzy.com/inc/seacmsapi.php&password=你的密码

2.sbin目录 job.py 为脚本文件:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import datetime
import requests
web_site = 'http://你的域名/你的后台地址/admin_reslib2.php'
to_day = datetime.datetime.now()
content_str = "location.href='"
def get_content(url):
    # print('get_content: ---> url: ---> %s' %(url))
    r = requests.get(url)
    content = r.content.decode('utf-8')
    # print('get_content: ---> return: ---> %s...' %(content[0 : 10]))
    index_of = len(content_str) + content.index(content_str)
    next_url = content[index_of : ]
    next_url = next_url[ : next_url.index("'")]
    return next_url
fo = open("../data/job-data.txt", "r")
f = open("../logs/job-log-%s.log" %(to_day.strftime('%Y-%m-%d')), "a")
for line in fo.readlines():
    web_param = line.strip()
    if web_param != '':
        while web_param[0 : 1] == '?':
            f.write('main: ---> web_param: ---> %s%s\n' %(web_site, web_param))
            print('main: ---> web_param: ---> %s%s' %(web_site, web_param))
            try:
                web_param = get_content(web_site + web_param)
            except Exception as err:
                web_param = ''
                print('%s ---> ERROR ---> %s' %(to_day.strftime('%Y-%m-%d %H:%M:%S'), err))
                f.write('%s ---> ERROR ---> %s' %(to_day.strftime('%Y-%m-%d %H:%M:%S'), err))
        else:
            f.write("%s ---> done\n" %(to_day.strftime('%Y-%m-%d %H:%M:%S')))
            print("%s ---> done" %(to_day.strftime('%Y-%m-%d %H:%M:%S')))
f.close()
fo.close()


* 设置定时任务

1.下载解压附件脚本

2.如果是宝塔



* 可根据个人环境适当修改,不做赘述。



上传的附件:
最新回复 (14)
  • wzc 2月前
    0 引用 2
    这个东西很不错!,可以采集第二页吗?
  • zhhacker 2月前
    0 引用 3
    我试过了 可以采集第二页 巨牛皮  现在用的爽歪歪
  • 0 引用 4
    这个文件上传宝塔什么地方
  • zhhacker 2月前
    0 引用 5
    海洋真的强 这个文件上传宝塔什么地方
    首先安装Python3  可以放在网站根目录 必须给予777权限 你就是放在另外一个宝塔里面都行 
  • 0 引用 6
    zhhacker 首先安装Python3 可以放在网站根目录 必须给予777权限 你就是放在另外一个宝塔里面都行
    python3在哪安装
  • zhhacker 2月前
    0 引用 7
    自行搜索 装起来比较麻烦 很多坑  
  • 0 引用 8
    zhhacker 自行搜索 装起来比较麻烦 很多坑
    装好了 但是采集不了,没有详细的教程
  • 零流量 1月前
    0 引用 9
    public void main(String[] args) {
        // TODO 
        // 30一位,包教包会!
        // QQ:1347921502
    }


  • 0 引用 10

    宝塔不是有个定时执行URL吗?没必要用脚本。

  • weich 1月前
    0 引用 11
    星源影视 宝塔不是有个定时执行URL吗?没必要用脚本。
    那玩意不行.采集不全!
  • 0 引用 12
    海洋真的强 python3在哪安装
    #依赖包
    yum -y groupinstall "Development tools" 
    yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
    
    #下载Python3
    wget https://www.python.org/ftp/python/3.6.2/Python-3.6.2.tar.xz
    
    #创建文件夹
    mkdir /usr/local/python3
    
    #解压编译安
     tar -xvJf  Python-3.6.2.tar.xz
     cd Python-3.6.2
     ./configure --prefix=/usr/local/python3
     make && make install
     
     #软链接
     ln -s /usr/local/python3/bin/python3 /usr/bin/python3
     ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

    在宝塔终端依次执行上面代码即可。

  • 0 引用 13
    weich 那玩意不行.采集不全!
    哇,才发现真的不行,只采集一页,谢谢分享
  • 0 引用 14
    Traceback (most recent call last):
      File "/opt/job/sbin/job.py", line 4, in <module>
        import requests
    ModuleNotFoundError: No module named 'requests'
    ----------------------------------------------------------------------------
    ★[2019-09-20 16:02:41] Successful

    哪个大佬指导下啥问题,以上是宝塔执行的日志。
  • 0 引用 15
    李大爷啊 Traceback (most recent call last):  File "/opt/job/sbin/job.py", line 4, in    import ...

    没有安装 requests 模块
    你可以使用 我发布的shell版本,无需安装,直接复制到宝塔计划任务的脚本内容里

    #!/bin/bash
     
    web_site="http://网站域名/管理目录/admin_reslib2.php"  #设置后台路径
    web_pwd="系统设置cookie密码"   #设置访问密码
    #设置资源站地址,方法是复制每日采集链接按下面格式修改
    web_api=(
        '?ac=day&rid=2&url=http://www.zdziyuan.com/inc/s_ldgm3u8_sea.php' 
        '?ac=day&rid=1&url=https://api.iokzy.com/inc/ldg_seackm3u8s.php' 
        '?ac=day&rid=5&url=http://cj.zuikzy.com/inc/seazkm3u8.php'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/qiyi/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/qq/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/youku/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/mgtv/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/letv/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/sohu/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/pptv/'
        '?ac=day&rid=kukuzy&url=https://www.ckzy.cc/api.php/seacms/vod/at/xml/from/m1905/'
    )
    function get_content() {
     echo  "正在采集第$page页"    
     cResult=$(curl -s  -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)"  "$1" )
    if [ "$?" = "0" ]; then
       echo "done!"
    else
       echo "error:$?" 
      echo "$1" 
    fi
     let page++
     #echo $cResult
    next_url=${cResult##*location.href=\'}
    next_url=${next_url%%\'*}
     if [ "${next_url:0:1}" = "?" ]
        then
        get_content "$web_site$next_url"
       fi   
    #echo $next_url
    }
    for url in ${web_api[@]}; 
    do
        if [ ! -z $url ]
         then
               web_param="$web_site$url&password=$web_pwd"
               page=1
               echo "开始采集:$web_param"
               get_content $web_param 
         fi   
    done


    详细教程:https://www.seacms.net/thread-8238.htm

返回
发新帖