มาเข้าเรื่องกันดีกว่าสำหรับเจ้า Mechanize นั้นเป็น module สำหรับสร้าง Object ประเภท web browser เพื่อใช้ในการทำงานร่วมกับ website นั่นเอง โดยที่เราจะต้องติดตั้ง module ดังกล่าวลงไปที่เครื่องของเราเสียก่อน โดยเปิด terminal ขึ้นมาครับ ถ้าใช้ windows ก็เปิด cmd.exe ขึ้นมา แล้วพิมพ์คำสั่ง
pip install mechanize
แล้วกดปุ่ม Enter ได้เลยครับ รอมันทำงานก่อน หลังจากที่ติดตั้งเสร็จแล้วก็มาเริ่มเขียน code กันเลย เปิดโปรแกรม text editor ขึ้นมาครับ ใครถนัดตัวไหนก็ใช้ตัวนั้นครับ ส่วนตัวผมถนัดใช้ sublime text 3 ครับ บรรทัดแรกใส่ shebang ลงไปเสมอ เพื่อให้สามารถรันได้ทั้ง windows และ Unix Base (Linux, Mac OS) คือถ้าไม่ใส่อาจจะใช้ได้เฉพาะบน windows นะครับ หากใครไม่รู้จักหัวข้อถัดไปเลยครับ
Shebang คืออะไร
Shebang ก็คือบรรทัดแรกของ script ที่จะบ่งบอกถึงตัว compiler ที่จะใช้ในการประมวลผล script file ที่ท่านกำลังเขียนอยู่นี่ ในที่นี้ใช้ Python 2.7 ซึ่งจะอยู่ที่บรรทัดแรกของไฟล์เสมอ เพื่อบอกให้ระบบปฏิบัติการทราบว่าต้องใช้ compiler ตัวไหนในการประมวลผล syntax ดังกล่าวนั่นเอง โดยในที่นี้เราใช้ Syntax ของภาษา Python จึงควรเขียน Shebang ดังนี้
#!/usr/bin/python #!/usr/bin/python 2.3 #!/usr/bin/python 2.7 หรือ #!/usr/bin/env python #!/usr/bin/env python 3.4 #!/usr/bin/env python 3.5
โดยความแตกต่างของทั้งสองแบบก็คือ ถ้าหากว่าเครื่องของท่านติดตั้ง Python มากกว่า 1 version หมายถึงหลาย ๆ คนติดตั้งทั้ง Python 2.3 Python 2.7 และ Python 3.4 ลงในเครื่องเดียวกันซึ่งถ้าหากอ้างอิงถึงโดยหลักการ และสิ่งที่ควรจะเป็นเราควรจะใช้ #!/usr/bin/python หรือ #!/usr/bin/python 2.7 เพื่อระบุตัว compiler ไปเลยครับจะได้ไม่งง เพราะจะเป็นการตรวจสอบไปในตัวว่าถ้าหากจะประมวลผล code เหล่านี้จะต้องใช้ module อะไรบ้าง และระบบได้ดำเนินการติดตั้ง module เหล่านั้นเป็นที่เรียบร้อยแล้วหรือยังก่อนที่จะทำการ compile แต่สำหรับคนที่ใช้ #!/usr/bin/env python หรือ #!/usr/bin/env python 3.5 นั้นจะใช้เมื่อได้ติดตั้ง Python ไว้มากกว่า 1 version และเป็นการบอกตัวประมวลผลว่าจะใช้ environment แรกที่เจอใน $PATH เพื่อสั่งประมวลผล code เหล่านี้นั้นเอง (หากเขียนแล้วงง สอบถามเข้ามาได้นะครับบางทีผมแปลเป็นภาษาไทยแล้วไม่เข้าใจเอง เขียนแบบนี้แล้วเข้าใจกว่า เหอ ๆ ๆ ) โดยจริง ๆ แล้วไม่ว่าท่านจะติดตั้ง Python มากกว่า 1 version หรือไม่ก็สามารถใช้ #!/usr/bin/env python ได้อยู่ดี อีกอย่าง shabang ไม่ได้ส่งผลกระทบอะไรกับ code ที่เขียนเลย เพราะเป็นเพียงแค่ตัวระบุว่าจะใช้ compiler ตัวไหนประมวลผลไฟล์ code นี้เท่านั้น
เริ่มต้นเขียน Code กันเลยดีกว่า
ให้เราเปิดโปรแกรม text editor ขึ้นมาแล้วทำการ import mechanize module ตาม code ด้านล่างครับ
#!/usr/bin/env python import mechanize br = mechanize.Browser() #สังเกตุ B ของ Browser ต้องเป็นตัวใหญ่นะครับ br.addheaders = [(‘user-agent’,’Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2593.0 Safari/537.36′)] br.open(‘https://www.google.co.th’) print br.response.read()
จาก code ข้างบนจะเป็นการ import Mechanize module เพื่อใช้งานใน code ของเรา บรรทัดถัดมาเป็นการสร้างตัวแปลแบบ Object ให้ชื่อว่า br ซึ่งมีคุณสมบัติเป็น browser นั่นเอง บรรทัดต่อไปก็เติม Header ลงไปเพื่อให้เขาเห็นเราเป็น web browser นั่นเองเพราะหากเราไม่ใส่ข้อมูลในส่วนนี้ web server ที่ถูก setup มาดีจะไม่ตอบครับ เพราะคิดว่าเราจะไปทำอะไรมิดีมิร้าย เพราะไม่ได้ใช้โปรแกรมประเภท Web Browser จริง ๆ ในการเข้าถึงเว็บไซต์นั่นเอง ในที่นี้เราใช้ Python 2.7 ถ้าไม่มีบรรทัดนี้มันจะไปขึ้นที่ Web Server ในส่วนของ User-Agent ว่า Python 2.7 เลยครับ เหอ ๆ ๆ บรรทัดถัดมาคือจะสร้างตัวแปร br เพื่อเปิดเว็บไซต์ของ google นั่นเอง และบรรทัดสุดท้ายให้ print ผลลัพธ์ออกมาให้ดูนั่นเอง โดยถ้าหากใครต้องการศึกษาการสร้างตัวแปรที่ใช้งานเกี่ยวกับ HTTP แบบตั้งแต่เริ่มต้นเพื่อให้เข้าใจการทำงาน Python ได้เตรียม Module ที่ชื่อ urllib ไว้ให้ได้ใช้งานกันนะครับ แต่อาจจะไม่ง่ายแบบ Mechanize นั่นเองแต่เป็นตัวเลือกที่ดีสำหรับผู้ที่ต้องการเข้าใจหลักการทำงานของมันครับ ผลลัพธ์ของ code ข้างบนจะประมาณนี้ครับ
Traceback (most recent call last): File “D:\Workspace\Programming\Python\http\test.py”, line 7, inbr.open(‘https://www.google.co.th’) File “C:\Python27\lib\site-packages\mechanize\_mechanize.py”, line 203, in open return self._mech_open(url, data, timeout=timeout) File “C:\Python27\lib\site-packages\mechanize\_mechanize.py”, line 255, in _mech_open raise response mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt [Finished in 0.6s with exit code 1]
เนื่องจากว่า google มีการใช้ robot ในการติดตามเรา แต่เราไม่รู้ว่าจะโต้ตอบยังไงกับ robots.txt ของ google มันเลยดีดเราทิ้งโดยมีสองเงื่อนไขคือ เราไม่ผ่านการตรวจสอบ หรือไม่ได้รับสิทธิในการเข้าถึงหน้าดังกล่าวจะขึ้น error 403 ครับ สิ่งที่เราร้องขอไม่ได้รับอนุญาตให้ดำเนินการเช่น เราต้องการเรียกดู Direcotory Listing ซึ่ง Web Server ไม่อนุญาตจะขึ้น error 403 เช่นกันครับ ดังนั้นเราจึงต้องใช้ code เพิ่มไปอีกหน่อยเพื่อให้สามารถโต้ตอบกับเจ้า robots.txt ได้ครับตาม code ด้านล่างครับ
#!/usr/bin/env python import mechanize br = mechanize.Browser() br.addheaders = [(‘user-agent’,’Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2593.0 Safari/537.36′)] br.set_handle_redirect(True) #follow redirect br.set_handle_robots(False) # ignore robots br.open(‘https://www.google.co.th’) print br.response.read()
เราเพิ่มบรรทัด br.set_handle_redirect(True) #follow redirect เผื่อว่ามีการ redirect ไปที่หน้าใด ๆ ที่เว็บเค้าตั้งไว้มันจะตามไปที่หน้านั้นครับเช่น เวลาที่เรา login เข้าไปในเว็บไซต์แล้วมันจะ redirect ไปที่หน้า index.php เจ้า br ก็จะตามไปที่หน้า index.php ด้วยนั่นเองครับ อีกบรรทัดที่เพิ่มไปคือ br.set_handle_robots(False) # ignore robots เพื่อให้เราไม่สนใจเจ้า robots.txt และดำเนินการร้องขอหน้าเว็บตามที่เราต้องการต่อไปเลยนั่นเองครับ ผลลัพธ์จากการใส่สองบรรทัดนี้คือเราจะได้โค้ดของหน้า google.co.th มาครับดังตัวอย่างด้านล่างครับ
<!doctype html><html itemscope=”” itemtype=”http://schema.org/WebPage” lang=”th”><head><meta content=”/images/branding/googleg/1x/googleg_standard_color_128dp.png” itemprop=”image”><link href=”/images/branding/product/ico/googleg_lodp.ico” rel=”shortcut icon”><meta content=”origin” id=”mref” name=”referrer”><title>Google</title> <script> (function(){window.google={kEI:’wEorWJSgN8jovATC_Zgg’,kEXPI:’750721,1351903,1352083,1352266,3700278,4026240,4029815,4031109,4032677,4036527,4038012,4038214,4038394,4039268,4041776,4043041,4043492,4045096,4045293,4045841,4046043,4046835,4046837,4046904,4047140,4047454,4047593,4048347,4048980,4049063,4050750,4051887,4052304,4052811,4056126,4056682,4058016,4059817,4061666,4061980,4062724,4064468,4064796,4065787,4065918,4066727,4068291,4068550,4068560,4069772,4069829,4069839,4069840,4070143,4071387,4072270,4072364,4072602,4072776,4073405, 4073418,4073959,4074149,4074174,4074177,4074597,4076096,4076759,4076931,4076998,4077777,4078407,4078438,4078457,4078588,4078763,4079081,4079105,4079206,4079626,4080167,4080629,4080760,4081037,4081038,4081264,4081471,4081482,4082140,4082219,4082230,4082309,4082402,4082618,4083282,4083476,4083517,4083970,4084247,4084255,4084343,4084366,4084956,4085014,4085181,4085335,4085444,4085476,4085627,4085809,4085860,4086085,4086171,4086521,4087054,4087182,4087709,8300272,8300471,8502184,8502648,8503585,8504846,8504935,8505150,8505152,8505259,8505275,8506340,8506399,8506478,8506615,8507098,8507380,8507460,8507689,8507846,8507896,8508066,8508177,8508229,8508298,8508351,8508395,8508421,8508564,10200083,16200027′,authuser:0,j:{en:1,bv:24,pm:’ p’,u:’c9c918f0′,qbp:0},kscs:’c9c918f0_24′};google.kHL=’th’;})();(function(){google.lc=[];google.li=0;google.getEI=function(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute(“eid”)));)a=a.parentNode;return b||google.kEI};google.getLEI=function(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute(“leid”)));)a=a.parentNode;return b};google.https=function(){return”https:”==window.location.protocol};google.ml=function(){return null};google.wl=function(a,b){try{google.ml(Error(a),!1,b)}catch(c){}};google.time=function(){return(new Date).getTime()};google.log=function(a,b,c,e,g){a=google.logUrl(a,b,c,e,g);if(“”!=a){b=new Image; var d=google.lc,f=google.li;d[f]=b;b.onerror=b.onload=b.onabort=function(){delete d[f]};window.google&&window.google.vel&&window.google.vel.lu&&window.google.vel.lu(a);b.src=a;google.li=f+1}};google.logUrl=function(a,b,c,e,g){var d=””,f=google.ls||””;if(!c&&-1==b.search(“&ei=”)) {var h=google.getEI(e),d=”&ei=”+h;-1==b.search(“&lei=”)&&((e=google.getLEI(e))?d+=”&lei=”+e:h!=google.kEI&&(d+=”&lei=”+google.kEI))}a=c||”/”+(g||”gen_204″)+”?atyp=i&ct=”+a+”&cad=”+b+d+f+”&zx=”+google.time();/^http:/i.test(a)&&google.https()&&(google.ml(Error(“a”),!1,{src:a,glmm:1}),a=””);return a};google.y={};google.x=function(a,b){google.y[a.id]=[a,b];return!1};google.lq=[];google.load=function(a,b,c){google.lq.push([[a],b,c])};google.loadAll=function(a,b){google.lq.push([a,b])};})(); google.j.b=(!!location.hash&&!!location.hash.match(‘[#&]((q|fp)=|tbs=rimg|tbs=simg|tbs=sbi)’))………….ยาวไปขอตัดออกครับ
ตามนี้นะครับ เราก็จะสามารถเปิดเว็บด้วย Python script ได้แล้ว สะดวกมว๊ากกกกกกกก จากบรรทัดนี้ไปจะเป็น Cheat Sheet นะครับซึ่งจะรวมคำสั่งที่ Mechanize มีให้ใช้เพื่อความสะดวกครับซึ่งผมแปลมาจากลิงค์ที่ผมหาเจอนะครับหากท่านใดสนใจเข้าไปอ่านที่ต้นฉบับคลิก ที่นี่ และหากแปลผิดนี่ขออภัยด้วยนะครับ โง่ภาษาอังกฤษมว๊ากกกกกก สร้าง object ของ Mechanize
response = br.open(url) print response.read() # the text of the page response1 = br.response() # get the response again print response1.read() # can apply lxml.html.fromstring()การใช้ form เพื่อค้นหา form ที่ต้องการกรอกข้อมูล
for form in br.forms(): print “Form name:”, form.name print formหากต้องการเลือก form
br.select_form(“form1”) # ใช้เมื่อใน code มีการใส่ชื่อของ form นั้น ๆ br.form = list(br.forms())[0] # ใช้เมื่อใน code ไม่มีการตั้งชื่อ form โดยตัวเลขด้านหลังเปรียบเสมือนเลขลำดับของ form เหล่านั้น ตัวอย่างเป็น form 0 หมายถึง form แรกสุดของ code นั่นเองการใช้ Control
for control in br.form.controls: print control print “type=%s, name=%s value=%s” % (control.type, control.name, br[control.name]) control = br.form.find_control(“controlname”) #ใช้ในกรณีที่มีการตั้งชื่อไว้ if control.type == “select”: # means it’s class ClientForm.SelectControl for item in control.items: print ” name=%s values=%s” % (item.name, str([label.text for label in item.get_labels()])) # ใช้สำหรับให้ตัว control บอกเราว่ามีค่าอะไรอยู่บ้างซึ่ง select type สามารถมีได้มากกว่าค่าเดียว
print control.value print control # selected value is starred control.value = [“ItemName”] print control br[control.name] = [“ItemName”] # equivalent and more normalและสามารถเลือกให้ text control แสดงค่าเป็น string ได้
if control.type == “text”: # means it’s class ClientForm.TextControl control.value = “stuff here” br[“controlname”] = “stuff here” # equivalentตั้งค่า Control ให้เป็นแบบ Read Only
control.readonly = False control.disabled = Trueหรือจะ Disable Control Type ทั้งหมด
for control in br.form.controls: if control.type == “submit”: control.disabled = Trueการ Submit Form
response = br.submit() print response.read() br.back() # go backหรืออาจจะใส่ br.method = “POST” เพื่อระบุ HTTP Method ให้กับ Object ได้ทันทีครับ
การค้นหา และแสดง Link
for link in br.links(): print link.text, link.urlการคลิกลิงค์
request = br.click_link(link) response = br.follow_link(link) print response.geturl()หมดแล้วตี 1 กว่า ๆ แล้วจะนอนแล้วครับไว้มาเขียนใหม่
No comments:
Post a Comment