V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  fbichijing  ›  全部回复第 9 页 / 共 10 页
回复总数  190
1  2  3  4  5  6  7  8  9  10  
2022-10-15 16:02:00 +08:00
回复了 fbichijing 创建的主题 问与答 有没有办法确定买的书是正版?
@westoy 是个人就可能说错话做错事。

> 原则上没理由卖盗版啊。

理论上没有书店想卖盗版,但是否存在出现这种情况的可能性?但这种没有可以核实的手段存在,那买正版书不就如同开盲盒一般?有点怀念亚马逊还在国内卖实体书的时候......
2022-10-14 16:23:31 +08:00
回复了 wyzh97 创建的主题 Python Python - Requests 爬虫 爬取亚马逊产品页, Headers 被识别为机器人
2022-10-14 16:20:40 刚试了一下,headers 写全可以信息爬出来。
@wxf666 确实如此。一开始的时候我还喜欢用正则去抓取某些不是很规则的数据,感觉还有那么一丢丢的方便。但随着使用次数的增多,发现直接使用提取器更加简单直接,节省去测试正则的时间。
2022-09-27 01:25:45 +08:00
回复了 Ne 创建的主题 Python 请教各位 openpyxl 模块怎样方法才能把不同长度的 list 保存 excel
Pandas 倒省事一些,openpyxl 思路应该也大同小异吧。

```python
import pandas as pd

data1 = [11, 22]
data2 = [33, 44]
data3 = [55, 66, 77, 88]

df = pd.DataFrame([data1, data2, data3])
df = df.T
df.to_excel('test.xlsx', index=False, header=False)
```
def format_text(obj):
if not obj:
return None
return obj.text.strip()

直接搞个函数套上就行了。用 find 应该是 BeautifulSoup 的,find 本身找不到表达式会返回 None ,所以出问题的部分是你获取数值时没有考虑空的情况造成的异常。

如果我自己在写可能会考虑这种方式,感觉方便但是没有点语法雅观。但相比去改变模块里面的数据格式,可能这种来得更简单直接一些。印象中以前写 xpath 时就是这么弄的。
2022-09-15 17:03:12 +08:00
回复了 MrVito 创建的主题 Python 爬虫相关,关于 XPath 的疑问
一个有 tbody 一个没有,所以找不到。
这么深层数的筛选器加上那么多的位置 index ,简直是独木桥中的独木桥啊。
2022-09-06 09:32:07 +08:00
回复了 bananahotell 创建的主题 Python 需要网页加载了图片后才能通过链接打开爬取怎么解决呢?
刚试了一下,图片链接的话 data-src ,爬取的时候加个 referer 就不会 403
2022-08-31 10:26:07 +08:00
回复了 lanlanye 创建的主题 Python 你们说 Python 这个是 Bug 还是 Feature?
很多 Python 书函数部分都会提到,**参数尽量不要用可变对象**。函数参数部分的可变对象在内存中使用了相同的地址,导致实例化后的操作会产生意料之外的行为。

我觉得说是 bug 有点过,至少是可以理解的行为。只是在一开始不知道的时候容易被坑。

```python
class Foo:
def __init__(self, s=None):
self.s = s if s else set()
```
2022-07-29 09:54:08 +08:00
回复了 dearmymy 创建的主题 Python 请教下关于 Python 运行 Linux 命令行下怎么方便交互
argparse 之类的。
2022-07-21 16:32:30 +08:00
回复了 PEax 创建的主题 Python 新手请教,关于操作列表的问题
直接用 queue 不就完事了吗?
2022-07-10 01:22:38 +08:00
回复了 huzhikuizainali 创建的主题 Python Python 中的类和函数的区别是什么?
多写,多看。
觉得老师的话没道理,就不要听。
2022-06-13 16:38:25 +08:00
回复了 LeeReamond 创建的主题 Python Python 现代化打包应用到 exe 的方式?
我平时的打包方式:

Window10, python 3.8

pyinstaller -D 多文件
+ nsis 如果有必要的话。

确实,自己写的时候舒服,打包给别人用的时候麻烦。体态臃肿多少感觉丑陋...但考虑到节省了自己很多时间——不管是 code 还是别的——也就不去多想了。
2022-06-08 15:44:38 +08:00
回复了 yrhtiger 创建的主题 Python 爬虫外包有人接么
@chengxiao |合理合规的使用爬虫技术有什么问题么? 怕是连你自己也不信。你自己写爬虫的时候可看过 robots.txt ?搜索引擎在这里不好做为对比吧。robots.txt 里面,搜索引擎多数(基本上都是)不受限的。如果要遵守君子协议的话,多少网站自己写的爬虫将寸步难行。也因为 robots.txt 是君子协议,写爬虫者可不遵守,才有那么多参数加密的东西出现。硬要提升到法律层面的话,自己写的爬虫强过 robots.txt 就说不过去了。
2022-06-07 12:11:50 +08:00
回复了 fbichijing 创建的主题 Python 写了一个路径管理工具,大家试试看给点评价哈
@eudore 是啊,昨天在 Linux 试过,除了界面可能能显示之外其他都不行。如果想适配得检测系统分用不同命令。
2022-06-07 12:09:59 +08:00
回复了 fbichijing 创建的主题 Python 写了一个路径管理工具,大家试试看给点评价哈
@kaiger
2022-06-07 01:36:04 +08:00
回复了 fbichijing 创建的主题 Python 写了一个路径管理工具,大家试试看给点评价哈
@documentzhangx66 我以前也是一直用类似的这种方法,丢进去实在太多了,文件夹,文件,软件,自己写的命令行,自己写的工具……太多了有点记不过来所以才——
2022-06-07 01:09:15 +08:00
回复了 fbichijing 创建的主题 Python 写了一个路径管理工具,大家试试看给点评价哈
@dcty 我回头找找看。
2022-06-07 01:08:04 +08:00
回复了 fbichijing 创建的主题 Python 写了一个路径管理工具,大家试试看给点评价哈
@yeqizhang 是。总觉得一张图就简单展示了功能,但却不想把这么大的图弄进 git 里面。
2022-01-04 10:02:06 +08:00
回复了 fbichijing 创建的主题 程序员 GPL 协议的疑惑?
@msg7086 我觉得你说的[衍生]开源很有道理。

> "我觉得 GPLv2 是一个非常棒的协议,我喜欢它的理由很简单:我给你源代码,你给我你的修改,我们就扯平了。"

单纯使用则自由较大。新增功能就给其 push 更新,确实算[扯平]。
2022-01-04 09:36:42 +08:00
回复了 fbichijing 创建的主题 程序员 GPL 协议的疑惑?
@iseki #39 ?
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2777 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 07:37 · PVG 15:37 · LAX 23:37 · JFK 02:37
Developed with CodeLauncher
♥ Do have faith in what you're doing.