https://gravatar.cat.net/avatar/4e3d696743cae4996a8f4ef688430b7b?s=96&d=mp&r=g

未闻Code

0.0
给未闻Code打分

感谢您打了2分

详情

全站展示位

标签: 协程 | 谢乾坤 | Kingname

高级数据挖掘工程师，《Python 爬虫开发从入门到实战》、《左手 MongoDB 右手 Redis——从入门到商业实战》作者。微软最有价值专家 MVP，Python, Scrapy, MongoDB, Redis, Pandas, Golang。。。。

查看原文

心灵鸡汤

　　北宋时期有位州官，为人极其廉洁。一天晚上，有人从京城送来一封上司的来信。他猜想这必须是朝廷有什么重要指示，立刻命令公差点上蜡烛阅读。

　　谁知读了一半，他又命令把官家的蜡烛吹灭，把自我买来的蜡烛点上，继续往下看。公差很纳闷，难道官家买的蜡烛不及他自我出钱买的亮吗之后才明白，那封信有小半是关于他留在京城家属的情景，他认为这是私事，不能点官家的蜡烛。在有些人看来，为了半封家书，竟然换烛再读，实在有点“小题大做”。

　　但正是这样的小事，却更能从细节上表现出一个人的品质，更足以让当今存在公“话”私打、公车私用、公请私吃、公费私游等等凡此种种揩公家油的一些领导干部汗颜。

列表展示

主站展示位

标签: xpath | 谢乾坤 | Kingname

1 2024-05-06 19:08 查看原文

标签: python | 谢乾坤 | Kingname

1 2024-05-23 12:44 查看原文

分类: Gne | 谢乾坤 | Kingname

1 2024-12-15 12:12 查看原文

标签: Gne | 谢乾坤 | Kingname

查看原文

一日一技：警告但不禁止，遗留代码的优化策略 | 谢乾坤 | Kingname

在之前的多篇文章中，我都反复告诫大家，不要滥用字典来传大量数据。因为当你的函数收到一个字典的时候，你根本不知道这个字典里面有哪些Key，你必须有一层一层往上看，找到所有尝试往字典里面添加新Key的地方，你才能知道它总共有哪些Key。但是，在正常公司项目中，我们可能会需要维护一些历史遗留代码。代码规模大，函数调用层级非常深。并且之前的人已经使用字典来传递了大量的数据。短时间内，我们没有办法直接把

查看原文

一日一技：JSON如何快速转成对象？ | 谢乾坤 | Kingname

我们知道，在Python里面，要把JSON转成字典是非常容易的，只需要使用json.loads(JSON字符串)就可以了。但如果这个JSON转成的字典，嵌套比较深，那么要读取里面的数据就非常麻烦了。如下图所示：如果我要读取把图中的end减去start字段，那么用字典的时候，代码要写成这样： 1result = info['data'][0]['entities&

1 2024-12-25 02:08 查看原文

一日一技：next.js如何正确处理跨域问题？ | 谢乾坤 | Kingname

我以前一直使用Vue来写前端。去年下半年接手了一个基于React + Next.js的项目，于是顺带学习了一下Next.js。由于Next.js的特点，这个项目的前后端是放在一起的。一开始没什么问题，看了半天文档就上手了。上周我们需要在另一个网页项目中，调用这个项目的后端接口，于是就需要处理跨域请求的问题。但我发现按照网上的方法，跨域问题依然存在。这个问题浪费了我不少时间，好在最后终于找到了原因

查看原文

一日一技：自动提取任意信息的通用爬虫 | 谢乾坤 | Kingname

使用过GNE的同学都知道，GNE虽然是通用爬虫，但只是文章类页面的通用爬虫。如果一个页面不是文章页，那么就无能为力了。随着ChatGPT引领的大语言模型时代到来，这个问题基本上已经不是问题了。我们先来看一个效果。首先打开Linkedin，随便找一个招聘的岗位，如下图所示：然后，我们直接使用GPT从这里提取信息：

1 2024-10-09 13:30 查看原文

一日一技：HTML里面提取的JSON怎么解析不了？ | 谢乾坤 | Kingname

我们在开发爬虫的过程中，经常发现有一些网站，会直接把数据以JSON的形式，通过<script>标签放到页面源代码中。如下图所示：有时候请求URL拿到HTML的过程比较麻烦，有些同学习惯先把HTML复制到代码里面，先把解析的逻辑写好，然后再去开发请求HTML的代码。

查看原文

一日一技：分布式系统的低成本权限校验机制 | 谢乾坤 | Kingname

经常关注未闻Code的同学都知道，我做了一个叫做GNE的开源项目，它能够自动提取新闻类网页的正文。效果远远好于市面上其他的开源新闻提取工具。大家可能不知道，GNE还有一个高级版，叫做GnePro。它可以让你输入URL就自动提取新闻的正文，提取的字段比GNE多得多。并且已经在8个国家13万个网站上做过测试，识别准确率100%。

1 2024-12-07 18:26 查看原文

老板让我加班怎么办？GPTs创建机器人实战 | 谢乾坤 | Kingname

前两天的OpenAI发布会，相信很多同学看完以后都热血沸腾。我之前一直使用的是ChatGPT的免费版本，看完这个发布会以后，立刻就充值了ChatGPT Plus，来试一试这些高级功能。这两天GPTs功能上线了，短短三天时间，全球网友创建了几千个GPT机器人。我今天也来搞一个玩玩。使用GPTs创建机器人非常简单，不需要懂任何编程知识，甚至不需要懂Prompt工程，你只需要跟着他的向导，一步一步描

1 2024-12-12 02:50 查看原文

标签: iOS | 谢乾坤 | Kingname

1 2024-10-20 18:35 查看原文

一日一技：爬虫如何解析JavaScript Object？ | 谢乾坤 | Kingname

我们在开发爬虫的过程中，经常发现有一些网站，会直接把数据放到HTML中的<script>标签里面。这些数据长得有点像JSON，但又有差异，如下图所示：这种格式，我们叫做JavaScript Object。长得很像Python的字典，又很像是JSON。但是这个格式在Python里面，无论直接当字典解析，还是当JSON解析，都会报错，如下图所示：遇到这种情况，有同学准备使用正则表达

1 2024-11-28 17:09 查看原文

标签: 抓包 | 谢乾坤 | Kingname

1 2024-12-07 08:46 查看原文

一日一技：Requests被网站识别怎么办？ | 谢乾坤 | Kingname

现在有很多网站，已经能够通过JA3或者其他指纹信息，来识别你的请求是不是Requests发起的。这种情况下，你无论怎么改Headers还是代理，都没有任何意义。我之前写过一篇文章：Python如何突破JA3，但方法非常复杂，很多初学者表示上手有难度。那么今天我来一个更简单的方法，只需要修改两行代码。并且不仅能过JA3，还能过Akamai。

1 2024-12-15 23:14 查看原文

一日一技：如何对Python代码进行混淆 | 谢乾坤 | Kingname

目前市面上没有任何方法能够完全避免你的程序被人反编译。即便是3A游戏大作，发布出来没多久也会被人破解。现在只能做到增大反编译的难度，让程序相对无法那么快被破解。我们知道，Python代码默认是公开的。当你要把一个Python项目给别人运行的时候，一般来说别人就能看到你的全部源代码。我们可以使用Cython、Nuitka对代码进行打包，编译成.so文件、.dll文件或者是可执行文件，从而在一定程度

1 2024-10-16 15:16 查看原文

一日一技：从PDF完美提取表格 | 谢乾坤 | Kingname

在之前很长一段时间，从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库，提取出来的表格都会变成纯文本，难以二次利用。但现在好消息来了，专业处理PDF的第三方库PyMuPDF升级到了1.23.0，已经支持完美提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。

查看原文

一日一技：方法不对，代码翻倍。Requests如何正确重试？ | 谢乾坤 | Kingname

程序员是一个需要持续学习的群体，如果你发现你现在写的代码跟你5年前的代码没什么区别，说明你掉队了。我们在做Python开发时，经常使用一些第三方库，这些库很多年来持续添加了新功能。但我发现很多同学在使用这些第三方库时，根本不会使用新的功能。他们的代码跟几年前没有任何区别。

查看原文

标签: LangChain | 谢乾坤 | Kingname

1 2024-10-19 11:51 查看原文

一日一技：Python装饰器的执行顺序 | 谢乾坤 | Kingname

说到Python装饰器的执行顺序，有很多半吊子张口就来：靠近函数名的装饰器先执行，远离函数名的装饰器后执行。这种说法是不准确的。

查看原文

博客寄语：

这个博客已经连续更新超过8年。

实时播报：

详情

标签: 协程 | 谢乾坤 | Kingname

推荐

心灵鸡汤

列表展示