https://gravatar.cat.net/avatar/4e3d696743cae4996a8f4ef688430b7b?s=96&d=mp&r=g

未闻Code

0.0
给未闻Code打分

感谢您打了2分

详情

全站展示位

一日一技：推特时间的格式化方案 | 谢乾坤 | Kingname

在使用推特开放API获取推文的时候，会发现推文的发布时间是下面这样的： 12345{ ... "created_at": "Tue Dec 24 10:51:15 +0000 2019", ...} 现在我想把它转换为2019-12-24 18:51:15的形式，应该如何操作呢？。。。

1 2024-12-24 01:29 查看原文

心灵鸡汤

每当我有压力的时候，就是进步的开始！

列表展示

主站展示位

分类: Gne | 谢乾坤 | Kingname

1 2024-12-15 12:12 查看原文

一日一技：Python工具脚本如何调用外层模块 | 谢乾坤 | Kingname

我三年前写过一篇文章：《小问题大隐患：如何正确设置 Python 项目的入口文件？》。讲到Python项目应该如何正确组织代码结构。入口文件应该在最外面，调用关系应该是从外向内调用。而不要学Java，从一个很深层的文件夹里面往外调用。不过我在这篇文章的最后，也提到了一种例外情况，那就是工具脚本不受这个规则的限制。如下图所示。

查看原文

一日一技：三分钟离线运行开源大模型 | 谢乾坤 | Kingname

经过一年多的发展，各种开源大模型现在已经相当不错了。国产的Qwen 1.5的生成效果已经能满足一些日常使用。有一些同学可能之前一直在用网页版的ChatGPT、Kimi Chat、文心一言或者通义千问，那么你可能会遇到如下一些问题：网络问题。例如ChatGPT需要特殊的网络才能访问。审查问题。国产大模型会大量屏蔽关键字，有一些你觉得完全没有任何问题的回答，它会告诉你不符合法律规范，不能回答。

1 2024-12-16 20:04 查看原文

标签: Next.js | 谢乾坤 | Kingname

1 2024-12-20 19:09 查看原文

一日一技：Scrapy最新版不兼容scrapy_redis的问题 | 谢乾坤 | Kingname

有不少同学在写爬虫时，会使用Scrapy + scrapy_redis实现分布式爬虫。不过scrapy_redis最近几年更新已经越来越少，有一种廉颇老矣的感觉。Scrapy的很多更新，scrapy_redis已经跟不上了。

查看原文

拒绝成为这样的程序员 | 谢乾坤 | Kingname

产品经理这两天在跟我抱怨他们公司的一个码农。听的我火冒三丈，差点把跟了我十多年的搪瓷水杯砸烂。正好在知识星球和微信群里面，有不少同学跟我咨询程序员的职业发展以及怎么应对三十岁危机。借此机会，我准备用几篇文章来讲讲自己的经验和个人的观点。

1 2024-12-23 03:57 查看原文

一日一技：警告但不禁止，遗留代码的优化策略 | 谢乾坤 | Kingname

在之前的多篇文章中，我都反复告诫大家，不要滥用字典来传大量数据。因为当你的函数收到一个字典的时候，你根本不知道这个字典里面有哪些Key，你必须有一层一层往上看，找到所有尝试往字典里面添加新Key的地方，你才能知道它总共有哪些Key。但是，在正常公司项目中，我们可能会需要维护一些历史遗留代码。代码规模大，函数调用层级非常深。并且之前的人已经使用字典来传递了大量的数据。短时间内，我们没有办法直接把

查看原文

标签: 前端 | 谢乾坤 | Kingname

1 2024-12-08 20:16 查看原文

一日一技：next.js如何正确处理跨域问题？ | 谢乾坤 | Kingname

我以前一直使用Vue来写前端。去年下半年接手了一个基于React + Next.js的项目，于是顺带学习了一下Next.js。由于Next.js的特点，这个项目的前后端是放在一起的。一开始没什么问题，看了半天文档就上手了。上周我们需要在另一个网页项目中，调用这个项目的后端接口，于是就需要处理跨域请求的问题。但我发现按照网上的方法，跨域问题依然存在。这个问题浪费了我不少时间，好在最后终于找到了原因

查看原文

一日一技：分布式系统的低成本权限校验机制 | 谢乾坤 | Kingname

经常关注未闻Code的同学都知道，我做了一个叫做GNE的开源项目，它能够自动提取新闻类网页的正文。效果远远好于市面上其他的开源新闻提取工具。大家可能不知道，GNE还有一个高级版，叫做GnePro。它可以让你输入URL就自动提取新闻的正文，提取的字段比GNE多得多。并且已经在8个国家13万个网站上做过测试，识别准确率100%。

1 2024-12-07 18:26 查看原文

GnePro：文章类通用爬虫接口 | 谢乾坤 | Kingname

GnePro是开源项目GNE的付费版，能够实现如下功能：输入任意文章页面的URL，返回标题/作者/正文/发布时间/图片/面包屑等一系列信息支持异步加载文章页提取支持上传自定义的HTML代码提取正文支持自动检测网页编码支持自动提取网页全部URL 在8个国家13万个新闻类网站进行测试,准确率高达90%

1 2024-10-20 19:18 查看原文

一日一技：如何安全运行别人上传的Python代码？ | 谢乾坤 | Kingname

写后端的同学，有时候需要在网站上实现一个功能，让用户上传或者编写自己的Python代码。后端再运行这些代码。涉及到用户自己上传代码，我们第一个想到的问题，就是如何避免用户编写危险命令。如果用户的代码里面涉及到下面两行，在不做任何安全过滤的情况下，就会导致服务器的Home文件夹被清空。 12import osos.system('rm -rf ~/*') 有人想的比较简单，直

1 2024-12-21 11:31 查看原文

助力大语言模型训练，无压力爬取六百亿网页 | 谢乾坤 | Kingname

ChatGPT一炮而红，让国内很多公司开始做大语言模型。然后他们很快就遇到了第一个问题，训练数据怎么来。有些公司去买数据，有些公司招聘爬虫工程师。但如果现在才开发爬虫，那恐怕已经来不及了。即使爬虫工程师非常厉害，可以破解任意反爬虫机制，可以让爬虫跑满网络带宽，可是要训练出GPT-3这种规模的大语言模型，这个数据并不是一天两天就能爬完的。并且，有很多老网站的数据，早就被删除了，爬虫想爬也爬不到。

1 2024-12-15 08:37 查看原文

标签: iOS | 谢乾坤 | Kingname

1 2024-10-20 18:35 查看原文

一日一技：爬虫如何解析JavaScript Object？ | 谢乾坤 | Kingname

我们在开发爬虫的过程中，经常发现有一些网站，会直接把数据放到HTML中的<script>标签里面。这些数据长得有点像JSON，但又有差异，如下图所示：这种格式，我们叫做JavaScript Object。长得很像Python的字典，又很像是JSON。但是这个格式在Python里面，无论直接当字典解析，还是当JSON解析，都会报错，如下图所示：遇到这种情况，有同学准备使用正则表达

1 2024-11-28 17:09 查看原文

一日一技：iOS抓包最简单方案 | 谢乾坤 | Kingname

写过爬虫的同学都知道，当我们想对App或者小程序进行抓包时，最常用的工具是Charles、Fiddler或者MimtProxy。但这些软件用起来非常复杂。特别是当你花了一两个小时把这些软件搞定的时候，别人只用了15分钟就已经手动把需要的数据抄写完成了。我的需求如果你不是专业的爬虫开发者，那么大多数时候你的抓包需求都是很小的需求，手动操作也不是不能。这种时候，我们最需要的是一种简单快捷的，毫不费力

1 2024-12-12 10:42 查看原文

一日一技：从PDF完美提取表格 | 谢乾坤 | Kingname

在之前很长一段时间，从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库，提取出来的表格都会变成纯文本，难以二次利用。但现在好消息来了，专业处理PDF的第三方库PyMuPDF升级到了1.23.0，已经支持完美提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。

查看原文

标签: 语音转文字 | 谢乾坤 | Kingname

查看原文

标签: 装饰器 | 谢乾坤 | Kingname

1 2024-12-15 15:45 查看原文

标签: LangChain | 谢乾坤 | Kingname

1 2024-10-19 11:51 查看原文

博客寄语：

这个博客已经连续更新超过8年。

实时播报：

详情

一日一技：推特时间的格式化方案 | 谢乾坤 | Kingname

推荐

心灵鸡汤

列表展示