写了 2 天的 Python ，有点奇怪的感觉。。。

cmdOptionKana

2024-03-28 20:13:32 +08:00

老生常谈了，越灵活的语言，越需要团队自己制定规范，否则很难维护。

以前 IDE 比较落后，Python 之类的动态语言很方便，但现在 IDE 先进了，优势就来到静态语言这边。

你可以想象一下（或者试一下），用记事本去写代码，你一定会更喜欢 Python 。可惜时代变了，Python 在现代确实没有特别优势。

woodytang

2024-03-28 20:23:24 +08:00

我昨天用了一下 python 的 fast-api, 这个设计得真好，，但是我对 python 没信心，用 python 做大项目的感觉是怎样的？

woodytang

2024-03-28 20:25:14 +08:00

另外很多 ai 的库都用 python 写的，听说很多搞 AI 的人都不怎么会编程，所以搞得效率很低下，是真的吗？

june4

2024-03-28 20:28:11 +08:00

我虽然之前写了很多 python,但现在我更喜欢 js/ts 。js 保持了很好的语言简洁性/可读性/灵活性的平衡，ruby 简直可怕，python 搞得越来越复杂，但写起来体验不如 js

cmdOptionKana

2024-03-28 20:33:56 +08:00

@woodytang 用 python 还是做小项目比较合适，大项目看团队擅长语言。

AI 领域 python 只是作为胶水语言而已，涉及性能的部分都是 C++之类的去实现，python 调用。

woodytang

2024-03-28 20:34:43 +08:00

js 是在这些老语言里面，一个沙盒脚本语言，感觉设计很合理的了，有 ts 后，感觉非常和谐，但是生态大多都是界面交互一类的，没啥意思，
python 功能强大多了，但是这个写起来蛋疼，可能是我不懂的缘故

FYFX

2024-03-28 21:15:06 +08:00

好久没用过 pandas 了，不过感觉你这是写法问题。。。
而且我记得 pandas 的里面坑挺多的，不过听说好像[Polars]( https://docs.pola.rs/) 不错?

Donahue

2024-03-28 22:13:49 +08:00

python 有 type hint 的, 类型注解啊
比如 a:int = 10,
def add(a:int, b:int) -> int:
跟 ts 差不多

mumbler

2024-03-28 22:18:02 +08:00

python 正经项目还少吗

flyqie

2024-03-28 22:33:14 +08:00

@cmdOptionKana #1

静态语言确实好维护，但有些需求不太需要特别好的维护性，追求速度的话，这样就很合适。

原型我一般会尽可能用动态语言写，但上线肯定还是静态语言优先。

fatigue

2024-03-28 22:41:47 +08:00

你懵是因为你用的少见得少，习惯了就好了，可读性是建立在大家都有基本共识的前提下的，你用上一年你就觉得太顺手了

musi

2024-03-28 22:55:52 +08:00

@woodytang js 生态在 ai 后端都有吧，虽然 npm 设计的有问题，但是 npm 生态是一点都不弱啊

sunzhuo

2024-03-28 23:43:57 +08:00

python 不觉得容易，就是因为库多而已

zhzy

2024-03-29 00:15:58 +08:00

1. 可能还是不熟悉吧, 首先那一大堆生成归属年月的代码其实直接格式化成字符串就行了, groupby 和 pivot_table 都是支持字符串的, 而且你也不需要先 groupby 再 pivot_table.

2. 至于 df_pivot['余额'] = df_pivot.iloc[:, 1:].sum(axis=1), 不就是把 sum 函数的返回值赋值给余额那一列么. 只是说它帮你处理了一下, 如果不存在这一列的话就新创建一列. 具体来说这是一个语法糖, 在类的 __setitem__ 方法里实现.

3. Python 有 type hint. 3.6 就有了, 不过要到好用的程度的话至少要到 3.9 和 3.10 吧.

4. 不要这样创建元组. 格式化工具会帮你加上括号的. 这个地方确实容易踩坑, 特别是只有一个元素的时候. 我是这样理解的, 在 Python 里 tuple 实际上是逗号定义而不是括号定义的.

5. 如果你是团队的话, 是会有规范的. 至于正经项目怎么说呢, 要写肯定能写, 毕竟 Instagram 也在用 (虽然是魔改的). 而且所有的语言都或多或少有一些黑魔法, 为了工程化不用就是了. 真要变成 Go 那样说实话有的时候也挺难受的.

xingfa

2024-03-29 00:25:46 +08:00

py.sb

NoOneNoBody

2024-03-29 01:01:49 +08:00

主要是你不懂 pandas/numpy ，所以觉得难读，用惯了的人，一眼就看得懂

1. df_pivot['余额'] = df_pivot.iloc[:, 1:].sum(axis=1)
这个确实是赋值，是整列批量赋值，用的是向量化函数，当数据量很大时，你就知道向量化计算的作用了
没有向量化函数，都不知道要写多少个 for

2. 可读性问题
在 pandas 的计算，一般不会太考究如何实现计算，更重视的是输入输出格式，以及值的类型和逻辑准确性，以及性能
因为 pandas 一般都是处理大量数据的，很难逐个值考究，只要保证格式、类型、逻辑准确性
例如有三百个白色乒乓球要变成红色，原生写法是逐个刷红色，pandas/numpy 是全部扔进红色颜料池，搅匀后捞上来就是了。所以需要搞清楚的是：扔进去的是否乒乓球、是否白色、多少个，颜料是否红色，池子是否容得下，以及捞起来后乒乓球有没有破损，数量够不够……至于中间如何染色搅匀，就只能相信这个操作搅匀的机器不会打烂乒乓球了
所以最好是函数加上 __doc__描述，便于以后查阅

np.lib.stride_tricks.as_strided(s, (len(s) - (window - 1), window), (s.values.strides * 2))
这句我从别人那里抄过来的，至今都没搞清其中原理，但我知道 numpy 模拟实现 pandas.rolling 需要用到这句，且值和 pandas.roolling 的结果一致，这就够了

numpy 和 pandas 的手册很庞大，个人读不完，就算读完了也记不全，目前最好方案是借助 gpt 帮我查某个函数的意义

3.你这段代码并没有“规律时间序”，目的只是 groupby 分组，其实没必要用时间函数那么复杂，直接按字符串提取前 7 个字符，再 groupby 就可以了

vsc 有支持 hint 的扩展，如 pyright ，但如果代码没有写指定类型，也是按默认类型提示，所以想全程提示，需要自己在代码中指定 types hint

vituralfuture

2024-03-29 01:41:44 +08:00

元组一定要加括号，千万别省，可以配置格式化工具，每次格式化自动加上。
曾经在某行赋值语句末尾不小心按了逗号按键，刚好位置比较边缘，debug 半天，最后发现怎么值是个元组，才发现是这种无聊的原因

Jirajine

2024-03-29 01:53:15 +08:00

R with tidyverse https://www.tidyverse.org/
这实质上是一个专为 dataframe 设计的基于 R 的 dsl ，可以说是单独这类需求理论上最适合的工具。
如果是一般语言的话，julia 也是非常适合数据分析的。

YsHaNg

2024-03-29 05:52:45 +08:00

pandas/numpy 都算是 array oriented 类似的还有 Matlab 觉得懵你要不看看 apl

arischow

2024-03-29 06:12:53 +08:00

你都这么想了，那肯定是不合适，用 Java 重写啦

写了 2 天的 Python ，有点奇怪的感觉。。。

首先我想问一下，这样的需求，大家首先会想到用什么方案（语言，框架，库）做？