V2EX › wxf666 的所有回复 › 第 17 页 / 共 34 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 13 14 15 16 17 18 19 20 21 22 ... 34

❮

❯

2022-11-05 09:59:37 +08:00

回复了 nowheremanx 创建的主题 › 程序员 › 有没有可能把一个数据库的 text field 变成可拓展、易阅读的数据格式？

奇怪，不能动态构造有 firstName, lastName, education, tag, travel, …… 等字段的表单，给用户填写吗？

用户提交后，后端再转成 json ，写进数据库。。

好像不难啊？

2022-11-04 20:41:26 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 所以，一招『自增 /uuid/……主键 + 业务字段加索引』吃天下，应该是没问题的？

#4 楼的 `SQL` 代码，改成自增主键 + `(date, reg_date, uid, amount)` 覆盖索引，应该也能很快

但，如果表结构有几个 `text` 字段（反正导致没法添加到覆盖索引里，一定要回表），会为了速度 /性能，牺牲这个原则，改为 `(date, reg_date, uid)` 主键吗？（按 4 楼例子说，可享受 30 次 `range` 级速度）

还是继续坚持原则，各种分库分表分布式大数据一通上？（ 2.6 亿次 `eq_ref` 级速度）

2022-11-04 01:28:30 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 可我看一些帖子（比如 [这个帖子]( /t/654133 )），不用自增 /uuid/……，而用业务主键，简直是要被铺天盖地的教训和嘲讽淹没。。比如：

1. 工作中被同事打
2. 大学生毕业设计
3. 小学生设计
4. 没有经验胡乱设计
5. B+ 树随机插入，导致页分裂严重，导致性能很低
6. 阿里巴巴《 Java 开发手册》[强制]规定……
7. 合并表时用 uuid 很轻松

我很怀疑第 5 条：虽然聚集表是能顺序插入了，但索引也要随机插入，也会导致页分裂呀？而且总体工作量不是更大了（还要额外维护一个自增主键 /uuid/……）？

比较认同的是第 7 条

2022-11-04 01:05:25 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 可我觉得，有些业务字段做主键，可以极大提升数据库速度诶。。

比如 4 楼的『消费记录表』，使用 `(消费日期、用户注册日期、用户 ID)` 做主键，统计 2.6 亿条消费数据的 ROI ，也只需几秒钟（得益于大量的顺序读取）

如果用自增主键 /uuid/……，我不敢想象要多久才能统计完（因为要 2.6 亿次 `eq_ref` 级的 `WHERE id = ?`）

2022-11-03 23:32:50 +08:00

回复了 maosu 创建的主题 › Linux › V 友们，请教个提取两个字符串中的语句并加引号的 sed 写法

```shell
$ sed "s/dare/'&'/" <<<'howdareyou'
how'dare'you
```

2022-11-03 23:30:44 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 数据库新手请教一下，大佬怎么看待这种观点：

> 数据库，只能用自增主键。业务逻辑字段不能做主键，最多只能加索引

2022-11-03 23:04:15 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@deweixu @Features 按照 #3 楼的第二种统计方式，用 SQLite 测试了生成整张表、统计整张表（文末附上源码）。结果如下：

日期范围　　新用户数　消费记录数　生成用时　　　统计用时　　　　内存使用
————————————————————————————————————
　３０天　　３００万　２６００万　　３０秒　２．４秒（单线程）　　３ＭＢ
　３０天　３０００万　　２．６亿　３００秒　７．７秒（四线程）　１４ＭＢ

（环境：i5-8250U 轻薄本，Windows 10 。感觉速度和内存占用表现都还可以）

## 数据生成规则（以 30 天内 300W 用户 2600W 消费记录为例）：

1. 每天新增 10W 用户 *（第一天新增 `user_id` 为 `[1, 10W]`，第二天新增 `uid` 为 `[10W+1, 20W]`，……）*
2. `uid` 为 `0` 的是老用户，在起始日期前一天（ 1999-12-31 ）注册 *（用于检查统计时，是否已把老用户数据剔除在外）*
3. 每个用户连续 10 天，每天充值 1 元 *（`uid = 0` 的老用户每天都在充值）*
4. 从第一天开始，每两天投广告 100W 元 *（即，2000-01-01 、2000-01-03 、……）*

## 统计结果预览（以 30 天内 300W 用户 2600W 消费记录为例）：

　　日期　　当天新用户收入　累计新用户收入　累计广告投入　　ＲＯＩ
———————————————————————————————————
０１－０１　　　１０Ｗ　　　　　１０Ｗ　　　　１００Ｗ　　１０．００％
０１－０２　　　２０Ｗ　　　　　３０Ｗ　　　　１００Ｗ　　３０．００％
０１－０３　　　３０Ｗ　　　　　６０Ｗ　　　　２００Ｗ　　３０．００％
０１－０４　　　４０Ｗ　　　　１００Ｗ　　　　２００Ｗ　　５０．００％
０１－０５　　　５０Ｗ　　　　１５０Ｗ　　　　３００Ｗ　　５０．００％
０１－０６　　　６０Ｗ　　　　２１０Ｗ　　　　３００Ｗ　　７０．００％
０１－０７　　　７０Ｗ　　　　２８０Ｗ　　　　４００Ｗ　　７０．００％
０１－０８　　　８０Ｗ　　　　３６０Ｗ　　　　４００Ｗ　　９０．００％
０１－０９　　　９０Ｗ　　　　４５０Ｗ　　　　５００Ｗ　　９０．００％
０１－１０　　１００Ｗ　　　　５５０Ｗ　　　　５００Ｗ　１１０．００％
０１－１１　　１００Ｗ　　　　６５０Ｗ　　　　６００Ｗ　１０８．３３％
０１－１２　　１００Ｗ　　　　７５０Ｗ　　　　６００Ｗ　１２５．００％
……
０１－２８　　１００Ｗ　　　２３５０Ｗ　　　１４００Ｗ　１６７．８６％
０１－２９　　１００Ｗ　　　２４５０Ｗ　　　１５００Ｗ　１６３．３３％
０１－３０　　１００Ｗ　　　２５５０Ｗ　　　１５００Ｗ　１７０．００％

## 源码使用方式：

去 SQLite 官网下载个 1 MB 的 sqlite3.exe ，然后保存下面的 SQLite 代码为 main.sql ，然后命令行运行：

```shell
sqlite3.exe data.db < main.sql
```

多线程用到了 Python 。在 sqlite3.exe 生成数据库后，可直接运行

## SQLite 建表和统计（单线程）代码：

*（ V 站排版原因，行首有全角空格）*

```sql
PRAGMA journal_mode = off; -- 取消日志记录。这会输出个 off 。。
PRAGMA synchronous = off; -- 提交写请求给操作系统后，就可继续后续计算

.param init

-- 投资数据生成配置（日期间隔、每次投资额、日期范围）
.param set $INVEST_INTERVAL_DAYS 2
.param set $INVEST_AMOUNT_PER_DAY 1000000
.param set $INVEST_START_DATE "'2000-01-01'"
.param set $INVEST_END_DATE "'2000-01-30'"

-- 用户消费数据生成配置（消费天数、每日新增用户数、日期范围）
.param set $CONSUME_DAYS 10
.param set $DAILY_NEW_USERS 100000
.param set $CONSUME_START_DATE "'2000-01-01'"
.param set $CONSUME_END_DATE "'2000-01-30'"

-- 查询数据配置
.param set $QUERY_START_DATE "'2000-01-01'"
.param set $QUERY_END_DATE "'2000-01-30'"

-- 建表：投资表
CREATE TABLE invest (
　　 date 　 DATE PRIMARY KEY,
　　 amount INT
);

-- 建表：消费记录表
CREATE TABLE consume (
　　 uid 　　　 INT,
　　 date 　　 DATE,
　　 reg_date DATE,
　　 amount 　 INT,
　　 PRIMARY KEY (date, reg_date, uid)
) WITHOUT ROWID;

-- 添加投资数据：在指定日期范围内，每 INVEST_INTERVAL_DAYS 天投 INVEST_AMOUNT_PER_DAY 元
INSERT INTO invest (date, amount)
SELECT day.value, $INVEST_AMOUNT_PER_DAY
　 FROM generate_series(unixepoch($INVEST_START_DATE) / 86400, unixepoch($INVEST_END_DATE) / 86400, $INVEST_INTERVAL_DAYS) day;

-- 添加消费记录
INSERT INTO consume (amount, uid, date, reg_date)

-- 1. 从起始日期前一天开始，user_id = 0 的老用户，每天消费 1 元，直至结束日期
SELECT 1, 0, date.value, unixepoch($CONSUME_START_DATE, '-1 day') / 86400
　 FROM generate_series(unixepoch($CONSUME_START_DATE, '-1 day') / 86400, unixepoch($CONSUME_END_DATE) / 86400) date
UNION ALL

-- 2. 在指定日期范围内，每天有 DAILY_NEW_USERS 名新用户，连续 CONSUME_DAYS 天消费 1 元
SELECT 1,
　　　 user.value,
　　　 unixepoch($CONSUME_START_DATE, (day.value - 1) || ' days') / 86400,
　　　 unixepoch($CONSUME_START_DATE, ((user.value - 1) / $DAILY_NEW_USERS) || ' days') / 86400
　 FROM generate_series(1, (unixepoch($CONSUME_END_DATE) - unixepoch($CONSUME_START_DATE)) / 86400 + 1) day
　 JOIN generate_series(MAX(0, day.value - $CONSUME_DAYS) * $DAILY_NEW_USERS + 1, day.value * $DAILY_NEW_USERS) user;

-- 统计：指定日期范围内，新用户投资回报率
-- （ user_id = 0 的用户，在起始日期前一天注册，是老用户，故不会统计）
WITH
　-- 每日新用户当天收入表
　 daily(date, income) AS (
　　 SELECT date, SUM(amount)
　　　 FROM consume
　　 WHERE reg_date BETWEEN unixepoch($QUERY_START_DATE) / 86400 AND unixepoch($QUERY_END_DATE) / 86400
　　 GROUP BY date
　)

SELECT date(daily.date * 86400, 'unixepoch') 日期,
　　　 income 当天新用户收入,
　　　 SUM(income) OVER win 累计新用户收入,
　　　 SUM(invest.amount) 累计广告投入,
　　　 FORMAT('%.2f%%', SUM(income) OVER win * 100.0 / SUM(invest.amount)) ROI
　 FROM daily
　 LEFT JOIN invest ON invest.date BETWEEN unixepoch($QUERY_START_DATE) / 86400 AND daily.date
GROUP BY daily.date
WINDOW win AS (ORDER BY daily.date);
```

## Python 多线程统计代码：

*（ V 站排版原因，行首有全角空格）*

```python
import time
import sqlite3
from contextlib import closing
from datetime import date, timedelta
from concurrent.futures import ThreadPoolExecutor

THREADS = 4 # 线程数
DB_FILE = 'data.db' # 数据库路径地址
QUERY_START_DATE = '2000-01-01'
QUERY_END_DATE = '2000-01-30'

def sub(days):
　 with closing(sqlite3.connect(DB_FILE)) as db:
　　 return db.execute('''
　　　 SELECT date, SUM(amount)
　　　 FROM consume
　　　 WHERE date = strftime('%s', ?) / 86400
　　　　 AND reg_date BETWEEN strftime('%s', ?) / 86400 AND strftime('%s', ?) / 86400
　　''', [
　　　 str(date.fromisoformat(QUERY_START_DATE) + timedelta(days=days)),
　　　 QUERY_START_DATE,
　　　 QUERY_END_DATE,
　　]).fetchone()

def main():
　 with closing(sqlite3.connect(DB_FILE)) as db, ThreadPoolExecutor(max_workers=THREADS) as executor:

　　 begin = time.time()
　　 data = list(executor.map(sub, range((date.fromisoformat(QUERY_END_DATE) - date.fromisoformat(QUERY_START_DATE)).days + 1)))

　　 db.execute('CREATE TEMP TABLE daily (date DATE PRIMARY KEY, income INT)')
　　 db.executemany('INSERT INTO daily VALUES (?, ?)', data)
　　 cursor = db.execute('''
　　　 SELECT date(daily.date * 86400, 'unixepoch') 日期,
　　　　　　 income 当天新用户收入,
　　　　　　 SUM(income) OVER win 累计新用户收入,
　　　　　　 SUM(invest.amount) 累计广告投入,
　　　　　　 PRINTF('%.2f%%', SUM(income) OVER win * 100.0 / SUM(invest.amount)) ROI
　　　　 FROM daily
　　　　 LEFT JOIN invest ON invest.date BETWEEN strftime('%s', ?) / 86400 AND daily.date
　　　 GROUP BY daily.date
　　　 WINDOW win AS (ORDER BY daily.date)
　　''', [QUERY_START_DATE])

　　 print(
　　　 f'Finished in {time.time() - begin:.2f} sec. Result:',
　　　[col[0] for col in cursor.description],
　　　*cursor,
　　　 sep='\n',
　　)

if __name__ == '__main__':
　 main()
```

2022-11-03 10:34:39 +08:00

回复了 JinTianYi456 创建的主题 › MySQL › SQL 中 on 条件与 where 条件的区别

反正 SQLite 的 [文档]( https://sqlite.org/lang_select.html#where_clause_filtering_ ) 说过这个问题：

> For a JOIN or INNER JOIN or CROSS JOIN, there is **no difference** between a constraint expression in the WHERE clause and one in the ON clause. However, for a LEFT JOIN or LEFT OUTER JOIN, the difference is very important. ……

我觉得，1 MB 的 SQLite 都能做到无区别，其他数据库肯定至少也可以做到无区别

2022-11-02 23:26:53 +08:00

回复了 sdjl 创建的主题 › Linux › 请问如何让 ls 命令显示的 “文件夹” 使用斜体？

有意思，学着用了下 LS_COLORS ，下面命令在 Bash 里可以『加粗、下划线、斜体』显示目录

```shell
LS_COLORS='di=1;3;4' ls
```

2022-11-02 22:49:07 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@deweixu @Features 这个 ROI 计算公式是啥？

1. 某天的 ROI = 该天所有新增用户，从当天到今天的总消费 / 该天广告花费？

每天都要投广告吗？没投广告的，岂不是 / 0 了？

而且，好像看楼主的计算结果，不是这样。。

2. 指定统计起始日期（如 11-02 ），某天的 ROI = 起始日期~当天，所有新增用户的总消费 / 起始日期~当天，所有广告总花费？

2022-11-02 20:23:33 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

有没有啥表结构和数据？数据库新手想试试，能不能用 SQL 解决

2022-11-02 10:00:35 +08:00

回复了 shade 创建的主题 › 程序员 › 如果用目录编号来存储树结构数据，是不是邻接表和闭包表更高效，那检索目录的算法是什么？

@shade 这种做法。。不就是枚举路径？

2022-11-02 09:58:21 +08:00

回复了 mmm159357456 创建的主题 › Python › Python 的多层嵌套循环如何优化？

@mmm159357456 像 #48 楼、#52 、#60 那样，编个数据不就好了。。

只要给出的解决方案也能通用到你原始数据上，目的不就达到了。。

2022-11-01 23:58:44 +08:00

回复了 shade 创建的主题 › 程序员 › 如果用目录编号来存储树结构数据，是不是邻接表和闭包表更高效，那检索目录的算法是什么？

如果是要获取所有后代，我倒觉得枚举路径和嵌套集会比这俩更高效

检索目录？全文索引？

2022-11-01 23:52:50 +08:00

回复了 sadhen 创建的主题 › 程序员 › 为什么不为人类设计一门结构化的编程语言（中文编程语言什么的真的是 low 爆了）

@sadhen 硬编码图像和视频？？

2022-11-01 23:30:20 +08:00

回复了 sadhen 创建的主题 › 程序员 › 为什么不为人类设计一门结构化的编程语言（中文编程语言什么的真的是 low 爆了）

@sadhen 可以再多写写应用场景吗？还能在哪些方面解决现有编程语言的什么痛点？

2022-11-01 22:26:34 +08:00

回复了 mmm159357456 创建的主题 › Python › Python 的多层嵌套循环如何优化？

@mmm159357456 我好奇问一下，为啥你不愿意放出原始问题呢？

不怕问成 xy problem ，束缚大家的看问题的角度和解决思路么。。

- 比如，有回换 Python 其他写法、上协程 /多线程 /多进程、升级 Python 、换 C/C++/Rust 提升三次 for 速度的，

- 有剔除重复数据、剪枝来减少 for 数量空间的

- 还有零星几个回复是改变 pandas 运算方法，改变数据存储结构使得能顺序读取的

万一，根本不用三次 for 呢？（比如，如果真的只是计算滑窗数据的话，真的不用三层 for 。另外，个人觉得，既然你用了 pandas ，就该少让 python 掺和进来，多用 pandas 的方法去整体计算 dataframe ）

万一，换种数据存储结构，就能高效读取数据和计算呢？（比如，不用随机读，减少 groupby 、sort 、join 了）

万一，有数学大佬能推出个啥神奇公式，能 O(1) 解决问题了呢？😂

2022-11-01 20:29:50 +08:00

回复了 mmm159357456 创建的主题 › Python › Python 的多层嵌套循环如何优化？

@mmm159357456 楼主最后还用了啥方法？大概用时多久？占多少内存？

2022-11-01 10:18:38 +08:00

回复了 mmm159357456 创建的主题 › Python › Python 的多层嵌套循环如何优化？

@specter119 请教一下，像 60 楼那样的数据（ 2600W 行数据），spark 计算 4 个不同的滑窗，需要多久？总共要多少内存？

2022-11-01 09:55:29 +08:00

回复了 mmm159357456 创建的主题 › Python › Python 的多层嵌套循环如何优化？

@mmm159357456 这些都是单线程计算。

如果你是 8 核 CPU ，那可以同时计算 8 张表。

那么 40 张表总共只需不到 1 小时即可完成。

如果你自己转数据（即，用不到 generate_series 表值函数），可以直接在 Python 里用 sqlite 标准库。开个多进程，刷刷刷~

1 ... 13 14 15 16 17 18 19 20 21 22 ... 34

❮

❯